Cito | Primair en speciaal onderwijs
Cito maakt wereldwijd werk van goed en eerlijk toetsen en beoordelen. Met de meet- en volgmethoden van Cito krijgen mensen een objectief beeld van kennis, vaardigheden en competenties. Hierdoor zijn verantwoorde keuzes op het gebied van persoonlijke en professionele ontwikkeling mogelijk. Onze expertise zetten we niet alleen in voor ons eigen werk maar ook om advies, ondersteuning en onderzoek te bieden aan anderen.
Cito Amsterdamseweg 13 Postbus 1034 6801 MG Arnhem T (026) 352 11 11 F (026) 352 13 56 www.cito.nl Klantenservice T (026) 352 11 11
[email protected]
Fotografie: Ron Steemers
Wetenschappelijke verantwoording Testinstrumentarium Taalontwikkelingsstoornissen Ludo Verhoeven, Jos Keuning, Linda Horsels en Herman van Boxtel
Wetenschappelijke verantwoording Testinstrumentarium Taalontwikkelingsstoornissen
Ludo Verhoeven Jos Keuning Linda Horsels Herman van Boxtel
Cito Arnhem, 2013
© Cito B.V. Arnhem (2014) Niets uit dit werk mag zonder voorafgaande schriftelijke toestemming van Cito worden openbaar gemaakt en/of verveelvoudigd door middel van druk, fotokopie, scanning, computersoftware of andere elektronische verveelvoudiging of openbaarmaking, microfilm, geluidskopie, film- of videokopie of op welke wijze dan ook.
2
Inhoud
1
Inleiding
5
2 2.1 2.2 2.3
Uitgangspunten van de testconstructie 7 Kenmerken van TOS 7 Meten van spraak- en taalvaardigheden 8 Subtests in het T-TOS 11
3 3.1 3.2 3.3 3.4 3.5
Beschrijving van het instrumentarium Functie 23 Opbouw en structuur 24 Doelgroep 25 Meetmodellen 26 Psychometrische eigenschappen 32
4 4.1 4.2 4.3
Normering 39 Dataverzameling 39 Representativiteit van de normgroepen Vaststelling van de normen 50
5 5.1 5.2 5.3 5.4
Betrouwbaarheid 57 Werkwijze 57 Meetnauwkeurigheid per subtest 57 Meetnauwkeurigheid per subdomein 62 Accuraatheid van de signaleringsprocedure
6 6.1 6.2 6.3
Validiteit 67 Inhoudsvaliditeit 67 Begripsvaliditeit 67 Criteriumvaliditeit 84
7
Samenvatting en conclusies
8
Literatuur
23
41
64
89
91
Bijlage 97 1 Normtabellen (omzetting van ruwe naar percentielscores)
3
98
4
1
Inleiding
Het Testinstrumentarium Taalontwikkelingsstoornissen (T-TOS) beoogt behulpzaam te zijn bij het toetsen van de hypothese dat er bij een kind in de leeftijd van 4 tot en met 10 jaar sprake is van een taalontwikkelingsstoornis (TOS). Dergelijke hypothesen zijn onder meer aan de orde bij de indicatiestelling voor het speciaal onderwijs en de leerlinggebonden financiering. Met ingang van augustus 2003 is de Wet op de leerlinggebonden financiering in werking getreden. Deze wet biedt een kader voor het indiceren van leerlingen voor wie ambulante begeleiding of speciaal onderwijs nodig is. Uitgaande van deze wettelijke regeling zijn per onderwijscluster en daarbinnen per doelgroep indicatiecriteria opgesteld. Onder cluster 2 vallen scholen voor dove en slechthorende kinderen en scholen voor kinderen met taalontwikkelingsstoornissen, mogelijk in combinatie met een andere handicap. Voor een dergelijke indicatiestelling dient te worden aangetoond dat er sprake is van een stoornis in het taalgebruik die persistent genoemd kan worden, ook na het uitblijven van vooruitgang bij logopedische behandeling. Daarnaast dient er sprake te zijn van een aantoonbare beperking in de onderwijsparticipatie. Het T-TOS gaat ervan uit dat taalvaardigheid niet als een unidimensionaal construct kan worden gezien maar dat verschillende ‘modules’ (voor een toelichting op dit begrip, zie hoofdstuk 2) aan taalgebruik ten grondslag liggen. Dit uitgangspunt steunt op theoretische noties die uitgebreid empirisch onderzocht zijn. Voor elk van die modules zijn subtests ontwikkeld en genormeerd zodat het mogelijk is om na te gaan welke onderdelen van het taalsysteem van een kind verstoord zijn. Daarbij wordt de spraak opgevat als integraal deel uitmakend van het taalsysteem. Met dit instrumentarium kan tevens de ernst van de taalontwikkelingsstoornis worden vastgesteld. Door zijn modulaire opzet is het T-TOS ook geschikt om specifieke hypothesen op het gebied van spraak en/of taal te toetsen en daarmee onderzoek te doen naar de precieze aard van de spraak- en taalproblemen die een kind ondervindt. Deze informatie kan de basis vormen voor de ontwikkeling van een behandelingsplan. Doordat de subtests zijn genormeerd voor meerdere opeenvolgende leeftijdsgroepen kunnen effecten van een behandeling met het T-TOS worden geëvalueerd. Deze wetenschappelijke verantwoording levert samen met de inhoud van het T-TOS alle informatie die nodig is voor een snelle en efficiënte beoordeling van de kwaliteit van het instrument. Het genoemde materiaal maakt een beoordeling mogelijk op de volgende zes aspecten: – Uitgangspunten bij de testconstructie – Kwaliteit van het testmateriaal – Kwaliteit van de handleiding – Wijze van normering – Betrouwbaarheid – Validiteit Informatie over de uitgangspunten bij de testconstructie is te vinden in hoofdstuk 2. Een beschrijving van de functie van het instrument, de doelgroep en het gebruik van het instrument in de onderwijspraktijk volgt in hoofdstuk 3. In dit hoofdstuk wordt tevens ingegaan op de psychometrische eigenschappen van het instrument. In hoofdstuk 4 wordt aandacht besteed aan de normering van het T-TOS, waarbij ook de representativiteit van de normeringssteekproeven aan de orde wordt gesteld. De betrouwbaarheid en de validiteit van het T-TOS komen respectievelijk aan de orde in de hoofdstukken 5 en 6. De kwaliteit van het testmateriaal en de handleiding is te bepalen door kennis te nemen van de inhoud van het testinstrumentarium zoals dat door Cito is uitgegeven. Het gaat om de volgende materialen: handleiding, testboeken Woordvorming en Productieve woordenschat en het computerprogramma T-TOS.
5
6
2
Uitgangspunten van de testconstructie
2.1
Kenmerken van TOS
Spraak- en taalproblemen kunnen al op zeer jonge leeftijd tot een verstoorde communicatie leiden. In de interactie met ouders en leeftijdsgenoten komen die problemen naar voren bij een beperkt functioneren van pre-verbale gedragsaspecten, zoals oogcontact, luisterhouding, imitatie en symboolontwikkeling. Voor jonge kinderen met taalontwikkelingsstoornissen (TOS) is in veel gevallen ambulante begeleiding of opvang in een institutionele omgeving noodzakelijk. Naast programma's die gericht zijn op de versterking van de communicatie tussen ouder en kind, en het taalaanbod in de omgeving van het kind, kunnen op vroege leeftijd ook specifieke taaltrainingsprogramma's worden ingezet. Voor schoolgaande kinderen met TOS blijkt het reguliere onderwijs niet of nauwelijks toegankelijk te zijn. De kinderen hebben problemen met het begrijpen van de instructie in de klas. In complexe luistersituaties binnen en buiten de klas die gekenmerkt worden door veel achtergrondrumoer, een matige akoestiek en competitieve spraak bij een normaal taalniveau, blijken deze kinderen vaak niet in staat tot het begrijpen of het verstaan van het taal- en onderwijsaanbod. Daarnaast blijken kinderen met TOS grote moeite te hebben in een klas efficiënt te leren communiceren. De additionele planningstijd die kinderen in het communicatieproces nodig hebben en de geringe mogelijkheden voor het reflecteren op de eigen spraak leggen grote beperkingen op aan het talig functioneren van deze kinderen in het reguliere onderwijs. Om die reden is een aangepaste (school)omgeving met faciliteiten voor ondersteunende communicatie voor kinderen met TOS dringend gewenst en wel in een zo vroeg mogelijk stadium. Bij de beschrijving van TOS kan onderscheid gemaakt worden tussen etiologische, neurobiologische en psychologische aspecten. Daarnaast kunnen gedragsaspecten onderscheiden worden. Met betrekking tot het ontstaan van TOS zijn in de literatuur verschillende hypothesen geformuleerd. Op etiologisch niveau kan er sprake zijn van zeer diverse factoren, zoals ontbrekende genen, chromosoomafwijkingen, toxicale verschijnselen tijdens de zwangerschap, aangeboren hersenletsel, zintuiglijke stoornissen, eventueel gepaard gaande met een beperkt taalaanbod. Op basis van een vergelijking van de prevalentie van TOS onder één- en twee-eiige tweelingen komt Bishop (1994, 2006) tot de bevinding dat erfelijke factoren een rol spelen. Ongeveer 20 tot 50 procent van de personen met TOS blijkt een eerstegraadsverwant met dezelfde diagnose te hebben (Bishop 1994; Gilger, 1995). Op neurobiologisch niveau valt onderscheid te maken tussen dysfuncties als gevolg van zwakke verbindingen tussen zenuwcellen, een ontoereikende ontwikkeling van neuronen, een abnormale migratie van neuronen, een plaatselijke hersenbeschadiging en een abnormale regulatie van neuronale geleiding (Fitch, Miller & Tallal, 1997). Met behulp van neurale metingen is aangetoond dat specifieke plaatsen in de hersenen met delen van het taalsysteem verbonden zijn, en dat stoornissen deels ook als zodanig te lokaliseren zijn (Obrzut & Hynd, 1991; Shafer & Sussman, 2011). Op psychologisch niveau kunnen problemen worden beschreven vanuit verschillende aspecten binnen de auditieve informatieverwerking. Op gedragsniveau spelen problemen met de verstaanbaarheid en de productie van taal. Het is de vraag in hoeverre spraak- en taalvaardigheid gezien kan worden als een monolithisch verschijnsel. Hiervoor is weinig evidentie (zie Karmiloff-Smith, 1997). Actuele modellen gaan uit van een modulaire opbouw, waarbij elke afzonderlijke module wordt gezien als een zelfstandig opererend specialistisch mechanisme (zie Levelt, 1989; Indefrey & Levelt, 2004). Bij het begrijpen van taal wordt uitgegaan van een module die spraakklanken herkent, een module die op basis van klanksynthese woorden herkent, een module die in staat is zinnen te ontleden en een conceptueel systeem dat in staat is uitingen te interpreteren. Bij taalproductie wordt onderscheid gemaakt tussen een module die gedachten en bedoelingen ordent, een module die gedachten en bedoelingen in zinnen omzet, een module die daar passende functiewoorden en woordvormen bij kiest en een module die de uitspraak van woorden en zinnen regelt. Er is duidelijke empirische evidentie dat de hier onderscheiden taalmodules voorkomende taalproblemen constitueren, waarbij bepaalde modules in hun functioneren aan elkaar gerelateerd blijken te
7
zijn. In het licht van een modulaire opvatting van taal dient echter te worden gewezen op de verklarende potentie van connectionistische modellen die uitgaan van neurale netwerken die op basis van input een taalsysteem genereren dat niet noodzakelijk modulair geordend is (Elman et al., 1996). De traditionele benadering van taalontwikkeling gaat ervan uit dat twee verklaringsmechanismen nodig zijn: een geheugenopslag voor zowel frequente als onregelmatige taalvormen en een regelgeleid systeem dat voorziet in de toewijzing van de juiste allomorfen aan die taalvormen (cf. Pinker & Prince, 1988; Hagoort, 2005). Overgeneralisaties worden daarbij opgevat als interferentie tussen de twee mechanismen. Connectionistische modellen gaan daarentegen van slechts één mechanisme uit, dat de vorm aanneemt van een enkelvoudig gelaagd neuraal netwerk dat op basis van input associaties tussen taalvormen maakt. Zoals Plunkett (1995) aangeeft zijn de twee benaderingen niet met elkaar in strijd, maar kan het taalsysteem worden opgevat als een symbolisch verwerkingssysteem dat voortborduurt op een connectionistische implementatie van het neurologisch systeem. Ten aanzien van de verklaring van het optreden van TOS blijkt in de literatuur sprake te zijn van concurrerende hypothesen. Op basis van een uitputtende review van onderzoek komt Bishop (2002, 2006, 2009) tot de conclusie dat er ten minste zes hypothesen kunnen worden geformuleerd: er kan sprake zijn van (1) een auditieve verwerkingsstoornis die zich met name uit in problemen met het verwerken van elkaar snel opvolgende auditieve signalen (Tallal, 1990), (2) een outputstoornis die zich kan uiten in het omzetten van een abstracte grammaticale representatie in een fonologische representatie, dan wel in het omzetten van die fonologische code in spraak, (3) een stoornis in linguïstische basismechanismen waarbij valt te denken aan regels met betrekking tot argumentstructuur, woordvolgorde en woordeindmarkering (cf. De Jong, 1999), (4) een conceptueel-semantisch deficiet, (5) een deficiet in hypothese-toetsend leervermogen, en (6) een algemeen informatieverwerkingsdeficiet. De twee eerstgenoemde hypothesen verwijzen naar problemen op het terrein van spraak, de twee daarop volgende hypothesen naar problemen met betrekking tot het taalsysteem, en de twee laatstgenoemde hypothesen naar een breder tekort op het terrein van cognitieve vaardigheden. Voor een uitgebreider overzicht van ontwikkelingen op het gebied van de etiologie, typologie, diagnose en behandeling van TOS, zie Verhoeven en Van Balkom (2004).
2.2
Meten van spraak- en taalvaardigheden
Onderzoek laat zien dat verschillende processen bijdragen aan het gebruik van spraak en taal. Zo kan binnen Spraak onderscheid gemaakt worden tussen processen op het niveau van auditieve verwerking en spraakproductie (Hickok & Poeppel, 2007) en binnen Taal tussen processen op het niveau van unificatie (grammatica) en lexicaal-semantische representatie (cf. Hagoort, 2005). Auditieve verwerkingsprocessen zorgen ervoor dat binnenkomende auditieve signalen als spraak worden herkend, spraakproductieprocessen reguleren de planning en articulatie van spraak, representatie verwijst naar de opslag van betekenisvolle taalelementen in het geheugen, en unificatieprocessen maken het ordenen van die elementen in zinnen mogelijk. Onderzoek en klinische bevindingen laten zien dat spraak- en/of taalstoornissen kunnen voorkomen als problemen met één of meer van deze modules (Van Daal, Verhoeven & Van Balkom, 2004; Bishop, 2004; Van Weerdenburg, Verhoeven & Van Balkom, 2005). Dit leidt tot de volgende classificatie: 1.
Spraakproblemen
1.1 Auditieve verwerkingsproblemen. Kinderen met auditieve verwerkingsproblemen hebben problemen met het onderscheiden, herkennen, analyseren en synthetiseren van spraakklanken. Als mogelijke verklaring wordt erop gewezen dat kinderen met TOS problemen hebben met het verwerken van korte, elkaar snel opeenvolgende auditieve signalen. Ook bij een goed functionerend perifeer gehoor blijkt het procesverloop van het auditieve signaal soms minder efficiënt waardoor met name snel opeenvolgende spraaksignalen niet goed verstaan of herkend worden. Deze verminderde auditieve competentie komt onder meer tot uiting in problemen met auditieve discriminatie, auditieve analyse en synthese, fonologisch bewustzijn, traag reageren op verbale vragen en verminderd waarnemen in complexe
8
luistersituaties. Bij jonge kinderen blijken auditieve verwerkingsproblemen vooral uit een gebrekkige beheersing van basisvaardigheden. Bij oudere kinderen worden de basisvaardigheden vaak wel redelijk beheerst maar zien we vooral problemen optreden in complexe luistersituaties. 1.2 Spraakproductieproblemen. Bij kinderen met spraakproblemen zijn er problemen met de programmering en/of uitvoering van spraak. We spreken ook wel van een outputprobleem: kinderen blijken problemen te hebben met het omzetten van een communicatieve boodschap in een spraaksignaal. Daarbij zijn twee belangrijke deelprocessen in het geding: het omzetten van een betekenisrepresentatie in een fonologische representatie en het omzetten van die fonologische code in spraak. In het eerste geval is er sprake van een planningsprobleem, ook wel aangeduid met verbale dyspraxie. Een dergelijk planningsprobleem wordt zichtbaar als kinderen zich vrij moeten uitdrukken, bijvoorbeeld wanneer zij een stripverhaal moeten verwoorden. In het tweede geval zijn kinderen wel tot een correcte planning van spraak in staat, maar vormt de articulatie het probleem. Kinderen met articulatieproblemen vinden het bijvoorbeeld moeilijk om woorden met een complexe klankstructuur na te zeggen. Met name het nazeggen van pseudowoorden vormt voor deze kinderen een probleem, omdat ze de desbetreffende klankcode nog niet eerder hebben kunnen oefenen. Kinderen met spraakproblemen ervaren op school vaak grote problemen met het leren lezen en spellen. 2.
Taalproblemen
2.1 Grammaticaproblemen. Dit subtype is het meest voorkomend taalleerprobleem. Hierbij is de veronderstelling dat de specifieke linguïstische mechanismen die nodig zijn om taalverwerking aan te sturen verstoord zijn. Daarbij valt te denken aan regels met betrekking tot woordvorming en zinsbouw. Op jonge leeftijd hebben deze kinderen reeds problemen met de beheersing van fonologische vaardigheden. Tegelijkertijd blijft de morfologische en syntactische ontwikkeling achter bij die van leeftijdgenoten. Met name de expressieve syntax vormt een probleem. Dit blijkt onder meer uit problemen met de argumentstructuur, woordvolgorde en woordeindemarkering in spontaan taalgebruik. In mindere mate zijn er ook problemen met taalbegrip. Functiewoorden en verbuigingen en vervoegingen van inhoudswoorden worden vaak over het hoofd gezien waardoor zinnen en of teksten niet goed verwerkt en begrepen worden. Grammaticale problemen worden bijvoorbeeld onderkend, wanneer we kinderen woorden laten verbuigen of vervoegen, of hen zinnen laten naspreken. Ook al treedt er in de loop van de ontwikkeling vaak een verbetering op in grammaticale vaardigheden, in de meeste gevallen ervaren deze kinderen aanzienlijke problemen in onderwijsleersituaties. 2.2 Lexicaal-semantische problemen. Deze laatste categorie van TOS verwijst naar kinderen die problemen hebben met het vinden van woorden, met het leggen van relaties tussen woorden en met pragmatisch taalgebruik. Het taalgebruik van deze kinderen is redelijk vloeiend en ook het taalbegrip is redelijk in alledaagse situaties. Problematisch is het voeren van gesprekken in meer complexe situaties, zoals onderwijsleergesprekken. Ook het begrijpen van meer impliciet taalgebruik en het houden van een monoloog vormen vaak een probleem. Dit komt bijvoorbeeld op school sterk tot uitdrukking bij begrijpend luisteren en begrijpend lezen, bij spreekbeurten en bij het schrijven. Op jonge leeftijd zien we bij deze kinderen vaak een beperkte aandacht voor auditieve stimuli en een late taalproductie met veel echolalie en stereotiep taalgebruik. De communicatie van deze kinderen vertoont vaak kenmerken van een lichte vorm van autistisch gedrag. Het taalbegrip blijft doorgaans achter bij de taalproductie. Problemen worden bij deze kinderen met name geconstateerd bij actieve en passieve woordenschat, zinsbegrip en tekstbegrip en bij het (na)vertellen van een verhaal. Bij de constructie van het T-TOS is aangesloten bij deze classificatie van spraak- en/of taalstoornissen. Dit betekent dat in het T-TOS twee aan spraak gerelateerde typen problemen onderscheiden worden: Auditieve verwerkingsproblemen, Spraakproductieproblemen, en twee aan taal gerelateerde typen problemen: Grammaticaproblemen, en Lexicaal-semantische problemen. Voor elk type probleem zijn meerdere tests geconstrueerd om tot een valide meting te kunnen komen.
9
Zoals eerder aangegeven gaat het bij auditieve verwerking om het goed kunnen ontvangen van binnenkomende spraak. Daartoe zijn drie subtests ontwikkeld. In de subtest Auditieve discriminatie krijgen kinderen naast gelijke woordparen, woordparen aangeboden die slechts in één spraakklank verschillen (bijvoorbeeld: bak-dak). De taak voor het kind is om aan te geven of een woordpaar gelijk of verschillend is. In de subtest Woordherkenning krijgen kinderen auditief woorden aangeboden, waarbij delen uit de woordrepresentatie zijn weggefilterd. Kinderen staan daarbij voor de taak om het oorspronkelijke woord op basis van de onvolledige auditieve informatie te herkennen. In de subtest Onthouden van woorden, ten slotte, wordt van kinderen gevraagd reeksen losse woorden na te zeggen. Bij spraakproductie gaat het om het plannen en articuleren van spraak. Voor dit onderdeel zijn eveneens drie subtests ontwikkeld. In de subtest Woordrepetitie wordt van kinderen gevraagd om auditief aangeboden woorden na te zeggen. Het gaat vooral om woorden met een complexe uitspraak, zoals viltstift. In de subtest Pseudowoordrepetitie krijgen kinderen pseudowoorden (bijvoorbeeld splonteraar) aangeboden die zij moeten nazeggen. Ten slotte is er de subtest Diadochokinese die bedoeld is om de motorische planning en programmering van kinderen te onderzoeken. In deze taak wordt van kinderen gevraagd om klankpatronen met delen die extreem verschillen qua plaats van articulatie (bijvoorbeeld pataka) vlot en accuraat na te spreken. Binnen de taalmodule grammatica kan onderscheid worden gemaakt naar woordvorming en zinsbouw. Daarnaast zijn ook aspecten van het sequentiële geheugen van belang. De subtest Woordvorming gaat na in hoeverre kinderen de regels beheersen voor verbuiging van zelfstandige naamwoorden (meervoud, verkleinwoorden) en vervoeging van werkwoorden (verleden tijd, voltooid deelwoord). Bij de subtest Receptieve zinsbouw worden zinnen aangeboden met plaatjes. Kinderen moeten aangeven welk plaatje overeenkomt met de gegeven informatie in de zin. De subtest is bedoeld voor jongere kinderen. Voor de oudere kinderen (vanaf 8 jaar) is de subtest Grammaticabeoordeling ontwikkeld waarbij wordt gevraagd om auditief aangeboden zinnen wat betreft hun grammaticale constructie op hun correctheid te beoordelen. Ten slotte wordt in de subtest Onthouden van zinnen gevraagd om zinnen die variëren in lengte na te zeggen. Binnen de taalmodule lexicon en semantiek staat betekenis van taal centraal. Daartoe is in de eerste plaats de subtest Receptieve woordenschat ontwikkeld, waarbij kinderen woorden krijgen aangeboden met vier plaatjes. Kinderen moeten het plaatje kiezen waarvan de betekenis met het woord overeenkomt. Daarnaast is de subtest Productieve woordenschat geconstrueerd, waarbij kinderen plaatjes hardop moeten benoemen. Ten slotte is de subtest Impliciete betekenis ontwikkeld waarbij kinderen drie plaatjes krijgen aangeboden samen met een gesproken zin. De taak voor het kind is om het plaatje aan te wijzen waarvan de (impliciete) betekenis overeenkomt met de aangeboden zin. Bij het meten van spraak- en taalvaardigheid is het belangrijk om te bedenken dat moeilijkheden op dit gebied zowel mono- als multifactorieel van aard kunnen zijn. Daarbij valt onderscheid te maken tussen de meer centrale stoornissen, waarbij een uitval op meerdere componenten kan worden vastgesteld en perifere stoornissen, zoals een gestoorde articulatie. Voorts kunnen spraak- en taalmoeilijkheden zich beperken tot het mondeling taalgebruik, dan wel gepaard gaan met daaruit voortvloeiende stoornissen in het schriftelijk taalgebruik. Eén en ander kan verstrekkende consequenties hebben voor de aard van de daarmee gepaard gaande onderwijsbeperking. In de volgende paragraaf worden de verschillen subtests die ontwikkeld zijn gedetailleerd beschreven.
10
2.3
Subtests in het T-TOS
De subtests die ontwikkeld zijn voor de vier taalmodulen van Bishop (2004) zijn op basis van literatuur en enkele kleinschalige pilotstudies samengesteld. In deze paragraaf gaan we in op de kenmerken van elk van de subtests. We houden daarbij de volgende volgorde aan: 1.
Spraak 1.1 Auditieve verwerking 1.1.1 Auditieve discriminatie 1.1.2 Woordherkenning 1.1.3 Onthouden van woorden 1.2 Spraakproductie 1.2.1 Woordrepetitie 1.2.2 Pseudowoordrepetitie 1.2.3 Diadochokinese
2.
Taal 2.1 Grammatica 2.1.1 Receptieve zinsbouw 2.1.2 Grammaticabeoordeling 2.1.3 Woordvorming 2.1.4 Onthouden van zinnen 2.2 Lexicon en semantiek 2.2.1 Receptieve woordenschat 2.2.2 Impliciete betekenis 2.2.3 Productieve woordenschat
Auditieve discriminatie (1.1.1) Met de subtest Auditieve discriminatie wordt nagegaan in hoeverre kinderen in staat zijn via het gehoor spraakklanken van elkaar te onderscheiden. In de test worden steeds twee woorden aangeboden die verschillen in één foneem. Na elk woordpaar geven kinderen aan of de woorden hetzelfde of verschillend zijn. In totaal worden 30 woordparen aangeboden: 22 verschillende en 8 identieke woordparen. Bij de selectie van woorden is gestreefd naar een zo groot mogelijke spreiding van klanken van het Nederlands. Tabel 2.1 geeft een overzicht van de in de subtest onderscheiden klankcontrasten. Van de ongelijke paren gaan er 11 uit van een minimaal contrast tussen medeklinkers en 11 van een minimaal contrast tussen klinkers.
11
Tabel 2.1
Items in de subtest Auditieve discriminatie
Nr
Item
Paar
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
dek dek mis mes buk beuk boon boon nat mat toon ton hak hak rat lat mep nep rit riet dal bal wil wiel dop dop kas tas pad bad
gelijk ongelijk ongelijk gelijk ongelijk ongelijk gelijk ongelijk ongelijk ongelijk ongelijk ongelijk gelijk ongelijk ongelijk
Type
Contrast
klinker klinker
i-e eu-u
medeklinker m-n klinker o-oo medeklinker medeklinker klinker medeklinker klinker
l-r m-n i-ie b-d i-ie
medeklinker k-t medeklinker b-p
Nr
Item
Paar
Type
Contrast
16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
man maan mees mis bed bid meel meel bak pak tam kam peen pin bel bel dak tak maat maat zing zin reus rus ton ton das tas liep lip
ongelijk ongelijk ongelijk gelijk ongelijk ongelijk ongelijk gelijk ongelijk gelijk ongelijk ongelijk gelijk ongelijk ongelijk
klinker klinker klinker
a-aa ee-i e-i
medeklinker medeklinker klinker
b-p k-t ee-i
medeklinker
d-t
medeklinker klinker
n-ŋ eu-u
medeklinker klinker
d-t i-ie
Woordherkenning (1.1.2) Met de subtest Woordherkenning wordt nagegaan in hoeverre kinderen in staat zijn om woorden te reconstrueren waaruit delen uit het desbetreffende spectrogram zijn weggelaten. De taak gaat uit van 37 items waarvan de woordlengte in aantal syllaben uiteenloopt van twee tot vier. Tabel 2.2 geeft een overzicht van de items met hun bijbehorende representatie.
Tabel 2.2
Items in de subtest Woordherkenning
Nr
Item
N syll
Representatie
Nr
Item
N syll
Representatie
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19
huisdier gordijn krokodil dobbelsteen spiegel regenboog paleis oorbel vensterbank antwoord kapstok deurmat elleboog luidspreker sinaasappel vijver schroevendraaier regendruppel plakband
2 2 3 3 2 3 2 2 3 2 2 2 3 3 4 2 4 4 2
huis_ier go_dijn _okodil dobbel_een _piegel regen_oog _aleis oorbe_ _enster_ank ant_oor _apstok _eurmat elle_oog luid_reker _inaa_appel vijve_ schroeve_aaier rege_ruppel plak_and
20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37
potlood voetstap gevangenis matras tweeling verjaardag schemerlamp blikopener parkeerplaats bibliotheek puntenslijper fototoestel thermometer vuilniswagen kinderwagen medelijden teleurstelling schoenveter
2 2 4 2 2 3 3 4 3 4 4 4 4 4 4 4 4 3
pot_ood voet_ap geva_enis ma_ras t_eeling ver_aarda_ s_emerlamp bli_opener par_eer_aats _ib_iotheek punte_ijper _oto_oestel _ermo_eter _uilnis_agen _inde_agen _ede_ijden te_eur_telling _oen_eter
12
Onthouden van woorden (1.2.3) Bij de subtest Onthouden van woorden krijgen kinderen 12 reeksen met geïsoleerde woorden te horen die zij moeten nazeggen. De items lopen op in moeilijkheidsgraad door óm de twee opgaven een woord toe te voegen. Hieronder staat een overzicht van de items die in deze subtest zijn opgenomen. 1 2 3 4 5 6 7 8 9 10 11 12
tak – wip mes – kam boot – zon – pet kam – tak – mes pet – wip – kam – boot zon – pet – tak – kam wip – mes – boot – zon – kam tak – pet – kam – mes – wip mes – boot – zon – wip – pet – tak kam – tak – net – mes – boot – wip pet – boot – mes – tak – wip – zon – kam boot – kam – tak – zon – mes – wip – pet
Woordrepetitie (1.2.1) De subtest Woordrepetitie is bedoeld om de articulatievaardigheid van kinderen na te gaan. Het correct kunnen articuleren van spraakklanken vraagt van kinderen dat ze klanken in uiteenlopende posities in woorden kunnen uitspreken. De taak gaat uit van 25 woorden die nagesproken moeten worden. Bij de selectie van woorden is een zo groot mogelijke spreiding van klanken en klankcombinaties van het Nederlands nagestreefd. Een klein deel van de subtest gaat uit van monosyllabische woorden. Drie woorden zijn van het type consonant-vocaal-consonant en vier woorden bevatten een consonantcluster. Daarnaast bevat de subtest 18 gelede woorden, waarvan er 4 bisyllabisch, 4 trisyllabisch en 10 polysyllabisch zijn. Tabel 2.3 geeft een overzicht van de items die zijn opgenomen in de subtest Woordrepetitie.
Tabel 2.3
Items in de subtest Woordrepetitie
Nr
Item
Structuur
Nr
Item
Structuur
1 2 3 4 5 6 7 8 9 10 11 12 13
reus duim wieg fiets slang herfst spreeuw viltstift portret spreidstand dwarsfluit spijkerbroek bliksemflits
CVC CVC CVC CVCC CCVC CVCCCC CCCVC bisyllabisch bisyllabisch bisyllabisch bisyllabisch trisyllabisch trisyllabisch
14 15 16 17 18 19 20 21 22 23 24 25
koekoeksklok scheidsrechter centimeter gebeurtenis gereedschapskist natuurproduct nieuwsgierigheid dolfinarium elektriciteit muziekinstrument vogelverschrikker antwoordapparaat
trisyllabisch trisyllabisch polysyllabisch polysyllabisch polysyllabisch polysyllabisch polysyllabisch polysyllabisch polysyllabisch polysyllabisch polysyllabisch polysyllabisch
Pseudowoordrepetitie (1.2.2) De subtest Pseudowoordrepetitie is net zoals de subtest Woordrepetitie bedoeld om de articulatievaardigheid van kinderen na te gaan. Deze subtest gaat echter niet uit van bestaande woorden, maar van 30 pseudowoorden die nagesproken moeten worden. De lengte van de na te spreken pseudowoorden varieert van één tot vijf syllaben. Bij de selectie van woorden is een zo groot mogelijke spreiding van
13
klanken en klankcombinaties van het Nederlands nagestreefd. Tabel 2.4 geeft een overzicht van de items die in de subtest Pseudowoordrepetitie zijn opgenomen.
Tabel 2.4
Items in de subtest Pseudowoordrepetitie
Nr
Item
Structuur
Nr
Item
Structuur
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
vrent broecht strint schraft stult gluisem onstreftig knerts greft schalting lemskolping strendel steklimp kramsnoop perklinteraar
monosyllabisch monosyllabisch monosyllabisch monosyllabisch monosyllabisch bisyllabisch trisyllabisch monosyllabisch monosyllabisch bisyllabisch trisyllabisch bisyllabisch bisyllabisch bisyllabisch polysyllabisch
16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
gresdaan reunstouwer kneuveldroft gebrikstraleer defermicatief flatsgris steurwied klipstenorist brendstammel stornalisatie bomarkietpartant heuteringwokkend versprangeling darglonie mentacontrictie
bisyllabisch trisyllabisch trisyllabisch polysyllabisch polysyllabisch bisyllabisch bisyllabisch polysyllabisch trisyllabisch polysyllabisch polysyllabisch polysyllabisch polysyllabisch trisyllabisch polysyllabisch
Diadochokinese (1.2.3) De subtest Diadochokinese is bedoeld om de vaardigheid in spraakmotoriek te meten in het licht van de diagnostisering van verbale dyspraxie (cf. Ziegler, 2002). De subtest gaat uit van het snel herhalen van reeksen van drie monosyllabische patronen die in articulatorisch opzicht minimaal verschillen. Zo verschillen de monosyllaben pa, ta en ka qua plaats van articulatie van de beginconsonant (in dit voorbeeld respectievelijk bilabiaal, alveolair en velair). In de subtest moeten kinderen reeksen als pataka drie maal achtereen nazeggen: pataka – pataka – pataka. De subtest gaat uit van 23 items, waarbij in articulatorisch opzicht een zo groot mogelijke variatie van na te spreken reeksen met minimaal verschillende monosyllaben is nagestreefd. In tabel 2.5 worden de items van de subtest Diadochokinese weergegeven.
Tabel 2.5 Items in de subtest Diadochokinese Nr
Item
Structuur
Nr
Item
Structuur
1 2 3 4 5 6 7 8 9 10 11 12
pataka-pataka-pataka badaga-badaga-badaga lamana-lamana-lamana nalama-nalama-nalama katapa-katapa-katapa dabaga-dabaga-dabaga talada-talada-talada tanada-tanada-tanada pakata-pakata-pakata bagada-bagada-bagada dalata-dalata-dalata kapata-kapata-kapata
p-t-k b-d-g l-m-n l-m-n p-t-k b-d-g t-l-d t-n-d p-t-k b-d-g d-l-t p-t-k
13 14 15 16 17 18 19 20 21 22 23
dagaba-dagaba-dagaba gatasa-gatasa-gatasa takapa-takapa-takapa gabada-gabada-gabada fasaga-fasaga-fasaga mabapa-mabapa-mabapa tapaka-tapaka-tapaka gadaba-gadaba-gadaba safaga-safaga-safaga katada-katada-katada tadaka-tadaka-tadaka
b-d-g g-t-s p-t-k b-d-g f-s-g m-b-p p-t-k b-d-g f-s-g t-d-k t-d-k
14
Receptieve zinsbouw (2.1.1) Om de kennis van syntactische patronen en elementen die (mede) de betekenis van een zin bepalen te toetsen is de subtest Receptieve zinsbouw ontwikkeld. Er worden telkens drie plaatjes aangeboden die gevolgd worden door een mondelinge aanbieding van een zin. De betekenis van de zin stemt daarbij met één van de plaatjes overeen. Van het kind wordt gevraagd voor welk plaatje dit het geval is. Bij de subtest gaat het er om door middel van functiewoorden of volgorde van elementen expliciet en impliciet uitgedrukte betekenisrelaties binnen en tussen woordgroepen te begrijpen. Expliciet uitgedrukte relaties binnen woordgroepen worden bijvoorbeeld getoetst door uit te gaan van een zin waarin een element op verschillende woordgroepen betrekking kan hebben. Zo kan zwart in de zin “De hoed van de man op de fiets is zwart” zowel op de hoed als de fiets worden betrokken, en op de plaatjes zijn dus zowel zwarte als witte fietsen en hoeden te zien. Relaties tussen woordgroepen worden getoetst door semantische rollen van woordgroepen binnen zinnen te contrasteren. Zo worden in de zin “De jongen gooit zijn schoen in het zand” de rollen object en locatief gecontrasteerd: op het eerste plaatje gooit hij zijn schoen in het zand, op het tweede gooit hij zand in zijn schoen, en op het derde het zand uit zijn schoen. Verschillende rolcontrasten zijn in de subtest verwerkt. De subtest Receptieve zinsbouw gaat uit van 33 items waarbij een zo groot mogelijke variatie in syntactische categorieën van het Nederlands is nagestreefd (cf. Bishop, 2003). Daarbij zijn de volgende categorieën onderscheiden: woordvolgorde, preposities, grammaticale rollen, pronomina, quantifiers, passiefconstructie, postmodified subject, ellipsvorming en relatieve zinsconstructie. Bij elk van deze categorieën zijn ten minste 3 items geconstrueerd. Hieronder volgt een overzicht. A.
Woordvolgorde 1 Het meisje duwt de jongen. 2 Het is de jongen die het meisje een snoepje geeft. 3 Het meisje laat de juffrouw een foto zien. B. Preposities 4 De jongen zit naast het meisje 5 De beer en de pop zitten tegenover elkaar. 6 De auto staat achter de bus. C. Grammaticale rollen 7 De man doet water in de fles. 8 Marjan legt de pop op de deken. 9 Vader haalt de tas uit de koffer. 10 Kim zet de doos in de auto. D. Pronomina 11 Hij trekt haar. 12 Zij wast hem. 13 Moeder kleedt zich aan. 14 Hij kijkt in haar fotoboek. E. Quantifiers 15 In deze kom zitten de meeste vissen. 16 De jongen en het meisje hebben evenveel bloemen geplukt. 17 Deze jongen heeft de minste ballonnen. 18 Geen enkel kind heeft een hoedje op. F. Passiefconstructie 19 De bus wordt door de auto getrokken. 20 De hond wordt door de poes gebeten. 21 Er wordt water uit de boot gehaald. G. Postmodified subject 22 De hond in het hok is zwart. 23 De doos op de tafel is rond. 24 De pet van de jongen op de fiets is wit. 25 De ster op het middelste vierkant is zwart.
15
H.
I.
Ellips 26 De jongen heeft een pet op maar het meisje niet. 27 Het meisje heeft een pop en een strik in het haar. 28 De vrouw zwaait, net als haar man. 29 Het meisje tekent een huis en de jongen ook. Relatieve zin 30 De hond die de man aait zit op de bank. 31 De jongen met de zwarte pet leest een boek. 32 De stoel waar de hond op ligt te slapen is zwart. 33 De poes die geen melk drinkt wordt door het meisje geaaid.
Grammaticabeoordeling (2.1.2) Voor oudere kinderen is de subtest Grammaticabeoordeling ontwikkeld. Vanaf de leeftijd van 8 jaar zijn kinderen in staat om zinnen te beoordelen op hun grammaticale correctheid (Bialystok, 1986). In de subtest wordt van kinderen gevraagd om van een auditief aangeboden zin aan te geven of die qua woordvorming en/of zinsbouw grammaticaal correct is. Er zijn 17 grammaticaal correcte zinnen in de subtest opgenomen. Bij de incorrecte zinnen zijn er fouten gemaakt in de verbuiging van naamwoorden (10), in de vervoeging van werkwoorden (10), in de woordvolgorde (10) en in de subject-werkwoord agreement (8). Hieronder volgt een overzicht van de items in de subtest Grammaticabeoordeling. Nr Item
Categorie
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32
Verbuiging Woordvolgorde Correcte zinnen Agreement Correcte zinnen Woordvolgorde Verbuiging Correcte zinnen Agreement Verbuiging Correcte zinnen Verbuiging Correcte zinnen Vervoeging Agreement Correcte zinnen Vervoeging Verbuiging Vervoeging Correcte zinnen Vervoeging Agreement Woordvolgorde Verbuiging Correcte zinnen Woordvolgorde Woordvolgorde Verbuiging Correcte zinnen Verbuiging Woordvolgorde Correcte zinnen
Er varen twee grote schippen op zee. De jongen is mijn broer die daar loopt. Als het mooi weer is, gaan we buiten zwemmen. Gisteren heb ik iets vreemd meegemaakt. Haar vader werkt op een kantoor in de stad. Waarin zij spelen is de tuin niet groot. De boer plukte twee manten vol kersen. De trui die hij aan heeft, is helemaal versleten. Mijn opa kan er altijd iets mooi van maken. Jan heeft nog weiniger knikkers dan Trees. Ik vind zijn fiets mooier dan die van jou. In onze klas is Simone het goedst in rekenen. Ronald en Floor weten nog niet wat ze vandaag gaan doen. Pieter heeft gisteren van zijn fiets gevallen. Het meisje zit op een grote paard. De straat waarin ik woon, staat vol met bomen. Selma is vannacht over de vakantie gedroomd. Naast deze kerk staan twee toren. De sneeuwpop heeft in de zon helemaal gesmolten. Omdat het al laat was, is hij bij ons blijven slapen. Hij is het hele verhaal dat hij gisteren heeft verteld, verzonnen. De jongen en het meisje heeft een ballon. Ik weet dat hij is goed in piano spelen. Een auto is durer dan een fiets. Elise heeft vandaag een heel boek uitgelezen. Moeder weet niet hoe laat is het. De man heeft gegeven mooie bloemen aan zijn vrouw. Als het op vechten aankomt, is Olaf dapperer dan Hans. Er is niemand die weet, hoe laat de wedstrijd begint. Amsterdam en Rotterdam zijn twee grote statten. Omdat hij honger had, hij ging een boterham eten. Lucas vindt lezen veel leuker dan rekenen.
16
33 34 35 36 37 38 39 40 41 43 43 44 45 46 47 48 49 50 51 52 53 54 55
De wind heeft het huis helemaal weggeblaast. Gisteren Thomas kwam weer te laat op school. Hij zoekte in zijn tas naar zijn portemonnee. Toen moeder thuiskwam, ze maakte het eten klaar. In de drukste straat van de stad woont mijn oom. Omdat Jan het niet snapte, heeft de meester de som geherhaald. Hij zei dat hij belooft beterschap. Kees sliep, maar Fred lag de hele nacht wakker. De rivier is vorige week opnieuw geoverstroomd. Er gaat niets boven een glaasje limonade. De jongen heeft vandaag twee liters melk opgedronken. Deze koe heeft pas twee kalven gekregen. In deze mand liggen appels, peren en druiven. Moeder koopt op de markt vijf kilo’s aardappelen. Omdat hij dorst had, is hij de hele fles opgedronken. Tegenover de school schijnt een ongeluk gebeurd te zijn. Het etiket op de flessen zijn wit. De meisjes hebben aan het strand lekker zongebaad. Morgen gaan we spelletjes doen in het park. De kinderen van de buurman heeft een ruit ingegooid. Hij vraagt een boek zijn moeder om mee te nemen. In deze klas zijn niet alle kinderen even groot. Martijn heeft de allerveelste knikkers van de klas.
Vervoeging Woordvolgorde Vervoeging Woordvolgorde Correcte zinnen Vervoeging Woordvolgorde Correcte zinnen Vervoeging Agreement Correcte zinnen Verbuiging Correcte zinnen Agreement Vervoeging Correcte zinnen Agreement Vervoeging Correcte zinnen Agreement Woordvolgorde Correcte zinnen Verbuiging
Woordvorming (2.1.3) Met de subtest Woordvorming wordt nagegaan in hoeverre kinderen in staat zijn tot toepassing van een viertal woordvormingsregels in het Nederlands, namelijk verbuiging van het meervoud van zelfstandige naamwoorden, het maken van de vergelijkende en overtreffende trap van adjectiva, verleden tijdsvorming en de vervoeging van het voltooid deelwoord. Bij beide taken zijn van de onderzochte regelvorming de meest voorkomende alternanten onderscheiden. De meervoudsvormingstaak bestaat uit zelfstandige naamwoorden die in het meervoud alternanten hebben op –en (messen,), op –s (lepels) en op –en met verandering van de kernvocaal (schepen), dan wel de slotconsonant (glazen). Bij de taak krijgen kinderen twee tekeningen te zien, waarbij een verbale stimulus wordt gegeven van het volgende type: “Dit is één mes, dat zijn twee ...”. Door intonatie en afwachtende houding wordt duidelijk gemaakt dat de zin afgemaakt moet worden. Bij het onderdeel 'vergelijkende en overtreffende trap' wordt van zes adjectiva gevraagd naar de vergelijkende en overtreffende trap. Daarbij komen zowel regelmatige vormen (dik, scherp, zwaar; de laatste met tussenconsonant in de vergelijkende trap) als onregelmatige vormen (veel, weinig, goed) aan bod. Bij dit onderdeel wordt uitgaande van een ondersteunende tekening een stimuluszin aangeboden die kinderen moeten afmaken. Bij de onderdelen verleden-tijdsvorming en voltooid deelwoord wordt van kinderen gevraagd de markering van verleden tijd en voltooid deelwoord te geven van regelmatige “zwakke” vormen (hakte, gebouwd), “sterke” vormen met klinkerwisseling in de stam (hielp, gekozen), en “onregelmatige” vormen (verloor, gebracht). Bij deze taak wordt een ondersteunende afbeelding gegeven bij een verbale stimuluszin waarbij het kind de zin moet afmaken. Hieronder volgt een overzicht van de items in de subtest Woordvorming.
17
Meervoud 1 Dit is één mes. Dit zijn twee … (messen) 2 Dit is één bord. Dit zijn twee … (borden) 3 Dit is één lepel. Dit zijn twee … (lepels) 4 Dit is één stad. Dit zijn twee … (steden) 5 Dit is één kast. Dit zijn twee … (kasten) 6 Dit is één mand. Dit zijn twee … (manden) 7 Dit is één kikker. Dit zijn twee … (kikkers) 8 Dit is één glas. Dit zijn twee … (glazen) 9 Dit is één haan. Dit zijn twee … (hanen) 10 Dit is één hemd. Dit zijn twee … (hemden) 11 Dit is één bezem. Dit zijn twee … (bezems) 12 Dit is één schip. Dit zijn twee … (schepen) Vergelijkende en overtreffende trap 13 Deze man is dik, maar deze is nog … (dikker) 14 En deze is het aller … (dikst) 15 Deze jongen is goed in sport, maar deze is nog … (beter) 16 En deze is het aller … (best) 17 Dit mes is scherp, maar dit mes is nog … (scherper) 18 En dit mes is het aller … (scherpst) 19 Hier zie je veel ballonnen, maar dit zijn er nog … (meer) 20 En dit zijn er het aller … (meest) 21 Deze tas is zwaar, maar deze is nog … (zwaarder) 22 En deze tas is het aller … (zwaarst) 23 In deze bak zitten maar weinig vissen, maar hier zijn er nog … (minder) 24 En in deze bak zitten er het aller … (minst) Verleden tijd 25 Deze man is aan het hakken. Het hout vloog in het rond toen hij … (hakte) 26 Vader helpt Jan met fietsen. Jan was blij dat vader hem … (hielp) 27 et meisje staat even stil. Ze zag een vogel toen ze stil … (stond) 28 Karel is aan het vegen. Hij hield de bezem stevig vast toen hij … (veegde) 29 Deze man is het hout aan het breken. Hij hield zijn been omhoog toen hij het hout … (brak) 30 Deze jongen verliest zijn portemonnee. Hij had niet in de gaten dat hij zijn portemonnee … (verloor) Voltooid deelwoord 31 Deze jongen is een huis aan het bouwen. Hier heeft hij het huis … (gebouwd) 32 ieter is aan het kiezen. Hier heeft hij een kind …. (gekozen) 33 Maarten is zijn broertje aan het slaan. Hier heeft hij zijn broertje … (geslagen) 34 Deze kinderen zijn aan het dansen. Hier hebben zij … (gedanst) 35 Deze man is aan het klimmen. Hier is hij op de berg … (geklommen) 36 Thomas brengt een doos naar Rosita. Hier heeft hij de doos naar Rosita … (gebracht) Onthouden van zinnen (2.1.4) De subtest Onthouden van zinnen heeft tot doel inzicht te krijgen in de zinsstructuren die de kinderen kunnen reproduceren. In de subtest moeten kinderen 12 zinnen nazeggen die variëren in lengte van 9 tot 15 woorden. Dit aantal wordt als grens gezien om zonder verwerking geïmiteerd te kunnen worden. Voor de betekenis en de plaats van de procedure, zie Slobin en Welsh (1973). In de zinnen is een zo groot mogelijke variëteit aan belangrijke functiewoorden, zoals voegwoorden en hulp- en koppelwerkwoorden, en syntactische categorieën, zoals vooropplaatsing van bijzinnen en ondergeordende zinnen, en volgordes in complexe verbale, nominale en prepositionele zinsdelen, verdisconteerd.
18
Hieronder volgt een overzicht van de items in deze subtest. 1 De oude man zit op een bank. 2 Het meisje is een mooi boek aan het lezen. 3 Gisteren wilde mijn vriend naar de stad fietsen. 4 Omdat het begon te regenen, is hij met de bus gegaan. 5 Een jongetje ging met zijn moeder wandelen in het park. 6 Toen ze bij de vijver kwamen, ging hij brood voeren aan de eendjes. 7 De jongen die naast mij zit in de klas, leest bijna elke dag een boek. 8 In het dorp waar mijn oom woont, schijnt een ongeluk gebeurd te zijn. 9 Aan de overkant van de straat loopt een oude vrouw met een stok in haar hand. 10 In deze straat wonen veel kinderen van wie de meesten bij ons op school zitten. 11 Nadat Tom thuis gekomen was van school, ging hij met zijn vrienden voetballen in het park 12 Als het niet zo hard geregend had, waren we zeker met de fiets naar de dierentuin gegaan. Receptieve woordenschat (2.2.1) Als basis voor de subtest Receptieve woordenschat zijn de volgende woordenlijsten gebruikt: (1) Nieuwe Streeflijst woordenschat 6-jarigen (Schaerlaekens, Kohnstamm & Lejaegere, 1999), en (2) Woorden in het basisonderwijs (Schrooten & Vermeer, 1994). De Streeflijst geeft door middel van percentages aan hoeveel leerkrachten vonden dat een woord begrepen moest worden door zesjarigen. Deze beoordelingslijst bevat ongeveer 7.000 woorden. De lijst van Schrooten en Vermeer (1994) is een frequentielijst van de in het basisonderwijs mondeling en schriftelijk aangeboden woorden, met in totaal ruim 15.000 lemma’s die meer dan één keer voorkomen. In totaal hebben 9.000 lemma’s een frequentie van meer dan 5. Aangezien negenjarigen in groep 5 een gemiddelde woordenschat hebben van ongeveer 7.500 woorden (Verhoeven & Vermeer, 1996), zijn deze aantallen voldoende om als referentiepunt te dienen. Ten behoeve van de constructie van de subtest Receptieve woordenschat zijn de woorden in acht categorieën ingedeeld van steeds ongeveer 900 woorden, te beginnen bij de hoogste percentages, en als achtste en laatste categorie de ongeveer 1.000 woorden met een beoordelingspercentage lager dan 26%. Uit elke categorie zijn 12 woorden gekozen. Bij elk van de woorditems zijn vier tekeningen gemaakt, waarvan er één de referent van het doelwoord aangeeft. Van de drie afleiders is zoveel mogelijk getracht er één in klank overeen te laten komen, en er één uit hetzelfde domein te kiezen. De taak voor het kind is om bij het woord dat auditief wordt aangeboden, de juiste tekening te kiezen. Tabel 2.6 geeft een overzicht van de items die zijn opgenomen in de subtest Receptieve woordenschat. In de tabel is een uitsplitsing gemaakt naar woordsoort: N = nomen / zelfstandig naamwoord, V = verbum / werkwoord en A = adjectief / bijvoeglijk naamwoord.
19
Tabel 2.6
Items in de subtest Receptieve woordenschat
Nr
Item
Soort
Nr
Item
Soort
Nr
Item
Soort
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22
vangen juichen schuilen fles schouder ketting traag arresteren timmeren koffer mager scherf insect mikken file dijk marcheren klauw hol pincet balk duiken
V V V N N N A V V N A N N V N N V N N N N V
23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44
luik vulkaan ventilator vermoeid kozijn lossen bejaard schetsen riolering jongleur balanceren kappen beteuterd nest gespierd chirurg schaven lijst componist zeilen gesp reptiel
N N N A N V A V N N V V A N A N V N N V N N
45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64
conducteur bouwvallig vitrage chagrijnig marionet bespieden riant ree pluimvee ventiel vaccineren zoogdier lanceren ruïne puber sabel peilen boemerang pelikaan oksel
N A N A N V A N N N V N V N N N V N N N
Impliciete betekenis (2.2.2) Bij de impliciet uitgedrukte relaties die in de subtest Impliciete betekenis worden aangeboden, worden twee typen linguïstische verschijnselen getoetst, namelijk presupposities en modale woorden. Onder presuppositie wordt de relatie tussen twee beweringen verstaan, waarbij de waarheid van de ene bewering een noodzakelijke voorwaarde vormt voor het al of niet waar zijn van de andere bewering. In de subtest komen vier typen presupposities aan de orde. Ten eerste zijn er de implicatieve predicaten zoals erin slagen, ervoor zorgen, etc. Voor deze predicaten geldt dat de geïmpliceerde propositie bij een assertie waar is, en bij een ontkenning onwaar. Tot deze categorie rekenen we ook de factieve predicaten (weten, betreuren, doen alsof, etc.). Deze predicaten impliceren de waarheid van hun complement. Ten tweede bevat de subtest ondergeschikte zinnen waarin een temporeel of conditioneel verband wordt uitgedrukt. Tot deze categorie rekenen we ook comparatieve relaties tussen woordgroepen waarin de existentie van het vergelekene wordt geïmpliceerd. Ten slotte bevat de subtest zinnen met modale woorden die een bepaalde modaliteit aan het predicaat weergeven, bijvoorbeeld herhaling (nog, eens, weer, etc.), of tijdsbepaling (nog niet, niet meer, etc.). De moeilijkheid van deze betekenisrelaties voor de taalleerder schuilt in het impliciete karakter ervan. Onderstaande voorbeelden maken dit duidelijk: Implicatieve predicaten – ze zorgt ervoor, dat de poes te eten krijgt – ze vindt het niet erg dat de vaas stuk is – de jongen is niet kleiner
(de poes krijgt dus eten) (de vaas blijft dus stuk) (er is dus iets anders dat kleiner is)
Onderschikkende zinnen – als het zou regenen, zou hij wel met de bus gaan
(hij gaat dus niet met de bus)
20
Modale woorden – hij eet nog een appel – alleen de poes ligt te slapen – regende het maar niet, denkt Kees – hij had beter naar bed kunnen gaan
(hij heeft er dus al een op) (er ligt dus niemand anders te slapen) (het regent dus wel) (hij is dus niet naar bed)
Tabel 2.7 geeft een overzicht van de items die zijn opgenomen in de subtest Impliciete betekenis. Er wordt daarbij aangegeven tot welke categorie de items behoren.
Tabel 2.7
Items in de subtest Impliciete betekenis
Nr
Item
Categorie
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34
Jan vindt het niet erg dat de bal lek is. Terwijl de jongen in bed ligt leest hij een boek. De jongen eet ook een banaan. Dit bord is nog niet helemaal leeg. Voordat Kees zijn jas aan doet heeft hij zijn pet opgezet. De jongen zorgt ervoor dat de eendjes brood krijgen. Als Kim wat groter was zou hij de peer kunnen pakken. Pim gaat niet vissen, want het regent. Vader heeft weer een vis gevangen. Moeder zet nog een plant op tafel. De boer ziet niet dat de jongen een appel pakt. Op deze fiets kun je niet meer rijden. Hij had zijn zwembroek beter niet kunnen vergeten. Had ik maar een paraplu denkt de jongen Rik is vergeten zijn schoenen uit te doen Hoewel het mooi weer was ging hij niet fietsen. De jongen is kleiner. Alleen de jongen eet een appel. De boer vindt het jammer dat het regent. Als het droog was zou hij wel gaan fietsen. Zij heeft eerst haar limonade opgedronken. Toen zij in het water dook had zij geen badmuts op. Het is Mark gelukt het raam te openen. Alleen de jongen heeft zijn limonade nog niet opgedronken. Scheen de zon maar denkt Annet. De jongen laat de grootste appel liggen. Terwijl de jongen een koek eet drinkt het meisje limonade. Die jongen eet zelfs het klokhuis op. Omdat het niet regent steekt hij zijn paraplu niet op. Het meisje heeft geen ballon meer. Nadat hij zijn melk op had gedronken at Roel een boterham. De man wist niet dat de bank pas geverfd was. Doordat hij te klein is kan hij zijn pet niet pakken. Zodra het ophoudt met regenen gaat hij buiten voetballen.
Implicatief predicaat Onderschikkende zin Modaal bijwoord Modaal bijwoord Onderschikkende zin Implicatief predicaat Onderschikkende zin Onderschikkende zin Modaal bijwoord Modaal bijwoord Implicatief predicaat Modaal bijwoord Implicatief predicaat Implicatief predicaat Implicatief predicaat Onderschikkende zin Implicatief predicaat Modaal bijwoord Implicatief predicaat Onderschikkende zin Modaal bijwoord Onderschikkende zin Implicatief predicaat Modaal bijwoord Implicatief predicaat Implicatief predicaat Onderschikkende zin Modaal bijwoord Onderschikkende zin Modaal bijwoord Onderschikkende zin Implicatief predicaat Onderschikkende zin Onderschikkende zin
Productieve woordenschat (2.2.3) Bij de constructie van de subtest Productieve woordenschat is dezelfde werkwijze gehanteerd als bij de constructie van de subtest Receptieve woordenschat. Kinderen moeten bij deze subtest echter zelf vertellen wat een woord betekent en kunnen daarbij dus niet kiezen uit een aantal tekeningen.
21
Tabel 2.8 geeft een overzicht van de items die zijn opgenomen in de subtest Productieve woordenschat. In de tabel is net als eerder een uitsplitsing gemaakt naar woordsoort: N = nomen / zelfstandig naamwoord), V = verbum / werkwoord) en A = adjectief / bijvoeglijk naamwoord.
Tabel 2.8
Items in de subtest Productieve woordenschat
Nr
Item
Soort
Nr
Item
Soort
Nr
Item
Soort
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
knippen brug deksel eekhoorn meten kruiwagen kruipen hoed vierkant rijgen bijl geeuwen/gapen kaal enkel knie helm parachute doorzichtig muur snoeien
V N N N V N V N A V N V A N N N N A N V
21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40
zaaien brievenbus balkon hooiberg galopperen montuur hurken kwispelen scharnier kaften thermometer stronk interviewen wimper sluis cactus propeller ballet paperclip piramide
V N N N V N V V N V N N V N N N N N N N
41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60
dirigeren cement opereren tribune versleten boren koetsier nijptang kandelaar snaar jongleren drempel lont brancard elleboog velg katrol dooit telescoop raspen
V N V N A V N N N N V N N N N N N V N V
22
3
Beschrijving van het instrumentarium
3.1
Functie
Het T-TOS heeft twee functies. In de eerste plaats is het T-TOS bedoeld voor het verrichten van onderzoek naar onderkennende hypothesen met betrekking tot taalontwikkelingsstoornissen. De uitkomsten van het onderzoek voorzien in een basis voor het nemen van beslissingen over de toekenning van leerlinggebonden financiering of plaatsing in het speciaal onderwijs. Daarnaast kan het T-TOS ingezet worden in het perspectief van handelingsgerichte diagnostiek en/of voortgangscontrole. Hieronder worden beide functies van het T-TOS nader toegelicht. Functie 1: indicatiestelling speciaal onderwijs en leerlinggebonden financiering Binnen het kader van het ministeriële stappenplan voor de beleidsontwikkeling van leerlinggebonden financiering was enige tijd geleden de indicatiestelling van taalontwikkelingsstoornissen actueel (cf. Rispens & Van Yperen, 1997; Resing, Evers, Koomen, Pameijer, Bleichrodt & Van Boxtel, 2002; Resing, Evers, Koomen, Pameijer & Bleichrodt, 2008). De indicatiestelling leerlinggebonden financiering gaat uit van een zogenaamde slagboomprocedure. Het gaat daarbij nog niet om indicatiecriteria voor het differentiëren van de hulpvraag binnen een onderwijstype, maar primair om de beslissing tussen wel of geen speciaal onderwijs en tussen de typen speciaal onderwijs. De slagboomfunctie heeft dus betrekking op het oordeel speciaal onderwijs, dan wel een rugzak die extra faciliteiten in een geïntegreerde onderwijssituatie mogelijk moet maken. Qua procedure gaat de indicatiestelling uit van vier fasen. In de eerste fase gaat het om de intake waarbij gebruikgemaakt wordt van vragenlijsten, een onderwijskundig rapport, beschikbare dossiers en screeningsinstrumenten. In de daarop volgende fase komt een onafhankelijke en multidisciplinair samengestelde commissie van onderzoek op basis van de beschikbare informatie tot een hypotheseformulering. In de derde fase vindt eventueel een onderzoek plaats waarin zoveel mogelijk op basis van vooraf aangegeven gestandaardiseerde meetinstrumenten een indicatiestelling wordt bepaald. In de laatste fase komt de commissie van onderzoek tot een oordeel en levert zij een beschikking van toelaatbaarheidstelling af. Bij een eerste inventarisatie van de indicatiecriteria ten behoeve van TOS werd duidelijk dat de procedures nog weinig gestandaardiseerd waren (Pijl, Veneman, De Goede, Guldemond, Rouwerda & Ruiter, 2000). Bovendien was er aanleiding om te twijfelen aan de validiteit van de beschikbare meetinstrumenten (Hover & Harperink, 1997). Vanuit deze bevindingen hebben de Radboud Universiteit Nijmegen en Cito het initiatief genomen om een testinstrumentarium te ontwikkelen waarmee de indicatiestelling TOS op een meer gestandaardiseerde wijze tot stand zou kunnen komen. Bij de constructie van het testinstrumentarium is de “regel” dat de taalontwikkelingsstoornis alleen aanleiding mag geven tot een doorgeleiding naar het speciaal onderwijs als die niet is toe te schrijven aan een beperkt niveau van cognitief functioneren, nadrukkelijk in acht genomen. Volgens de richtlijnen van OCW (zie Resing, Evers, Koomen, Pameijer & Bleichrodt, 2005) is doorgeleiding naar het speciaal onderwijs aan de orde bij een afwijking naar beneden van meer dan anderhalve standaarddeviatie op ten minste twee tests binnen twee verschillende spraak/taalcomponenten. OCW onderscheidt daarbij de volgende componenten: (1) auditieve verwerking, (2) spraakproductie, (3) grammatica en (4) lexicon en semantiek. Daarnaast is er volgens de richtlijnen van OCW sprake van TOS als het kind meer dan twee standaarddeviaties lager scoort dan het algemene gemiddelde op een test die het geheel van (vier) componenten in kaart brengt. Het T-TOS sluit grotendeels aan bij de richtlijnen die OCW geformuleerd heeft voor de indicatiestelling TOS. Een indicatiestelling op basis van één enkele score op een vooraf gespecificeerde algemene test voor spraak- en taalmoeilijkheden doet in onze ogen echter onvoldoende recht aan de complexe aard van TOS. Met deze procedure wordt er namelijk vanuit gegaan dat taalvaardigheid unidimensionaal is opgebouwd. De multifactoriële organisatie van spraak- en taalproblemen maakt het echter onmogelijk om bij het afgrenzen van TOS een enkelvoudige slagboomdiagnostiek te hanteren. Om spraak- en taalproblemen op
23
het spoor te komen is naar onze mening een breed spectrum van diagnostische instrumenten nodig. De resultaten in hoofdstuk 6 ondersteunen deze aanname. Daarom wordt er in het T-TOS niet gewerkt met een totaalscore. De deelscores op de afzonderlijke subtests binnen de vier componenten die door OCW genoemd worden bepalen uiteindelijk of er aanleiding is om een kind door te geleiden naar het speciaal onderwijs. Hiermee doet het T-TOS in onze ogen recht aan de complexiteit van de problemen die kunnen bestaan op het gebied van taal en spraak. Bovendien sluit het T-TOS hierdoor optimaal aan bij de praktijk waarin vrijwel overal uitgegaan wordt van een multifactoriële afgrenzing van TOS. Op diverse locaties is daarbij een grote mate van ervaringskennis opgebouwd. Het T-TOS past in zijn opzet dus ook goed bij de veelal kundige wijze waarop in de praktijk wordt gewerkt aan de diagnostiek van kinderen met taalontwikkelingsstoornissen. Functie 2: handelingsgerichte diagnostiek en voortgangscontrole Hoewel de verwachting is dat het T-TOS zijn belangrijkste toepassing zal vinden in de indicatiestelling voor het speciaal onderwijs en leerlinggebonden financiering, kan het instrument ook worden ingezet bij het toetsen van specifieke hypothesen op het gebied van spraak en/of taal. Door afname van de afzonderlijke subtests kan namelijk in kaart gebracht worden wat de precieze aard is van de spraak- en taalproblemen die een kind ondervindt. Deze informatie kan de basis vormen voor de ontwikkeling van een behandelingsplan, ook als doorgeleiding naar het speciaal onderwijs nog niet direct aan de orde is. Omdat de verschillende subtests genormeerd zijn voor meerdere opeenvolgende leeftijdsgroepen voorziet het T-TOS tevens in de mogelijkheid om de effecten van een eventuele behandeling te evalueren.
3.2
Opbouw en structuur
Zoals in paragraaf 3.1 al is aangegeven gaat het T-TOS uit van een domeingerichte procedure waarin taalvaardigheid ontleed is in deelaspecten die weliswaar samenhangen, maar die tegelijkertijd ook als aparte componenten beschouwd kunnen worden. Een domeingerichte procedure maakt het mogelijk om te achterhalen in welk deelaspect van taalvaardigheid een kind tekort schiet. Het T-TOS richt zich op de mondelinge deelvaardigheden spreken en luisteren. Er worden vier componenten onderscheiden, namelijk auditieve verwerking, spraakproductie, grammatica en lexicon en semantiek. Daarnaast zouden ook schriftelijke deelvaardigheden getest kunnen worden, maar voor de indicatiestelling met betrekking tot TOS zijn deze niet doorslaggevend. Ook bij problemen op het gebied van lezen of spellen kan er weliswaar vaak gesproken worden van een onderwijsachterstand, maar voorkomen moet worden dat bijvoorbeeld ook de kinderen met dyslexie de diagnose TOS krijgen. In het T-TOS is ervoor gekozen om de spreek- en luistervaardigheid via een indirecte procedure te testen, omdat de afname, scoring en beoordeling daarvan relatief eenvoudig is en een indirecte procedure de beste garanties biedt voor een betrouwbare en valide uitkomst. De verschillende subtests zijn bovendien op een zodanige manier geconstrueerd dat schoolpsychologen, klinisch linguïsten en logopedisten deze zelfstandig op een gestandaardiseerde wijze kunnen afnemen en interpreteren. In tabel 3.1 worden de subtests die zijn ontwikkeld voor het T-TOS op een overzichtelijke manier weergegeven.
24
Tabel 3.1
Overzicht van de subtests in het T-TOS
Domein Subdomein
Subtest
Voorbeelditem
N items Afname
Spraak
Auditieve verwerking
Auditieve discriminatie Woordherkenning Onthouden van woorden
bak-dak oto-oestel [fototoestel] zon-pen-tak-mes-wip
30 37 12
Digitaal Digitaal Papier
Spraakproductie
Woordrepetitie Pseudowoordrepetitie Diadochokinese
viltstift, bliksemflits gresdaan, klipstenorist pataka, gabada
25 30 23
Digitaal Digitaal Digitaal
Grammatica
Receptieve zinsbouw Grammaticabeoordeling Woordvorming
zij wast hem hij heeft gevallen [is] twee schepen; hij hielp de oude man zit op een bank
33 55 36
Digitaal Digitaal Papier
12
Papier
64 34 60
Digitaal Digitaal Papier
Taal
Onthouden van zinnen Lexicon en semantiek
Receptieve woordenschat schouder, reptiel Impliciete betekenis hoewel, nogmaals Productieve woordenschat balkon, zaaien
Zoals we in tabel 3.1 kunnen zien, zijn er voor elke taalcomponent (of subdomein) ten minste drie subtests ontwikkeld. De meeste subtests zijn geschikt voor kinderen in de leeftijd van 4 tot en met 10 jaar, met uitzondering van de subtests Auditieve verwerking (tot en met 8 jaar), Woordrepetitie (tot en met 6 jaar), Receptieve zinsbouw (tot en met 8 jaar) en Grammaticabeoordeling (vanaf 8 jaar). De aantallen items per subtest verschillen sterk, beginnend bij 12 in de twee geheugentaken en eindigend bij 64 in de (receptieve) woordenschattaak. Bij een aantal subtests is een afbreekregel toegepast om te voorkomen dat jonge en/of zwakke kinderen een overdaad aan te moeilijke – dus frustrerende en ontmoedigende – items krijgen voorgeschoteld (zie ook paragraaf 3.3). Indien mogelijk wordt een subtest digitaal afgenomen via de computer (9 in totaal). Niet alle subtests lenen zich echter goed voor een digitale afname. Bij 4 subtests vindt de afname daarom op papier plaats. De resultaten van deze subtests kunnen wel via het computerprogramma verwerkt worden.
3.3
Doelgroep
Het T-TOS is bedoeld voor het diagnosticeren van taalontwikkelingsstoornissen bij kinderen in de leeftijd van 4 tot 10 jaar. De test kan gebruikt worden om de taalontwikkelingsstoornis en de daaraan verbonden vormen van speciaal onderwijs en leerlinggebonden financiering te onderbouwen. De subtests zijn afgenomen bij representatieve steekproeven waarbij voor verschillende leeftijdsgroepen een normatieve vergelijking is gerealiseerd. De volgende leeftijdsgroepen zijn onderscheiden: (groep 1) 4.01 – 5.00 jaar, (groep 2) 5.01 – 6.00 jaar, (groep 3) 6.01 – 7.00 jaar, (4) 7.01 – 8.00 jaar, (5) 8.01 – 9.00 jaar, en (6) 9.01 – 10.00 jaar. Aan de hand van leeftijdspecifieke normtabellen per subtest kunnen de prestaties van kinderen met problemen op het gebied van spraak en/of taal worden vergeleken met die van zich normaal ontwikkelende leeftijdgenoten. Hoewel het instrument in beginsel afgenomen kan worden bij alle kinderen in de genoemde leeftijdsgroepen, zal dit doorgaans uitsluitend plaatsvinden bij kinderen die zich in een bepaalde fase van diagnose- en indicatiestelling bevinden (zie paragraaf 3.1). Met name in de hoogste leeftijdsgroepen is het T-TOS ook minder geschikt voor afname bij alle kinderen, omdat er in deze groepen bij een aantal subtests sprake is van een plafondeffect (zie hoofdstuk 4). Het T-TOS is niet geschikt voor kinderen met een slecht gehoor. Daarnaast dient men in het geval van kinderen die Nederlands als tweede taal spreken bij de interpretatie van de testscores hiermee rekening te houden. Voor nadere informatie hierover verwijzen we naar de handleiding.
25
3.4
Meetmodellen
Er zijn twee algemene raamwerken voor het ontwikkelen en analyseren van toetsen, namelijk de klassieke testtheorie en de item respons theorie. Beide theorieën introduceren een aantal concepten en assumpties, en specificeren de relaties hiertussen in testmodellen. Bekende modellen binnen het raamwerk van de klassieke testtheorie zijn het klassieke testmodel, het poisson model, en het binomial error model (zie bijvoorbeeld Gulliksen, 1950; Lord & Novick, 1968; Crocker & Algina, 1986). Daarnaast kan de generaliseerbaarheidstheorie gezien worden als een belangrijke uitbereiding op de klassieke testtheorie (Cronbach, Nanda & Rajaratnam, 1972). Binnen de item respons theorie zijn de belangrijkste modellen het 1-, 2-, en 3-parameter logistisch model, maar ook andere modellen zoals het partial credit model en het rating scale model zijn beschikbaar (zie bijvoorbeeld Rasch, 1960; Lord, 1980, Hambleton & Swaminathan, 1985; Van der Linden & Hambleton, 1997). De subtests met een afbreekregel zijn geanalyseerd binnen het raamwerk van de item respons theorie. Voor de overige subtests is het klassieke testmodel gebruikt. Klassieke testtheorie Het klassieke testmodel beschrijft hoe meetfouten geobserveerde scores kunnen beïnvloeden. Het model verbindt de geobserveerde testscore van een kind (X) aan de som van twee variabelen die niet geobserveerd zijn, namelijk de ware score (T) en de foutscore (E): X=T+E Omdat er twee onbekenden zijn in deze vergelijking is het niet mogelijk om de vergelijking op te lossen zonder verdere assumpties. Het klassieke testmodel veronderstelt dat: (a) ware scores en foutscores behaald door een bepaalde populatie kinderen op één test niet gecorreleerd zijn, (b) foutscores op twee verschillende tests niet gecorreleerd zijn, en (c) de verwachte foutscore in een populatie kinderen gelijk is aan 0. De ware score van een kind is dus het verschil tussen de testscore en de foutscore. Bovendien kan aangetoond worden dat de ware score gelijk is aan de verwachte score die een kind zou behalen indien een oneindig aantal tests zou worden afgenomen die hetzelfde meten. Aangezien het praktisch onmogelijk is om de ware score voor een kind te bepalen door een oneindig aantal tests af te nemen onder exact dezelfde condities zijn er procedures ontwikkeld die het mogelijk maken om toch iets te zeggen over de gemiddelde meetfout in een specifieke populatie kinderen. Denk hierbij bijvoorbeeld aan de split-half methode en de coëfficiënt-alpha methode. Testparameters die meetfout representeren en itemparameters die itemmoeilijkheid en itemdiscriminatie representeren vormen de basis van de meeste analyses binnen de klassieke testtheorie. De parameters zijn gedefinieerd op een manier die tamelijk gemakkelijk te begrijpen is. De parameters zijn bovendien waardevol gebleken bij de constructie van tests (zie bijvoorbeeld Henrysson, 1971; Millman & Greene, 1989). Een tekortkoming van de genoemde parameters is echter dat ze afhankelijk zijn van de steekproef op basis waarvan ze geschat zijn. De parameters beschrijven een kenmerk van een test of item namelijk uitsluitend in relatie tot een specifieke populatie. Voor meetnauwkeurigheid betekent dit dat dezelfde test betrouwbaarder is naarmate de variantie van de vaardigheid in de populatie waarin de test wordt afgenomen groter is. Voor itemmoeilijkheid betekent dit dat hogere waarden verkregen worden in steekproeven met een bovengemiddelde vaardigheid en lagere waarden in steekproeven met een beneden gemiddelde vaardigheid. Voor itemdiscriminatie, ten slotte, betekent dit dat hogere waarden verkregen worden in heterogene steekproeven en lagere waarden in homogene steekproeven (Fischer, 1974; Samejima, 1994). In de situatie dat de steekproef sterk afwijkt van de populatie waarvoor de test ontwikkeld wordt, zijn de parameters die verkregen worden na analyses met het klassieke testmodel daarom minder goed bruikbaar. Item respons theorie Item respons theoriemodellen verschillen in een aantal opzichten nogal sterk van de modellen uit de klassieke testtheorie (Verhelst, 1993). Binnen de item respons theorie staat de latente vaardigheid centraal in plaats van de ware score op een specifieke test. Er wordt verondersteld dat de vaardigheid θ van een
26
persoon niet begrensd is en dat de antwoorden op bepaalde items informatie geven over de vaardigheid van de persoon. De relatie tussen de latente vaardigheid en de itemantwoorden is gedefinieerd in een zogenaamde item karakteristieke functie. De item karakteristieke functie drukt de kans op het correct beantwoorden van item j uit als functie van θ. De kenmerken en het verloop van de item karakteristieke functie zijn gespecificeerd in een aantal randvoorwaarden: (a) de kans op een correct antwoord moet tussen 0 en 1 liggen, (b) de functie moet continu zijn, en (c) de functie moet strikt stijgend zijn binnen θ. Hoewel een groot aantal wiskundige functies uitgesloten wordt door deze drie vereisten, blijven er nog veel functies over die aan de gestelde eisen voldoen. Door één specifieke functie te kiezen, kan de theorie ingeperkt worden tot één speciaal ‘geval’, een zogenaamd item respons model. Bij de analyse van sommige subtests uit het T-TOS is gebruikgemaakt van het One-Parameter Logistic Model (OPLM) van Verhelst en Glas (1995). De item respons functie voor het OPLM wordt gegeven door de volgende vergelijking:
P( X j 1 ) Pj ( )
exp[a j ( j )] 1 exp[a j ( j )]
,
voor j 1, ..., k
waarin Pj() de kans is dat een random gekozen persoon met vaardigheid item j correct beantwoordt, aj en j getallen zijn die item j karakteriseren, k het aantal items in de toets is, en waar ‘exp’ een constante is met waarde 2.718. Er kan nagegaan worden dat functie Pj() altijd tussen 0 en 1 ligt en dat Pj() gelijk is aan 0.50 als de vaardigheid gelijk is aan j. De waarde voor j kan daarom ook geïnterpreteerd worden als de hoeveelheid vaardigheid die vereist is om een kans van 50 procent te hebben op het correct maken van een item. Figuur 3.1 geeft drie verschillende item respons curven voor het OPLM.
Figuur 3.1
Drie itemresponscurven voor het OPLM
Kans op een correct antwoord
1 item 3
0,8 0,6
item 2
0,4 item 1 0,2 1, 3
0 -3
-2
2
-1 0 1 Vaardigheid
2
3
Zoals we kunnen zien, is voor item 2 meer vaardigheid nodig om die kans van 50 procent te bereiken dan voor item 1 en 3. In feite reflecteert parameter j dus de moeilijkheid voor item j of, meer formeel, de positie van de item karakteristieke curve in relatie tot de vaardigheidsschaal. Om deze reden wordt j in de literatuur vaak aangeduid als de moeilijkheids- of locatieparameter van item j. Figuur 3.1 laat verder zien de item respons curven voor item 1 en item 2 qua vorm hetzelfde zijn en dat de vorm van item 3 afwijkt. De afwijkende vorm van de curve voor item 3 wordt veroorzaakt door een andere waarde voor aj. Er kan afgeleid worden dat item 3 in een bepaald vaardigheidsgebied beter discrimineert tussen personen, omdat de kans op het correct maken van het item snel toeneemt naarmate de vaardigheid hoger is. Bij item 1 en 2
27
neemt de kans op het correct maken van het item minder snel toe als de vaardigheid stijgt. Item 1 en 2 discrimineren in dat vaardigheidsgebied dus minder goed tussen personen. Kenmerkend voor het OPLM is dat aj niet uit de data geschat wordt, maar a-priori als constante wordt ingevoerd. Door deze keuze kan de (gewogen) ruwe score direct uit de data berekend worden en behoort toepassing van de conditional maximum likelihood methode voor het schatten van de itemparameters tot de mogelijkheden. Een belangrijk voordeel van conditional maximum likelihood is dat er bij het schatten van de itemparameters geen veronderstelling hoeft te worden gedaan over de verdeling van de vaardigheid in de populatie. Bovendien doet het er niet toe hoe de steekproef getrokken is of hoe de testboekjes in een incompleet design zijn samengesteld. Zelfs als een kind meerdere keren meedoet aan het onderzoek of bepaalde testboekjes systematisch bij bepaalde groepen kinderen worden afgenomen, kunnen de itemparameters adequaat geschat worden (Eggen, 2004). De schatting van de itemparameters vindt plaats met behulp van het computerprogramma OPLM (Verhelst, Glas & Verstralen, 1995). Dit programma voert tevens een aantal statistische toetsen uit op grond waarvan bepaald kan worden of het model een adequate beschrijving geeft van de data. Belangrijk zijn de zogenaamde itemgeoriënteerde S-toets en de overall R1c-toets. De S-toets is asymptotisch χ2 verdeeld en is gebaseerd op de verschillen tussen de geobserveerde en verwachte proporties antwoorden in homogene scoregroepen. Een uniforme verdeling van p-waarden voor de S-toetsen in het interval [0,1] pleit voor passing van het model (zie Verhelst, Glas & Verstralen, 1995). De R1c-toets heeft dezelfde onderliggende rationale als de S-toets en wordt over het algemeen acceptabel bevonden indien zijn waarde niet groter is dan anderhalf tot hooguit twee keer het aantal vrijheidsgraden. Eén van de belangrijkste verschillen tussen de klassieke testtheorie en de item respons theorie heeft betrekking op het invariant zijn van item- en vaardigheidsparameters in item respons theorie modellen. Invariantie van itemparameters betekent dat de parameters die een item kenmerken onafhankelijk zijn van de vaardigheidsverdeling van de kinderen in de steekproef die gebruikt is om de parameters te schatten. Dit betekent dat als een item respons theorie model geldt voor een bepaalde set items dezelfde item respons functies worden verkregen in elke mogelijk steekproef van kinderen. Invariantie van vaardigheidsparameters betekent dat de parameter die een kind kenmerkt onafhankelijk is van de items in de test. Door deze eigenschap zijn de testscores van kinderen altijd vergelijkbaar onafhankelijk van de specifieke set items die is afgenomen. De eigenschap van invariante item- en vaardigheidsparameters in item response modellen wordt gezien als een van belangrijkste voordelen van de item response theorie, omdat het testconstructieproces flexibeler wordt. Het is bijvoorbeeld mogelijk om te voorspellen hoe een kind of een groep kinderen zal presteren op een bepaald item. Testontwikkelaars krijgen daardoor de mogelijkheid om voor verschillende populaties tests te ontwerpen met specifieke kenmerken. Een tweede onderscheidend kenmerk van de item respons theorie heeft betrekking op de manier waarop meetnauwkeurigheid gedefinieerd is. In tegenstelling tot het klassieke testmodel, veronderstellen item respons theorie modellen niet dat de betrouwbaarheid gelijk is voor het gehele scorebereik van een test. Het statistische concept “informatie” wordt gebruikt om de betrouwbaarheid lokaal uit te drukken. In hoofdstuk 5 wordt uitgelegd hoe dit concept gebruikt is bij de analyse van de subtests met een afbreekregel. Analyse van de subtests Zoals al eerder aangegeven zijn een aantal subtests uit het T-TOS geanalyseerd met het klassieke testmodel. In vergelijking met de item respons theorie zijn de mathematische analyses binnen de klassieke testtheorie aanzienlijk eenvoudiger. De analyses vereisen namelijk geen goodness-of-fit studies om verzekerd te zijn van een goede passing van het model bij de data en bovendien kan met kleinere steekproeven gewerkt worden. De steekproefafhankelijkheid van itemparameters en de testafhankelijkheid van persoonsparameters vormde geen bezwaar bij de subtests die geanalyseerd zijn met het klassieke testmodel. Het ging in alle gevallen (met uitzondering van de twee geheugentaken) namelijk om zogenaamde fixed tests die steeds in exact dezelfde vorm worden afgenomen bij kinderen. Een analyse binnen het raamwerk van de item respons theorie biedt in dat geval weinig tot geen voordelen. Bij de subtests met een afbreekregel is daarentegen wel gekozen voor een analyse met de item response theorie,
28
omdat bij die subtests niet altijd dezelfde items worden voorgelegd aan alle kinderen. In feite is er bij deze subtests sprake van adaptief toetsen, omdat een kind alleen een volgend item krijgt voorgelegd als hij voldoende vaardig is gebleken op de items die hij eerder maakte. Hoewel dergelijke tests in de regel ook geanalyseerd worden met het klassieke testmodel (zie bijvoorbeeld, Pickering, & Gathercole, 2001; Semel, Wiig, & Secord, 2003; Verhagen, 2010) kan aangetoond worden dat deze aanpak vrijwel nooit verdedigbaar is (zie Keuning & Eggen, in voorbereiding). De vaardigheid wordt namelijk (niet-systematisch) onderschat en de betrouwbaarheid overschat als de items na het afbreken van de test “fout” gerekend worden. Het idee achter de methode die Keuning en Eggen (in voorbereiding) voorstellen is dat de ruwe score op het gemaakte deel gecorrigeerd wordt voor het deel van de test dat niet aan de kind is voorgelegd. De ruwe score voor een persoon wordt in het OPLM gegeven door de volgende vergelijking:
r ik1 ai xi , xi 0, 1. Aangezien de ruwe score r een sufficiënte statistiek is voor in het OPLM kan de moeilijkheidsparameter j geschat worden via conditional maximum likelihood (CML). De verwachte ruwe score kan binnen datzelfde raamwerk geschat worden. Om de berekening van verwachte ruwe scores binnen het CML-raamwerk uit te leggen is het voordelig om de volgende parametrisering te kiezen:
i exp(ai i ). Veronderstel nu dat de items verdeeld zijn in C subtests met verschillende testlengtes en dat de verzameling voor alle k items gegeven wordt door:
E0 1 , ..., k . De parameters voor elke subtest c worden dan gegeven door:
Ec i | item i behoort tot subtest c, en het complement is gelijk aan:
Ec Ec \ i Ec Vanuit de theorie over CML-schatting kennen we de zogenaamde elementair symmetrische basisfuncties:
r ( Ec ) x|r c
c
ck i 1
ix , i
waarin de sommatie loopt over alle respons patronen
x ( xi , ..., xck )
a x rc .
ck i 1 i i
met
Gegeven deze elementair symmetrische functies, wordt de kans op het behalen van subscore rc op subtest c gegeven de totale testscore r gegeven door:
P( Rc rc | r )
r ( Ec ) r r ( Ec ) , r ( E0 ) c
c
waaruit direct volgt dat de verwachte score op subtest c conditioneel op de totale testscore r gelijk is aan: R ) ( Rc | r ) max( j . P( Rc j | r ). j 0 c
29
Zoals we kunnen zien bepaalt de geobserveerde score r op de totale test de verwachte score op elke willekeurige subtest. Het is echter precies deze score die we moeten voorspellen in tests met een afbreekregel. De oplossing is om deze score iteratief af te leiden door de verwachte scores uit te rekenen voor elke mogelijke subtest c en elke mogelijke testscore r. De score r waar
( Rc | r ) Rc kan dan beschouwd worden als de gecorrigeerde ruwe score voor een kind. Hoewel de voorgestelde methode om verwachte scores uit te rekenen enigszins afwijkt van wat gangbaar is in de item respons theorie (zie bijvoorbeeld Hambleton, Swaminathan & Rogers, 1991) is de methode bewust op deze manier ontwikkeld. Door de methode te baseren op het CML-principe voorkomen we namelijk bias in de schattingen. Van bias zouden we wel last hebben als we geschatte vaardigheidsscores zouden gebruiken om verwachte ruwe scores uit te rekenen. Het probleem speelt voornamelijk bij tests die erg snel afgebroken worden (en waar subtest c dus erg kort is) en bij minimum- en maximumscores. Hoewel de berekeningen die gemaakt moeten worden tamelijk complex zijn, is de methode in de praktijk erg gemakkelijk toe te passen. Als de berekeningen eenmaal gedaan zijn, is er namelijk geen geavanceerde computersoftware meer nodig voor de afname en de scoring. Testgebruikers kunnen de gecorrigeerde scores eenvoudig terugvinden in een tabel. Figuur 3.2 geeft een voorbeeld. Zoals we kunnen zien, hebben we alleen “het aantal gemaakte items” en “het aantal goede antwoorden” nodig om de gecorrigeerde score te bepalen. In het voorbeeld heeft het kind 10 van de 30 items gemaakt en zijn er 5 correcte antwoorden gegeven. De gecorrigeerde score is in dit fictieve voorbeeld dan gelijk aan 8. Voor alle andere testlengtes zijn de gecorrigeerde scores op dezelfde wijze te vinden in de tabel. De scoringstabellen zijn ingebouwd in het computerprogramma dat bij het T-TOS hoort.
Figuur 3.2
Voorbeeld van een scoretabel bij tests met een afbreekregel
Het precieze effect van de correctie wordt zichtbaar in Figuur 3.3. De figuren zijn gebaseerd op de resultaten van een simulatiestudie met 64 (OPLM) items en 10000 kinderen. De afbreekregel is ingesteld op 4. Dit betekent dat de testafname in dit voorbeeld wordt afgebroken als een kind 4 opeenvolgende items in de totale test met 64 items fout beantwoordt. We zien dat de gangbare aanpak binnen het raamwerk van de klassieke testtheorie leidt tot een systematische onderschatting van de vaardigheid. Vooral de scores
30
voor kinderen die in staat zijn om een substantieel deel van de items te maken, maar duidelijk niet tot het einde van de test komen, zijn sterk onderschat in vergelijking met de kinderen die relatief weinig of relatief veel items maken. Dit patroon van onderschatting is niet zichtbaar als de methode van Keuning & Eggen (in voorbereiding) wordt toegepast. Vanzelfsprekend komen de gecorrigeerde scores niet noodzakelijkerwijs exact overeen met de (gesimuleerde) ware scores vanwege de “fout” die we kunnen maken in de voorspelling. De voorspellingsfout wordt kleiner naarmate langer wordt gewacht met het afbreken van de test. Zoals duidelijk wordt in hoofdstuk 5 heeft de toepassing van een afbreekregel ook consequenties voor de betrouwbaarheid van een test. Relatie tussen ware score en geschatte ruwe score in een fictieve test met 64 items en een afbreekregel van 4
64
64
56
56
Score with correction
Score without correction
Figuur 3.3
48 40 32 24 16
48 40 32 24 16
8
8
0
0
0
8
0
16 24 32 40 48 56 64
8
16 24 32 40 48 56 64 True score
True score
Tabel 3.2 laat zien op welke wijze de verschillende subtests in het T-TOS geanalyseerd zijn. We zien dat 5 subtests geanalyseerd zijn met het OPLM. Bij al deze subtests is er sprake van een afbreekregel. Daarnaast zien we dat 8 subtests geanalyseerd zijn met het klassieke testmodel.
Tabel 3.2
Enkele kenmerken van de subtests in het T-TOS
Domein
Subdomein
Subtest
Groep
Afname
Meetmodel
Afbreekregel
Spraak
Auditieve verwerking
Auditieve discriminatie
1–4
Digitaal
Klassiek
Nee
Woordherkenning
1–6
Digitaal
OPLM
5 (minimum 8)
Onthouden van woorden
1–6
Papier
Klassiek
4
Spraakproductie
Taal
Grammatica
Lexicon en semantiek
Woordrepetitie
1–2
Digitaal
OPLM
5 (minimum 8)
Pseudowoordrepetitie
1–6
Digitaal
OPLM
5 (minimum 8)
Diadochokinese
1–6
Digitaal
Klassiek
Nee
Receptieve zinsbouw
1–4
Digitaal
Klassiek
Nee Nee
Grammaticabeoordeling
5–6
Digitaal
Klassiek
Woordvorming
1–6
Papier
Klassiek
Nee
Onthouden van zinnen
1–6
Papier
Klassiek
4
Receptieve woordenschat
1–6
Digitaal
OPLM
8 (minimum 12)
Impliciete betekenis
1–6
Digitaal
Klassiek
Nee
Productieve woordenschat
1–6
Papier
OPLM
8 (minimum 12)
31
Zes van de acht klassiek geanalyseerde subtests hebben een vast formaat voor alle kinderen die de subtest maken. In die gevallen was het dus geen enkel bezwaar om het klassieke testmodel te gebruiken. De twee geheugentaken Onthouden van woorden en Onthouden van zinnen vormen echter een uitzondering. Deze subtests zijn weliswaar geanalyseerd met het klassieke testmodel, maar tegelijkertijd is er ook sprake van een afbreekregel. De analyses zouden in principe dus verricht moeten zijn binnen het raamwerk van de item respons theorie, omdat we er dan rekening mee kunnen houden dat niet alle kinderen alle items maken. Het OPLM bleek echter niet goed geschat te kunnen worden bij de geheugentaken, omdat haast geen enkel kind in staat was om het einde van de test te halen. Om deze reden is noodgedwongen teruggevallen op de procedure die wel vaker wordt toegepast: de items na het afbreken van de test zijn fout gerekend. Zoals duidelijk is geworden in Figuur 3.3 leidt deze procedure vaak tot een systematische onderschatting van de vaardigheid. In het geval van de subtests die het werkgeheugen meten zal de onderschatting van de vaardigheid echter gering zijn. Bij een subtest die woordenschat meet is het bijvoorbeeld goed mogelijk dat een kind na het afbreken van de test toch nog enkele items correct had kunnen maken. Het is immers allerminst zeker dat de betekenis van een woord als drempel lastiger is uit te leggen voor een kind dan de betekenis van een woord als wimper, terwijl dat op basis van argumenten uit de literatuur wel expliciet verondersteld wordt bij afname van de subtest Productieve woordenschat uit het T-TOS. Bij een geheugentaak lijkt het minder aannemelijk dat kinderen na 4 opeenvolgende fouten nog items correct kunnen maken. Immers, als een kind niet in staat is om een reeks van 5 woorden te onthouden zal hij ook niet in staat zijn om een reeks van 7 of meer woorden te onthouden. De moeilijkheid van items is bij geheugentaken, met andere woorden, eenduidiger vast te stellen dan bij taken die zich richten op bijvoorbeeld woordenschat of woordherkenning. Om die reden is een analyse binnen het raamwerk van de klassieke testtheorie bij de twee geheugentaken als verdedigbaar beschouwd.
3.5
Psychometrische eigenschappen
Paragraaf 3.4 geeft op zichzelf nog geen inzicht in de psychometrische eigenschappen van de verschillende subtests. Tabel 3.3 doet dat wel. De tabel geeft namelijk van de p-waarden en de rit-waarden de mediaan en de percentielen 10 en 90. Bij de subtests die geanalyseerd zijn met het klassieke testmodel zijn de gegevens rechtstreeks bepaald op basis van de geobserveerde data. Bij de subtests die geanalyseerd zijn met het OPLM is een andere werkwijze gehanteerd. Daar zijn de gegevens namelijk bepaald onder de aanname van het model, omdat niet alle kinderen alle items in die subtests hebben gemaakt. De items die niet zijn voorgelegd aan individuele kinderen zijn niet zonder meer als “fout” meegenomen in de berekeningen. Dezelfde werkwijze is gehanteerd tijdens de kalibratie door uit te gaan van een onvolledig design waarin elke mogelijke subtest c is opgenomen.
32
Tabel 3.3
Itemeigenschappen van de verschillende subtests Leeftijdsgroep
Subtest
Kenmerk
Auditieve discriminatie
p-waarde
Woordherkenning
Onthouden van woorden
Pseudowoordrepetitie
Diadochokinese
Receptieve zinsbouw
1
2
3
4
5
6
P10
0.41
0.43
0.63
0.70
Mediaan P90
0.55 0.68
0.66 0.82
0.81 0.90
0.85 0.95
----------
----------
rit-waarde
P10 Mediaan P90
0.07 0.28 0.49
0.19 0.36 0.46
0.19 0.33 0.43
0.15 0.33 0.39
----------
----------
p-waarde
P10 Mediaan P90
0.14 0.53 0.78
0.32 0.70 0.87
0.44 0.77 0.92
0.55 0.85 0.95
0.60 0.90 0.96
0.69 0.91 0.98
rit-waarde
P10 Mediaan P90
0.25 0.34 0.43
0.22 0.36 0.48
0.20 0.28 0.44
0.22 0.29 0.49
0.16 0.25 0.43
0.15 0.24 0.43
p-waarde
P10
0.01
0.01
0.04
0.01
0.04
0.08
Mediaan P90
0.15 0.96
0.27 0.98
0.44 1.00
0.55 1.00
0.61 0.99
0.69 1.00
P10 Mediaan
0.18 0.32
0.08 0.21
0.02 0.18
0.03 0.21
0.09 0.32
0.10 0.34
P90
0.50
0.40
0.37
0.35
0.46
0.45
p-waarde
P10 Mediaan P90
0.51 0.71 0.94
0.72 0.84 0.98
----------
----------
----------
----------
rit-waarde
P10 Mediaan P90
0.31 0.57 0.65
0.21 0.50 0.58
----------
----------
----------
----------
p-waarde
P10 Mediaan P90
0.20 0.57 0.84
0.26 0.68 0.89
0.38 0.81 0.94
0.43 0.85 0.95
0.53 0.89 0.97
0.59 0.92 0.98
rit-waarde
P10 Mediaan P90
0.31 0.47 0.54
0.32 0.46 0.55
0.29 0.42 0.53
0.22 0.36 0.47
0.25 0.40 0.51
0.18 0.33 0.45
p-waarde
P10 Mediaan P90
0.26 0.36 0.51
0.45 0.55 0.72
0.61 0.71 0.86
0.65 0.76 0.89
0.73 0.83 0.92
0.76 0.87 0.95
rit-waarde
P10 Mediaan P90
0.45 0.61 0.68
0.41 0.52 0.59
0.39 0.47 0.52
0.34 0.42 0.46
0.39 0.49 0.52
0.28 0.38 0.44
p-waarde
P10 Mediaan P90
0.28 0.53 0.75
0.55 0.79 0.89
0.69 0.92 0.96
0.70 0.94 0.97
----------
----------
rit-waarde
P10 Mediaan P90
0.24 0.38 0.47
0.23 0.31 0.41
0.21 0.28 0.38
0.32 0.42 0.54
----------
----------
rit-waarde
Woordrepetitie
Waarde
33
Tabel 3.3 Vervolg Leeftijdsgroep Subtest
Kenmerk
Grammaticabeoordeling
p-waarde
Woordvorming
Onthouden van zinnen
Receptieve woordenschat
Impliciete betekenis
Productieve woordenschat
Waarde
1
2
3
4
5
6
P10
----
----
----
----
0.39
0.49
Mediaan P90
-------
-------
-------
-------
0.85 0.95
0.92 0.97
rit-waarde
P10 Mediaan P90
----------
----------
----------
----------
0.13 0.29 0.45
0.14 0.26 0.39
p-waarde
P10 Mediaan P90
0.05 0.32 0.80
0.11 0.46 0.93
0.23 0.71 0.98
0.33 0.87 0.99
0.51 0.92 1.00
0.74 0.98 1.00
rit-waarde
P10 Mediaan
0.20 0.45
0.26 0.35
0.23 0.37
0.21 0.36
0.13 0.30
0.01 0.22
P90
0.59
0.46
0.48
0.44
0.49
0.49
p-waarde
P10
0.03
0.05
0.12
0.20
0.33
0.44
Mediaan P90
0.17 0.73
0.26 0.80
0.45 0.88
0.53 0.89
0.68 0.97
0.80 0.99
rit-waarde
P10 Mediaan P90
0.39 0.61 0.70
0.42 0.62 0.66
0.45 0.59 0.67
0.51 0.61 0.65
0.41 0.61 0.67
0.27 0.54 0.63
p-waarde
P10 Mediaan P90
0.00 0.09 0.54
0.00 0.28 0.79
0.03 0.52 0.93
0.05 0.72 0.97
0.14 0.84 0.98
0.27 0.94 0.99
rit-waarde
P10 Mediaan P90
0.19 0.45 0.67
0.12 0.42 0.65
0.18 0.40 0.67
0.15 0.33 0.69
0.18 0.33 0.69
0.14 0.31 0.57
p-waarde
P10 Mediaan P90
0.29 0.51 0.71
0.48 0.75 0.86
0.69 0.88 0.95
0.75 0.93 0.96
0.83 0.96 0.98
0.86 0.97 0.99
rit-waarde
P10 Mediaan P90
0.28 0.36 0.45
0.25 0.34 0.44
0.27 0.36 0.43
0.27 0.46 0.53
0.20 0.32 0.41
0.25 0.37 0.51
p-waarde
P10 Mediaan P90
0.00 0.04 0.73
0.00 0.15 0.87
0.02 0.38 0.93
0.15 0.61 0.96
0.16 0.64 0.98
0.39 0.81 0.99
rit-waarde
P10 Mediaan P90
0.00 0.32 0.53
0.07 0.32 0.50
0.21 0.38 0.55
0.17 0.41 0.61
0.14 0.34 0.55
0.14 0.33 0.46
Tabel 3.3 laat zien dat de p-waarden en rit-waarden over subtests doorgaans in de gewenste range liggen. De rit-waarden liggen vaak boven de 0.30 en de p-waarden laten zien dat de subtests qua moeilijkheidsgraad vaak goed aansluiten bij de vaardigheid van de kinderen die de subtests maken. Tegelijkertijd zien we ook een aantal extreme waarden in tabel 3.3. Dat is voornamelijk het geval bij de laagste en de hoogste leeftijdsgroepen. De p-waarden liggen dan onder de 0.20 (lagere leeftijdsgroepen) of boven de 0.80
34
(hogere leeftijdsgroepen) en ook de rit-waarden laten dan soms te wensen over (< 0.10). In veel toepassingen zouden de waarden die we bij sommige subtests vinden tot de conclusie leiden dat de betreffende subtest niet geschikt is voor afname in die doelgroep. In geval van het T-TOS vragen de waarden in tabel 3.3 echter om een andere interpretatie. In de eerste plaats is er bij 7 van de 13 subtests sprake van een afbreekregel. De items in deze subtests verschillen opzettelijk zeer sterk in moeilijkheidsgraad. Het is niet de bedoeling dat de kinderen alle items in deze subtests maken. De afbreekregel bepaalt in combinatie met de vaardigheid die een kind laat zien of ook de moeilijkere items aan het kind worden voorgelegd. Dus hoewel tabel 3.3 de indruk kan wekken dat er op grote schaal items aan kinderen worden voorgelegd met p-waarden < 0.20, is dat in de praktijk vanwege de ingestelde afbreekregels niet het geval. In de tweede plaats is het T-TOS bedoeld om de kinderen mét TOS te scheiden van de kinderen zónder TOS. De analyses die zijn verricht rondom het T-TOS laten zien dat de kinderen zonder TOS vaak in staat zijn om het overgrote deel van de items correct te beantwoorden (p-waarden > 0.90). De kinderen met TOS kunnen dat echter niet (zie hoofdstuk 6). Aangezien de p-waarden zijn berekend op basis van data die in het reguliere onderwijs verzameld zijn, verrassen de hoge p-waarden in tabel 3.3 dan ook niet. Samenvattend zijn de waarden in tabel 3.3 zonder meer acceptabel te noemen als we rekening houden met de functie van het T-TOS en het adaptieve karakter van (een deel van) de subtests. De subtests met een afbreekregel zijn geanalyseerd met het OPLM. Een belangrijke aanvullende vraag bij deze subtests is of het OPLM in voldoende mate bij de data past. Bij de schatting van het OPLM zijn we in grote lijnen als volgt te werk gegaan: 1 Instellen van de discriminatie-indices met behulp van het programma OPCAT; 2 Schatting van de itemparameters met behulp van CML; 3 Controle van de discriminatie-indices met behulp van de itemgeoriënteerde M-toetsen en de S-toetsen; 4 Grafische modelcontrole door middel van het programma OPDRAW; 5 Globale modelcontrole via de R1c-toets en de verdeling van de overschrijdingskansen van de S-toetsen. Een formele beschrijving van de gebruikte procedures is te vinden in Verhelst (1993). De verschillende stappen worden in de regel een aantal malen doorlopen totdat het resultaat bevredigend is. Afhankelijk van de uitkomsten kunnen items worden verwijderd. Ook inhoudelijke overwegingen (die over het algemeen betrekking hebben op de inhoudsvaliditeit van de test) spelen een rol in dit beslissingsproces. In geval van het T-TOS bleken de toetsende procedures die in de verschillende stappen aan de orde kwamen niet goed bruikbaar te zijn in de gebruikelijke betekenis van het woord. Door het relatief grote aantal kinderen (vaak onevenwichtig verdeeld over de items) dat in de procedures is betrokken, leidden de statistische toetsen zelf dikwijls tot significante toetsingsgrootheden. Die significantie had op zichzelf echter weinig betekenis, omdat het vaak om zeer kleine afwijkingen ten opzichte van het meetmodel ging. Om deze reden is bij de beoordeling van de passing van het model voornamelijk teruggevallen op de grafische modelcontrole. De gevolgde procedure kunnen we het beste uitleggen aan de hand van Figuur 3.4. Daarin beelden we voor item 25 uit de subtest Receptieve woordenschat de gegevens af waarop de zogenaamde Si-toetsen gebaseerd zijn (zie handleiding OPLM, Verhelst; 1992). Ten behoeve van deze toetsing wordt de totale groep kinderen die een verzameling items gemaakt heeft, ingedeeld in een aantal scoregroepen (meestal 8). Elke groep bestaat uit kinderen met een ongeveer even hoge score. De geobserveerde proporties juiste antwoorden van deze groepen zijn door een rode stippellijn met elkaar verbonden. De volle blauwe lijn verbindt de proporties die op grond van de parameterschattingen van het OPLM voorspeld kunnen worden. De zwarte foutbalken geven op de verschillende punten het 95%betrouwbaarheidsinterval aan. De breedte van dit interval is in belangrijke mate afhankelijk van het aantal kinderen dat het item heeft beantwoord. Uit Figuur 3.4 blijkt heel duidelijk dat de geobserveerde proporties, zoals bedoeld, in dit voorbeeld doorgaans binnen het 95%-betrouwbaarheidsinterval van de (geschatte) voorspelde proporties liggen, en dit komt min of meer overeen met een niet-significante Sitoetsingsgrootheid (Verhelst et al., 1994).
35
Figuur 3.4
Grafische voorstelling van een Si -toets
1,00
Kans op een correct antwoord
0,90 0,80 0,70 0,60 0,50 0,40 0,30 0,20 0,10 0,00 -1,00
-0,50
0,00
0,50
1,00
1,50
2,00
Vaardigheid
Bij de items in de subtests die met behulp van het OPLM geanalyseerd zijn, hoort een grafische voorstelling van de Si-toetsing die in grote lijnen met Figuur 3.4 overeenkomt. Dit is – zeker gezien de relatief grote aantallen observaties – een zeer sterke aanduiding dat de ontwikkelde subtests en het gebruikte meetmodel adequaat zijn om het gedrag van de kinderen te verklaren. Bovendien blijkt, en dat is vanuit theoretisch oogpunt nog belangrijker, dat gemeten verschillen in gedrag tussen de kinderen per subtest te verklaren zijn door één onderliggend unidimensionaal concept (zie ook hoofdstuk 6). Een andere manier om de kwaliteit van de kalibratie met het OPLM in kaart te brengen is de maat c. Dit is een maat om de nauwkeurigheid van de itemparameterschattingen op basis van de beschikbare data te beoordelen (Evers, Lucassen, Meijer & Sijtsma, 2010). Deze maat is als volgt gedefinieerd:
c = SE(i) / SD() waarbij SE(i) de standaardfout van de schatting van de moeilijkheidsparameters is (de enige parameter die geschat wordt in het OPLM) en waarbij SD() de standaarddeviatie van de vaardigheid in de totale kalibratiepopulatie is. In tabel 3.4 staan de waarden die voor c werden gevonden voor de vijf subtests uit het T-TOS die met het OPLM geanalyseerd zijn.
Tabel 3.4
Waarden voor maat c voor de met IRT geanalyseerde subtests
Subtest Woordherkenning Woordrepetitie Pseudowoordrepetitie Receptieve woordenschat Productieve woordenschat
N items
c > 0.12
Minimum
Gemiddelde
Maximum
37 25 30 64 60
1 3 0 4 1
0.021 0.038 0.026 0.027 0.022
0.044 0.068 0.040 0.057 0.045
0.123 0.150 0.076 0.283 0.140
De nauwkeurigheid van de geschatte parameters is goed te noemen als we uitgaan van de criteria van Evers et al. (2010). Het gemiddelde ligt duidelijk onder 0.10 bij alle subtests en de waarde van c is vrijwel nooit groter dan 0.12. Alleen bij de subtest Receptieve woordenschat is de c voor één item erg hoog.
36
Het ging hier om een moeilijk item dat maar door relatief weinig kinderen is gemaakt (435) en door nog minder kinderen correct is beantwoord (83). Om inhoudelijke redenen is besloten om het item toch in de test te handhaven. Over de eigenschappen van de scoreverdelingen, de betrouwbaarheid en de validiteit van de verschillende subtests – ook voor de subtests die op klassieke wijze geanalyseerd zijn – volgt meer in hoofdstuk 4, 5 en 6.
37
38
4
Normering
4.1
Dataverzameling
In schooljaar 2003/2004 is gestart met een landelijk proefonderzoek in het reguliere basisonderwijs ten behoeve van de constructie en normering van het T-TOS. Het onderzoek in het reguliere basisonderwijs is afgerond in schooljaar 2008/2009. Tabel 4.1 laat zien wat de uitgangspunten waren voor de dataverzameling. Zoals we kunnen zien, zouden zes cohorten in een mixed longitudinal design gevolgd worden. Voor cohorten 2, 3 en 4 betekende dit dat zij in drie achtereenvolgende schooljaren deel zouden nemen aan het onderzoek. Cohorten 5 en 6 zouden minder vaak deelnemen, omdat zij na de eerste of de tweede meting buiten de doelgroep van het T-TOS zouden vallen. De kinderen in cohort 1 zouden in zes opeenvolgende schooljaren deelnemen, beginnend in groep 1 in schooljaar 2003/2004 en eindigend in groep 6 in schooljaar 2008/2009. Kenmerkend voor de onderzoeksopzet was dat de verschillende cohorten aan elkaar verbonden waren via zogenaamde ankers. Hierdoor zou het mogelijk worden om de ontwikkeling van kinderen in kaart te brengen zonder dat alle kinderen ook daadwerkelijk longitudinaal gevolgd zouden worden. Bovendien zouden bij het normeren van het T-TOS de data van verschillende cohorten op hetzelfde moment gemakkelijk samengenomen kunnen worden, waardoor het totale aantal waarnemingen op een bepaald moment sterk zou toenemen, variërend van 500 in leeftijdsgroep 1 tot maximaal 800 in leeftijdsgroepen 4 en 5 rekening houdend met een uitval van 15 procent bij de overgang van het ene naar het andere schooljaar.
Tabel 4.1
Globale weergave van de opzet van de dataverzameling Cohort
Groep
1
1 2 3 4 5 6
03/04 04/05 05/06 06/07 07/08 08/09
N
500
2 03/04 04/05 05/06
200
3
4
03/04 04/05 05/06 200
5
6
N / N*
03/04 04/05 05/06
03/04 04/05
03/04
500 700 / 600 900 / 700 1100 / 800 1100 / 800 1100 / 700
200
200
200
----
Noot: In het tweede getal is rekening gehouden met een uitval van ongeveer 15 procent bij de overgang van het ene naar het andere schooljaar.
Tijdens de uitvoering van het onderzoek bleek het niet altijd mogelijk te zijn om de dataverzameling exact volgens de planning uit voeren. Bij de overgang van het ene naar het andere schooljaar was het soms lastig om scholen opnieuw bereid te vinden om deel te nemen aan het onderzoek. Uiteindelijk is het gelukt om een substantieel aantal kinderen ook daadwerkelijk in drie opeenvolgende schooljaren te volgen. De geplande meting in cohort 1 in schooljaar 2006/2007 heeft echter geen doorgang gevonden (blauw gearceerd in tabel 4.1). Om toch voldoende gegevens te verkrijgen voor een zinvolle normering van het T-TOS zijn in de verschillende schooljaren steeds nieuwe scholen en kinderen toegevoegd aan de oorspronkelijke onderzoeksgroep. Het uitgangspunt was daarbij steeds dat voor de populatie representatieve normgroepen (d.w.z. naar regio, urbanisatiegraad, percentage gewichtenleerlingen, geslacht en etniciteit) van voldoende omvang konden worden gevormd. Uiteindelijk hebben 52 verschillende scholen voor het reguliere basisonderwijs deelgenomen aan het onderzoek. Tabel 4.2 laat per subtest zien van hoeveel kinderen er gegevens beschikbaar waren voor de normering van het T-TOS. Aanvankelijk zijn alle 13 subtests, met uitzondering van de subtest Grammaticabeoordeling,
39
aan alle deelnemende kinderen voorgelegd. Op basis van de analyses die na de dataverzameling zijn uitgevoerd is echter besloten om enkele subtests niet te normeren voor bepaalde leeftijdsgroepen, hetzij omdat de subtest te gemakkelijk was voor die leeftijdsgroep, hetzij omdat de subtest te moeilijk was voor die leeftijdsgroep. Het gaat om de subtests Auditieve discriminatie (niet in groep 5 en 6), Woordrepetitie (niet in groep 3 tot en met 6), Receptieve zinsbouw (niet in groep 5 en 6) en Grammaticabeoordeling (niet in groep 4). Voor de volledigheid zijn de aantallen kinderen wel vermeld in tabel 4.2. De cellen zijn echter blauw gearceerd. In het navolgende kunnen deze cellen buiten beschouwing gelaten worden.
Tabel 4.2
Gerealiseerde aantallen kinderen per subtest uitgesplitst naar leeftijdsgroep Leeftijdsgroep
Domein
Subdomein
Subtest
Spraak
Auditieve verwerking
Taal
1
2
3
4
5
6
Auditieve discriminatie Woordherkenning Onthouden van woorden
438 428 440
616 612 616
741 717 745
551 557 590
570 779 795
500 715 728
Spraakproductie
Woordrepetitie Pseudowoordrepetitie Diadochokinese
428 428 428
612 612 612
717 717 717
547 557 560
559 782 782
496 715 714
Grammatica
Receptieve zinsbouw Grammaticabeoordeling Woordvorming Onthouden van zinnen
438 ---440 440
616 ---617 608
744 ---746 733
552 474 586 564
570 780 797 791
501 706 729 728
Lexicon en semantiek
Receptieve woordenschat Impliciete betekenis Productieve woordenschat
438 438 440
616 616 617
744 743 747
548 537 578
577 567 587
713 499 727
Minimale N Maximale N
428 440
608 617
717 747
537 590
567 797
499 729
Zoals we in tabel 4.2 kunnen zien, verschillen de gerealiseerde aantallen enigszins van de streefaantallen die eerder genoemd werden in tabel 4.1. Zoals al eerder aangegeven is dit in de eerste plaats het gevolg van uitval op schoolniveau. Soms ging het om het incidenteel of definitief niet deelnemen van een school of klas, terwijl de “uitval” in andere (zeer incidentele) gevallen veroorzaakt werd door technische mankementen bij de afname waardoor er sprake was van dataverlies. In de tweede plaats was er sprake van uitval van individuele kinderen. Sommige kinderen zijn bijvoorbeeld verhuisd of vanwege zittenblijven of het overslaan van een klas in een ander cohort terechtgekomen. Daarnaast kon er sprake zijn van incidentele uitval wanneer een kind tijdens een testafname vanwege ziekte, doktersbezoek of om uiteenlopende andere redenen niet aanwezig was. Al deze factoren hebben ervoor gezorgd dat de gerealiseerde aantallen per leeftijdsgroep en subtest in enige mate verschillen laten zien. Ter controle zijn per leeftijdsgroep representativiteitanalyses verricht (zie paragraaf 4.2) vanuit het gegeven dat er voor alle subtests in alle leeftijdsgroepen voldoende gegevens beschikbaar zijn om tot een stabiele normering te komen. In aanvulling op het onderzoek in het reguliere basisonderwijs heeft in schooljaar 2010/2011 een onderzoek plaatsgevonden bij TOS-leerlingen in cluster 2. Dit onderzoek is uitgevoerd met het oog op de validering van het T-TOS (zie hoofdstuk 6). In totaal hebben 8 verschillende scholen met TOS-leerlingen binnen cluster 2 uit verschillende regio’s meegedaan aan het onderzoek.
40
Er is gestreefd naar de volgende aantallen kinderen: – 150 kinderen met een leeftijd van 4 of 5 jaar (vergelijkbaar met groep 1 en 2 in het reguliere onderwijs); – 150 kinderen met een leeftijd van 6 of 7 jaar (vergelijkbaar met groep 3 en 4 in het reguliere onderwijs); – 150 kinderen met een leeftijd van 8 of 9 jaar (vergelijkbaar met groep 5 en 6 in het reguliere onderwijs). Bij de werving van scholen en kinderen is dus ingezet op een totaal van 450 kinderen. Dit aantal is ruimschoots behaald. In totaal zijn er namelijk bij 511 kinderen gegevens verzameld. Het is echter niet gelukt om een evenwichtige spreiding over de verschillende leeftijdsgroepen te realiseren. In de tweede en derde leeftijdsgroep hebben respectievelijk 224 (99 in “groep 3” en 125 in “groep 4”) en 258 (125 in “groep 5” en 133 in “groep 6”) kinderen meegedaan. In de eerste leeftijdsgroep beperkte het aantal deelnemende kinderen zich tot 53. Dit kleinere aantal is het gevolg van de vaak relatief late instroom in cluster 2. Hierdoor zaten er op de deelnemende scholen eenvoudigweg niet meer jongere kinderen die bij het onderzoek betrokken konden worden. Het totale aantal kinderen is echter ruim voldoende om de criteriumvaliditeit van het T-TOS te onderzoeken (cf. Evers, Lucassen, Meijer & Sijtsma, 2010 – p. 29). In de verschillende validiteitsanalyses zijn in principe alle kinderen met een TOS-indicatie uit cluster 2 meegenomen. In de analyses waarin een uitsplitsing is gemaakt naar leeftijdsgroep zijn de jongste kinderen echter buiten beschouwing gelaten (d.w.z., leeftijdsgroepen 1 en 2). Bij de relatieve normering van het T-TOS hebben de kinderen uit cluster 2 geen rol gespeeld.
4.2
Representativiteit van de normgroepen
In deze paragraaf besteden we aandacht aan de kenmerken die relevant worden geacht om de relatie tussen normeringssteekproef en populatie in kaart te brengen. Het COTAN-beoordelingssysteem (Evers, Lucassen, Meijer & Sijtsma, 2010) geeft in dit opzicht aan dat de normeringssteekproef in ieder geval moet worden beschreven in termen van leeftijd, sekse, etniciteit en regio. Daarnaast is informatie verzameld over het aantal gewichtenleerlingen op een school en de urbanisatiegraad. De verschillende variabelen zijn als volgt gedefinieerd in het onderzoek: – Regio. Bij de definitie van de variabele Regio is uitgegaan van de CBS-indeling naar landsdeel. Dit betekent dat er vier regio’s onderscheiden zijn. Regio Noord omvatte de provincies Groningen, Friesland en Drenthe; regio Oost de provincies Overijssel, Gelderland en Flevoland; regio West de provincies Utrecht, Noord-Holland, Zuid-Holland en Zeeland en regio Zuid de provincies Noord-Brabant en Limburg. De populatiegegevens zijn afkomstig van DUO. – Urbanisatiegraad. De gehanteerde verdeling naar urbanisatiegraad of mate van verstedelijking is terug te voeren op de bij het CBS gebruikelijke indeling naar vijf niveaus, namelijk zeer sterk, sterk, matig, weinig en niet verstedelijkt. Voor het onderzoek is de gebruikelijke vijfdeling echter gereduceerd tot een tweedeling in enerzijds niet tot matig verstedelijkt en anderzijds sterk tot zeer sterk verstedelijkt. Een dergelijke tweedeling blijkt in de praktijk goed te volstaan (cf. Van Boxtel & Hemker, 2009). De populatiegegevens zijn ontleend aan gegevens van DUO en de Cendris postcoderelatietabel. – Schooltype / aantal gewichtenleerlingen. Bij de definitie van de variabele schooltype is gebruikgemaakt van de formatiegewichten van de leerlingen binnen een school. Ten tijde van het onderzoek werden kinderen door OCW gecategoriseerd naar een combinatie van opleidingsniveau, sociaaleconomische status en etnische herkomst van de ouders. Er werden vijf formatiegewichten onderscheiden: 1) 1.25 voor Nederlandse arbeiderskinderen (in termen van opleidings- en/of beroepsniveau van de ouders); 2) 1.40 voor schipperskinderen in een internaat of pleeggezin; 3) 1.70 voor kinderen uit de reizende en trekkende bevolking; 4) 1.90 voor kinderen uit gezinnen waarvan ten minste een van de ouders van niet-Nederlandse herkomst is (en beperkingen kent in opleidings- en beroepsniveau); 5) voor alle andere kinderen.
41
– –
–
Op basis van deze formatiegewichten is aan elke school een score toegekend. Deze score was het resultaat van de ratio van het gewogen aantal leerlingen (verkregen via DUO) en het nominaal aantal leerlingen na aftrek van een correctieterm van het gewogen aantal leerlingen (deze bedroeg 9% van het nominaal aantal leerlingen). Het bereik van de schoolscores lag daardoor tussen 0.91 en 1.81. Op basis van de schoolscores zijn de scholen als volgt ingedeeld in categorieën: (Categorie 1) schoolscore ≤ 1.00, (Categorie 2) schoolscore tussen 1.01 en 1.20, en (Categorie 3) schoolscore ≥ 1.21. De verschillende categorieën geven een globale indicatie van de samenstelling van de schoolpopulatie naar sociaaleconomische achtergrond. In categorie 1 zaten de scholen met overwegend Nederlandse kinderen van ouders met afgeronde voortgezette opleidingen. In categorie 2 zaten de scholen met relatief veel Nederlandse arbeiderskinderen. In categorie 3, ten slotte, zaten de scholen met relatief veel allochtone kinderen. Sekse. In de analyses omtrent sekse is vanzelfsprekend een tweedeling naar jongens en meisjes gehanteerd. De populatiegegevens zijn bepaald op basis van de internetsite Statline van het CBS. Etniciteit. Wat betreft etniciteit was het voor de vergelijking een probleem dat er geen eenduidige referentiegegevens voor de populatie bekend waren. Wel is navraag gedaan naar de taal die door het kind thuis werd gesproken (de thuistaal). Er werden drie niveaus onderscheiden, namelijk Nederlandssprekend, anderstalig en een combinatie van Nederlands met een andere taal. Deze niveaus zijn in tweede instantie gereduceerd tot een tweedeling, namelijk Nederlandssprekend versus anderstalig. Populatiegegevens omtrent de thuistaal zijn niet bekend. Wel weten we dat onder gebruikers van de Eindtoets Basisonderwijs het percentage Nederlands sprekende kinderen ongeveer 86 procent bedraagt. Leeftijd. Bij het T-TOS is gekozen voor een normering op basis van leeftijdsgroepen. Ook bij een dergelijke normering is het belangrijk dat alle leeftijden in een normgroep representatief vertegenwoordigd zijn. Het is immers niet wenselijk dat de leeftijd binnen de normgroep al te scheef verdeeld is. Dat zou bijvoorbeeld het geval zijn als de kinderen in de eerste normgroep bijna allemaal 4 jaar en 5 maanden oud zijn. Omdat de dataverzameling in het reguliere onderwijs in feite per leerjaar heeft plaatsgevonden en niet per “leeftijdsgroep” is niet waarschijnlijk dat de verdeling van kinderen in onze steekproef naar leeftijd (sterk) afwijkt van wat in de populatie gebruikelijk is. Er zijn namelijk steeds hele schoolklassen bij het onderzoek betrokken en er was geen sprake was van systematische uitval van subgroepen van kinderen met een bepaalde leeftijd. Niettemin is in het representativiteitsonderzoek in kaart gebracht hoe de verdeling van de leeftijden er uitzag in elke normgroep.
Zoals al eerder aangegeven is per leeftijdsgroep een representativiteitsanalyse uitgevoerd. Voor leeftijdsgroepen 1 en 2 was er steeds sprake van één en dezelfde normgroep voor alle subtests, waarin er slechts sprake was van incidentele uitval. De representativiteit zal worden geëvalueerd naar een situatie van N = 440 in leeftijdsgroep 1 en N = 617 in leeftijdsgroep 2. Zoals we in tabel 4.2 kunnen zien gaat het dan om de maximale steekproefgrootte met zo min mogelijk ontbrekende waarden. Ook in de derde leeftijdsgroep was er sprake van incidentele uitval, maar de situatie wordt gecompliceerd door de uitval van één klas bij een sessie waarin verschillende subtests werden afgenomen. Daarom is besloten om de representativiteit in deze leeftijdsgroep voor twee verschillende situaties te evalueren, namelijk voor de situatie waarin de N gelijk is aan 747 en voor de situatie waarin de N gelijk is aan 717. In de vierde leeftijdsgroep was de situatie tweeërlei: enerzijds was er sprake van een situatie met weinig uitval en een N van ongeveer 590 en anderzijds was er sprake van uitval van twee klassen met een resulterende N van omstreeks 537. De representativiteit is voor beide situaties geëvalueerd. In leeftijdsgroepen 5 en 6, ten slotte, konden twee situaties onderscheiden worden. In het ene geval is aanvullend onderzoek verricht in de schooljaren 2007/2008 en 2008/2009. In dat geval was de N ongeveer gelijk aan 797 in leeftijdsgroep 5 en ongeveer gelijk aan 729 in leeftijdsgroep 6. In het andere geval zijn de subtests niet meer aanvullend onderzocht, wat resulteerde in een N van 567 in leeftijdsgroep 5 en een N van 499 in leeftijdsgroep 6. Opnieuw zijn beide situaties in het representativiteitsonderzoek meegenomen.
42
Voorafgaand aan het feitelijke representativiteitsonderzoek is de verdeling van de leeftijden voor elke leeftijdsgroep in kaart gebracht. Ook daarbij zijn de eerder benoemde situaties meegenomen. Dit betekent bijvoorbeeld dat er in de derde leeftijdsgroep twee situaties onderscheiden zijn, namelijk de situatie met 747 kinderen (A) en de situatie met 717 kinderen (B). Tabel 4.3 laat zien dat in elke normgroep kinderen hebben gezeten uit elke leeftijdscategorie. In elke leeftijdsgroep ligt het gemiddelde bij *.06 maanden. Dit betekent dat de eerdere aanname dat de verschillende leeftijdsgroepen representatief vertegenwoordigd zullen zijn in de steekproef vanwege het afnamedesign ook daadwerkelijk verdedigbaar is. In de vervolgstap is de representativiteit in elke van de leeftijdsgroepen in kaart gebracht.
Tabel 4.3
Frequentie van de leeftijden per normgroep in de steekproef
Groep 1
N
Groep 2
N
Groep 3
NA
NB
Groep 4
NA
NB
Groep 5
NA
NB
Groep 6
NA
NB
4.01
41
5.01
55
6.01
67
59
7.01
50
48
8.01
66
45
9.01
69
49
4.02
39
5.02
60
6.02
73
68
7.02
68
64
8.02
85
58
9.02
86
62
4.03
25
5.03
37
6.03
57
56
7.03
52
44
8.03
71
53
9.03
61
43
4.04
38
5.04
56
6.04
74
73
7.04
62
55
8.04
82
60
9.04
68
44
4.05
100
5.05
108
6.05
112
111
7.05
43
42
8.05
75
43
9.05
70
41
4.06
23
5.06
37
6.06
62
61
7.06
46
46
8.06
72
53
9.06
58
40
4.07
19
5.07
26
6.07
42
40
7.07
45
43
8.07
67
54
9.07
51
39
4.08
30
5.08
47
6.08
57
57
7.08
44
42
8.08
62
43
9.08
58
36
4.09
28
5.09
50
6.09
54
51
7.09
33
29
8.09
49
30
9.09
57
40
4.10
34
5.10
53
6.10
64
58
7.10
54
50
8.10
63
44
9.10
54
36
4.11
28
5.11
40
6.11
37
36
7.11
38
31
8.11
49
37
9.11
47
30
5.00
35
6.00
48
7.00
48
47
8.00
55
43
9.00
56
47
10.00
50
39
----
440
----
617
----
747
717
----
590
537
----
797
567
----
729
499
43
Representativiteit leeftijdsgroep 1 Voor leeftijdsgroep 1 bestond de steekproef uit 440 kinderen. Er zijn slechts op zeer beperkte schaal (incidenteel) kinderen uitgevallen. Tabel 4.4 laat zien in hoeverre de groep kinderen in de eerste leeftijdscategorie representatief is naar regio, urbanisatiegraad, schooltype, etniciteit en sekse. We zien dat regio Noord in het geheel niet gerepresenteerd is in de steekproef. Dit komt doordat we er niet in geslaagd zijn om in de noordelijke provincies scholen bereid te vinden om aan het onderzoek deel te nemen. Regio Zuid is daarentegen duidelijk oververtegenwoordigd in de steekproef. Dit betekent dat de steekproef niet representatief te noemen is als het gaat om de variabele regio. Hetzelfde geldt voor urbanisatiegraad (oververtegenwoordiging van sterk tot zeer sterk verstedelijkte gebieden) en etniciteit (ondervertegenwoordiging van niet-Nederlandse kinderen). De steekproef van kinderen is wel een adequate afspiegeling van de populatie als het gaat om de variabelen schooltype en sekse.
Tabel 4.4
Representativiteitsgegevens normgroep leeftijdscategorie 1 (4.01 – 5.00 jaar) Steekproef 1 Populatie
N
%
2
df
p
Noord Oost West Zuid
10.3 22.8 46.6 20.3
---69 214 157
---15.7 48.6 35.7
107.1
3
<.01
Totaal
100.0
440
100.0
56.8 43.2
181 259
41.1 58.9
43.8
3
<.01
100.0
440
100.0
63.1 25.0 11.9
297 91 52
67.5 20.7 11.8
4.7
2
ns
100.0
404
100.0
86.0 14.0
409 28
93.6 6.4
20.9
1
<.01
Totaal
100.0
437
100.0
Jongen Meisje
50.5 49.5
200 179
52.8 47.2
0.8
1
ns
Totaal
100.0
379
100.0
Kenmerk
Definitie
Regio
Urbanisatie
Niet – matig Sterk – zeer sterk
Schooltype
≤ 1.00 1.01 – 1.20 ≥ 1.21
Etniciteit
Nederlands Niet-Nederlands
Totaal
Totaal
Sekse
Toetsing
44
Representativiteit leeftijdsgroep 2 Voor leeftijdsgroep 2 bestond de steekproef uit 617 kinderen. In tabel 4.5 kunnen we zien dat er nauwelijks kinderen uit de regio Noord aan het onderzoek hebben meegedaan en dat de zuidelijke provincies enigszins oververtegenwoordigd waren. Daarnaast was er een duidelijke oververtegenwoordiging van de sterk tot zeer sterk verstedelijkte gebieden, een lichte oververtegenwoordiging van scholen met een hoog gemiddeld formatiegewicht (>1.20), gepaard gaande met een lichte ondervertegenwoordiging in de andere categorieën, en net als in leeftijdsgroep 1 zaten er in de steekproef minder kinderen met een nietNederlandse herkomst dan op basis van de populatieverdeling verwacht mocht worden. De verdeling van jongens en meisjes in de normgroep is wel in voldoende mate in overeenstemming met die in de populatie.
Tabel 4.5
Representativiteitsgegevens normgroep leeftijdscategorie 2 (5.01 – 6.00 jaar) Steekproef 1
Toetsing
Populatie
N
%
2
df
p
Noord Oost West Zuid
10.3 22.8 46.6 20.3
6 151 297 163
1.0 24.5 48.1 26.4
64.9
3
<.01
Totaal
100.0
617
100.0
56.8 43.2
218 399
35.3 64.7
115.5
1
<.01
100.0
617
100.0
63.1 25.0 11.9
426 140 51
69.0 22.7 8.3
11.7
2
<.01
100.0
617
100.0
86.0 14.0
582 31
94.9 5.1
40.7
1
<.01
0.1
1
ns
Kenmerk
Definitie
Regio
Urbanisatie
Niet – matig Sterk – zeer sterk
Schooltype
≤ 1.00 1.01 – 1.20 ≥ 1.21
Totaal
Totaal Etniciteit
Nederlands Niet-Nederlands Totaal
100.0
613
100.0
Sekse
Jongen Meisje
50.5 49.5
278 279
49.9 50.1
Totaal
100.0
557
100.0
45
Representativiteit leeftijdsgroep 3 Zoals eerder aangegeven zijn er voor leeftijdsgroep 3 twee situaties onderscheiden, namelijk een situatie waarin de steekproefomvang gelijk is aan 747 (A) en een situatie waarin de steekproefomvang gelijk is aan 717 (B). Tabel 4.6 geeft voor beide situaties de resultaten van de representativiteitsanalyses. Zoals we kunnen zien, is de conclusie voor beide situaties gelijk. Opnieuw is de populatie niet adequaat vertegenwoordigd naar regio (Noord ontbreekt in feite), de sterk tot zeer sterk verstedelijkte gebieden zijn oververtegenwoordigd, de verdeling naar schooltype wijkt enigszins af van de populatieverdeling en de kinderen van niet-Nederlandse herkomst zijn iets ondervertegenwoordigd. De verdeling naar sekse is in beide situaties wel adequaat.
Tabel 4.6
Representativiteitsgegevens normgroep leeftijdscategorie 3 (6.01 – 7.00 jaar) Steekproef 3
Toetsing
Populatie
NA
%A
NB
%B
2
df
p
Noord Oost West Zuid
10.3 22.8 46.6 20.3
9 253 292 193
1.2 33.9 39.1 25.8
9 251 287 170
1.3 35.0 40.0 23.7
A 121.3 B 115.3
3 3
<.01 <.01
Totaal
100.0
747
100.0
717
100.0
56.8 43.2
362 385
48.5 51.5
357 360
49.8 50.2
A B
21.0 14.2
1 1
<.01 <.01
100.0
747
100.0
717
100.0
63.1 25.0 11.9
497 189 61
66.5 25.3 8.2
467 190 60
65.1 26.5 8.4
A B
10.3 8.7
2 2
<.01 <.05
100.0
747
100.0
717
100.0
86.0 14.0
711 34
95.4 4.6
681 34
95.2 4.8
A B
55.1 50.8
1 1
<.01 <.01
A B
0.0 0.0
1 1
ns ns
Kenmerk
Definitie
Regio
Urbanisatie
Niet – matig Sterk – zeer sterk Totaal
Schooltype
≤ 1.00 1.01 – 1.20 ≥ 1.21
Etniciteit
Nederlands Niet-Nederlands Totaal
100.0
745
100.0
715
100.0
Sekse
Jongen Meisje
50.5 49.5
348 346
50.1 49.9
337 327
50.8 49.3
Totaal
100.0
694
100.0
664
100.0
Totaal
46
Representativiteit leeftijdsgroep 4 Voor leeftijdsgroep 4 zijn twee situaties onderscheiden met steekproefomvangen van respectievelijk 590 en 537 kinderen. In tabel 4.7 worden deze aangeduid met de letters A en B. Het beeld in tabel 4.7 is voor beide situaties in grote lijnen vergelijkbaar met wat we eerder hebben beschreven voor de andere leeftijdsgroepen. De verdeling naar mate van verstedelijking is in leeftijdsgroep 4 echter representatief te noemen. De verdeling in de steekproef wijkt niet significant af van de verdeling in de populatie.
Tabel 4.7
Representativiteitsgegevens normgroep leeftijdscategorie 4 (7.01 – 8.00 jaar) Steekproef 4 NA
%A
NB
%B
2
df
p
Noord Oost West Zuid
10.3 22.8 46.6 20.3
3 219 254 114
0.5 37.1 43.1 19.3
2 217 210 108
0.4 40.4 39.1 20.1
A 110.4 B 131.6
3 3
<.01 <.01
Totaal
100.0
590
100.0
537
100.0
56.8 43.2
317 273
53.7 46.3
297 240
55.3 44.7
A B
2.2 0.4
1 1
ns ns
100.0
590
100.0
537
100.0
63.1 25.0 11.9
391 169 30
66.3 28.6 5.1
345 162 30
64.2 30.2 5.6
A B
27.3 24.0
2 2
<.01 <.01
100.0
590
100.0
537
100.0
86.0 14.0
561 25
95.7 4.3
509 24
95.5 4.5
A B
46.1 39.9
1 1
<.01 <.01
A B
0.5 0.1
1 1
ns ns
Definitie
Regio
Urbanisatie
Niet – matig Sterk – zeer sterk Totaal
Schooltype
≤ 1.00 1.01 – 1.20 ≥ 1.21 Totaal
Etniciteit
Sekse
Toetsing
Populatie
Kenmerk
Nederlands Niet-Nederlands Totaal
100.0
586
100.0
533
100.0
Jongen Meisje
50.5 49.5
288 300
49.0 51.0
273 262
51.0 49.0
Totaal
100.0
588
100.0
535
100.0
47
Representativiteit leeftijdsgroep 5 In de vijfde leeftijdsgroep zijn vanwege het aanvullende onderzoek dat heeft plaatsgevonden bij sommige subtests twee situaties onderscheiden, namelijk de situatie waarin er wél aanvullend onderzoek is verricht (NA = 797) en de situatie waarin er géén aanvullend onderzoek is verricht (NB = 567). De resultaten van de representativiteitsanalyses zijn voor beide situaties weergegeven in tabel 4.8. Beide steekproeven voor leeftijdsgroep 5 laten significante afwijkingen zien van de populatieverdeling voor alle achtergrondvariabelen (p <. 01), met uitzondering van de verdeling naar sekse. Net zoals in de andere leeftijdsgroepen is de verdeling van jongens en meisjes conform de verdeling in de populatie.
Tabel 4.8
Representativiteitsgegevens normgroep leeftijdscategorie 5 (8.01 – 9.00 jaar) Steekproef 5 NA
%A
NB
%B
2
df
p
10.3 22.8 46.6 20.3
---181 285 331
---22.7 35.8 41.5
---165 190 212
---29.1 33.5 37.4
A 280.3 B 171.5
3 3
<.01 <.01
100.0
797
100.0
567
100.0
56.8 43.2
512 285
64.2 35.8
405 162
71.4 28.6
A B
18.1 49.6
1 1
<.01 <.01
100.0
797
100.0
567
100.0
63.1 25.0 11.9
534 232 31
67.0 29.1 3.9
366 177 24
64.6 31.2 4.2
A B
50.5 37.1
2 2
<.01 <.01
100.0
797
100.0
567
100.0
86.0 14.0
758 35
95.6 4.4
537 26
95.4 4.6
A B
60.5 41.2
1 1
<.01 <.01
Totaal
100.0
793
100.0
563
100.0
Jongen Meisje
50.5 49.5
398 397
50.1 49.9
285 280
50.4 49.6
A B
0.1 0.0
1 1
ns ns
Totaal
100.0
795
100.0
565
100.0
Kenmerk
Definitie
Regio
Noord Oost West Zuid Totaal
Urbanisatie
Niet – matig Sterk – zeer sterk Totaal
Schooltype
≤ 1.00 1.01 – 1.20 ≥ 1.21 Totaal
Etniciteit
Sekse
Toetsing
Nederlands Niet-Nederlands
Populatie
48
Representativiteit leeftijdsgroep 6 Voor leeftijdsgroep 6, ten slotte, zijn twee situaties onderscheiden met steekproefomvangen van respectievelijk 729 en 499 kinderen. In tabel 4.9 worden deze aangeduid met A en B. De conclusies voor leerjaar 6 zijn vergelijkbaar met die voor leerjaar 5. In beide situaties laat de steekproef significante afwijkingen zien van de populatieverdeling voor alle achtergrondvariabelen (p <. 01), met uitzondering van de verdeling naar sekse.
Tabel 4.9
Representativiteitsgegevens normgroep leeftijdscategorie 6 (9.01 – 10.00 jaar) Steekproef 6 NA
%
NB
%B
2
df
p
Noord Oost West Zuid
10.3 22.8 46.6 20.3
---168 232 329
---23.1 31.8 45.1
---149 137 213
---29.9 27.5 42.7
A 331.9 B 225.7
3 3
<.01 <.01
Totaal
100.0
729
100.0
499
100.0
56.8 43.2
463 266
63.5 36.5
348 151
69.7 30.3
A B
13.5 34.2
1 1
<.01 <.01
100.0
729
100.0
499
100.0
63.1 25.0 11.9
569 148 12
78.1 20.3 1.7
399 95 5
80.0 19.0 1.0
A B
97.0 79.6
2 2
<.01 <.01
100.0
729
100.0
499
100.0
86.0 14.0
698 28
96.1 3.9
476 20
96.0 4.0
A B
62.0 40.9
1 1
<.01 <.01
A B
0.6 0.6
1 1
ns ns
Definitie
Regio
Urbanisatie
Niet – matig Sterk – zeer sterk Totaal
Schooltype
≤ 1.00 1.01 – 1.20 ≥ 1.21 Totaal
Etniciteit
Sekse
Toetsing
Populatie
Kenmerk
Nederlands Niet-Nederlands Totaal
100.0
726
100.0
496
100.0
Jongen Meisje
50.5 49.5
358 371
49.1 50.9
243 256
48.7 51.3
Totaal
100.0
729
100.0
499
100.0
Samenvattend leveren de representativiteitsanalyses het volgende beeld op: – De normsteekproeven laten een grote onderlinge gelijkenis zien. Dit is niet vreemd als we bedenken dat het grotendeels om kinderen van dezelfde scholen gaat. – De normsteekproeven hebben met elkaar gemeen dat er geen of bijna geen data verzameld zijn in de noordelijke provincies. Ook in andere regio’s zijn er afwijkingen van de populatieverdeling. – Er is in de meeste normsteekproeven sprake van afwijkingen in de verdeling naar mate van verstedelijking. Daarnaast valt te constateren dat in de lagere leeftijdsgroepen (1 tot en met 3) de sterk tot zeer sterk verstedelijkte gebieden oververtegenwoordigd zijn, terwijl in de hogere leeftijdsgroepen (5 en 6) deze gebieden juist ondervertegenwoordigd zijn. In leeftijdsgroep 4 komt de steekproefverdeling naar mate van verstedelijking overeen met de populatieverdeling. – Alleen is leeftijdsgroep 1 is de verdeling naar schooltype in de steekproef in overeenstemming met de populatieverdeling. In alle andere leerjaren zijn de beide schooltypen met hogere gemiddelde formatiegewichten licht ondervertegenwoordigd. In leeftijdsgroep 6 is deze ondervertegenwoordiging tamelijk sterk. – In alle leeftijdsgroepen is de verdeling naar etniciteit in de steekproef afwijkend van de populatieverdeling naar etniciteit. In plaats van de ongeveer 14 procent die we op basis van de
49
–
geschatte populatieverdeling in de steekproeven zouden mogen verwachten, ligt het percentage kinderen van niet-Nederlandse herkomst tussen de 3.9 en 6.4 procent. De ondervertegenwoordiging van niet-Nederlandse kinderen is in de hogere leeftijdsgroepen het sterkst. In alle normsteekproeven is de verdeling naar sekse in overeenstemming met de populatieverdeling. Op dit punt zijn de normsteekproeven dus representatief te noemen.
Het gegeven dat er slechts in beperkte mate kinderen uit de noordelijke provincies in de als landelijk representatief bedoelde normsteekproeven zijn opgenomen is niet bezwaarlijk, omdat niet te verwachten is dat regio op zichzelf een beïnvloedende factor is ten aanzien van de prestaties op het T-TOS, ware het niet dat verdeling naar urbanisatiegraad, schooltype en etniciteit niet onafhankelijk is van de verdeling naar regio. In de verschillende landelijk representatieve peilingsonderzoeken (PPON, JPON) die Cito met enige regelmaat uitvoert is deze samenhang meermalen gebleken (zie bijvoorbeeld de recente peiling van de reken- en taalvaardigheid in 2010; Hemker, Kordes en Van Weerden, 2011). Het ligt dan ook voor de hand dat de afwijkingen van de steekproef naar urbanisatiegraad, schooltype en etniciteit het gevolg zijn van de niet-representatieve verdeling naar regio. Deze afwijkingen lijken systematisch met elkaar samen te hangen: de ondervertegenwoordiging van scholen met hogere gemiddelde formatiegewichten komt overeen met de ondervertegenwoordiging van niet-Nederlandse kinderen en is sterker naarmate de sterk en zeer sterk verstedelijkte gebieden in hogere mate ondervertegenwoordigd zijn. De problemen met de representativiteit zijn op te lossen door statistisch te wegen. Rechtstreeks wegen op de variabele regio is niet mogelijk, omdat er in sommige steekproeven geen – en in andere steekproeven nauwelijks – kinderen uit de noordelijke provincies zijn opgenomen. Daarom is besloten om te wegen op een combinatie van twee variabelen, namelijk urbanisatiegraad en schooltype. In het eerder genoemde peilingsonderzoek is gebleken dat regio-effecten op de scores (in het aangehaalde geval dus reken- en taalvaardigheid) geheel verdwijnen wanneer voor deze twee factoren wordt gecorrigeerd. We mogen aannemen dat de normsteekproeven na weging ook representatief zullen zijn naar etniciteit. Om de weging te realiseren, zijn de variabelen urbanisatiegraad en schooltype gecombineerd tot een nieuwe variabele met 3 2 niveaus met de volgende populatieverdeling: Urbanisatiegraad Niet – matig
Sterk – zeer sterk
4.3
Schooltype ≤ 1.00 1.01 – 1.20 ≥ 1.21 ≤ 1.00 1.01 – 1.20 ≥ 1.21
% in populatie 42.9 12.2 1.6 20.2 12.8 10.3
Vaststelling van de normen
Na afloop van de afname van een subtest uit het T-TOS volgt er een (ongewogen) ruwe score en een indicatie van het niveau van een kind ten opzichte van de representatieve landelijke vergelijkingsgroep. Het relatieve niveau van een kind wordt uitgedrukt in een percentielscore (zie ook hoofdstuk 3 van de testhandleiding). Daarnaast wordt aangegeven of het kind lager scoort dan de grenswaarde die wordt aangehouden bij de indicatiestelling TOS voor cluster 2. In het T-TOS is deze grenswaarde bij elke subtest vastgezet op -1.3 SD onder het reguliere gemiddelde voor die subtest. In paragraaf 6.3 wordt uitgebreid toegelicht waarom deze grenswaarde gehanteerd wordt. Voorafgaand aan het maken van de normtabellen zijn eerst de (ruwe) scoreverdelingen van de kinderen geanalyseerd. In tabel 4.10 worden per subtest een aantal beschrijvende gegevens gerapporteerd. In de tabel wordt bij elke subtest aangegeven hoeveel kinderen er in de analyses meegenomen zijn en wat de maximale score was die kinderen konden behalen. De maximale score komt overeen met het aantal items in de subtest. De ruwe score voor een kind is gelijk aan het aantal correcte antwoorden. Bij de subtests met een afbreeknorm heeft er echter een correctie plaatsgevonden voor het “niet-gemaakte” deel (zie hoofdstuk 3). Daarnaast is in tabel 4.10 een aantal
50
kenmerken opgenomen met betrekking tot de verdeling van de ruwe scores zoals het gemiddelde, de standaarddeviatie, de kurtosis en de skewness. Ook de grenswaarde voor de indicatiestelling is in de tabel opgenomen.
Tabel 4.10
Beschrijvende gegevens per subtest Leeftijdsgroep
Kenmerk
1
2
3
4
5
6
1.1 Auditieve discriminatie 438 N Maximum 30 Gemiddelde 16.97 4.04 SD Kurtosis 0.10 Skewness 0.05 Grenswaarde 12
616 30 20.31 5.07 -0.87 -0.31 14
741 30 23.1 4.21 0.61 -0.95 18
551 30 24.48 3.65 0.53 -0.90 20
----------------------
----------------------
1.2 Woordherkenning N Maximum Gemiddelde SD Kurtosis Skewness Grenswaarde
612 37 23.62 6.07 0.97 -0.65 16
717 37 26.28 4.89 0.81 -0.52 20
557 37 28.97 5.08 0.47 -0.76 23
779 37 30.62 4.01 3.55 -1.24 26
715 37 31.95 3.46 2.18 -1.19 28
440 12 4.17 1.34 2.19 0.53 3
616 12 4.90 1.33 0.05 0.16 4
745 12 5.59 1.52 0.27 0.47 4
590 12 5.88 1.50 0.07 0.51 4
797 12 6.37 1.63 0.66 0.37 5
728 12 6.67 1.74 0.31 0.41 5
2.1 Woordrepetitie N Maximum Gemiddelde SD Kurtosis Skewness Grenswaarde
428 25 17.35 5.82 -0.03 -0.80 10
612 25 21.30 4.22 2.98 -1.75 16
----------------------
----------------------
----------------------
----------------------
2.2 Pseudowoordrepetitie N Maximum Gemiddelde SD Kurtosis Skewness Grenswaarde
428 30 15.83 6.58 -0.33 -0.38 8
612 30 19.31 6.56 0.20 -0.82 11
717 30 22.02 4.88 0.05 -0.65 16
557 30 23.31 4.10 1.73 -0.90 18
782 30 24.75 4.41 5.73 -1.80 20
715 30 25.66 3.96 13.30 -2.80 21
2.3 Diadochokinese N Maximum Gemiddelde SD Kurtosis Skewness Grenswaarde
428 23 8.95 6.19 -1.25 -0.02 1
612 23 13.85 5.56 -0.23 -0.68 7
717 23 16.23 4.51 0.78 -0.91 11
560 23 17.23 3.80 1.92 -1.13 13
782 23 18.67 3.94 3.37 -1.64 14
714 23 19.53 2.89 3.17 -1.34 16
428 37 18.27 5.96 0.09 -0.12 11
1.3 Onthouden van woorden N Maximum Gemiddelde SD Kurtosis Skewness Grenswaarde
51
Tabel 4.10
Vervolg Leeftijdsgroep
Kenmerk
1
2
3
4
5
6
438 33 18.03 5.50 -0.59 -0.05 11
616 33 24.84 4.38 -0.24 -0.63 20
744 33 27.77 3.35 3.22 -1.41 24
552 33 28.68 3.78 21.27 -3.61 24
----------------------
----------------------
----------------------
----------------------
----------------------
----------------------
780 55 41.03 6.73 0.40 -0.73 33
706 55 43.94 5.61 0.58 -0.71 37
3.3 Woordvorming N Maximum Gemiddelde SD Kurtosis Skewness Grenswaarde
440 36 14.19 6.25 -0.25 -0.44 7
617 36 18.96 5.67 0.16 -0.29 12
746 36 23.91 5.06 0.89 -0.40 18
586 36 27.22 4.98 3.14 -1.32 21
797 36 30.19 3.99 2.83 -1.12 26
729 36 32.55 3.27 7.05 -1.96 29
3.4 Onthouden van zinnen N Maximum Gemiddelde SD Kurtosis Skewness Grenswaarde
440 12 4.46 2.52 -0.37 0.28 2
616 12 5.64 2.74 -0.67 0.21 3
745 12 7.26 2.80 -0.46 -0.34 4
590 12 7.92 2.99 0.01 -0.71 5
797 12 9.18 2.51 0.68 -0.98 6
728 12 9.84 2.25 1.22 -1.23 7
4.1 Receptieve woordenschat 438 N Maximum 64 Gemiddelde 18.92 8.98 SD Kurtosis -0.26 Skewness 0.41 Grenswaarde 8
616 64 29.49 9.99 -0.44 -0.44 17
744 64 36.54 9.29 0.61 -0.73 25
548 64 42.89 8.45 2.25 -1.25 32
577 64 47.85 7.42 4.90 -1.65 39
713 64 50.75 7.05 3.71 -1.59 42
4.2 Impliciete betekenis N Maximum Gemiddelde SD Kurtosis Skewness Grenswaarde
438 34 17.48 5.91 -0.34 -0.03 10
616 34 24.44 5.07 0.22 -0.61 18
743 34 28.34 4.15 4.99 -1.74 23
537 34 29.61 4.43 9.80 -2.70 24
567 34 30.98 3.20 24.53 -4.04 27
499 34 31.55 2.20 27.20 -3.58 29
4.3 Productieve woordenschat 440 N Maximum 60 Gemiddelde 16.67 6.41 SD Kurtosis -0.07 Skewness 0.15 Grenswaarde 9
617 60 22.36 6.63 -0.14 -0.22 14
747 60 28.55 7.68 0.49 -0.02 19
578 60 34.72 8.76 0.28 -0.43 24
587 60 37.65 7.93 1.30 -0.67 28
727 60 40.82 8.37 0.63 -0.82 30
3.1 Receptieve zinsbouw N Maximum Gemiddelde SD Kurtosis Skewness Grenswaarde 3.2 Grammaticabeoordeling N Maximum Gemiddelde SD Kurtosis Skewness Grenswaarde
52
Tabel 4.10 laat goed zien dat de gemiddelden bij elke subtest monotoon oplopen over de onderscheiden leeftijdsgroepen. De scheefheid van de verdeling loopt daaraan parallel. Deze was nergens – dus ook niet voor de laagste en de hoogste leeftijdsgroepen – zodanig dat de betreffende subtest voor die leeftijdsgroep als ongeschikt aangemerkt zou kunnen worden. Waar dit wel het geval was, is de subtest voor die leeftijdsgroep niet genormeerd. Als de normering ontbreekt, betekent dit praktisch gezien dat de subtest ook niet in die leeftijdsgroep kan worden afgenomen. Zoals al eerder aangegeven gaat het om de subtests Auditieve discriminatie (alleen leeftijdsgroepen 1 tot en met 4), Woordrepetitie (alleen leeftijdsgroep 1 en 2), Receptieve zinsbouw (alleen leeftijdsgroepen 1 tot en met 4), en Grammaticabeoordeling (alleen leeftijdsgroep 5 en 6). Bij een aantal subtests is een afbreekregel toegepast om te voorkomen dat jonge en/of zwakke kinderen een overdaad aan te moeilijke – dus frustrerende en ontmoedigende – items krijgen voorgeschoteld (zie ook hoofdstuk 2). De gegevens in tabel 4.10 voorzien al wel in een absolute normering (d.w.z. de grenswaarde voor de indicatiestelling), maar nog niet een relatieve normering. Bij de constructie van (relatieve) normtabellen zijn er twee mogelijkheden. Een eerste mogelijkheid is om bij het bepalen van de percentielen uit te gaan van de scoreverdelingen zoals deze ook daadwerkelijk geobserveerd zijn. Een alternatief is om de percentielen per subtest te bepalen onder de aanname van een normale verdeling met de gemiddelden en standaarddeviaties zoals deze zijn weergegeven in tabel 4.10. Bij het T-TOS is gekozen voor de eerste optie, omdat de gegevens met betrekking tot de kurtosis en de skewness duidelijk laten zien dat de aanname van een normale verdeling in lang niet alle gevallen verdedigbaar is. Het is weinig zinvol om voor alle subtests en alle leeftijdsgroepen de precieze normtabel te laten zien. Deze tabellen zijn opgenomen in het computerprogramma dat bij het T-TOS hoort. Figuur 4.1 laat wel per subtest uit het domein Spraak de cumulatieve frequentieverdelingen zien. Ter illustratie zijn ook de corresponderende frequentieverdelingen (in het grijs) weergegeven onder de aanname van normaliteit. Figuur 4.2 bevat dezelfde informatie, maar dan voor de subtests uit het domein Taal. Er is geen legenda opgenomen, omdat we uit tabel 4.10 weten dat de gemiddelden oplopen in de tijd. De verdeling voor de jongste kinderen staat dus links in elke figuur en de verdeling voor de oudste kinderen rechts.
53
Figuur 4.1
Cumulatieve frequentieverdelingen voor de subtests binnen het domein Spraak Auditieve discriminatie (AD)
100
90 Cumulatieve frequentie (%)
Cumulatieve frequentie (%)
90 80 70 60 50 40 30 20
70 60 50 40 30 20 0
0
5 10 15 20 25 (Gecorrigeerde) ruwe score
0
30
Onthouden van woorden (OW)
100
5
10 15 20 25 30 35 (Gecorrigeerde) ruwe score
40
Woordrepetitie (WR)
100 90 Cumulatieve frequentie (%)
90 Cumulatieve frequentie (%)
80
10
10 0
80 70 60 50 40 30 20 10
80 70 60 50 40 30 20 10
0
0 0
2 4 6 8 (Gecorrigeerde) ruwe score
10
0
Pseudowoordrepetitie (PR)
100
5 10 15 20 (Gecorrigeerde) ruwe score
25
Diadochokinese (DC)
100 90 Cumulatieve frequentie (%)
90 Cumulatieve frequentie (%)
Woordherkenning (WH)
100
80 70 60 50 40 30 20 10
80 70 60 50 40 30 20 10
0
0 0
5 10 15 20 25 (Gecorrigeerde) ruwe score
30
0
54
5 10 15 20 (Gecorrigeerde) ruwe score
25
Figuur 4.2
Cumulatieve frequentieverdelingen voor de subtests binnen het domein Taal Receptieve zinsbouw (RZ)
100
Cumulatieve frequentie (%)
Cumulatieve frequentie (%)
90 80 70 60 50 40 30 20 10 0
5
10 15 20 25 30 (Gecorrigeerde) ruwe score
80 70 60 50 40 30 20 10 0
35
Woordvorming (WV)
100
10 20 30 40 50 (Gecorrigeerde) ruwe score Onthouden van zinnen (OZ)
100 90 Cumulatieve frequentie (%)
90 Cumulatieve frequentie (%)
90
0
0
80 70 60 50 40 30 20 10
80 70 60 50 40 30 20 10
0
0 0
5
10 15 20 25 30 35 (Gecorrigeerde) ruwe score
40
0
Receptieve woordenschat (RW)
100
2 4 6 8 10 (Gecorrigeerde) ruwe score
12
Impliciete betekenis (IB)
100 90 Cumulatieve frequentie (%)
90 Cumulatieve frequentie (%)
Grammaticabeoordeling (GB)
100
80 70 60 50 40 30 20 10
80 70 60 50 40 30 20 10
0
0 0
15 30 45 (Gecorrigeerde) ruwe score
60
0
55
5
10 15 20 25 30 (Gecorrigeerde) ruwe score
35
Figuur 4.2
Vervolg Productieve woordenschat (PW)
100 Cumulatieve frequentie (%)
90 80 70 60 50 40 30 20 10 0 0
10 20 30 40 50 (Gecorrigeerde) ruwe score
60
Op basis van Figuur 4.1 en 4.2 is in principe voor elke score de bijbehorende percentiele rang af te leiden. In de figuur voor Productieve woordenschat zien we bijvoorbeeld dat bij een score van 20 een percentiele rang hoort van 73 als het kind in leeftijdsgroep 1 valt. Als het kind in de derde leeftijdsgroep valt is de percentiele rang gelijk aan 12. Voor alle andere scores en subtests zijn de percentielen op dezelfde wijze te bepalen. In de testhandleiding wordt toegelicht wat de “percentielscore” precies betekent (zie hoofdstuk 3). In de toelichting wordt benadrukt dat het aantal percentielpunten dat maximaal onderscheiden kan worden, gelijk is aan het aantal scorepunten in de test. Bij korte tests (bijvoorbeeld bij Onthouden van woorden) is het aantal percentielpunten dat onderscheiden kan worden dus erg beperkt. Er wordt in de testhandleiding uitgelegd hoe de gebruiker op basis van de percentiele rangen die gerapporteerd worden tot een “grovere” indeling (bijvoorbeeld decielen of kwintielen) in niveaus kan komen. In Figuur 4.1 en 4.2 kunnen we tevens zien dat de verschillen in gemiddelde vaardigheid aan het begin van de basisschoolperiode tamelijk groot zijn. De verschillen in vaardigheid nemen af als kinderen ouder worden. In situaties waarin een test bedoeld is voor alle kinderen in bijvoorbeeld groep 4 of 5, kan het patroon in gemiddelden dat we bij sommige subtests zien als onwenselijk beschouwd worden. Er is bij sommige subtests immers duidelijk sprake van een plafondeffect (bijvoorbeeld bij Impliciete betekenis). In die gevallen kan het problematisch zijn om de relatief vaardige kinderen van andere relatief vaardige kinderen te onderscheiden. Bij het T-TOS vormen de kleine verschillen in gemiddelden die we zien in de hogere leeftijdsgroepen geen probleem. Het T-TOS is namelijk bedoeld om de kinderen met taalontwikkelingsstoornissen te scheiden van andere (vaak zwakkere) kinderen. Het is geenszins de bedoeling om het T-TOS bij alle kinderen in het reguliere onderwijs af te nemen. Dat het T-TOS zeer goed in staat is om de kinderen mét TOS te scheiden van de kinderen zónder TOS wordt duidelijk in paragraaf 6.3.
56
5
Betrouwbaarheid
5.1
Werkwijze
Het T-TOS heeft twee functies. In de eerste plaats is het T-TOS bedoeld voor het verrichten van onderzoek naar onderkennende hypothesen met betrekking tot taalontwikkelingsstoornissen. De uitkomsten van het onderzoek voorzien in een basis voor het nemen van beslissingen over de toekenning van leerlinggebonden financiering of plaatsing in het speciaal onderwijs. Daarnaast kan het T-TOS ingezet worden in het perspectief van handelingsgerichte diagnostiek en/of voortgangscontrole. Beide functies vragen om een andere analyse en beoordeling van de betrouwbaarheid. Bij de eerste functie gaat het om belangrijke beslissingen op het individuele niveau op basis van een complete testafname. Bij de tweede functie gaat het om minder belangrijke beslissingen op het individuele niveau, mogelijk op basis van één enkele subtest of een selectie van subtests. De eisen die aan de betrouwbaarheid gesteld mogen worden, zijn in het eerste geval hoger dan in het tweede geval (cf. Evers, Lucassen, Meijer & Sijtsma, 2010). In dit hoofdstuk gaan we eerst in op de betrouwbaarheid van de afzonderlijke subtests. Op basis van deze schattingen van de betrouwbaarheid maken we vervolgens een schatting van de betrouwbaarheid als de gebruiker besluit om een selectie van subtests af te nemen ter beantwoording van specifieke handelingsgerichte (of diagnostische) vraagstellingen. Ten slotte kijken we naar de betrouwbaarheid als het T-TOS compleet wordt afgenomen. Bedenk hierbij dat het T-TOS in de praktijk vrijwel altijd compleet wordt afgenomen, omdat de testgebruiker alleen in dat geval een volledig diagnostisch spraak-/taalprofiel voor een kind verkrijgt en er alleen op basis van dat profiel een gefundeerde beslissing genomen kan worden over de wenselijkheid van een eventuele doorgeleiding naar het speciaal onderwijs.
5.2
Meetnauwkeurigheid per subtest
Het T-TOS bevat 13 verschillende subtests. Zoals duidelijk wordt in hoofdstuk 2 en 3 zijn niet alle subtests op dezelfde wijze geanalyseerd. De subtests waarbij dezelfde items door alle kinderen gemaakt worden, zijn geanalyseerd binnen het raamwerk van de klassieke testtheorie (zie bijvoorbeeld, Gulliksen, 1950; Lord & Novick, 1968; Crocker & Algina, 1986). Concreet gaat het om de volgende subtests: Auditieve discriminatie, Diadochokinese, Receptieve zinsbouw, Grammaticabeoordeling, Woordvorming en Impliciete betekenis. De greatest lower bound – ofwel de GLB – is gebruikt als maat voor de betrouwbaarheid bij deze subtests. Er is gekozen voor de GLB, omdat deze maat een minder sterke onderschatting geeft van de betrouwbaarheid dan Cronbach’s alpha (Ten Berge & Sočan, 2004). Ook bij de subtests Onthouden van woorden en Onthouden van zinnen is de GLB gebruikt als maat voor de betrouwbaarheid. De subtests waarbij er sprake is van een afbreekregel zijn binnen het raamwerk van de item respons theorie geanalyseerd (zie bijvoorbeeld, Swaminathan, Rogers & Hambleton, 1991; Embretson & Reise, 2000; van der Linden & Hambleton, 1997). Het gaat om de volgende subtests: Woordherkenning, Woordrepetitie, Pseudowoordrepetitie, Receptieve woordenschat en Productieve woordenschat. De betrouwbaarheid van deze subtests is bepaald via de schattingsprocedure die is voorgesteld door Keuning & Eggen (in voorbereiding). In de procedure die Keuning & Eggen (in voorbereiding) voorstellen wordt de betrouwbaarheid afgeleid uit de standaardfouten van de ruwe scores (of het aantal goede antwoorden) die kinderen zouden kunnen behalen gegeven de items en de afbreekregel. Er wordt vanuit gegaan dat items gekalibreerd zijn met het One-Parameter Logistic Model. Zowel het model zoals dat oorspronkelijk is voorgesteld door Rasch (1960) als de “uitgebreidere” variant van dit model met discriminatiewaarden die geïmputeerd worden als bekende constanten (Verhelst & Glas, 1995) komt in aanmerking.
57
Gegeven de parameters voor alle k items wordt de kans op het correct maken van item i bij score r gegeven door (zie ook eerder in hoofdstuk 3):
P( X i 1 r ) Pi (r )
i r(i )a ( E0 ) . r ( E0 ) i
De standaardfout voor score r wordt vervolgens gegeven door (cf. Thissen, 2000): k
SE ( r )
a i 1
ck
2 i
a i 1
Pi ( r ) Qi ( r ) , waar
2 i
Qi ( r ) 1 Pi ( r )
Pi ( r ) Qi ( r )
Zoals we kunnen zien worden alle k items meegenomen in de teller. In de noemer worden alleen de items meegenomen die ook daadwerkelijk aan het kind zijn voorgelegd. Figuur 5.1 laat bij verschillende testlengtes van een fictieve test de standaardfout zien voor elke mogelijke score die behaald kan worden. De rode lijn geeft de standaardfout weer als de gehele test met 34 items zou worden afgenomen. De grijze stippellijnen geven de standaardfout weer voor elke mogelijke testlengte c (d.w.z. het aantal items dat is afgenomen voordat de test werd afgebroken), en de zwarte lijnen geven de standaardfouten weer voor de scores die in de praktijk behaald kunnen worden gegeven de testlengte en de afbreekregel. We zien dat de standaardfout groter wordt naarmate er minder items aan het kind worden voorgelegd. Daarnaast zien we dat het voor de standaardfout uitmaakt hoeveel fouten een kind heeft gemaakt voordat de test wordt afgebroken. In het voorbeeld in Figuur 5.1 zijn de standaardfouten het grootst als kinderen eerst alle items correct maken en dan 5 opeenvolgende fouten maken (de overgang van de zwarte lijn naar de grijze stippellijn). Een schatting van de betrouwbaarheid kan op de volgende manier uit de standaardfouten verkregen worden: R 1
2
SE ( r ) , waar 1 SD ( r )
SE ( r )
w SE (r ) r 1
2
r
R 1
w r 1
,
r
wat het gewogen gemiddelde van de maximale standaardfouten voor elke mogelijke testlengte is gegeven de geobserveerde ruwe score voor elk kind op elk scorepunt, wr. De schattingsmethode geeft een ondergrens voor de betrouwbaarheid, omdat de methode expliciet veronderstelt dat kinderen geen enkele fout maken voordat de afbreekregel in werking treedt. Als we de betrouwbaarheid uitrekenen op basis van de rode lijn in Figuur 5.1 verkrijgen we een (soort) bovengrens voor betrouwbaarheid. De interpretatie van de betrouwbaarheidscoëfficiënt is identiek aan de interpretatie van Cronbach’s alpha.
58
Figuur 5.1
Standaardfouten bij een fictieve test met 34 items en een afbreekregel van 5
Tabel 5.1 vermeldt de betrouwbaarheden van de verschillende subtests in het T-TOS. Zoals al eerder aangegeven zijn de cijfers niet in alle gevallen op dezelfde wijze tot stand gekomen. De berekeningswijze is afhankelijk van het karakter van de subtest en de vraag of er al dan niet sprake is van een afbreekregel. De cijfers in tabel 5.1 kunnen wel allemaal opgevat worden als een ondergrens voor de betrouwbaarheid van een subtest in een bepaalde leeftijdsgroep. Wanneer we conclusies willen verbinden aan de betrouwbaarheden moet rekening gehouden worden met het gebruiksdoel van de test. Voor het T-TOS geldt dat een testafname zich slechts in zeer incidentele gevallen zal beperken tot één enkele subtest (zie paragraaf 5.1). Het zal dan gaan om minder belangrijke beslissingen op individueel niveau. Een betrouwbaarheid .80 kan in dat geval beschouwd worden als goed. Een betrouwbaarheid van < .70 wordt in de regel als onvoldoende aangemerkt (cf. Evers, Lucassen, Meijer & Sijtsma, 2010). We zien in tabel 5.1 dat de subtest Impliciete betekenis niet in staat is om de kinderen in de hoogste leeftijdsgroep betrouwbaar te meten ( = .59). Dit komt doordat deze subtests zeer gemakkelijk is (p > .90, zie ook tabel 4.10) voor oudere kinderen en de variantie daardoor erg klein is in vergelijking met de andere leeftijdsgroepen. In klinisch opzicht is het echter van belang te kunnen nagaan in hoeverre oudere kinderen met een taalontwikkelingsstoornis (groep 5 en 6) de (hoge) normscore weten te behalen. Daarnaast valt de betrouwbaarheid van de subtest Onthouden van woorden enigszins tegen. Dit heeft te maken met een restriction of range die in de normaalpopulatie van atypische kinderen op dit onderdeel van auditief geheugen voorkomt. Bij volwassenen wordt doorgaans het 7 plus of min 2-principe aangehouden (Miller, 1956). Dit principe houdt in dat het kortetermijngeheugen slechts 5 tot 9 eenheden tegelijk kan verwerken. Als gevolg van deze variatiebeperking valt de betrouwbaarheid bij tests die het geheugenspan meten vaak lager uit. De betrouwbaarheid van de andere subtests is in vrijwel alle gevallen goed te noemen. Dit betekent dat het de afzonderlijke subtests prima te gebruiken zijn in het perspectief van handelingsgerichte diagnostiek of voortgangscontrole.
59
Tabel 5.1 Betrouwbaarheid van de 13 subtests in het T-TOS Leeftijdsgroep Domein Subdomein
Subtest
Spraak
Auditieve verwerking
Taal
1
2
3
4
5
6
Auditieve discriminatie Woordherkenning Onthouden van woorden1
.82 .79 .76
.83 .84 .65
.81 .78 .69
.82 .83 .70
---.78 .72
---.75 .74
Spraakproductie
Woordrepetitie Pseudowoordrepetitie Diadochokinese
.88 .87 .91
.84 .89 .89
---.82 .84
---.77 .79
---.83 .83
---.82 .72
Grammatica
Receptieve zinsbouw Grammaticabeoordeling Woordvorming Onthouden van zinnen
.82 ---.90 .89
.78 ---.87 .88
.72 ---.85 .87
.82 ---.87 .90
---.92 .83 .86
---.89 .81 .86
Lexicon en semantiek
Receptieve woordenschat Impliciete betekenis2 Productieve woordenschat
.87 .83 .82
.89 .81 .80
.89 .80 .84
.88 .86 .88
.87 .79 .86
.88 .59 .89
Noot 1: Het kortetermijngeheugen kan bij de meeste volwassenen 5 tot 9 eenheden verwerken. Dit heeft tot gevolg dat er bij deze subtest sprake is van een restriction of range. Noot 2: Deze subtest is zeer gemakkelijk voor oudere kinderen. In feite gaat het in de hogere leerjaren om een beheersingstest, waarbij het de vraag is of kinderen met TOS in staat zijn om de hoge normscore te behalen.
Bij de subtests met een afbreekregel is de betrouwbaarheidscoëfficiënt gebaseerd op de standaardfouten bij verschillende punten op de scoreschaal. In figuur 5.2 kunnen we per subtest zien hoe de standaardfout afhangt van het aantal gemaakte items en het aantal fouten dat het kind maakt voordat de testafname wordt afgebroken. Dus waar tabel 5.1 inzicht geeft in de “globale” meetnauwkeurigheid van een subtest laat figuur 5.2 zien hoe nauwkeurig de subtests lokaal meten. We zien dat het voor de maximale standaardfout voor een bepaald scorepunt nogal uitmaakt hoe de afbreekregel gekozen wordt. In de regel geldt dat de standaardfout groter wordt (en de betrouwbaarheid afneemt) als een testafname sneller beëindigd wordt. Het is daarom uitermate belangrijk om bij het formuleren van een afbreekregel niet alleen inhoudelijke argumenten, maar ook statistische argumenten mee te wegen.
60
Figuur 5.2
Lokale meetnauwkeurigheid van de subtests met een afbreekregel Woordrepetitie (WR)
Woordherkenning (WH)
Receptieve woordenschat (RW)
Pseudowoordrepetitie (PR)
Productieve woordenschat (PW)
61
5.3
Meetnauwkeurigheid per subdomein
De OCW-richtlijnen zoals die nader zijn uitgewerkt in Resing, Evers, Koomen, Pameijer & Bleichrodt (2008) en zoals die zijn ingebouwd in het T-TOS (zie paragraaf 6.3) geven aan dat de stoornis per domein of factor moet worden vastgesteld “met behulp van twee daartoe geschikte subtests (…) om enerzijds het meetbereik van de te meten stoornis zo breed mogelijk te houden en anderzijds meer zekerheid te verkrijgen over de betrouwbaarheid van de diagnose”. Een beslissing over de vraag of een bepaalde spraak- en/of taalstoornis aanwezig is bij een kind zal in de praktijk dus altijd gebaseerd zijn op de afname van ten minste twee subtests. De betrouwbaarheid van verschillende combinaties van subtests in vrij eenvoudig te bepalen. Als we veronderstellen dat de foutenvarianties tussen de verschillende subtests lineair onafhankelijk zijn, dan wordt de composite betrouwbaarheid gegeven door (Feldt & Brennan, 1989; Thissen & Wainer, 2001; Webb et al., 2007): n
n
1 1 2 c, e 2 c
wi2 e2, X i i 1
n
n
wi2 X2 i i 1
n
n
n
ww
w
ww
i 1
2 i
2 Xi
i 1 j ( i ) 1 n n
wi w j X i , X j
1
i 1 j ( i ) 1
wi2 i X2 i i 1 n
n
i 1 j ( i ) 1
i
i
j
j
X X
i, j
i
w (1 ) 2 i
i 1
n
n
wi2 X2 i i 1
i
n
2 Xi
ww
i 1 j ( i ) 1
i
j
X X
i, j
i
j
j
,
X X
i, j
i
j
waarin:
i
= de betrouwbaarheid van subtest i;
2 Xi
2 e, X i
= de variantie van subtest i;
X ,X i
i, j
= de foutenvariantie van subtest i; j
= de covariantie tussen subtest i subtest j;
= de correlatie tussen subtest i en subtest j;
c2 = de variantie van de composite scores;
c2, e
= de foutenvariantie van de composite scores.
We zien dat de composite betrouwbaarheid bepaald wordt op basis van de gewichten, wi, die we toekennen aan elke subtest, de betrouwbaarheidsschattingen en varianties voor de afzonderlijke subtests, en de correlaties tussen de subtests. Tabel 5.2 bevat alle mogelijke composite betrouwbaarheden voor leeftijdsgroep 1 als we aannemen dat de testgebruiker twee subtests binnen een domein afneemt. Tabel 5.3 bevat dezelfde informatie, maar dan voor leeftijdsgroep 6. De composite betrouwbaarheden voor de overige leeftijdsgroepen worden hier niet vermeld, omdat deze vergelijkbaar waren met de composite betrouwbaarheden voor leeftijdsgroepen 1 en 6. De correlaties tussen de verschillende subtests staan vermeld in tabel 6.4. De varianties voor elke subtest zijn af te leiden uit tabel 4.10.
62
Tabel 5.2
Composite betrouwbaarheden voor combinaties van 2 subtests in leeftijdsgroep 1
Domein Subdomein
Subtest
Volgnummer
1
2
3
Spraak
Auditieve discriminatie Woordherkenning Onthouden van woorden
1 2 3
---.86 .85
---.82
----
Woordrepetitie Pseudowoordrepetitie Diadochokinese
1 2 3
---.93 .94
---.93
----
Receptieve zinsbouw Woordvorming Onthouden van zinnen
1 2 3
---.92 .88
---.93
----
Receptieve woordenschat Impliciete betekenis Productieve woordenschat
1 2 3
---.92 .92
---.89
----
Auditieve verwerking
Spraakproductie
Taal
Grammatica
Lexicon en semantiek
Tabel 5.3
Composite betrouwbaarheden voor combinaties van 2 subtests in leeftijdsgroep 6
Domein Subdomein
Subtest
Spraak
Auditieve verwerking
Spraakproductie
Taal
Grammatica
Lexicon en semantiek
Volgnummer
1
2
3
Woordherkenning Onthouden van woorden
1 2
---.82
----
Pseudowoordrepetitie Diadochokinese
1 2
---.87
----
Grammaticabeoordeling Woordvorming Onthouden van zinnen
1 2 3
---.93 .92
---.89
----
Receptieve woordenschat Impliciete betekenis Productieve woordenschat
1 2 3
---.90 .94
---.90
----
Bij de interpretatie van de betrouwbaarheidscoëfficiënten uit tabel 5.2 en 5.3 moeten we net als eerder uitgaan van de richtlijnen die Evers et al. (2010) geven bij tests die bedoeld zijn voor het nemen van minder belangrijke beslissingen op individueel niveau. Een onderzoek dat zich beperkt tot één enkel subdomein geeft op zichzelf immers nog geen aanleiding om te beslissen of een kind in aanmerking komt voor leerlinggebonden financiering of plaatsing in het speciaal onderwijs. Dit betekent dat de betrouwbaarheid bij afname van alle mogelijke combinaties van twee subtests goed te noemen is. Op basis van twee subtests binnen hetzelfde subdomein in het T-TOS is het dus zonder meer mogelijk om te bepalen of een bepaalde spraak- en/of taalstoornis aanwezig is bij een kind. In de praktijk kan echter ook besloten worden om niet twee, maar alle subtests (maximaal 3, zie tabel 5.1) uit een bepaald subdomein bij een kind af te nemen. Zoals verwacht mocht worden blijkt uit tabel 5.4 dat stoornissen op het gebied van Auditieve verwerking, Spraakproductie, Grammatica of Lexicon en semantiek met een nog grotere betrouwbaarheid vastgesteld kunnen worden als niet twee, maar alle subtests worden afgenomen.
63
Tabel 5.4
Composite betrouwbaarheden bij afname van alle subtests in een subdomein Leeftijdsgroep
Domein
Subdomein
Spraak
Auditieve verwerking Spraakproductie Grammatica Lexicon en semantiek
Taal
5.4
1
2
3
4
5
6
.88 .95 .94 .94
.90 .95 .93 .94
.88 .90 .92 .94
.90 .87 .94 .95
.83 .90 .95 .94
.82 .87 .94 .94
Accuraatheid van de signaleringsprocedure
Het diagnostische onderzoek per subdomein kan aanleiding geven om een kind door te geleiden naar het speciaal onderwijs. Het uitgangspunt voor kinderen met taalontwikkelingsstoornissen is dat het bestaan van de spraak- en/of taalstoornis niet toe te schrijven mag zijn aan een beperkt niveau van cognitief functioneren. Het T-TOS sluit aan bij de richtlijnen van Resing, Evers, Koomen, Pameijer en Bleichrodt (2005) die stellen dat opvang van een kind in cluster 2 dringend gewenst is indien een kind op minimaal twee spraak- of taalindicatoren “zeer zwak” presteert. In paragraaf 6.3 wordt – mede op basis van empirisch onderzoek – gedetailleerd uitgelegd wanneer een kind in aanmerking zou moeten komen voor een doorgeleiding naar cluster 2. Het is essentieel dat het T-TOS in combinatie met de indicatiecriteria die in paragraaf 6.3 beschreven worden, voorziet in een accurate signalering van kinderen met TOS. In paragraaf 5.2 en 5.3 hebben we reeds gezien dat de subtests voldoende betrouwbaar meten in het perspectief van handelingsgerichte diagnostiek of voortgangscontrole. Het is echter nog niet duidelijk hoe betrouwbaar de “eindbeslissing” is die genomen wordt op basis van de resultaten van de verschillende deelonderzoeken per subdomein. Aan de betrouwbaarheid van de eindbeslissing moeten hogere eisen gesteld worden, omdat het dan gaat om belangrijke beslissingen op het individuele niveau. Een betrouwbaarheid .90 kan in dat geval beschouwd worden als goed. Een betrouwbaarheid van < .80 wordt in de regel als onvoldoende aangemerkt (cf. Evers, Lucassen, Meijer & Sijtsma, 2010). De betrouwbaarheid van de signaleringsprocedure (of de “eindbeslissing”) kan op twee manieren onderzocht worden. Een eerste mogelijkheid is om de composite betrouwbaarheid in kaart te brengen voor verschillende combinaties van 2 2 4 subtests. Deze aanpak is echter problematisch, omdat er enorm veel mogelijke combinaties van twee subtests binnen ten minste twee subdomeinen zijn. In feite is de enige haalbare optie om per leeftijdsgroep de composite betrouwbaarheid te berekenen voor de “minst gunstige” combinatie van subtests. Op deze manier verkrijgen we een soort “ondergrens” voor de betrouwbaarheid van de signaleringsprocedure. We mogen immers verwachten dat de betrouwbaarheid van de signalering toeneemt als we betrouwbaardere subtests inzetten. Omdat eerdere analyses hebben laten zien dat ook combinaties van twee subtests tot voldoende betrouwbare beslissingen leiden (zie tabel 5.2 en 5.3), is deze aanpak als weinig informatief gezien. Bij afname van ten minste vier subtests zal de betrouwbaarheid immers eerder hoger dan lager zijn. Een alternatief is om de betrouwbaarheid van de signaleringsprocedure in kaart te brengen door te kijken naar het percentage gelijke beslissingen bij (gesimuleerde) herhaalde metingen. Bij het T-TOS is voor deze optie gekozen. Concreet zijn op basis van de echte scores voor de kinderen en de bijbehorende standaardfouten 1000 metingen op 13 subtests gesimuleerd voor elk individueel kind. De gemiddelden, standaarddeviaties en standaardfouten die gebruikt zijn in de simulatie staan in tabel 5.5. Vervolgens is voor alle kinderen bij alle gesimuleerde metingen bepaald wat de “eindbeslissing” zou zijn geweest. Op basis van de tabel met alle beslissingen is bepaald in hoeveel gevallen een herhaalde meting leidt tot eenzelfde beslissing (d.w.z., wel/geen TOS-indicatie). Tabel 5.6 geeft de belangrijkste resultaten.
64
Tabel 5.5
Gemiddelden, standaarddeviaties en standaardfouten per subtest uitgesplitst naar leeftijdsgroep Subtest (zie figuur 4.1 en 4.2 voor de betekenis van de afkortingen)
Tijd
AD
WH
OW
WR
PR
DC
M
1 2 3 4 5 6
16.97 20.31 23.10 24.48 -------
18.27 23.62 26.28 28.97 30.62 31.95
4.17 4.90 5.59 5.88 6.37 6.67
17.35 21.30 -------------
15.83 19.31 22.02 23.31 24.75 25.66
8.95 13.85 16.23 17.23 18.67 19.53
SD
1 2 3 4 5 6
4.04 5.07 4.21 3.65 -------
5.96 6.07 4.89 5.08 4.01 3.46
1.34 1.33 1.52 1.50 1.63 1.74
5.82 4.22 -------------
6.58 6.56 4.88 4.10 4.41 3.96
SE
1 2 3 4 5 6
1.71 2.09 1.84 1.55 -------
2.73 2.43 2.29 2.09 1.88 1.73
0.66 0.79 0.85 0.82 0.86 0.89
2.02 1.69 -------------
2.37 2.18 2.07 1.97 1.82 1.68
RZ
GB
WV
OZ
RW
IB
PW
18.03 ---14.19 24.84 ---18.96 27.77 ---23.91 28.68 ---27.22 ---41.03 30.19 ---43.94 32.55
4.46 5.64 7.26 7.92 9.18 9.84
18.92 29.49 36.54 42.89 47.85 50.75
17.48 24.44 28.34 29.61 30.98 31.55
16.67 22.36 28.55 34.72 37.65 40.82
6.19 5.56 4.51 3.80 3.94 2.89
5.50 4.38 3.35 3.78 -------
------------6.73 5.61
6.25 5.67 5.06 4.98 3.99 3.27
2.52 2.74 2.80 2.99 2.51 2.25
8.98 9.99 9.29 8.45 7.42 7.05
5.91 5.07 4.15 4.43 3.20 2.20
6.41 6.63 7.68 8.76 7.93 8.37
1.86 1.84 1.80 1.74 1.62 1.53
2.33 2.05 1.77 1.60 -------
------------1.90 1.86
1.98 2.04 1.96 1.80 1.65 1.43
0.84 0.95 1.01 0.95 0.94 0.84
3.24 3.31 3.08 2.93 2.68 2.44
2.44 2.21 1.86 1.66 1.47 1.41
2.72 2.97 3.07 3.03 2.97 2.78
Tabel 5.6 laat zien dat de resultaten voor het T-TOS in elke leeftijdsgroep bijzonder goed zijn. De kinderen die bij de daadwerkelijk uitgevoerde meting als niet-TOS’er werden aangemerkt, hebben bij een herhaalde meting 98 procent kans om opnieuw als niet-TOS’er te worden aangemerkt. Minder dan twee procent van de kinderen zou bij een herhaalde meting anders geclassificeerd worden. Bij de kinderen met TOS zijn de resultaten iets minder goed, maar nog altijd wordt meer dan 90 procent van de kinderen mét TOS ook bij een herhaalde meting als zodanig herkend. Tabel 5.6 laat met andere woorden zien dat de beslissingen die genomen worden op basis van de subtests in het T-TOS, en de indicatiecriteria die in paragraaf 6.3 beschreven en onderbouwd worden, in hoge mate betrouwbaar zijn. Het is wel belangrijk om op te merken dat tabel 5.6 niet aangeeft of de beslissingen die genomen worden ook adequaat zijn. De tabel laat alleen zien in hoeverre herhaalde metingen tot gelijke beslissingen leiden. Op de adequaatheid van de beslissingen wordt uitgebreid ingegaan in paragraaf 6.3.
65
Tabel 5.6
Verwarringsmatrix voor het T-TOS Gesimuleerde classificatie Totaal
Gesimuleerde classificatie Leeftijdsgroep 3
Classificatie
Niet-TOS
TOS
Classificatie
Niet-TOS
TOS
Niet-TOS TOS
98.12 9.11
1.88 90.89
Niet-TOS TOS
97.63 9.02
2.37 90.98
Gesimuleerde classificatie Leeftijdsgroep 4
Gesimuleerde classificatie Leeftijdsgroep 5
Classificatie
Niet-TOS
TOS
Classificatie
Niet-TOS
TOS
Niet-TOS TOS
98.07 7.02
1.93 92.98
Niet-TOS TOS
98.40 11.11
1.60 88.89
Gesimuleerde classificatie Leeftijdsgroep 6 Classificatie
Niet-TOS
TOS
Niet-TOS TOS
98.34 9.12
1.66 90.88
Op basis van de analyses die zijn verricht rondom de betrouwbaarheid van het T-TOS kan het volgende geconcludeerd worden: – De afzonderlijke subtests zijn meer dan voldoende betrouwbaar om vraagstellingen met betrekking tot specifieke spraak- en taalvaardigheden te onderzoeken. – Op basis van een combinatie van minimaal twee subtests kan alleszins betrouwbaar vastgesteld worden of een bepaalde spraak- en/of taalstoornis aanwezig is bij een kind. – Met het T-TOS kunnen kinderen die ambulante begeleiding of speciaal onderwijs nodig hebben betrouwbaar opgespoord worden. Zowel TOS’ers als niet-TOS’ers hebben bij een herhaalde meting namelijk meer dan 90 procent kans om hetzelfde geclassificeerd te worden. Bij de niet-TOS’ers loopt deze kans zelfs op tot 98 procent.
66
6
Validiteit
6.1
Inhoudsvaliditeit
De inhoudsvaliditeit van een test heeft betrekking op de vraag in hoeverre de items in een test een welomschreven en afgebakend universum representeren van mogelijk in de test op te nemen items. De inhoudsvaliditeit van het T-TOS wordt gewaarborgd door de wijze waarop de verschillende subtests en items ontwikkeld zijn. In de eerste plaats is bij de testconstructie uitgegaan van een indeling in twee domeinen en vier typen problemen (cf. Bishop, 2004): 1
2
Spraak – Auditieve verwerkingsproblemen – Spraakproductieproblemen Taal – Grammaticaproblemen – Lexicaal-semantische problemen
Voor beide domeinen zijn verschillende subtests ontwikkeld waarmee vastgesteld kan worden in hoeverre de problemen die onderscheiden kunnen worden binnen een domein zich manifesteren bij een kind. Er is bij de samenstelling van de subtests voor gezorgd dat de Nederlandse taal optimaal gepresenteerd wordt in het perspectief van de meetpretentie van de subtest. Soms betekent dit dat er bij de itemconstructie gestreefd is naar een zo groot mogelijke spreiding van klanken, terwijl in andere gevallen gestreefd is naar een zo groot mogelijke variatie in syntactische categorieën. Daarnaast is er variatie aangebracht in de woordlengte, het aantal lettergrepen en is rekening gehouden met de woordfrequentie. Hiermee lijkt de inhoudsvaliditeit van het T-TOS voldoende gewaarborgd. Een uitvoerige omschrijving van de theoretisch uitgangspunten die ten grondslag hebben gelegen aan de constructie van het T-TOS is te vinden in hoofdstuk 2. Een inhoudelijke analyse van elke subtest is te vinden in paragraaf 2.3.
6.2
Begripsvaliditeit
De begripsvaliditeit van een test heeft betrekking op de vraag in hoeverre de testscore is toe te schrijven aan de verklarende concepten en constructen die deel uitmaken van het theoretische kader dat aan de ontwikkeling van de test ten grondslag heeft gelegen. Er is op verschillende manieren empirische evidentie verzameld die kan worden opgevat als onderbouwend voor de begripsvaliditeit van het T-TOS. We gaan achtereenvolgens in op de dimensionale structuur van de 13 subtests in het T-TOS en het instrumentarium als geheel, de samenhang van de subtests met soortgenoten en het functioneren van de subtests in verschillende subgroepen. Dimensionale structuur subtests De dimensionale structuur van elke subtest is onderzocht door een exploratieve twee-factor principal axes factoranalyse uit te voeren op de matrix met tetrachorische correlaties tussen de items. De interpretatie van de factoranalyses heeft plaatsgevonden volgens de methode zoals die is voorgesteld door Drasgow en Lissak (1983). In deze methode wordt de factoroplossing vergeleken met een gesimuleerde factoroplossing onder de aanname van een unidimensionaal item respons model. Tabel 6.1 geeft een samenvatting van de factoranalyses voor de subtests in het domein Spraak. We zien dat er over het algemeen één dominante factor ten grondslag ligt aan de prestaties van de kinderen op een subtest. Meer dan 80 tot 90 procent van de variantie wordt verklaard door de eerste factor. De subtest Auditieve discriminatie vormt echter een uitzondering. De eerste factor verklaart bij deze subtest aanzienlijk minder van de totale variantie en de geobserveerde factoroplossing wijkt tamelijk sterk af van de gesimuleerde factoroplossing. Dit beeld wordt bevestigd door de screeplots in Figuur 6.1. Bij vier van de vijf subtests zien we dat het patroon van ‘echte’
67
eigenwaarden (zwarte lijn) nagenoeg identiek is aan het patroon van gesimuleerde eigenwaarden (rode lijn), terwijl de patronen bij Auditieve discriminatie nogal van elkaar verschillen. In de gesimuleerde factoroplossing is er na de eerste eigenwaarde een duidelijke knik waarneembaar, terwijl deze knik minder goed zichtbaar is in de geobserveerde factoroplossing. Het lijkt er dus op dat er bij Auditieve discriminatie sprake is van een ondergeschikte, maar niettemin relevante, tweede factor.
Tabel 6.1
Resultaten factoranalyse voor de subtests in het domein Spraak % Verklaarde variantie 1ste factor
Subdomein
ubtest
Afkorting
Geobserveerd
Gesimuleerd
Auditieve verwerking
Auditieve discriminatie Woordherkenning Onthouden van woorden
AD WH OW
75.56 91.54 ----1
93.68 92.62 ----1
Spraakproductie
Woordrepetitie Pseudowoordrepetitie Diadochokinese
WR PR DC
87.38 84.93 96.27
90.76 89.94 98.14
Noot 1: Bij een aanzienlijk deel van de items in deze subtest is er sprake van extreem hoge percentages ontbrekende, of foute, antwoorden. Dit komt doordat er haast geen kinderen zijn die reeksen met 5 of meer woorden correct kunnen herhalen. Om deze reden is het uitvoeren van een factoranalyse niet goed mogelijk.
Een inspectie van de factorladingen voor de subtest Auditieve discriminatie bracht een opmerkelijke structuur aan het licht. Zoals eerder aangegeven worden er bij de subtest steeds twee woorden aangeboden die kunnen verschillen in één foneem. Kinderen moeten aangeven of het om een gelijk paar (bijvoorbeeld dek – dek) of een ongelijk paar gaat (bijvoorbeeld mis – mes). De ongelijke paren laadden relatief hoog op de eerste factor en relatief laag op de tweede factor. De gelijke paren laadden daarentegen relatief laag op de eerste factor en relatief hoog op de tweede factor. Het lijkt er dus op dat de twee factoren direct gerelateerd zijn aan het type item. Aangezien het doel van de subtest is om na te gaan in hoeverre kinderen gelijke paren van ongelijke paren kunnen onderscheiden, is er geen gegronde reden om aan te nemen dat de subtest nog iets anders meet dan de beoogde vaardigheid. Ook in praktische zin levert de gevonden factorstructuur geen problemen op, omdat alle kinderen alle items maken. Merk op dat er wel een probleem zou kunnen ontstaan als er een afbreekregel zou gelden bij deze toets. In dat geval zou de verhouding tussen het aantal gelijke en ongelijke paren immers niet meer voor alle kinderen gelijk zijn, waardoor we sommige kinderen mogelijk onterecht zouden bevoordelen of benadelen.
68
12
12
AD
8 6 4 2
6 4
12
2 4 6 8 10 12 Eigenvalue rank
8 6 4 2
2 4 6 8 10 12 Eigenvalue rank
12
6 4
0
2 4 6 8 10 12 Eigenvalue rank
DC
10 Eigenvalue
10
8
0 0
PR
WR
10
2
0 0
Eigenvalue
8
2
0
12
WH
10 Eigenvalue
10 Eigenvalue
Screeplots voor de subtests in het domein Spraak (zwart = geobserveerd; rood = gesimuleerd)
Eigenvalue
Figuur 6.1
8 6 4 2
0
0 0
2 4 6 8 10 12 Eigenvalue rank
0
2 4 6 8 10 12 Eigenvalue rank
Tabel 6.2 geeft een samenvatting van de factoranalyses voor de subtests in het domein Taal. We zien wederom dat er over het algemeen één dominante factor ten grondslag ligt aan de prestaties van de kinderen op een subtest. Meer dan 80 procent, en soms zelf meer dan 90 procent, van de variantie wordt verklaard door de eerste factor. Dit beeld wordt bevestigd door de screeplots in Figuur 6.2. Het patroon van ‘echte’ eigenwaarden (zwarte lijn) is doorgaans nagenoeg identiek aan het patroon van gesimuleerde eigenwaarden (rode lijn). Er is net als eerder bij het domein Spraak echter één uitzondering. Bij de subtest Grammaticabeoordeling lijkt er namelijk sprake te zijn van twee factoren. De geobserveerde eigenwaarden wijken opvallend af van de gesimuleerde eigenwaarden en de eerste factor verklaart “slechts” 70 procent van de totale variantie.
69
Tabel 6.2
Resultaten factoranalyse voor de subtests in het domein Taal % Verklaarde variantie 1ste factor
Subdomein
Subtest
Afkorting
Geobserveerd
Gesimuleerd
Grammatica
Receptieve zinsbouw Grammaticabeoordeling Woordvorming Onthouden van zinnen
RZ GB WV OZ
91.99 69.78 90.44 ----1
95.00 91.19 96.04 ----1
Lexicon en semantiek
Receptieve woordenschat Impliciete betekenis Productieve woordenschat
RW IB PW
84.65 94.94 82.74
86.19 98.30 83.04
Noot 1: Bij een aanzienlijk deel van de items in deze subtest is er sprake van extreem hoge percentages ontbrekende of foute antwoorden. Dit komt doordat met name jonge kinderen extreem veel moeite hebben met het correct herhalen van zinnen met 12 of meer woorden. Om deze reden is het uitvoeren van een factoranalyse niet goed mogelijk.
12
12
RZ
8 6 4 2
8 6 4
8 6 4 2
8 6 4 2
0 2 4 6 8 10 12 Eigenvalue rank
12
2 4 6 8 10 12 Eigenvalue rank
PW
10 8 6 4 2
0 0
0
IB
10 Eigenvalue
10
4
2 4 6 8 10 12 Eigenvalue rank
12
RW
6
0 0
Eigenvalue
12
2 4 6 8 10 12 Eigenvalue rank
8
2
0 0
WV
10
2
0
Eigenvalue
12
GB
10 Eigenvalue
10 Eigenvalue
Screeplots voor de subtests in het domein Taal (zwart = geobserveerd; rood = gesimuleerd)
Eigenvalue
Figuur 6.2
0 0
2 4 6 8 10 12 Eigenvalue rank
0
2 4 6 8 10 12 Eigenvalue rank
De factorstructuur bij de subtest Grammaticabeoordeling bleek opnieuw gerelateerd te zijn aan het type items in de toets. Bij de subtest wordt aan kinderen gevraagd om te beoordelen of een auditief aangeboden zin qua woordvorming en/of zinsbouw grammaticaal correct is. De zinnen met een grammaticale fout laadden relatief hoog op de eerste factor en relatief laag op de tweede factor. Bij zinnen zonder grammaticale fout was het patroon precies andersom. Ook bij deze subtest lijkt er dus geen aanleiding te zijn om te veronderstellen dat er naast de beoogde vaardigheid nog iets anders gemeten wordt. Het doel van de subtest is immers om na te gaan in hoeverre kinderen in staat zijn om grammaticale onjuistheden te herkennen. In praktische zin levert de gevonden factorstructuur geen problemen op. Alle kinderen maken namelijk alle items. Dit betekent dat de verhouding tussen het aantal zinnen met een grammaticale fout en
70
zonder grammaticale fout voor alle kinderen hetzelfde is en we kinderen niet kunnen bevoordelen of benadelen afhankelijk van de items die we aanbieden. Samenvattend lijkt de aanname van unidimensionaliteit dus voor alle subtests in het T-TOS verdedigbaar. Verreweg de meeste variantie wordt verklaard door de eerste factor en in die gevallen waarin er sprake lijkt te zijn van een relevante tweede factor is er geen reden om te veronderstellen dat er ook daadwerkelijk meerdere, inhoudelijk verschillende, constructen gemeten worden. De tweede factor lijkt eerder samen te hangen met het itemtype. De nagenoeg identieke patronen van geobserveerde en gesimuleerde eigenwaarden bevestigen nog eens dat er steeds één enkele vaardigheid ten grondslag ligt aan de prestaties op een subtest. De gesimuleerde eigenwaarden zijn immers berekend op basis van een correlatiematrix waarvan we weten dat die unidimensionaal is. De gesimuleerde factoroplossingen moeten daarom wijzen op één factor; elke andere oplossing is per definitie te wijten aan meetfout. Dimensionale structuur T-TOS De verschillende subtests zijn op inhoudelijke gronden in één van de twee domeinen geplaatst. Met behulp van een exploratieve factoranalyse met varimax rotatie is onderzocht in hoeverre de gekozen indeling ondersteund wordt door de data. De factoranalyse kon echter niet zonder voorbewerking uitgevoerd worden. Niet alle subtests zijn immers door alle kinderen in de steekproef (N = 3953) gemaakt. Sommige ontbrekende waarden missen ‘by design’. Zo is de subtest Woordrepetitie alleen voorgelegd aan 4- en 5jarigen en de subtest Grammaticabeoordeling alleen aan 8- en 9-jarigen. Andere ontbrekende waarden missen onbedoeld. Een bepaalde leerling, klas of school kan door omstandigheden soms één of meerdere subtests niet gemaakt hebben. Beiden vormen van missing maken het onderzoek naar de dimensionaliteit van het T-TOS lastiger. In een factoranalyse worden immers alleen de kinderen meegenomen die alle subtests gemaakt hebben. Een alternatief kan zijn om de ontbrekende waarden voorafgaand aan de factoranalyse te imputeren op basis van de informatie die wel beschikbaar is. Op die manier hoeven er geen kinderen weg te vallen. Bij het T-TOS is gekozen voor de laatgenoemde strategie. Alle ontbrekende waarden zijn voorafgaand aan de analyse geïmputeerd op basis van de Approximate Bayesian Bootstrap methode (Rubin, 1987). De imputatie heeft plaatsgevonden per leeftijdsgroep om te vermijden dat mogelijk “afwijkend” gedrag van de ene leeftijdsgroep ten opzichte van een andere leeftijdsgroep de imputatie verstoort. De data die verzameld zijn bij kinderen meteen TOS-indicatie in cluster 2 zijn niet meegenomen bij het imputeren. Er is voor gezorgd dat de geïmputeerde waarden bij alle subtests binnen het officiële scorebereik vallen. Dit betekent dat de minimale geïmputeerde score bij de subtest Auditieve discriminatie gelijk is aan 0 en dat de maximale geïmputeerde score gelijk is aan 30. Na de imputatie is er een factoranalyse met 2 factoren uitgevoerd. Bedenk hierbij dat de imputatie een zeker risico met zich meebrengt in deze analyse. Hoewel er op voorhand geen reden is om aan te nemen dat de imputatie niet goed gaat, is niet geheel duidelijk in hoeverre de gekozen methode om de data te imputeren de factoranalyse beïnvloedt. Vermoedelijk worden de uitkomsten van de factoranalyse door de imputatie iets “versterkt”. Tabel 6.3 geeft de factorladingen van de 13 subtests in een twee-factoroplossing met varimax rotatie. De resultaten zijn in eerste instantie geïnterpreteerd volgens de richtlijnen van Stevens (2002) die stellen dat een factor als betrouwbaar aangemerkt kan worden bij: – 3 of meer variabelen met ladingen van .80 en elke N – 4 of meer variabelen met ladingen van .60 en elke N – 10 of meer variabelen met ladingen van .60 en N > 150 Voor factoren met een beperkt aantal ladingen is volgens de richtlijnen van Stevens een steekproefgrootte van N > 300 vereist. We zien dat de 13 subtests uiteengelegd kunnen worden in 2 factoren. De subtests die bedoeld zijn voor het opsporen van grammaticaproblemen en lexicaal-semantische problemen vallen tamelijk overtuigend in de eerste factor, terwijl de subtests die bedoeld zijn voor het opsporen van spraakproductieproblemen tamelijk overtuigend in de tweede factor vallen. De subtests die bedoeld zijn voor het opsporen van auditieve verwerkingsproblemen zijn minder gemakkelijk in te delen. In feite kunnen deze subtests bij zowel de eerste als de tweede factor ingedeeld worden. Dit betekent dat het gemaakte
71
onderscheid tussen de domeinen Spraak en Taal tot op zekere hoogte dus ondersteund wordt door de data die ten behoeve van de constructie van het T-TOS in het reguliere onderwijs verzameld zijn.
Tabel 6.3
Ladingen in een twee-factoroplossing met varimax rotatie (regulier)
Domein
Subdomein
Subtest
Spraak
Auditieve verwerking
Taal
Afkorting
Factor 1
Factor 2
Auditieve discriminatie Woordherkenning Onthouden van woorden
AD WH OW
0.54 0.52 0.43
0.35 0.60 0.45
Spraakproductie
Woordrepetitie Pseudowoordrepetitie Diadochokinese
WR PR DC
0.33 0.33 0.44
0.75 0.83 0.66
Grammatica
Receptieve zinsbouw Grammaticabeoordeling
RZ GB
Woordvorming Onthouden van zinnen
WV OZ
0.66 0.85 0.78 0.60
0.38 0.36 0.47 0.45
Receptieve woordenschat Impliciete betekenis Productieve woordenschat
RW IB PW
0.85 0.76 0.76
0.37 0.34 0.41
Lexicon en semantiek
Er worden in de literatuur ook alternatieve richtlijnen beschreven voor het bepalen van het aantal factoren. Doorgaans wordt hierbij gekeken naar de eigenwaarden. De eigenwaarde geeft aan hoeveel additionele variantie door de extra factor wordt verklaard. Omdat het om gestandaardiseerde variabelen gaat, voegt elke extra factor een variantie van 1 toe. Factoren met een eigenwaarde van minder dan 1 verklaren dus minder variantie dan ze zelf toevoegen. Als we uitgaan van deze vuistregel (ook wel het Kaiser-criterium genoemd), dan is er in het geval van het T-TOS geen aanleiding om meer dan 1 factor te veronderstellen. Als we het aantal factoren bepalen op basis van de optimal coordinates index (OCI) of de acceleration factor (AF) zoals voorgesteld door Raiche, Riopel en Blais (2006) dan zouden we dezelfde conclusie trekken. Dus hoewel de resultaten in tabel 6.3 enige aanleiding geven om te veronderstellen dat er twee factoren ten grondslag liggen aan het T-TOS, zijn de verschillende subtests grotendeels toch terug te voeren op één enkele onderliggende (taal)factor. Op zichzelf is dit resultaat niet verrassend. De subtests verschillen inhoudelijk weliswaar van elkaar, maar de correlatiematrix in tabel 6.4 laat tegelijkertijd ook zien dat de subtests dusdanig sterk met elkaar samenhangen dat er in statistische zin niet snel aanleiding zal zijn om 2 of meer factoren te veronderstellen.
72
Tabel 6.4
Correlatiematrix T-TOS (regulier)
Test
AD
WH
OW
WR
PR
DC
AD WH OW WR PR DC
1 .52 .40 .42 .45 .50
1 .48 .64 .66 .61
1 .44 .52 .51
1 .73 .64
1 .70
1
RZ WV OZ RW IB PW
.52 .60 .46 .63 .58 .57
.57 .70 .56 .65 .59 .66
.42 .57 .58 .51 .43 .54
.57 .60 .51 .58 .55 .56
.50 .64 .58 .59 .52 .59
.55 .64 .55 .60 .57 .57
RZ
WV
OZ
RW
IB
PW
1 .67 .55 .74 .79 .61
1 .70 .81 .70 .82
1 .65 .55 .65
1 .78 .83
1 .64
1
Hoewel er vanuit inhoudelijk oogpunt geen redenen zijn om de subtests op een andere manier in te delen, kan in het licht van de resultaten van de factoranalyse wel de vraag gesteld worden in hoeverre een indeling in domeinen en subdomeinen “noodzakelijk” is voor het opsporen van kinderen met TOS. Om hier een beslissing over te kunnen nemen, zijn de scorepatronen van kinderen in kaart gebracht. In Figuur 6.3 is ter illustratie het scoreprofiel van een tweetal leerlingen uit het reguliere onderwijs afgebeeld in termen van Z-scores. Figuur 6.4 geeft de scoreprofielen van een viertal TOS-leerlingen in cluster 2. Figuur 6.3 en 6.4 laten zien dat er in tegenstelling tot hetgeen de factoranalyses suggereerden wel degelijk patronen te ontdekken zijn in de scores van individuele leerlingen. In het reguliere onderwijs vinden we zoals verwacht mocht worden kleine afwijkingen ten opzichte van het algemene gemiddelde voor een bepaalde leeftijdsgroep. In de groep TOS-leerlingen in cluster 2 zijn de afwijkingen ten opzichte van het algemene gemiddelde aanzienlijk groter. In het voorbeeld scoren TOS-leerlingen soms wel 4 tot 5 standaarddeviaties lager dan de gemiddelde leerling in het reguliere onderwijs. Belangrijker is echter het scorepatroon dat TOS-leerlingen laten zien over de verschillende subtests. We zien het volgende: Figuur 6.4a: – extreem zwak op de subtests in het domein Spraak – relatief goed op de subtests in het domein Taal Figuur 6.4b: – extreem zwak op alle subtests Figuur 6.4c: – relatief goed op de subtests in het domein Spraak – extreem zwak op de subtests in het domein Taal Figuur 6.4d: – relatief goed op de subtests in het subdomein Auditieve verwerking – zwak op de subtests in het domein Taal en het subdomein Spraakproductie De voorbeelden laten duidelijk zien dat niet alle TOS-leerlingen in cluster 2 zwak presteren op alle subtests van spraak en/of taal. Een TOS-indicatie op basis van één enkele totaalscore zou dus niet in alle gevallen goed werken. In de totaalscore voor leerlingen met een specifiek scorepatroon (bijvoorbeeld Figuur 6.4a en 6.4c) worden zwakkere prestaties op het ene (sub)domein immers gecompenseerd door betere prestaties op het andere (sub)domein, waardoor de totaalscore in die gevallen geen optimaal beeld geeft van de vaardigheden van de leerling. Als we preciezer uitrekenen hoeveel TOS-leerlingen in cluster 2 “uitvallen” op alle subtests dan zien we dat – afhankelijk van de leeftijd – slechts 20 tot 30 procent van de TOS-leerlingen in cluster 2 op alle subtests ten minste één standaarddeviatie onder het algemene gemiddelde scoort. Als de grens niet bij één standaarddeviatie, maar bij een halve standaarddeviatie gelegd wordt, dan valt in totaal nog steeds slechts 43 procent van de TOS-leerlingen in cluster 2 uit op alle subtests. Dus hoewel er
73
vanuit statistisch oogpunt geen dringende reden is om meerdere domeinen te onderscheiden, is het voor de identificatie van kinderen met taalontwikkelingsstoornissen wel gewenst om rekening te houden met het scorepatroon van een individu over de verschillende subtests. Om die reden is het raamwerk voor de classificatie van spraak- en taalmoeilijkheden dat enkele jaren geleden door Bishop (2004) is ontwikkeld dan ook aangehouden in het T-TOS met een opdeling in spraakproblemen en taalproblemen waarbij auditieve verwerking en spraakproductie spraakproblemen representeren en grammatica en lexiconsemantiek taalproblemen markeren.
(A) Leeftijdsgroep: 4 tot 6 jaar
4
Z-score
‐6
6,0 5,0 4,0 3,0 2,0 1,0 0,0 -1,0 -2,0 -3,0 -4,0 -5,0 -6,0
(B) Leeftijdsgroep: 6 tot 8 jaar
4
‐6 AD WH OW WR PR DC RZ GB WV OZ RW IB PW
6,0 5,0 4,0 3,0 2,0 1,0 0,0 -1,0 -2,0 -3,0 -4,0 -5,0 -6,0
Scoreprofiel van twee leerlingen in het reguliere onderwijs uitgedrukt in Z-scores
AD WH OW WR PR DC RZ GB WV OZ RW IB PW
Z-score
Figuur 6.3
Subtest
Subtest
74
Z-score
4
6,0 5,0 4,0 3,0 2,0 1,0 0,0 -1,0 -2,0 -3,0 -4,0 -5,0 -6,0
(B) Leeftijdsgroep: 5 tot 7 jaar
4
‐6 AD WH OW WR PR DC RZ GB WV OZ RW IB PW
‐6 Subtest
Subtest
(C) Leeftijdsgroep: 6 tot 8 jaar
4
Z-score
‐6
6,0 5,0 4,0 3,0 2,0 1,0 0,0 -1,0 -2,0 -3,0 -4,0 -5,0 -6,0
(D) Leeftijdsgroep: 7 tot 9 jaar
4
‐6 AD WH OW WR PR DC RZ GB WV OZ RW IB PW
6,0 5,0 4,0 3,0 2,0 1,0 0,0 -1,0 -2,0 -3,0 -4,0 -5,0 -6,0
(A) Leeftijdsgroep: 4 tot 6 jaar
AD WH OW WR PR DC RZ GB WV OZ RW IB PW
6,0 5,0 4,0 3,0 2,0 1,0 0,0 -1,0 -2,0 -3,0 -4,0 -5,0 -6,0
Scoreprofiel van vier TOS-leerlingen in cluster 2 uitgedrukt in Z-scores
AD WH OW WR PR DC RZ GB WV OZ RW IB PW
Z-score
Z-score
Figuur 6.4
Subtest
Subtest
T-TOS in relatie tot andere tests De mate waarin de subtests in het T-TOS gerelateerd zijn aan soortgenootinstrumenten (zijzelf incluis) en niet-soortgenootinstrumenten is een andere aanwijzing voor de begripsvaliditeit van de toetsen. Om dit te kunnen onderzoeken zijn bij de kinderen in de steekproef niet alleen subtests uit het T-TOS afgenomen, maar ook een aantal toetsen die hetzelfde construct pretenderen te meten en een aantal toetsen die een duidelijk onderscheiden construct pretenderen te meten. De volgende toetsen zijn afgenomen: DrieMinuten-Toets (DMT), Schaal Vorderingen in Spellingvaardigheid (SVS), Toetsen Begrijpend lezen (TBL) en de Dyslexiescreener. –
De DMT (Verhoeven, 1995) bestaat uit 3 verschillende leeskaarten met specifieke woordsoorten. Op leeskaart 1 staan 150 eenlettergrepige woorden van het type KM (uil), MK (koe), en MKM (pen). Op leeskaart 2 staan 150 eenlettergrepige woorden van het type MMKM (spin), MKMM (bank), MMKMM (krant), MMMKM (schroef) en MKMMMm (herfst). Op leeskaart 3 staan 120 woorden met twee, drie of vier lettergrepen (geluid, koningin, papegaaien). Bij de DMT moeten leerlingen zoveel
75
–
–
–
mogelijk woorden hardop lezen in 1 minuut. Na afname van de toetsen wordt duidelijk hoe het staat met de decodeervaardigheid van leerlingen. De SVS (Moelands et al., 1997, 1999) is bedoeld voor het meten van de spellingvaardigheid van leerlingen en bevat 3 delen. SVS-1 beperkt zich tot eenvoudige klankzuivere en niet-klankzuivere woorden van één of twee lettergrepen en is bestemd voor de groepen 3 en 4. SVS-2 en SVS-3 zijn bestemd voor respectievelijk de groepen 5 en 6 en de groepen 7 en 8. De nadruk in SVS-2 en SVS-3 ligt op het spellen van complexere niet-klankzuivere woorden. In de SVS-3 is bovendien een apart deel opgenomen voor de spelling van werkwoorden. De woorden in de SVS worden in zinsverband aangeboden. Aan leerlingen wordt gevraagd om het woord waar het om gaat op te schrijven op papier. De TBL (Feenstra, Kamphuis, Kleintjes & Krom, 2010; Weekers, Groenen, Kleintjes & Feenstra, 2011) is bedoeld voor het meten van de leesvaardigheid van leerlingen. Leesvaardigheid is omschreven als de vaardigheid om schriftelijke teksten te kunnen begrijpen en te gebruiken in overeenstemming met het leesdoel. Om deze vaardigheid in kaart te kunnen brengen, krijgen leerlingen in de toets een aantal teksten met begripsvragen voorgelegd die zij moeten beantwoorden. Er zijn toetsen beschikbaar voor de groepen 3 tot en met 8. De Dyslexiescreener (Verhoeven & Keuning, in voorbereiding) is bedoeld voor het signaleren en diagnosticeren van dyslexie bij leerlingen in de leeftijd van 6 tot 12 jaar. De Dyslexiescreener bestaat uit 14 onderdelen. Bij de eerste 11 onderdelen moeten leerlingen zoveel mogelijk bestaande woorden, pseudowoorden, plaatjes, cijfers of letters benoemen in 1 minuut. De bestaande woorden en pseudowoorden variëren in structuur. De volgende structuren worden in de Dyslexiescreener onderscheiden: MKM, MM, twee-lettergrepen (2LG), en drie-lettergrepen (3LG). De overige drie onderdelen meten facetten van het fonologisch bewustzijn van leerlingen. Concreet gaat het om de deelvaardigheden Rijm, Auditieve Analyse en Klankmanipulatie.
Tabel 6.5 geeft de correlaties tussen de subtests in het T-TOS en de toetsen die ter validering ook in het onderzoek zijn meegenomen. In de tabel zijn de relatief hoge correlaties donker gekleurd en de relatief lage correlaties licht gekleurd.
76
Tabel 6.5 Convergente en divergente validiteit toetsen T-TOS (regulier) AD
WH
OW
WR
PR
DC
AD WH OW WR PR DC
1 .52 .40 .42 .45 .50
RZ
GB
WV
OZ
RW
IB
PW
1 .48 .64 .66 .61
1 .44 .52 .51
1 .73 .64
1 .70
1
RZ GB WV OZ RW IB PW
.52 .49 .60 .46 .63 .58 .57
.57 .67 .70 .56 .65 .59 .66
.42 .55 .57 .58 .51 .43 .54
.57 .51 .60 .51 .58 .55 .56
.50 .59 .64 .58 .59 .52 .59
.55 .64 .64 .55 .60 .57 .57
1 .63 .67 .55 .74 .79 .61
1 .85 .69 .85 .80 .78
1 .70 .81 .70 .82
1 .65 .55 .65
1 .78 .83
1 .64
1
DMT1 DMT2 DMT3 SVS TBL MKM MM 2LG 3LG RAN cijfers RAN letters RAN plaatjes Pseudo MKM Pseudo MM Pseudo 2LG Pseudo 3LG Rijm Aud. Analyse Klankmanipulatie
.25 .22 .20 .19 .02 .29 .28 .27 .16 .23 .18 .22 .28 .26 .25 .12 .42 .54 .17
.38 .25 .26 .27 .16 .42 .40 .40 .29 .33 .32 .29 .41 .37 .37 .24 .35 .49 .23
.22 .16 .27 .28 .31 .28 .28 .31 .27 .21 .22 .24 .29 .26 .28 .23 .43 .40 .24
.28 .22 .20 .46 .09 .28 .26 .27 .24 .23 .22 .23 .27 .24 .26 .20 .37 .47 .28
.33 .26 .31 .39 .30 .34 .34 .37 .34 .26 .23 .27 .35 .33 .36 .29 .34 .50 .27
.30 .22 .30 .35 .33 .33 .32 .34 .30 .25 .25 .23 .34 .32 .34 .28 .39 .49 .23
.26 .25 .29 .31 .09 .32 .31 .34 .29 .26 .24 .27 .31 .29 .29 .20 .38 .54 .21
.29 .26 .44 .33 .40 .34 .35 .42 .46 .19 .29 .26 .31 .30 .31 .33 .05 .03 .30
.45 .37 .52 .47 .40 .58 .58 .60 .50 .46 .42 .40 .56 .53 .53 .40 .53 .65 .41
.39 .33 .38 .39 .38 .38 .38 .41 .36 .30 .26 .31 .38 .35 .37 .29 .37 .50 .35
.38 .37 .49 .49 .31 .54 .55 .58 .49 .42 .38 .39 .52 .50 .49 .32 .43 .58 .28
.24 .21 .27 .30 .08 .34 .33 .35 .28 .28 .27 .26 .33 .31 .30 .20 .40 .55 .20
.41 .34 .46 .46 .43 .52 .53 .56 .46 .38 .36 .39 .50 .47 .47 .33 .45 .56 .28
We kunnen zien dat de subtests in het T-TOS onderling sterk met elkaar samenhangen. Vooral de correlaties tussen de subtests binnen het domein Taal zijn erg hoog. Dit kan als ondersteuning van de convergente validiteit van de test worden opgevat. Daarnaast is de samenhang van het T-TOS met tests binnen het leesdomein onderzocht. In de literatuur wordt een redelijke mate van samenhang tussen taal en lezen verondersteld (Verhoeven, 2010). Vanuit het oogpunt van convergente en divergente validiteit was de verwachting dat woord decodeervaardigheid, gemeten met de Drieminutentoets (DMT) en de onderdelen van het Testinstrumentarium Dyslexie (betekenisvolle woorden en pseudowoorden van het type MKM, MM, 2 lettergrepen en 3 lettergrepen) in redelijke mate zou samenhangen met zowel spraaktests als taaltests, in het bijzonder Woordvorming en Receptieve en Productieve Woordenschat. Ten aanzien van de test begrijpend lezen (TBL) gold de verwachting dat niet zozeer spraakonderdelen maar vooral taalonderdelen samenhang zouden vertonen. Tabel 6.5 laat zien dat beide verwachtingen in de data tot uiting komen. Daarnaast is ook de samenhang nagegaan tussen het T-TOS enerzijds en taken voor rapid naming (RAN: cijfers, letters, plaatjes) en fonologisch bewustzijn (rijm, auditieve analyse en klankmanipulatie). Daarbij was de verwachting dat de RAN-taken die lexical retrieval pretenderen te meten in enige mate samenhang zouden vertonen met spraakonderdelen maar in grotere mate met taalonderdelen en met name woordenschattaken. Daarnaast werd verwacht dat de taken voor fonologisch bewustzijn evenzeer zouden
77
samenhangen met spraak- en taalonderdelen. Ook voor deze beide verwachtingen is in tabel 6.5 in ruime mate ondersteuning te vinden. Samenvattend mogen we de correlaties uit tabel 6.5 – in termen van convergente en divergente validiteit – dus beschouwen als een aanwijzing voor de begripsvaliditeit van het T-TOS. T-TOS in relatie tot diverse subgroepen Een vierde en laatste aanwijzing voor de begripsvaliditeit van het T-TOS kan verkregen worden door te kijken naar verschillen tussen relevante groepen kinderen. Er zijn vier vergelijkingen gemaakt, namelijk naar (1) leeftijdsgroep, (2) schooltype, (3) sekse en (4) etniciteit. Als we verschillende leeftijdsgroepen met elkaar vergelijken, mogen we verwachten dat oudere kinderen hoger scoren op de subtests dan jongere kinderen. De vaardigheid zou, met andere woorden, toe moeten nemen naarmate de kinderen langer op school zitten. Daarnaast mogen we verwachten dat de vergelijking naar schooltype laat zien dat cluster 2leerlingen met een TOS-indicatie in alle leeftijdsgroepen beduidend lager scoren dan hun leeftijdsgenoten in het reguliere onderwijs. Figuur 6.5 laat per subtest in het domein Spraak zien hoe de gemiddelde vaardigheid zich in het reguliere onderwijs en (bij TOS-leerlingen) in het cluster 2-onderwijs zich in de tijd ontwikkelt.
Figuur 6.5
Gemiddelde scores op de subtests binnen het domein Spraak uitgesplitst naar leeftijdsgroep
Auditieve discriminatie (AD)
30
30
25
25 Score
Score
20 15 10
20 15 10
Regulier Cluster 2 -1.5SD
5
Regulier Cluster 2 -1.5SD
5
0
0 1
2
3 4 Leeftijdsgroep
5
1
6
Onthouden van woorden (OW)
8
2
3 4 5 Leeftijdsgroep
6
Woordrepetitie (WR)
25
7
20
6 5
Score
Score
Woordherkenning (WH)
35
4 3 Regulier Cluster 2 -1.5SD
2 1
15 10 Regulier Cluster 2 -1.5SD
5
0
0 1
2
3 4 Leeftijdsgroep
5
6
1
78
2
3 4 Leeftijdsgroep
5
6
Figuur 6.5
Vervolg
Pseudowoordrepetitie (PR)
30 25
Regulier Cluster 2 -1.5SD
20 Score
20 Score
Diadochokinese (DC)
25
15 10
15 10
Regulier Cluster 2 -1.5SD
5
5
0
0 1
2
3 4 Leeftijdsgroep
5
1
6
2
3 4 Leeftijdsgroep
5
6
Figuur 6.6 bevat dezelfde informatie, maar dan voor de subtests in het domein Taal. Om de interpretatie te vergemakkelijken is in de figuren ook aangegeven bij welk punt leerlingen anderhalve standaarddeviatie onder het (reguliere) gemiddelde scoren. Van de jongste TOS-leerlingen in cluster 2 (leeftijdsgroepen 1 en 2) zijn te weinig gegevens beschikbaar (N < 50) om de gemiddelden stabiel te schatten, daarom ontbreken deze gemiddelden in de figuren.
Figuur 6.6
Gemiddelde scores op de subtests binnen het domein Taal uitgesplitst naar leeftijdsgroep
Receptieve zinsbouw (RZ)
35 30
Score
Score
25 20 15 10
Regulier Cluster 2 -1.5SD
5 0 1
2
3 4 Leeftijdsgroep
5
Grammaticabeoordeling (GB)
50 45 40 35 30 25 20 15 10 5 0
6
Regulier Cluster 2 -1.5SD 1
79
2
3 4 Leeftijdsgroep
5
6
Figuur 6.6
Vervolg
Woordvorming (WV)
35 30
8 Score
Score
Regulier Cluster 2 -1.5SD
10
25 20 15
6 4
10
Regulier Cluster 2 -1.5SD
5
2
0
0 1
2
3 4 Leeftijdsgroep
5
6
1
Receptieve woordenschat (RW)
60
2
3 4 Leeftijdsgroep
5
6
Impliciete betekenis (IB)
35 30
50
25 Score
40 Score
Onthouden van zinnen (OZ)
12
30 20
15 10
Regulier Cluster 2 -1.5SD
10
20
Regulier Cluster 2 -1.5SD
5
0
0 1
2
3 4 Leeftijdsgroep
5
1
6
2
3 4 Leeftijdsgroep
5
6
Productieve woordenschat (PW)
45 40 35 Score
30 25 20 15 Regulier Cluster 2 -1.5SD
10 5 0 1
2
3 4 Leeftijdsgroep
5
6
Figuren 6.5 en 6.6 laten zien dat de vaardigheid van de leerlingen op de verschillende subtests gestaag toeneemt van leeftijdsgroep tot leeftijdsgroep. Daarnaast zien we dat TOS-leerlingen in cluster 2 bij vrijwel alle subtests fors lager scoren dan hun leeftijdsgenoten in het reguliere onderwijs. Alleen bij de subtest
80
Auditieve discriminatie en de subtest Impliciete betekenis zijn de verschillen in gemiddelde vaardigheid iets minder groot (gemiddeld < 1.5 standaarddeviatie), maar ook bij deze subtest scoren TOS-kinderen in cluster 2 nog altijd duidelijk lager dan kinderen in het reguliere basisonderwijs. Dit betekent dat het T-TOS leerkrachten goed in staat stelt om de ontwikkeling van alle kinderen (zowel binnen het regulier als in cluster 2-onderwijs aan kinderen met een TOS-indicatie) op het gebied van spraak en taal in de tijd te volgen. Daarnaast kan het T-TOS zonder problemen ingezet worden om de kinderen met taalontwikkelingsstoornissen te identificeren, omdat alle subtests goed tot zeer goed zullen discrimineren tussen de leerlingen mét en de leerlingen zónder TOS-indicatie (zie ook paragraaf 6.3). Onderzoek laat zien dat meisjes over het algemeen beter presteren op het gebied van geletterdheid dan jongens (zie bijvoorbeeld, Allred, 1990, Appleyard, 1990, Lynn, 1992, Thomson, 1987, Vogel, 1990, Wilder & Powell, 1989). Om het effect van sekse binnen het T-TOS te onderzoeken is als vervolgstap per subtest de gemiddelde score voor jongens en meisjes uitgerekend. Figuur 6.7 laat zien hoe jongens en meisjes gemiddeld scoren op de subtests in het T-TOS. Omdat de lengte van de meetschalen varieert over de verschillende subtests zijn de gemiddelden uitgedrukt in percentages correct. Figuur 6.7 laat zien dat meisjes bij alle subtests – met uitzondering van de subtest Productieve woordenschat – marginaal hoger scoren dan jongens. Dit resultaat sluit aan bij de verwachtingen vanuit de literatuur.
Figuur 6.7
Gemiddelde scores per subtest uitgesplitst naar jongens en meisjes
100
Jongens Meisjes
90
Percentage correct
80 70 60 50 40 30 20 10 0 AD WH OW WR PR DC RZ GB WV OZ RW IB PW Subtest
Ten slotte zijn de verschillen tussen autochtone en allochtone kinderen in kaart gebracht. Figuur 6.8 laat zien hoeveel procent van de items beide groepen kinderen gemiddeld correct beantwoorden bij de verschillende subtests in het T-TOS. Bij het berekenen van de gemiddelden is – net als eerder bij de analyses rondom sekse – het gewicht van de verschillende leeftijdsgroepen in het eindresultaat via weging gelijkgetrokken. Uit de figuur valt af te lezen dat de autochtone kinderen op praktisch alle subtests hoger scoren dan de allochtone kinderen. De enige uitzondering hierop vormt de subtest Diadochokinese. Met name bij woordenschat (receptief en productief), woordvorming, grammaticabeoordeling en het onthouden van zinnen scoren allochtone kinderen fors lager dan autochtone kinderen. Bij de overige onderdelen van het T-TOS zijn de verschillen kleiner. Dit resultaat komt overeen met hetgeen we mogen verwachten uit andere onderzoeken (zie bijvoorbeeld Verhoeven & Vermeer, 2006).
81
Figuur 6.8
Gemiddelde scores per subtest uitgesplitst naar Nederlands en niet-Nederlands
100
Nederlands Niet Nederlands
90
Percentage correct
80 70 60 50 40 30 20 10 0 AD WH OW WR PR DC RZ GB WV OZ RW IB PW Subtest
Hoewel verwacht mocht worden dat allochtone kinderen zwakker presteren dan autochtone kinderen op het gebied van spraak en taal is het wel de vraag in hoeverre het T-TOS dan geschikt is voor het identificeren van taalontwikkelingsstoornissen bij allochtone kinderen. Om een antwoord te kunnen geven op deze vraag zijn de prestaties van allochtone kinderen vergeleken met de prestaties van TOS-leerlingen in cluster 2. Tabel 6.6 laat voor verschillende leeftijdsgroepen zien hoeveel standaarddeviaties leerlingen onder het algemene gemiddelde scoren. We zien dat TOS-leerlingen in cluster 2 gemiddeld gezien bijna altijd meer dan anderhalve standaarddeviatie lager scoren (de donkergekleurde cellen in tabel 6.6). Dit resultaat komt vanzelfsprekend overeen met het beeld dat figuur 6.5 en 6.6 laten zien. De allochtone kinderen blijken aanzienlijk hoger te scoren dan de leerlingen met taalontwikkelingsstoornissen. Alleen bij de subtest Productieve woordenschat scoren de wat oudere allochtone kinderen (leeftijdsgroep 5) gemiddeld ook meer dan anderhalve standaarddeviatie lager dan hun leeftijdsgenoten. Allochtone kinderen scoren bij deze subtest echter nog wel altijd beter dan de TOS-leerlingen in cluster 2. Dit betekent dat het T-TOS niet alleen geschikt is voor kinderen van Nederlandse afkomst, maar ook voor kinderen die oorspronkelijk niet uit Nederland komen. Het T-TOS zal weliswaar iets minder goed discrimineren tussen allochtone kinderen en TOS-leerlingen in cluster 2, maar de leerlingen mét TOS zullen wel gescheiden kunnen worden van de (allochtone) kinderen zónder TOS.
82
Tabel 6.6
Verschil ten opzichte van het reguliere gemiddelde uitgedrukt in een Z-score TOS in cluster 2
Subtest
3
Auditieve discriminatie Woordherkenning Onthouden van woorden
Niet Nederlands
4
5
6
1
2
3
4
5
6
-1.12 -2.82 -1.53
-0.52 -2.89 -1.55
-3.39 -1.46
-2.58 -1.09
-0.33 -0.75 -0.26
-0.47 -0.66 -0.58
-0.44 -0.48 -0.14
-0.88 -0.69 -0.45
-0.68 -0.31
-0.34 -0.28
Woordrepetitie Pseudowoordrepetitie Diadochokinese
-2.36 -2.31
-2.85 -2.77
-2.11 -2.94
-1.83 -3.01
-0.66 -0.56 0.22
-0.68 -0.41 -0.09
0.10 0.25
-0.23 0.18
-0.45 0.02
-0.06 0.04
Receptieve zinsbouw Grammaticabeoordeling Woordvorming Onthouden van zinnen
-2.45 -2.49 -1.72
-1.34 -2.59 -1.66
-2.04 -2.59 -2.21
-2.01 -2.55 -2.07
-0.71 -1.24 -1.09
-0.73 -0.87 -0.95
-0.77 -0.79 -0.58
-0.88 -1.14 -0.56
-1.03 -1.19 -0.79
-0.89 -1.05 -1.02
Receptieve woordenschat Impliciete betekenis Productieve woordenschat
-1.53 -1.92 -1.72
-1.93 -0.99 -1.77
-1.84 -1.15 -1.89
-1.43 -0.96 -1.36
-0.66 -0.59 -1.24
-1.05 -0.70 -1.01
-1.14 -0.72 -1.11
-1.09 -1.23 -1.10
-1.43 -0.43 -1.62
-1.24 -0.16 -1.31
Op basis van de analyses die zijn verricht rondom de begripsvaliditeit van het T-TOS kan het volgende geconcludeerd worden: – Aan elke subtest in het T-TOS ligt één vaardigheid ten grondslag. Dit geldt ook voor de subtests Auditieve discriminatie en Grammaticabeoordeling. Bij deze subtests lijkt er weliswaar sprake te zijn van een tweede relevante factor, maar bij beide subtests is het niet aannemelijk dat die tweede factor betrekking heeft op een ander construct. – Het T-TOS als geheel kan verdedigbaar uiteengelegd worden in twee factoren, namelijk in de factor Spraak en in de factor Taal. Zes subtests vallen binnen de eerste factor en zeven subtests binnen de tweede factor. – Om de kinderen mét TOS te scheiden van de kinderen zónder TOS is het dringend gewenst om rekening te houden met het scorepatroon van een individueel kind over de 13 subtests. Lang niet alle TOS-leerlingen in cluster 2 scoren namelijk zwak op alle subtests. Daarom sluit het T-TOS aan bij het classificatieschema voor TOS van Bishop (2004). – De subtests in het domein Taal hangen redelijk sterk samen met andere toetsen die zich richten op lezen en spellen. De subtests in het domein Spraak vertonen daarentegen meer samenhang met toetsen die zich richten op de klankstructuur van taal. De verschillende subtests zijn dus sterker gerelateerd aan soortgenoten dan aan niet-soortgenoten. – Het T-TOS stelt leerkrachten in staat om de ontwikkeling van alle kinderen (zowel leerlingen in het regulier onderwijs als TOS-leerlingen binnen cluster 2) op het gebied van spraak en taal in de tijd te volgen. Daarnaast kan het T-TOS ingezet worden om de kinderen met taalontwikkelingsstoornissen te identificeren, omdat alle subtests goed tot zeer goed discrimineren tussen de leerlingen mét en de leerlingen zónder TOS-indicatie. – Het T-TOS kan zonder problemen afgenomen worden bij kinderen van allochtone afkomst. Allochtone kinderen scoren weliswaar zwakker dan hun autochtone leeftijdsgenoten, maar wel duidelijk hoger dan kinderen met een taalontwikkelingsstoornis.
83
6.3
Criteriumvaliditeit
Criteriumvaliditeit heeft in eerste instantie betrekking op de relatie tussen testscores en gedrag buiten de concrete testsituatie. Of, zoals het in het COTAN Beoordelingssysteem (Evers, Lucassen, Meijer, & Sijtsma, 2010) wordt gesteld, “in hoeverre de testscore een goede voorspeller is van niet-testgedrag”. Het T-TOS is bedoeld om de kinderen met taalontwikkelingsstoornissen op te sporen. De centrale vraag is dus in hoeverre het T-TOS in staat is om de kinderen mét TOS te onderscheiden van de kinderen zónder TOS. Het voorspellend vermogen van het T-TOS is vanuit twee invalshoeken geanalyseerd. Eerst is een logistische regressieanalyse uitgevoerd. Vervolgens zijn enkele relatieve beslisregels doorgerekend. In deze paragraaf beschrijven we de beslisregel die daadwerkelijk is ingebouwd in het T-TOS in termen van “false positives” en “false negatives”. Het gaat om een relatieve beslisregel die kinderen met TOS identificeert op basis van een selectie van subtests. Bijlage 1 besteedt aandacht aan de beslisregels die vanwege minder gunstige resultaten in de praktijk van het beoogde testgebruik niet worden aanbevolen. Voordat we de resultaten presenteren gaan we in op de werving in cluster 2 en de samenstelling van de onderzoeksgroep in dit onderwijstype. In paragraaf 4.1 en 4.2 is al uitgebreid stilgestaan bij de onderzoeksgroepen die zijn samengesteld in het reguliere basisonderwijs. Dezelfde groepen hebben ook meegedaan in het onderzoek naar de criteriumvaliditeit. Daarom gaan we hier niet opnieuw in op de samenstelling en representativiteit van de “reguliere” onderzoeksgroepen. Beschrijving steekproef cluster 2 Onder cluster 2 vallen scholen voor dove en slechthorende kinderen en scholen voor kinderen met ernstige spraak- en/of taalmoeilijkheden, mogelijk in combinatie met een andere handicap, zoals beperkingen in de pragmatiek en communicatieve redzaamheid. Deze handicaps zijn niet specifiek voor TOS-kinderen. Ze komen ook veelvuldig voor bij kinderen met een autisme-spectrumstoornis (ASS). Kinderen met TOS vormen dus een subgroep van de kinderen die scholen voor cluster 2 onderwijs bevolken. In de onderzoeksgroep zijn alleen kinderen met TOS opgenomen. Bij de werving van scholen en kinderen is gebruikgemaakt van een volledige lijst van cluster 2 scholen. De lijst is verkregen via www.data.duo.nl. Bij de werving is gestreefd naar de volgende leerlingaantallen per leeftijdsgroep: – 150 leerlingen met een leeftijd van 4 of 5 jaar (vergelijkbaar met groep 1 en 2 in het reguliere onderwijs) – 150 leerlingen met een leeftijd van 6 of 7 jaar (vergelijkbaar met groep 3 en 4 in het reguliere onderwijs) – 150 leerlingen met een leeftijd van 8 of 9 jaar (vergelijkbaar met groep 5 en 6 in het reguliere onderwijs) In totaal is dus ingezet op een totaal van 450 leerlingen. Om deze leerlingaantallen te realiseren zijn 20 van de in totaal 51 scholen (of hoofdvestigingen) in cluster 2 verzocht om met een deel van hun leerlingen aan het onderzoek deel te nemen. De verwachting was dat ongeveer 1 op de 3 scholen mee zou willen doen. Uiteindelijk bleken zeven scholen, waarvan één met twee vestigingen, bereid te zijn om deel te nemen aan het onderzoek. De scholen vertoonden een grote landelijke spreiding. Ze waren afkomstig uit Friesland, Overijssel, Gelderland, Noord-Holland, Zuid-Holland (2), Noord-Brabant en Limburg. Na aanmelding ontvingen de scholen een lijst waarop zij de namen van de kinderen (inclusief geboortedatum, geslacht en leerjaar) die met een TOS-indicatie tot de school waren toegelaten, konden invullen. Daarnaast werd gevraagd om aan te geven op welk(e) subdomein(en) de TOS-indicatie betrekking had (auditieve verwerking, spraakproductie, grammatica en/of lexicon en semantiek) en/of er naast een taalontwikkelingsstoornis óók sprake is van een andere stoornis of handicap zoals ASS, een angst- of stemmingsstoornis of slechthorendheid. Op basis van de lijsten die we van de scholen kregen, zijn maximaal 75 leerlingen per school geselecteerd voor deelname. De leerlingen met een tweede stoornis of handicap werden op voorhand uitgesloten van deelname. Op deze manier is ervoor gezorgd dat alleen de leerlingen bij wie er uitsluitend sprake was van een taalontwikkelingsstoornis in de onderzoeksgroep terecht konden komen. Vóór aanvang van de testafname werd bovendien nog eens extra onderzoek uitgevoerd
84
naar eventuele gehoorproblemen (zoals de afname van T-TOS dat voorschrijft). Als er een gehoorprobleem aan het licht kwam, is de betreffende leerling alsnog uitgesloten van deelname. Uiteindelijk zijn er bij 535 leerlingen gegevens verzameld. Het was niet haalbaar om een evenwichtige spreiding over de verschillende leeftijdsgroepen te realiseren. In de tweede en derde leeftijdsgroep hebben respectievelijk 224 (99 in “groep 3” en 125 in “groep 4”) en 258 (125 in “groep 5” en 133 in “groep 6”) leerlingen meegedaan. In de eerste leeftijdsgroep beperkte het aantal deelnemende leerlingen zich tot 53. Dit kleinere aantal is het gevolg van de vaak relatief late instroom in cluster 2. Hierdoor zaten er op de deelnemende scholen eenvoudigweg niet meer jongere leerlingen die bij het onderzoek betrokken konden worden. Er zaten aanzienlijk meer jongens (70 procent) dan meisjes (30 procent) in de onderzoeksgroep. De verdeling naar sekse was in alle leeftijdsgroepen bij benadering gelijk. Relatief veel leerlingen in de onderzoeksgroep vielen uit op Taal, hetzij op het subdomein Grammatica, hetzij op het subdomein Lexicon en Semantiek (beide ongeveer 65 procent). Problemen met Spraak kwamen minder vaak voor. Een kleine 30 procent van de leerlingen in de onderzoeksgroep viel uit op het subdomein Spraakproductie. Slechts 16 procent van de leerlingen in de onderzoeksgroep had problemen op het gebied van de Auditieve verwerking. De subtests van de T-TOS zijn afgenomen door (getrainde) testleiders van Cito. De afname duurde ongeveer anderhalf uur. Na afloop van het onderzoek ontvingen de deelnemende scholen een terugrapportage op het niveau van de individuele leerling. De (TOS-)leerlingen uit cluster 2 zijn in de analyses vanzelfsprekend tot de “TOS-groep” gerekend. De leerlingen uit het reguliere basisonderwijs zijn in de analyses in de “niet-TOS-groep” geplaatst. Sensitiviteit en specificiteit T-TOS In de beslisregel die is voorgesteld door Resing, Evers, Koomen, Pameijer en Bleichrodt (2008) heeft een kind een taalontwikkelingsstoornis als er op minimaal twee subtests binnen twee verschillende spraak- of taalindicatoren “zeer zwak” gepresteerd wordt. Zeer zwak definiëren zij daarbij als -1.5SD onder het reguliere gemiddelde. Er is in kaart gebracht hoe een dergelijke beslisregel zou functioneren in relatie tot het T-TOS. Er zijn in totaal 61 verschillende scenario’s doorgerekend, beginnend bij -3.0SD onder het reguliere gemiddelde en eindigend bij +3.0SD boven het reguliere gemiddelde met stappen van 0.1. In Figuur 6.9 staan de belangrijkste resultaten. De linkerkant van Figuur 6.9 geeft inzicht in het percentage correcte beslissingen bij verschillende beslisregels. Het percentage correcte beslissingen is als volgt berekend:
accuracy
N true positive N true negative N positive N negative
In de berekening wordt dus geen onderscheid gemaakt tussen de leerlingen in het reguliere onderwijs en de TOS-leerlingen in cluster 2. Er is ook geen uitsplitsing gemaakt naar leeftijdsgroep. We zien dat het percentage correcte beslissingen tot ongeveer -1.0 standaarddeviaties onder het (reguliere) gemiddelde erg hoog is (rond de 90 procent). Als we de grens bij elke subtest hoger leggen, dan neemt het percentage correcte beslissingen snel af. Een belangrijk nadeel van de figuur is dat we geen inzicht krijgen in het percentage incorrecte beslissingen. De rechterkant van Figuur 6.9 geeft dat inzicht wel. In een zogenaamde ROC-curve wordt namelijk het vermogen van een test weergegeven om onderscheid te maken tussen personen met en zonder een bepaalde aandoening. Bij verschillende afkapwaarden wordt de sensitiviteit (true positive rate / percentage treffers) op de y-as uitgezet tegen het percentage “vals-alarmen” (false positive rate / specificiteit) op de x-as. De berekeningen vinden als volgt plaats:
sensitiviteit
N true positive N positive
N true negative N false positive specificiteit 1 N N negative negative
85
De optimale afkapwaarde is vanzelfsprekend gelijk aan het punt waarbij er zoveel mogelijk “true positives” zijn (kinderen met een taalontwikkelingsstoornis die ook als zodanig worden geïdentificeerd) en zo min mogelijk “false positives” (kinderen zonder een taalontwikkelingsstoornis die worden geïdentificeerd alsof ze wel een probleem hebben). Omdat de “true positive rate” en de “false positive rate” op zichzelf geen informatie geven over de afkapwaarde zijn ter ondersteuning enkele afkapwaarden visueel weergegeven in de ROC-curve. We zien dat de optimale afkapwaarde ergens tussen de -2.0SD en -1.0SD ligt. Bij hogere afkapwaarden neemt het aantal kinderen dat we ten onrechte in de risicogroep classificeren namelijk sterk toe. Het is niet duidelijk waar de grens precies getrokken zou moeten worden. In feite kunnen meerdere afkapwaarden verdedigbaar zijn en zal de uiteindelijke beslissing af moeten hangen van het aantal “false positives” dat we maximaal toelaatbaar achten en het aantal “true positives” dat we minimaal willen realiseren.
Figuur 6.9
Voorspellend vermogen van het T-TOS bij verschillende beslisregels en een selectie van subtests
In de regel wordt er naar gestreefd om het instrumentarium en de beslisregel op zo’n manier te kiezen dat ten minste 80 procent van de kinderen met een bepaalde aandoening ook als zodanig geïdentificeerd wordt. Als de (overall) “true positive rate” ten minste gelijk moet zijn aan 0.8, dan zou in de beslisregel uitgegaan moeten worden van -1.3SD onder het reguliere gemiddelde op minimaal twee subtests in minimaal twee verschillende subdomeinen. Tabel 6.7 laat zien hoe deze beslisregel uitpakt in elke leeftijdsgroep. De dikgedrukte getallen in tabel 6.7 moeten bij voorkeur zo dicht mogelijk bij 100 liggen. Ze geven namelijk de “true negative rate” of de “true positive rate” van het T-TOS weer onder de aanname dat de grens bij -1.3SD ligt. De overige getallen moeten bij voorkeur zo dicht mogelijk bij 0 liggen. Ze geven de “false negative rate” of de “false positive rate” weer. Oftewel het percentage kinderen met TOS dat we over het hoofd zien, of het percentage kinderen dat we ten onterechte als TOS’er classificeren, als we de regel in de praktijk zouden toepassen. Het aantal “true positives” ligt in alle leeftijdsgroepen dicht bij de 80 procent. Het aantal kinderen dat (mogelijk) ten onrechte als TOS’er wordt aangemerkt ligt bovendien op een zeer acceptabel niveau van rond de 5 procent. Voor de volledigheid worden in Tabel 6.7 ook de resultaten weergegeven van de alternatieve beslisregels die in Bijlage 1 beschreven worden (grijsgedrukt). We zien dat de resultaten voor deze beslisregels minder gunstig zijn.
86
Tabel 6.7
Classificatietabel in % op basis van een relatieve beslisregel (-1.3SD) met selectie Classificatie TOS op basis van model?
Nu TOS in cluster 2?
Nee
Ja
(3) Nee (3) Ja
95.5 (88.0 / 96.3) 17.2 (20.2 / 17.2)
4.50 (12.0 / 3.70) 82.8 (79.8 / 82.8)
(4) Nee (4) Ja
95.1 (90.1 / 98.3) 18.4 (30.4 / 21.6)
4.90 (9.90 / 1.70) 81.6 (69.6 / 78.4)
(5) Nee (5) Ja
94.5 (85.2 / 98.3) 20.8 (23.2 / 28.0)
5.50 (14.8 / 1.70) 79.2 (76.8 / 72.0)
(6) Nee (6) Ja
95.8 (89.8 / 99.6) 21.1 (26.6 / 55.0)
4.20 (10.2 / 0.40) 78.9 (73.4 / 45.0)
(Totaal) Nee (Totaal) Ja
95.2 (88.1 / 98.1) 19.4 (25.3 / 30.3)
4.80 (11.9 / 1.90) 80.6 (74.7 / 69.7)
Als de grens bij -1.3SD gelegd wordt, wijken we af van het voorstel van Resing et al. (2008). Desgewenst kan de grens echter ook bij -1.5SD gelegd worden. Tabel 6.8 laat zien hoe deze regel in de praktijk uitpakt. Zoals verwacht mocht worden heeft het verhogen van de afkapwaarde een gunstig effect op de specificiteit van het T-TOS en een ongunstig effect op de sensitiviteit van het T-TOS. Het voorspellend vermogen van het T-TOS blijft onverminderd goed in alle leeftijdsgroepen.
Tabel 6.8
Classificatietabel in % op basis van een relatieve beslisregel (-1.5SD) met selectie Classificatie TOS op basis van model?
Nu TOS in cluster 2?
Nee
Ja
(3) Nee (3) Ja
96.5 (95.5) 23.2 (17.2)
3.50 (4.50) 76.8 (82.8)
(4) Nee (4) Ja
96.1 (95.1) 21.6 (18.4)
3.90 (4.90) 78.4 (81.6)
(5) Nee (5) Ja
97.4 (94.5) 28.0 (20.8)
2.60 (5.50) 72.0 (79.2)
(6) Nee (6) Ja
97.1 (95.8) 24.8 (21.1)
2.90 (4.20) 75.2 (78.9)
(Totaal) Nee (Totaal) Ja
96.8 (95.2) 24.5 (19.4)
3.20 (4.80) 75.5 (80.6)
Conclusie Op basis van de analyses die zijn verricht rondom de criteriumvaliditeit van het T-TOS kan het volgende geconcludeerd worden: – Het T-TOS is goed in staat om te “voorspellen” of er bij een kind sprake is van een taalontwikkelingsstoornis. Het voorspellend vermogen is echter wel afhankelijk van de beslisregel die gekozen wordt. – Een optimale balans tussen sensitiviteit en specificiteit wordt gevonden op basis van een beslisregel die gebaseerd is op de relatieve prestaties van kinderen op een selectie van subtests (cf. Resing et
87
–
–
al., 2008). Op basis van een dergelijke regel kan een “true positive rate” bereikt worden van > 80 procent en een “false positive rate” van < 5 procent. Uitgaande van de resultaten wordt geadviseerd om bij de identificatie van kinderen met TOS de volgende beslisregel aan te houden: “Er is sprake van ernstige spraak- en/of taalproblemen als de leerling op ten minste twee subtests, uit twee verschillende subdomeinen, meer dan 1.3 standaarddeviatie onder het reguliere gemiddelde scoort”. Deze beslisregel is ingebouwd in het computerprogramma dat hoort bij het T-TOS. Desgewenst kan bij de identificatie van TOS ook uitgegaan worden van -1.5 standaarddeviatie onder het reguliere gemiddelde. Het wordt afgeraden om gebruik te maken van het logistische regressiemodel of de relatieve beslisregel die een constant scorepatroon over alle subtests veronderstelt (zie Bijlage 1). Een beslisregel die gebruikmaakt van een gewogen overall score op het T-TOS (één van de alternatieven in Resing et al., 2008) zou vermoedelijk ook niet optimaal functioneren, omdat kinderen zwakke prestaties op het ene (sub)domein dan kunnen compenseren met betere prestaties op een ander (sub)domein.
88
7
Samenvatting en conclusies
De Radboud Universiteit Nijmegen en Cito hebben gewerkt aan de totstandkoming van een testinstrumentarium voor het diagnosticeren van taalontwikkelingsstoornissen bij kinderen in de leeftijd van vier tot tien jaar. Een dergelijk instrumentarium is nodig om de hypothesevorming dat bij een kind sprake is van een taalontwikkelingsstoornis klinisch te onderbouwen. Bij de constructie van het testinstrumentarium is er op basis van literatuur en empirisch onderzoek vanuit gegaan dat taalvaardigheid niet als een unidimensionaal construct kan worden gezien maar dat er vier verschillende modules aan taalgebruik ten grondslag liggen. Voor elk van die modules zijn een aantal subtests ontwikkeld en genormeerd zodat het mogelijk is om na te gaan welke onderdelen van het taalsysteem van een kind verstoord zijn. Daarnaast kan met behulp van het instrumentarium de ernst van de spraak- en/of taalstoornis worden vastgesteld. In hoofdstuk 2 en 3 is uitgebreid ingegaan op de uitgangspunten bij de testconstructie. Tevens werd in deze hoofdstukken ingegaan op de functie van het ontwikkelde testinstrumentarium, de doelgroep, het gebruik van het instrument in de onderwijspraktijk, en de psychometrische modellen die ten grondslag hebben gelegen aan de ontwikkeling van de subtests. Er is nadrukkelijk stilgestaan bij de nieuw ontwikkelde procedure voor de scoring en analyse van tests met een afbreekregel. In hoofdstuk 4 is ingegaan op de steekproeftrekking, de dataverzameling en het daarop volgende normeringsonderzoek. Zoals we in deze hoofdstukken kunnen lezen, is er sprake geweest van 6 verschillende normsteekproeven die gerelateerd waren aan verschillende leeftijdscategorieën. Voor wat betreft representativiteit vertoonden de normsteekproeven een grote onderlinge gelijkenis. De onderrepresentatie van kinderen uit de noordelijke provincies, alsmede de afwijkingen in de verdeling naar mate van verstedelijking, schooltype en etniciteit konden worden opgelost via een statistische wegingsprocedure op basis van een combinatie van twee variabelen, namelijk urbanisatiegraad en schooltype. Uit onderzoek is namelijk gebleken dat regio-effecten op de scores geheel verdwijnen wanneer voor deze twee factoren wordt gecorrigeerd. De normsteekproeven zullen na weging ook representatief zijn naar etniciteit. Voor elke subtest zijn normtabellen geconstrueerd op basis van de geobserveerde (gewogen) frequentieverdelingen. Naast een relatieve normering is er tevens een absolute normering ontwikkeld die gebruikt kan worden in het kader van de indicatiestelling. De absolute norm is slechts gedeeltelijk afhankelijk van de resultaten die behaald zijn door de verschillende normsteekproeven. In hoofdstuk 5 is stilgestaan bij de betrouwbaarheid van het T-TOS. De betrouwbaarheid is op drie verschillende niveaus onderzocht. Ten eerste is gekeken naar de betrouwbaarheid van de afzonderlijke subtests. De afzonderlijke subtests bleken meer dan voldoende betrouwbaar te zijn om vraagstellingen met betrekking tot specifieke spraak- en taalvaardigheden te onderzoeken. Ten tweede is gekeken naar de betrouwbaarheid van beslissingen op het niveau van een taalmodule. Op basis van combinaties van minimaal twee subtests bleek betrouwbaar vastgesteld te kunnen worden of een bepaalde spraak- en/of taalstoornis aanwezig is bij een kind. Ten slotte is gekeken naar de betrouwbaarheid van de beslisprocedure die op basis van empirisch onderzoek in deze verantwoording is voorgesteld (zie paragraaf 6.3). Het bleek dat de kinderen die ambulante begeleiding of speciaal onderwijs nodig hebben zeer betrouwbaar met het T-TOS kunnen worden opgespoord. Zowel kinderen mét TOS als kinderen zónder TOS zouden bij een herhaalde meting namelijk meer dan 90 procent kans hebben om hetzelfde geclassificeerd te worden. Bij de classificatie van niet-TOS liep deze kans zelfs op tot 98 procent. In hoofdstuk 6 stond de validiteit van het T-TOS centraal. Op basis van de analyses die zijn verricht rondom de begripsvaliditeit van het T-TOS kon geconcludeerd worden dat (1) aan elke subtest in het T-TOS één vaardigheid ten grondslag ligt, (2) het instrumentarium verdedigbaar uiteengelegd kan worden in de factoren Taal en Spraak, (3) de verschillende subtests sterker gerelateerd zijn aan soortgenoten dan aan niet-soortgenoten, en (4) dat de subtests goed tot zeer goed discrimineren tussen de kinderen mét en de kinderen zónder TOS-indicatie. Tevens bleek dat het T-TOS zonder problemen kan worden afgenomen bij kinderen van allochtone afkomst. Op basis van de analyses die zijn verricht rondom de criteriumvaliditeit
89
van het T-TOS kon geconcludeerd worden dat het T-TOS goed in staat is om te “voorspellen” of er bij een kind sprake is van een taalontwikkelingsstoornis. Een optimale balans tussen sensitiviteit en specificiteit wordt gevonden op basis van een beslisregel die uitgaat van de relatieve prestaties van kinderen op een selectie van subtests (cf. Resing et al., 2008). Op basis van een dergelijke regel kon een “true positive rate” bereikt worden van > 80 procent en een “false positive rate” van < 5 procent. Al met al laten de analyses zien dat het T-TOS een belangrijk hulpmiddel kan vormen bij de indicatiestelling van TOS. Het is daarbij van groot belang dat het T-TOS al vanaf de beginfase van het basisonderwijs wordt ingezet, zodat taalachterstanden vroegtijdig kunnen worden vastgesteld en taalleerproblemen kunnen worden gediagnostiseerd (cf. Verhoeven & van Balkom, 2004).
90
Literatuur
Allred, R.A. (1990). Gender differences in spelling achievements in grades 1 through 6. Journal of Educational Research, 83, 187–193. Appel, R. & A. Vermeer (1997). Woordenschat en taalonderwijs aan allochtone leerlingen. Tilburg: Tilburg University Press. Appleyard, J. (1990). Becoming a reader. The experience of fiction from childhood to adulthood. New York: Cambridge University Press. Bialystok, E. (1986). Children’s concept of word. Journal of Psycholinguistic Research, 15, 13-32. Bishop, D. (1994). Is specific language impairment a valid diagnostic category? Genetic and psycholinguistic evidence. Phil. Trans. R. Soc. London Bulletin 346, 105-111. Bishop, D. (2002). The role of genes in the etiology of specific language impairment. Journal of Communication Disorders, 35, 311-328. Bishop, D.V.M. (2004). Diagnostic dilemmas in specific language impairment. In: L. Verhoeven & H. van Balkom (Eds.) (2004). Developmental language disorders: Theoretical issues and clinical implications (pp. 309-326). Mahwah, NJ: Lawrence Erlbaum. Bishop, D.V.M. (2006). What causes Specific Language Impairment in children? Current Trends in Psychological Science, 15, 217-221. Bishop, D. (2009). Specific language impairment as a language learning disability. Child Language Teaching and Therapy, 25, 163-165. Crocker, L., & Algina, J. (1986). Introduction to classical and modern test theory. New York: Holt, Rinehart and Winston. Cronbach, L.J., Gleser, G.C., Nanda, H., & Rajaratnam, N. (1972). The dependability of behavioral measurements: Theory of generalizability for scores and profiles. New York: Wiley. De Jong, J. (1999) Specific Language Impairment in Dutch: Inflectional Morphology and Argument Structure. Proefschrift Rijksuniversiteit Groningen. Eggen, T.J.H.M. (2004). Contributions to the theory and practice of computerized adaptive testing. Arnhem: Cito. Elman, J.L., Bates, E.A., Johnson, M.H., Karmiloff-Smith, A., Parisi, D. & Plunkett, K. (1996) Rethinking innateness: A connectionist perspective on development. MIT Press. Embretson, S. E. & Reise, S. (2000). Item response theory for psychologists. Mahwah, NJ: Erlbaum Publishers. Evers, A., Lucassen, W., Meijer, R. & Sijtsma, K. (2010). COTAN Beoordelingssysteem voor de kwaliteit van tests. Amsterdam, NIP/COTAN. Feenstra, H., Kamphuis, F., Kleintjes, F., & Krom, R. (2010). Begrijpend lezen voor groep 3 tot en met 6: Wetenschappelijke verantwoording. Cito: Arnhem.
91
Feldt, L., & Brennan, R. (1989). Reliability. In: R. Linn (Ed.), Educational measurement (3rd ed.). The American Council on Education: MacMillan. Fischer, G.H. (1974). Einführung in die Theorie psychologischer Tests. Bern: Huber. Fitch R.H, Miller S, Tallal P. (1996) Neurobiology of speech perception. Annual Review of Neuroscience, 20, 331–353. Gilger, J.W. (1995). Behavioral Genetics: Concepts for Research in Language and Language Disabilities. Journal of Speech and Hearing Research, 38, 1126-1142. Gilliam, R.G., Cowan, N., & Marler, J.A. (1998). Information processing by school age children with specific language impairment: Evidence from a modality effect paradigm. Journal of Speech, Language and Hearing Research, 41, 913–926. Gulliksen, H. (1950). Theory of mental tests. New York: Wiley. Hagoort, P. (2005). On Broca, brain, and binding: a new framework. Trends in Cognitive Sciences, 9, 416‐423. Hambleton, R.K., & Swaminathan, H. (1985). Item response theory: Principles and applications. Boston: Kluwer. Hambleton, R.K., Swaminathan, H., & Rogers, H.J. (1991). Fundamentals of item response theory. Newbury Park, CA: Sage. Hemker, B.T., J. Kordes & J.J. van Weerden (2011). Peiling van de rekenvaardigheid en de taalvaardigheid in jaargroep 8 en jaargroep 4 in 2010 - Jaarlijks Peilingsonderzoek van het Onderwijsniveau. Cito: Arnhem. Henrysson, S. (1971). Gathering, analyzing and using data on test items. In: R.L. Thorndike (Ed.), Educational measurement. Washington, DC: American Council on Education. Hover, C. & Harperink, M. (1997). Van klinische blik naar expertoordeel. Zoetermeer: Ministerie van Onderwijs, Cultuur en Wetenschappen. Indefrey P., & Levelt W.J. (2004). The spatial and temporal signatures of word production components. Cognition, 92,101–144. Karmiloff-Smith, A. (1997) Promissory notes, genetic clocks or epigenetic outcomes? Behavioral and Brain Sciences, 20, 359-377. Keuning, J. & Eggen, T.J.H.M. (in voorbereiding). Adaptive Testing in Paper-and-Pencil Assessments: Scoring and Analysis of Tests with a Termination Rule. Levelt, W. J. M. (1989). Speaking: from intention to articulation. Cambridge, Massachusetts: The MIT Press. Lord, F.M., & Novick, M.R. (1968). Statistical theories of mental test scores. Reading, MA: Addison-Wesley. Lord, F.M. (1980). Applications of item response theory to practical testing problems. Hillsdale, NJ: Erlbaum.
92
Lynn, R. (1992). Sex differences on the Differential Aptitude Test in British and American adolescents. Educational Psychology, 12, 101–106. Millman, J., & Greene, J. (1989). The specification and development of tests of achievement and ability. In: R.L. Linn (Ed.). Educational Measurement (3rd ed., pp. 335–366). Washington, DC: American Council on Education. Moelands, F., Bosch, L. van den, Gillijns, P. & Krom, R. (1997). Handleiding schaal vorderingen in spellingvaardigheid 1 en 2. Arnhem: Cito. Moelands, F., Geurts, H., Gillijns, P. & Krom, R. (1999). Handleiding schaal vorderingen in spellingvaardigheid 3. Arnhem: Cito. Obrzut, J.E., & Hynd, G.W. (1991). Neuropsychological foundations of learning disabilities: A handbook of issues, methods and practice. San Diego, CA: Academic Press. Pickering, S.J., & Gathercole, S.E. (2001). Working Memory Test Battery for Children. Psychological Corporation UK. Pijl, S.J., Veneman, H., Guldemond, H., Rauwerda, G. & Ruiter, S. (2000). Het oordeel gewogen. Groningen: GION. Pinker, S. & Prince, A. (1988) On language and connectionism: Analysis of a parallel distributed processing model of language acquisition. Cognition, 28, 73-193. Raiche, G., Riopel, M. and Blais, J.-G. (2006). Non graphical solutions for the Cattell's scree test. Paper presented at the International Annual meeting of the Psychometric Society, Montreal. Rasch, G. (1960). Probabilistic models for some intelligence and attainment tests. Copenhagen: Danish Institute for Educational Research. Resing, W.C.M., Evers, A., Koomen, H.M.Y., Pameijer, N.K. & Bleichrodt, N. (2008). Indicatiestelling speciaal onderwijs en leerlinggebonden financiering. Condities en instrumentarium. Amsterdam: Boom Test Uitgevers. Resing, W.C.M., A. Evers, H. Koomen, N. Pameijer, N. Bleichrodt, H. van Boxtel & E. de Greef (2002), Indicatiestelling: condities en instrumentarium. In het kader van een leerlinggebonden financiering, [z.p.] NDC-Boom, TCAI, NIP/COTAN, NVO. Rispens, J. & van Yperen, T. (1997) How specific are ‘specific developmental disorders'? The relevance of the concept of specific developmental disorders for the classification of childhood developmental disorders. Journal of Child Psychology and Psychiatry, 38, 351–363 Schaerlaekens, A., Kohnstamm, D., & Lejaegere, M. (1999). Streeflijst woordenschat voor zesjarigen. Lisse: Swets & Zeitlinger. Schrooten, W. & Vermeer, A. (1994). Woorden in het basisonderwijs. 15.000 woorden aangeboden aan leerlingen Tilburg: Tilburg University Press. Rubin, D.B. (1987). Multiple Imputation for Nonresponse in Surveys. J. Wiley & Sons, New York. Samejima, F. (1994). Estimation of reliability coefficients using the test information function and its modifications. Applied Psychological Measurement, 18, 229–244.
93
Shafer, V.L., & Sussman, E., (2011). Predicting the future: ERP markers of language risk in infancy. Clinical Neurophysiology, 122, 213-214. Semel, E., Wiig, E., & Secord, W. (2003). Clinical evaluation of language fundamentals. San Antonio, TX: The Psychological Corporation Tallal, P. (1990). Fine-grained discrimination deficits in language learning impaired children are specific neither to the auditory modality nor to speech perception. Journal of Speech and Hearing Research, 33, 616-617. Ten Berge, J.M.F. & Sočan, G. (2004). The greatest lower bound to the reliability of a test and the hypothesis of unidimensionality. Psychometrika, 69, 613-625. Thissen, D. & Wainer, H. (2001). Test Scoring. Hillsdale, NJ: Lawrence Earlbaum Associates. Thissen, D. (2000). Reliability and measurement precision. In: H. Wainer (Ed.), Adaptive testing: A primer. Mahwah, NJ: Lawrence Erlbaum. Van Boxtel, H., & Hemker, B.T. (2009). Wetenschappelijke verantwoording van de Intelligentietest Eindtoets Basisonderwijs. Arnhem: Cito. Van Daal, J., Verhoeven, L., & van Balkom, H. (2004). Subtypes of severe speech and language impairments: psychometric evidence from four-year-old children in the Netherlands. Journal of Speech, Language and Hearing Research, 47 (6), 1-14. Van der Linden, W.J., & Hambleton, R.K. (1997). Handbook of modern item response theory. New York City, NY: Springer-Verlag. Van Weerdenburg, M., Verhoeven, L., & van Balkom, H. (2006). Towards a typology of specific language impairment. Journal of Child Psychology and Psychiatry,47, 176-189. Verhagen, W.G.M. (2010). Predicting early word recognition and spelling. Nijmegen: Radboud University. Verhelst, N.D., & Glas, C.A.W. (1995). The one-parameter logistic model. In: G.H. Fischer & I.W. Molenaar (Eds.), Rasch models. Foundations, recent developments, and applications. New York: SpringerVerlag. Verhelst, N.D. (1992). Het één parameter model (OPLM). Een theoretische inleiding en een handleiding bijhet computerprogramma. Arnhem: Cito. Verhelst, N.D. (1993). Itemresponstheorie. In: T.J.H.M. Eggen & P.F. Sanders (red.). Psychometrie in depraktijk. (pp. 83-178). Arnhem: Cito. Verhelst N.D., Glas, C.A.W., & Verstralen, H.H.F.M. (1995). OPLM: One-Parameter Logistic Model. Computer program and manual. Arnhem: Cito. Verhoeven, L. (2010). Language development and reading disabilities. In: A. McGill-Franzen & R.L. Allington (Eds.) Handbook of reading disability research (pp. 36-44). New York: Routledge.Verhoeven, L. & Vermeer, A. (1996). Taalvaardigheid in de bovenbouw. Tilburg: TUP. Verhoeven, L., & Vermeer, A. (2006). Literacy achievement of children with intellectual disabilities from diverse linguistic backgrounds. Journal of Intellectual Disability Research, 50, 725-738.
94
Verhoeven, L. (1995). Drie-Minuten-Toets. Arnhem: Cito. Vogel, S.A. (1990). Gender differences in intelligence, language, visual-motor abilities, and academic achievement in students with learning disabilities: A review of the literature. Journal of Learning Disabilities, 23, 44–52. Webb, N., Shavelson, R., & Haertel, E. (2007). Reliability coefficient and generalizability theory. In: C. Rao & S. Sinharay (Eds.), Handbooks of Statistics 26: Psychometrics. The Netherlands: Elsevier. Weekers, A., Groenen, I., Kleintjes, F. & Feenstra, H. (2011). Begrijpend lezen groep 7 en 8: Wetenschappelijke verantwoording. Arnhem: Cito. Wilder, G. Z., & Powell, K. (1989). Sex differences in test performance: A survey of the literature. New York: College Entrance Examination Board. Ziegler W. (2002). Psycholinguistic and motor theories of apraxia of speech. In: M.R. McNeil, Seminars in speech and language. Apraxia of speech: From concept to clinic. New York: Thieme.
95
96
Bijlage
97
Bijage 1
Normtabellen (omzetting van ruwe naar percentielscores)
Hieronder worden de beslisregels die niet in het T-TOS zijn ingebouwd, beschreven in termen van “false positives” en “false negatives”. Het gaat om een logistisch regressiemodel en een relatieve beslisregel die uitgaat van een constant scorepatroon over alle subtests. Logistische regressieanalyse In een logistische regressieanalyse voorspellen we op basis van de scores op de 13 subtests de kans op het hebben van problemen op het gebied van taal en/of spraak. Tabel 1 laat de resultaten van de regressieanalyse zien. In de analyse zijn alleen de leeftijdsgroepen 3 tot en met 6 meegenomen. We zien dat de subtests Grammaticabeoordeling en Woordvorming de voorspelling niet significant verbeteren als ook de andere subtests in de voorspelling meegenomen worden. Het is niet duidelijk waarom Woordvorming minder goed presteert. De minder goede prestaties van Grammaticabeoordeling zijn wel te verklaren. De subtest is namelijk alleen bedoeld voor leeftijdsgroepen 4 en 5, omdat jongere kinderen nog niet in staat zijn om zinnen te beoordelen op hun grammaticale correctheid (cf. Bialystok, 1986). In de analyse zijn echter alle leeftijdsgroepen samen in één keer geanalyseerd; ontbrekende waarden zijn geïmputeerd. Het discriminerend vermogen van Grammaticabeoordeling neemt hier vermoedelijk door af, omdat het gedrag van jongere kinderen zónder TOS zich op deze subtest niet zal onderscheiden van het gedrag van jongere kinderen mét TOS.
Tabel 1
Resultaten logistische regressieanalyse met alle subtests in het T-TOS
Domein
Subdomein
Subtest
SE()
Wald
df
p-value
Spraak
Auditieve verwerking
Auditieve discriminatie Woordherkenning Onthouden van woorden
.121 -.136 -.164
.022 .016 .064
31.299 74.389 6.558
1 1 1
.000 .000 .010
Spraakproductie
Woordrepetitie Pseudowoordrepetitie Diadochokinese
.093 -.054 -.132
.028 .021 .019
10.957 6.797 50.505
1 1 1
.001 .009 .000
Grammatica
Receptieve zinsbouw Grammaticabeoordeling Woordvorming Onthouden van zinnen
-.075 .003 -.021 -.206
.027 .017 .022 .033
7.923 .032 .926 40.193
1 1 1 1
.005 .857 .336 .000
.026
.014
3.535
1
.060
.072
.027
7.200
1
.007
-.083
.015
31.021
1
.000
Taal
Lexicon en semantiek Receptieve woordenschat Impliciete betekenis Productieve woordenschat
Op basis van de resultaten in tabel 1 en het intercept dat in het model is meegenomen ( = 3.299) kan bepaald worden hoeveel kinderen op basis van het model geclassificeerd zouden worden als potentiële TOS’er. De kans op een TOS-indicatie wordt gegeven door de volgende vergelijking:
pclstr 2
exp[ 1 X 1 2 X 2 ... i X i ] , 1 exp[ 1 X 1 2 X 2 ... i X i ]
98
waarin het intercept is, i de regressiecoëfficiënt die hoort bij subtest i (zie tabel 1), en waarin Xi de score van een kind op die subtest weergeeft. Als we een kind zouden aanmerken als TOS’er in geval pclstr2 > 0.50 dan zou het in het reguliere onderwijs en het cluster 2 onderwijs gaan om de aantallen die worden weergegeven in Tabel 2.
Tabel 2
Classificatietabel in % op basis van een logistisch regressiemodel Classificatie TOS op basis van model?
Nu TOS in cluster 2?
Nee
Ja
(3) Nee (3) Ja
96.3 17.2
3.70 82.8
(4) Nee (4) Ja
98.3 21.6
1.70 78.4
(5) Nee (5) Ja
98.3 28.0
1.70 72.0
(6) Nee (6) Ja
99.6 55.0
0.40 45.0
(Totaal) Nee (Totaal) Ja
98.1 30.3
1.90 69.7
De dikgedrukte getallen in tabel 2 moeten bij voorkeur zo dicht mogelijk bij 100 liggen. Ze geven namelijk de “true negative rate” of de “true positive rate” van het T-TOS weer onder de aanname van het geschatte logistische regressiemodel. De overige getallen moeten bij voorkeur zo dicht mogelijk bij 0 liggen. Ze geven de “false negative rate” of de “false positive rate” weer. We zien dat het model betrekkelijk goed functioneert. Over het geheel genomen merken we 69.7 procent van de TOS-leerlingen die op dit moment in cluster 2 zitten opnieuw aan als TOS-leerling als we het model toepassen. In het reguliere onderwijs wordt vrijwel geen enkele leerling aangemerkt als TOS-leerling. Als we de resultaten uitsplitsen naar leeftijdsgroep ziet het er in het reguliere onderwijs onverminderd goed uit. Bij TOS-leerlingen in cluster 2 blijkt het model met name goed te functioneren in de jongere leeftijdsgroepen. In de groep met de oudste leerlingen worden relatief veel leerlingen ten onrechte niet als TOS’er aangemerkt. De “false negative rate” is, met andere woorden, aan de hoge kant in deze groep. Identificatie van kinderen met TOS via een relatieve beslisregel Hoewel het logistische regressiemodel behoorlijk goed functioneert en bevestigt dat het T-TOS in staat is om te discrimineren tussen kinderen mét en kinderen zónder spraak- en/of taalproblemen kleeft er ook een nadeel aan het gebruik van het model. Voor gebruikers is het namelijk erg ondoorzichtig op welke wijze een TOS-indicatie tot stand komt. In feite is uit de rij met scores die de gebruiker invoert in een computerprogramma (of rekentool) rechtstreeks af te leiden of er bij een kind vermoedelijk sprake is van TOS, maar de weging van scores die op de achtergrond plaatsvindt, is niet direct zichtbaar. In de praktijk wordt daarom vaak gekeken naar het relatieve niveau van kinderen en wordt niet gebruikgemaakt van een bepaald statistisch model dat voortvloeit uit de empirie. In dat geval wordt een probleem veelal als “ernstig” aangemerkt als een kind één of twee standaarddeviaties onder het gemiddelde scoort. Een dergelijke aanpak is ook toegepast op het T-TOS. Het voorspellend vermogen van het T-TOS in kaart gebracht bij standaarddeviaties die variëren van -3 tot +3. Deze regel is aangehouden voor alle subtests in het T-TOS. Voor het krijgen van de indicatie TOS moest een kind dus bij alle subtests onder de gegeven standaarddeviatie scoren. Als een subtests niet wordt afgenomen in een bepaalde leeftijdsgroep is deze ook niet meegenomen in de analyse. In Figuur 1 staan de belangrijkste resultaten.
99
Figuur 1
Voorspellend vermogen van het T-TOS bij verschillende relatieve beslisregels
De linkerkant van Figuur 1 geeft inzicht in het percentage correcte beslissingen in het reguliere onderwijs en bij de groep TOS-leerlingen in het cluster 2 onderwijs bij verschillende beslisregels. We zien dat het percentage correcte beslissingen tot ongeveer 0 standaarddeviaties onder het (reguliere) gemiddelde erg hoog is (rond de 90 procent). Als we de grens bij elke subtest hoger leggen (bijvoorbeeld bij + 1SD) dan neemt het percentage correcte beslissingen snel af. De rechterkant van Figuur 1 geeft door middel van een ROC-curve inzicht in de relatie tussen het aantal “false positives” en het aantal “true positives” bij de 61 doorgerekende afkapwaarden. We zien dat we bij een beslisregel die uitgaat van 0 standaarddeviaties onder het (reguliere) gemiddelde een zeer beperkt aantal “false positives” hebben (< 10 procent). We zien echter ook veel kinderen die wel een probleem hebben over het hoofd. Slechts 60 procent van de kinderen met TOS worden ook als zodanig geïdentificeerd. Het lijkt daarom beter om de afkapwaarde iets hoger te leggen, bijvoorbeeld op +0.5SD. Als we de afkapwaarde vastleggen op +0.5SD kunnen we opnieuw een classificatietabel maken waarin we een uitsplitsing maken naar leeftijdsgroep. De resultaten staan in tabel 3.
Tabel 3
Classificatietabel in % op basis van een relatieve beslisregel (+0.5SD) Classificatie TOS op basis van model?
Nu TOS in cluster 2?
Nee
Ja
(3) Nee (3) Ja
88.0 (96.3) 20.2 (17.2)
12.0 (3.70) 79.8 (82.8)
(4) Nee (4) Ja
90.1 (98.3) 30.4 (21.6)
9.90 (1.70) 69.6 (78.4)
(5) Nee (5) Ja
85.2 (98.3) 23.2 (28.0)
14.8 (1.70) 76.8 (72.0)
(6) Nee (6) Ja
89.8 (99.6) 26.6 (55.0)
10.2 (0.40) 73.4 (45.0)
(Totaal) Nee (Totaal) Ja
88.1 (98.1) 25.3 (30.3)
11.9 (1.90) 74.7 (69.7)
100
Om de vergelijking met de eerdere classificatietabel op basis van het logistische regressiemodel gemakkelijker te kunnen maken, zijn deze resultaten ook in tabel 3 opgenomen (grijs gekleurd). We zien dat de relatieve beslisregel in de hoogste leeftijdsgroep aanzienlijk beter functioneert dan het logistische regressiemodel. In de andere leeftijdsgroepen zijn de verschillen niet erg groot. Opvallend is wel dat we op basis van de relatieve beslisregel aanzienlijk meer leerlingen in het reguliere onderwijs als potentiële TOS’er aanmerken. Vanzelfsprekend zullen er in het reguliere onderwijs ook leerlingen met een taalontwikkelingsstoornis zitten (die leerlingen horen feitelijk dus thuis in cluster 2), maar percentages van meer dan 10 procent lijken niet erg aannemelijk. Er kan dus niet zonder meer gesteld worden dat de relatieve beslisregel op basis van +0.5SD de voorkeur zou moeten hebben boven het logistische regressiemodel. Wel bevestigt Figuur 1 nog eens dat het T-TOS behoorlijk goed discrimineert tussen leerlingen mét en leerlingen zónder taalontwikkelingsstoornis. Conclusie Een belangrijk nadeel van de beslisregels die in deze bijlage zijn doorgerekend is dat ze geen rekening houden met het patroon van scores over de verschillende subtests, terwijl we in Figuur 6.4 kunnen zien dat niet alle TOS-leerlingen in cluster 2 “vergelijkbaar” presteren. Er zijn leerlingen die zwak tot zeer zwak presteren op alle subtests, maar er zijn ook leerlingen waar het probleem zich beperkt tot een bepaald domein (Spraak of Taal) of subdomein (auditieve verwerking, spraakproductie, grammatica of lexicon en semantiek). Deze leerlingen worden niet als risicoleerling gezien als we in een model standaard alle subtests meenemen of in een (relatieve) beslisregel eisen dat er voor een indicatie op alle subtests een vooraf bepaald aantal standaarddeviaties onder of boven het gemiddelde gescoord moet worden. Een ander probleem is dat de optimale afkapwaarde bij de relatieve beslisregel waarin alle subtests meegenomen worden voor het gevoel erg hoog ligt (namelijk op +0.5SD). Dit komt vermoedelijk doordat de verschillende subtests (met opzet) verre van perfect correleren. Voornoemde problemen zijn er niet als we kiezen voor een relatieve beslisregel die uitgaat van een selectie van subtests. Een dergelijke beslisregel laat in termen van “false positives” en “false negatives” ook de meest gunstige resultaten zien (zie paragraaf 6.3).
101
Cito | Primair en speciaal onderwijs
Cito maakt wereldwijd werk van goed en eerlijk toetsen en beoordelen. Met de meet- en volgmethoden van Cito krijgen mensen een objectief beeld van kennis, vaardigheden en competenties. Hierdoor zijn verantwoorde keuzes op het gebied van persoonlijke en professionele ontwikkeling mogelijk. Onze expertise zetten we niet alleen in voor ons eigen werk maar ook om advies, ondersteuning en onderzoek te bieden aan anderen.
Cito Amsterdamseweg 13 Postbus 1034 6801 MG Arnhem T (026) 352 11 11 F (026) 352 13 56 www.cito.nl Klantenservice T (026) 352 11 11
[email protected]
Fotografie: Ron Steemers
Wetenschappelijke verantwoording Testinstrumentarium Taalontwikkelingsstoornissen Ludo Verhoeven, Jos Keuning, Linda Horsels en Herman van Boxtel