13. NON-PARAMETRISCHE TOETSEN 13.1 Inleiding Wanneer de verzamelde gegevens niet op intervalniveau gemeten zijn, maar op ordinaal of nominaal niveau, of wanneer de verdeling van de scores verre van normaal is, dan verdient een non-parametrische toets de voorkeur boven een parametrische toets als de t-toets, of de variantieanalyse. Er zijn vele verschillende non-parametrische toetsen, waarvan we in deze syllabus slechts een vijftal zullen behandelen: de toets van Wilcoxon, de mediaan-toets, de Kruskal-Wallis, de Friedman tweewegs-rangorde-variantieanalyse, maar we beginnen met de chi-kwadraattoets. 13.2 De Chi-kwadraattoets De chi-kwadraattoets is een zeer veel gebruikte toets voor de verwerking van nominale gegevens. Stel je doet een onderzoek naar de mate waarin mensen auto’s prefereren. Je laat een honderdtal respondenten hun keuze maken uit een viertal automerken: een Mercedes, een BMW, een Porsche en een Alfa Romeo. Je vindt de volgende verdeling van preferenties over deze vier merken: Tabel 13.1. De verdeling van preferenties over vier automerken Mercedes
BMW
Porsche
Alfa Romeo
Totaal
30
15
35
20
100
Nu willen we natuurlijk graag toetsen of de respondenten deze vier merken gelijkelijk waarderen of niet. Dat kunnen we toetsen met behulp van de chikwadraattoets. Stel: H0 is juist: alle vier de automerken worden gelijkelijk gewaardeerd. Als dat juist is zou verwacht mogen worden dat elk merk door 100 / 4 = 25 respondenten gewaardeerd zou worden. Of, anders gezegd: de verwachte celfrequentie -- als H0 juist is -- is 25. Afwijkingen tussen de geobserveerde celfrequenties en de verwachte celfrequenties duiden op een discrepantie ten opzichte van H0. De chi-kwadraattoetsingsgrootheid is nu gebaseerd op verschillen tussen de verwachte en geobserveerde celfrequenties. Als we de geobserveerde celfrequenties O (Observed) noemen en de verwachte celfrequenties E (Expected), dan is de toetsingsgrootheid chi-kwadraat (χ2) gedefinieerd als: x2 =
∑
(Oi − Ei )2 Ei
(13.1)
In woorden de som van het kwadraat van het verschil tussen de geobserveerde en de verwachte celfrequenties gedeeld door de verwachte celfrequenties. Hierbij horen dan k - 1 vrijheidsgraden, waarbij k staat voor het aantal niveaus. Hoe groter χ2 hoe groter de discrepantie ten opzichte van H0. In Bijlage D kun je voor verschillende aantallen vrijheidsgraden en significantieniveaus de kritieke waarden van chikwadraat vinden.
258 Terug naar het automerkenvoorbeeld. Chi-kwadraat laat zich in dit geval eenvoudig uitrekenen als: X2 =
(30 − 25)2 (15 − 25)2 (35 − 25)2 (20 − 25)2 + + + = 1 + 4 + 4 + 1 = 10. Hierbij horen (4 - 1 =) 25 25 25 25
3 vrijheidsgraden. De kans dat H0 juist is, gegeven deze uitkomst, mag dus als uitermate klein bestempeld worden (zie: Bijlage D). We verwerpen daarom H0 ten gunste van H1: de vier automerken worden verschillend gewaardeerd. De Chi-kwadraattoets laat zich eenvoudig uitbreiden tot een onderzoeksontwerp met twee variabelen, met respectievelijk k en l niveaus. We kijken nogmaals naar dezelfde gegevens, maar nu hebben we de preferentie uitgesplitst naar mannen en vrouwen. Deze gegevens zijn in Tabel 13.2 weergegeven. Tabel 13.2. Preferentie van automerken, uitgesplitst naar mannen en vrouwen. Mercedes
BMW
Porsche
Alfa Romeo
Totaal
Mannen
10
10
20
20
60
Vrouwen
20
5
15
0
40
Totaal
30
15
35
20
100
We zien dat nog steeds dertig van de honderd respondenten een voorkeur hebben voor de Mercedes, maar dat tweederde van deze dertig vrouwen zijn. We zouden ook kunnen zeggen dat de helft van de vrouwen een voorkeur heeft voor de Mercedes. Evenzo blijkt dat één derde van de mannen een voorkeur heeft voor een Alfa Romeo, tegenover geen van de vrouwen. Het lijkt alsof de onderscheiden automerken niet gelijkelijk gewaardeerd worden door mannen en vrouwen. De nulhypothese is dat de automerken wel gelijk gewaardeerd worden door mannen en vrouwen; dit laat de vraag onverlet of alle automerken an sich gelijk gewaardeerd worden. Om dit te toetsen rekenen we weer een chi-kwadraat uit, welke in dit geval (k - 1) (l - 1) = 3 vrijheidsgraden heeft; het aantal niveaus van de ene variabele minus één maal het aantal niveaus van de andere variabele minus één. Een complicerende factor is echter dat we niet zo eenvoudig als bij het vorige voorbeeld de verwachte celfrequenties uit kunnen rekenen. We kunnen niet eenvoudig weg zeggen: ‘we verwachten in elke cel 12.5 respondenten’ al was het alleen maar omdat er verschillende aantallen mannen en vrouwen bevraagd zijn. We moeten de onder H0 verwachte celfrequenties zien te berekenen conditioneel op de (rand)totalen, immers dan verdisconteren we in de verwachte celfrequenties zowel het verschil in het aantal bevraagde mannen en vrouwen, als de verschillen tussen de automerken. Op grond van de randtotalen verwachten we dat er 60 * 30 / 100 = 18 mannen een voorkeur hebben voor de Mercedes, en dat 40 * 30 / 100 = 12 vrouwen hun voorkeur voor de Mercedes zouden uitspreken. Wat we dus doen om de verwachte celfrequentie uit te rekenen is: we nemen het produkt van de beide randtotalen van een cel en delen dat door het totaal aantal observaties. Dit levert Tabel 13.3 op.
HOOFDSTUK 13: NON-PARAMETRISCHE TOETSEN
Tabel 13.3 Preferentie van automerken, uitgesplitst naar mannen en vrouwen (verwachte celfrequenties tussen haakjes). Mercedes
BMW
Porsche
Alfa Romeo
Totaal
Mannen
10 (18)
10 (9)
20 (21)
20 (12)
60
Vrouwen
20 (12)
5 (6)
15 (14)
0 (8)
40
30
15
35
20
100
Totaal
Nu kunnen we weer op de gewone manier de chi-kwadraat uitreken: X2 =
(10 − 18)2 (10 − 9)2 (20 − 21)2 (0 − 8)2 64 1 1 64 + + + ... + = + + + ... = 22.62 18 9 21 8 18 9 21 8
Dit is significant bij drie vrijheidsgraden (p < .001). We moeten H0 verwerpen ten gunste van H1: er is een verschil in preferentie van auto’s tussen mannen en vrouwen. Uit Tabel 13.3 blijkt dat de grootste discrepanties tussen de verwachte en geobserveerde celfrequenties zich voordoen bij de Mercedes en de Alfa Romeo. Een meer gepreciseerde conclusie zou derhalve kunnen zijn: de Mercedes wordt door vrouwen hoger gewaardeerd en de Alfa Romeo door mannen. Op de beide andere merken (BMW en Porsche) zijn er nauwelijks verschillen in preferentie waargenomen. Een tweede voorbeeld van toepassing van de Chi-kwadraattoets ontlenen we aan Doll en Hill (1956). In deze studie onderzochten Doll en Hill de relatie tussen roken en longkanker. Doll en Hill schreven in 1951 alle Britse huisartsen aan met het verzoek om gegevens over hun leeftijd en rookgedrag. Vervolgens hielden ze jarenlang de overlijdensberichten en de doodsoorzaak bij en herhaalden hun enquête bij tijd en wijlen. De eerste uitkomsten, na circa vier jaar, zijn in Tabel 13.4 samengevat. Tabel 13.4. Rookgedrag van Britse artsen met en zonder longkanker als doodsoorzaak. Longkanker Sigaretten roken
Wel Niet Totaal
Niet
Wel
Totaal
21178
83
21261
3092
1
3093
24270
84
24354
Uit de bovenstaande tabel kan makkelijk geconcludeerd worden dat er geen relatie is tussen roken en longkanker. In (ruim) vier jaar is slechts [(84 / 24354) * 100 = ] 0.35% van de Britse artsen aan longkanker overleden. En, dat is slechts [(83 / 21261) * 100 =] 0.39% van de rokers onder hen. Dit is weinig, maar het is wel veel meer dan hetzelfde cijfer voor de niet-rokers [(1 / 3093) * 100 =] 0.032%.
260
Tabel 13.5. Verwachte frequenties van Tabel 13.4 als H0 juist is. Longkanker Niet Sigaretten roken
Wel
Totaal 21261
Wel
21188.0
73.3
Niet
3082.3
10.7
3093
Totaal
24270
84
24354
We zien in Tabel 13.5 dat er wel een erg groot verschil is tussen de geobserveerde aantallen rokers die overlijden aan longkanker en de verwachte waarden in deze cel. Hetzelfde geldt voor het geringe aantal huisartsen dat niet rookt, maar wel aan longkanker overleden is. Deze observatie maakt ons wel wantrouwig of de eerdere tentatieve conclusie wel juist is. We kunnen om aan deze onzekerheid de toetsingsgrootheid χ2 uitrekenen. Dat doen we op de vertrouwde manier: X2 =
(21178 − 21188)2 (3092 − 3082.3)2 (84 − 73.3)2 (1 − 10.7)2 + + + = 0.004 + 0.030 + 1.552 + 8.761 = 10.35. 21188 3082.3 73.3 10.7 2
Dus: χ = 10.35 met één vrijheidsgraad. Dit is duidelijk significant (p < 0.01). We moeten derhalve H0, dat er géén relatie is tussen beide variabelen, verwerpen ten gunste van H1 dat er wel een relatie is tussen beide variabelen: rokers sterven vaker aan longkanker dan niet-rokers. Maar, is dit nu een bewijs dat –zoals zo vaak verondersteld wordt– dat roken longkanker veroorzaakt? Nee, dat is het absoluut niet. Een paar alternatieve verklaringen: niet alle rokers krijgen longkanker, de rokers zijn ouder dan de niet-rokers, de rokers wonen veelal in de grote steden met meer vervuilde lucht dan de niet-rokers die veelal op het platte land wonen, ook zo erg nog een speciale genetische dispositie kunnen zijn, die zowel van invloed is op de verslaving aan tabak, als op de kans om longkanker te krijgen. Voor een causale interpretatie van de gegevens (let wel, het betreft hier immers geen experiment), moeten we op zijn minst de beschikking hebben over een theorie die de relatie tussen roken en longkanker expliciteert. Ook is het van belang om even naar de relatieve bijdrage aan de toetsingsgrootheid te kijken. We zien dan dat met namen de cel [niet roken en wel longkanker] aan de toetsingsgrootheid bijdraagt. Juist in deze cel zijn er veel minder mensen dan verwacht die longkanker krijgen. Het lage aantal observaties in deze cel moet dan ook geïnterpreteerd worden. 13.3 De Chi-kwadraattoets in SPSS Tot slot een laatste voorbeeld van de chi-kwadraattoets, maar nu uitgerekend met behulp van SPSS. Holleman (2000) is geïnteresseerd in de mate waarin de formulering van de vraag het antwoord van de respondent beïnvloedt. Om na te gaan of dergelijke formuleringseffecten echt bestaan bevroeg zij een groep respondenten. Dezen gaven of wel antwoord op de vraag ‘moet de overheid billboards langs de kant van de snelweg toestaan?’ of antwoord op de vraag ‘ moet de overheid bill-
HOOFDSTUK 13: NON-PARAMETRISCHE TOETSEN boards langs de kant van de snelweg verbieden?’ Als antwoord mogelijkheden werd alleen ‘ja’ of ‘nee’ toegestaan. Door het lot werd bepaald welke respondent welke van de twee vragen voorgelegd kreeg, Verwacht mag worden dat, als formulering van de vraag niet van invloed is op het antwoord, dat er in beide groepen evenveel mensen voor billboards zullen zijn, en mutatits mutandis evenveel mensen tegen billboards zullen zijn (H0). Dus, er zijn evenveel mensen die zouden zeggen ‘ja tegen toestaan’ als ‘nee tegen verbieden’. Om deze gegevens te analyseren zijn in SPSS voor alle respondenten drie variabelen ingevoerd: het rsepondentnummer (RESPON), of zij de toelaten-vraag dan wel de verbieden-vraag beantwoord hebben (TOE_VERB), en hun ANTWOORD. Het antwoord is als volgt gecodeerd: als de respondent het oneens was met het aangesneden issue (‘nee’ bij toelaten en ‘ja’ bij verbieden) dan is de code 0 gebruikt, en als de respondent het eens was met het issue (‘ja’ bij toelaten en ‘nee’ bij verbieden) is de code 1 gebruikt. In de figuur hiernaast zie je een stukje van de data-file. Om een chi-kwadraattoets uit te voeren, gaan we via ANALYZE naar DESCRIPTIVES en kiezen daar CROSSTABS. We komen dan in een schermpje waarin we moeten aangeven welke variabelen de rijen zijn, en welke variabele de kolommen zijn. Het maakt niets uit, of je voor de rijen toelaten vs. verbieden (TOE_VERB) kiest en voor de kolommen het ANTWOORD, of dat je dat andersom doet (probeer het maar eens). Nu ga je naar Statistics en vinkt Chi-square aan. Na CONTINUE en OK krijg je de output vanzelf. In het eerste deel zie je de kruistabel. Van de 528 personen die de toelaten-vraag voorgelegd kregen zijn 167 het er niet mee eens. Deze mensen vinden dat billboards langs de kant van de snelweg niet toegelaten moeten worden. Deze respondenten hebben dus nee, niet toelaten geantwoord. Van de 525 personen die de verbieden-vraag voorgeld kregen vinden er 217 dat billboards inderdaad verboden moeten worden; zij hebben dus ja tegen verbieden gezegd. Naast een heleboel andere maten geeft SPSS ook de Pearson Chi-Square, en je 2 ziet in één oogopslag dat deze significant is (χ = 10.70; df = 1; p = 0.001).
262
13.4 De toets van Wilcoxon Een taalbeheerster wil het effect van de manipulatie van bepaalde tekstfragmenten op de waardering voor een tekst onderzoeken. Zij trekt een aselecte steekproef van 20 personen uit een populatie studenten. Van deze 20 studenten worden er 10 aselect gekozen die een oordeel moeten geven over de herschreven tekst. De overige studenten moeten een oordeel geven over de originele tekst. Hoe hoger de score die gegeven wordt, hoe hoger de waardering voor de tekst. Eén van de proefpersonen moet helaas het onderzoek voortijdig beëindigen, wegens dringende maagklachten. De waarderingen van de overige 19 proefpersonen staan in Tabel 13.6. De taalbeheerster toetst de nulhypothese ‘geen effect’ tegen de alternatieve hypothese ‘de ingrepen hebben een positieve invloed op de waardering’. Tabel 13.6. De waardering van 19 proefpersonen op twee versies van dezelfde tekst. Versie
Oordeel
Origineel
10
17
35
2
19
4
18
28
24
Herschreven
15
22
8
48
29
25
27
39
31
36
De toets van Wilcoxon wordt gebruikt om uitspraken te doen over twee populaties die identiek verdeeld zijn, met mogelijk een verschillende centrummaat. De populatieverdelingen mogen dus hooguit ten opzichte van elkaar verschoven zijn. Bij de nonparametrische toets van Wilcoxon hoeven we dus niet de aanname te maken dat de scores in beide steekproeven normaal verdeeld zijn; nee, over het type ver-
HOOFDSTUK 13: NON-PARAMETRISCHE TOETSEN deling maken we geen aanname. Wel moeten we aannemen dat de verdelingen van de scores in beide steekproeven gelijk zijn. In bovenstaand voorbeeld verwachten we dus dat de verdeling van de oordelen over beide versies gelijk is. Het enige dat zou kunnen verschillen is de centrummaat. Met andere woorden de nulhypothese stelt dat X1, X2, X3, ..., Xm en Y1, Y2, Y3, ..., Yn uit identiek verdeelde populaties komen. Onder de alternatieve hypothese zijn de verdelingen ten opzichte van elkaar verschoven. Omdat de toets nagaat of de verdelingen gelijke centrummaten hebben, en omdat de toetsingsgrootheid zo gekozen zal worden dat een ordinale schaal op steekproefniveau voldoende is, worden de hypothesen ook wel in termen van medianen geformuleerd (de mediaan is dat punt van de verdeling, waarbij 50% van de scores zich links en 50% van de scores zich rechts bevinden: zie Hoofdstuk 8). Wanneer we de beide mediaan aangeven met mx en my, dan geldt onder H0: mx = my, of wel mx - my = 0, en onder H1: mx - my ≠ 0 (of H1: mx - my < 0, dan wel H1: mx - my > 0, afhankelijk van de onderzoeksvraag). Deze toets is zowel door Wilcoxon als door Mann en Whitney onafhankelijk van elkaar ontwikkeld en staat daarom ook wel bekend als de MannWhitney-toets. Weliswaar moeten de beide populatieverdelingen voor deze toets dezelfde vorm hebben, maar die hoef je niet te kennen (of er aannamen over te doen; zoals bij de t-toets). De toets van Wilcoxon is een verdelingsvrije toets die vooral geschikt is voor de analyse van de volgende twee experimentele opzetten. Bij de eerste opzet wordt een aselecte steekproef uit een populatie getrokken waarna de elementen van die steekproef aselect worden toegewezen aan een experimentele of een controle conditie. Zo ontstaan twee aselecte steekproeven behorend bij twee hypothetische populaties van respectievelijk behandelde en onbehandelde elementen (zoals het bovenstaande voorbeeld). Als maat voor het effect van de behandeling wordt mx- my gebruikt. De nulhypothese stelt dat er geen effect is, H0 : mx - my = 0. Bij de tweede opzet worden rechtstreeks twee onafhankelijke steekproeven uit twee verschillende populaties getrokken (bij voorbeeld: een steekproef ‘leken’ versus een steekproef ‘deskundigen’). Terug naar het voorbeeld. Er zijn twee onafhankelijke steekproeven getrokken uit twee continu verdeelde populaties (de respondenten mogen immers elk oordeel geven dat ze willen). Onder de nulhypothese zijn de twee populaties identiek verdeeld, onder de alternatieve hypothese zijn zij ten opzichte van elkaar verschoven. Toetsingsprocedure In het vervolg zullen we aannemen dat de omvang m van de Y steekproef kleiner of gelijk is aan de omvang n van de X steekproef. Door de variabele in de kleinste steekproef met Y en in de grootste met X aan te geven, kan hiervoor altijd gezorgd worden. De toetsingsprocedure verloopt nu stapsgewijs als volgt:
264 1) voeg de beide steekproeven samen en orden de m + n waarnemingen naar grootte; 2) vervang de waarnemingen door rangnummers lopend van 1 tot en met m + n; op steekproefniveau is een ordinale schaal voldoende als tenminste op grond hiervan de rangorde van de gecombineerde steekproeven te bepalen valt; 3) kies als toetsingsgrootheid SY, de som van de rangnummers in de kleinste en dus de Y steekproef; het kiezen van de som van de rangnummers in de X steekproef, SX, zou meer werk geven; er geldt overigens: SY + SX = 1 + 2 + ... + m + n = (m + n)(m + n + 1) / 2. De toetsingsgrootheid SY neemt gehele waarden aan tussen minimaal 1 + 2 + ... + m = m (m + 1) / 2 en maximaal (n + 1) + (n + 2) + ... + (n + m) = m (m + 2n + 1) / 2. Immers, de minimale waarde wordt bereikt als alle rangnummers uit conditie Y de kleinste zijn, en de maximale waarde wanneer die juist de grootste zijn. De minimale waarde wordt wel min SY genoemd, en de maximale waarde max SY. Onder de nulhypothese (samenvallende verdelingen) zal de Y steekproef zowel grote als kleine rangnummers bevatten. Onder de alternatieve hypothese (verschoven verdelingen) bevat de ene steekproef overwegend lage en de andere overwegend hoge rangnummers. Onder de nulhypothese is de steekproefverdeling van SY symmetrisch om het gemiddelde van zijn minimale en maximale waarde (min SY + max SY). Afhankelijk van de gestelde alternatieve hypothese wordt H0 verworpen als SY veel kleiner of veel groter is dan m (m + 1) /2. Laten we nu eens SY uitrekenen voor het experiment met de twee versies van dezelfde tekst. Getoetst wordt H0: mX - mY = 0 tegen H1: mX - mY > 0. De kleinste steekproef wordt gevormd door de proefpersonen die de originele tekst gelezen hebben. Dus geldt: m = 9 en n = 10. De berekening van SY uit de 19 naar grootte gerangschikte waarnemingen verloopt als volgt: Score
Groep
Rangnr.
Score
Groep
Rangnr.
Score
Groep
Rangnr.
2
Y
1
18
Y
8
28
Y
14
4
Y
2
19
X
9
31
X
15
8
X
3
22
Y
10
35
Y
16
10
Y
4
24
X
11
36
X
17
15
X
5
25
X
12
39
X
18
17
Y
6
27
X
13
38
X
19
18
Y
7
Op grond van deze rangordening zien we dat de Y-conditie (het lezen van de originele tekst) enigszins oververtegenwoordigd is bij de lage rangordenummers en enigszins ondervertegenwoordigd bij de hoge rangordenummers. Dit komt overeen met het idee van de onderzoekster, die nu SY berekent: SY = 1 + 2 + 4 + 6 + 7 + 8 + 10 + 13 + 16 = 67
HOOFDSTUK 13: NON-PARAMETRISCHE TOETSEN In Bijlage F kunnen we nu 67 opzoeken bij de steekproeven m=9 en n=10. We vinden dan p = .033. De kans dat H0 juist is, kan derhalve als klein getypeerd worden. We verwerpen H0 ten gunste van H1; de manipulatie van de teksten heeft een positieve invloed op de waardering van de proefpersonen. 13.5 De toets van Wilcoxon in SPSS Ok, en nu schakelen we SPSS in om ook de gegevens in Tabel 13.6 nogmaals te analyseren. We maken een data-file (zie hiernaast) met drie variabelen: respondent (RESPONDENT), conditie (CONDITIE) en de score van de respondenten (SCORE). Dan gaan via ANALYZE naar NONPARAMETRIC TESTS. Daar zien we een heel rijtje met mogelijkheden, zodat we even goed op moeten letten wat we willen doen. We hebben twee condities, oftewel twee steekproeven. Omdat het verschillende steekproeven zijn, elke respondent is één keer gemeten in één van de twee condities, hebben we twee onafhankelijke steekproeven. We kiezen dus voor 2 INDEPENDENT SAMPLES. Dan krijgen we het volgende schermpje. In dit schermpje moeten we aangeven wat de afhankelijke variabele (TEST VARIABLE) is, en wat de onafhankelijke variabele (GROUPING VARIABLE) is. Natuurlijk is hier SCORE de afhankelijke variabele, en is CONDITIE de onafhankelijke variabele. Daarna moeten we bij DEFINE GROUPS aangeven dat de code 1 groep 1 is, en de code 2 groep 2 indiceert. Dan gaan je even naar OPTIONS om de DESCRIPTIVES aan te klikken, en na een klik op CONTINUE en OK, krijg je de output van spss voorgeschoteld. Deze hebben we hieronder integraal weergegeven. Over de gegevens bij DESCRIPTIVES hoeven we het niet meer te hebben, die spreken wel voor zichzelf. Bij het tweede deel, Ranks, wordt informatie gegeven over de gemiddelde rangorde, en over de som van de rangordes per niveau van de onafhankelijke variabele. Dus: voor beide condities. Zoals we al weten is de som van de rangordes voor de eerste conditie 67. Dat hadden we zoeven ook met de hand uitgerekend. Voor de tweede conditie is de som van de rangorde nummers 123. In het derde deel van de output worden de toetsingsgrootheden gegeven. Er zijn er drie die eigenlijk uitwisselbaar zijn: de Mann-Whithney U, de Wilcoxon W en één soort Z (standaardscore). Daarna krijg je de overschrijdingskans die altijd tweezijdig wordt weergegeven. We zijn –vanzelfsprekend– geïnteresseerd in de exacte
266 waarde van de overschrijdingskans en niet in een asymptotische benadering hiervan. We kijken daarom bij EXACT SIG. Omdat we een specifieke hypothese hebben over de verschillen tussen condities (een eenzijdige hypothese) moeten we deze kans nog door twee delen. We komen dan op 0.65 / 2 = 0.33. Descriptive Statistics N
Mean
Std. Deviation
Minimum
Maximum
Oordeel
19
23.00
12.197
2
48
Conditie
19
1.53
.513
1
2
Ranks Conditie
N
Mean Rank
Sum of Ranks
1
9
7.44
67.00
2
10
12.30
123.00
Total
19
Oordeel
Test Statisticsb Oordeel Mann-Whitney U
22.000
Wilcoxon W
67.000
Z
-1.878
Asymp. Sig. (2-tailed)
.060
Exact Sig. [2*(1-tailed Sig.)]
.065
a
a. Not corrected for ties. b. Grouping Variable: Conditie
13.6 De mediaantoets Zoals bij de t-toets voor het verschil tussen gemiddelden het geval was kunnen ook nu twee typen van situaties onderscheiden worden waarin de vraag is of de populatiemediaan in twee steekproeven gelijk is. In het eerste geval betreft het onafhankelijke steekproeven die we met behulp van de toets van Wilcoxon kunnen analyseren. In het tweede geval betreft het afhankelijke steekproeven. Voor afhankelijke steekproeven kan men beter zijn heil zoeken bij de mediaantoets. Bij de mediaantoets, of binomiaal-toets, wordt getoetst of twee populaties dezelfde mediaan hebben. Aannamen omtrent de verdelingsvorm behoeven hierbij niet gemaakt te worden. De nulhypothese bij de mediaan- of tekentoets is dat de medianen in beide steekproeven niet van elkaar verschillen. We kunnen dit ook anders formuleren als: de kans op X < Y = X > Y = 1/2. Bij voorbeeld: als een munt zuiver is, is de kans op het aantal keren kop gelijk aan de kans op het aantal keren munt = .5. De alternatieve
HOOFDSTUK 13: NON-PARAMETRISCHE TOETSEN hypothese bij de mediaantoets is natuurlijk dat de medianen in de beide (afhankelijke) populaties niet gelijk zijn, wanneer er tweezijdig getoetst wordt, of dat p (X < Y = > .5), of p (X > Y = > .5) bij respectievelijk links- en rechts-éénzijdige toetsing. Een voorbeeld. Een onderzoekster is van mening dat bij gehuwden vrouwen een groter belang hechten aan het lezen van literatuur dan hun mannen. Zij doet daarom een onderzoek waarbij zij (onder andere) vraagt naar het belang dat gehecht wordt aan lezen. De respondenten moeten hun antwoord kenbaar maken op een vijfpuntsschaal, waarbij de code 1 correspondeert met ‘totaal onbelangrijk’ en de code 5 met ‘erg belangrijk’ Dit resulteert in de volgende tabel.
Tabel 13.7. Het belang dat gehuwden hechten aan lezen van literatuur. Score Echtpaar A B C D E F G H I J K
Man 5 3 2 3 2 5 3 4 3 1 4
Vrouw 3 4 3 1 1 4 2 3 2 4 4
Verschil positief negatief positief positief positief positief positief positief positief negatief geen verschil
Zoals in de tabel aangegeven, noteert de onderzoekster of het verschil in ‘belang van lezen’ conform de hypothese is (+; positief), of dat dit verschil tegengesteld aan de hypothese is (negatief). Als er geen verschil is tussen mannen en vrouwen, dan zal het aantal plusjes ongeveer gelijk zijn aan het aantal minnetjes. In dit geval is er zeven keer een positief resultaat, driekeer een negatief resultaat minnetjes en één vraagteken; bij zeven echtparen vinden we een ‘bevestiging’ van de hypothese, bij drie echtparen wordt de hypothese ‘niet bevestigd’, en bij één echtpaar kan geen onderscheid in de waardering tussen de beide echtgenoten aangetoond worden. De vraag is natuurlijk wat is de kans om deze gegevens te vinden indien H0 juist is. De eerste stap is de meest eenvoudige: verwijder alle observaties waarbij geen onderscheid aangetoond kan worden. Het elfde echtpaar (K) wordt dus bij de analyse buiten beschouwing gelaten, zodat tien echtparen voor de analyse resteren. Als er geen verschil is in waardering (H0), dan verwachten we even vaak positief als negatief, namelijk vijf. Onder H0 is dus p (positief) = p (negatief) = .5. We moeten dus de kans bepalen om drie plusjes te observeren uit tien observaties onder de aanname dat de kans op een plusje gelijk is aan de kans op een minnetje (= .5). Als we één observatie plegen, dan is de kans .5 dat we één plusje observeren. Als we twee observaties doen, dan is onder H0, de kans (.5 * .5 =) .25 dat er geen plusje is, (2 * .5 * .5 =) 0.50 dat er één plusje gevonden wordt -- immers de kans is .25 dat de eerste van de twee een ‘positief’ resultaat is, en de kans dat de tweede observatie
268 ook een ‘positief’ resultaat is, is, is ook .25, wat gelijk is aan 2 * .25 = 2 * (.5 * .5) --; tot slot is de kans dat er twee maal een positief resultaat geobserveerd wordt gelijk aan (.5 * .5 =) 0.25. Wanneer we dit voorbeeld uitbreiden naar drie observaties, dan is de kans op geen positief resultaat gelijk aan (.5 * .5 * .5 =) 0.125. De kans op één positief resultaat is gelijk aan de kans op een positief resultaat voor het eerste echtpaar en een negatief resultaat voor echtpaar twee en drie, plus de kans op een positief resultaat voor het tweede echtpaar en een negatief resultaat voor het eerste en derde echtpaar, plus de kans op een positief resultaat voor het derde echtpaar en een negatief resultaat voor het eerste en tweede echtpaar. Dat is natuurlijk gelijk aan 3 * (.5 * .5 * .5 =) 0.375. De kans op twee positieve resultaten is gelijk aan de kans op het eerste en tweede echtpaar positief en het derde negatief plus de kans op een positief resultaat voor echtparen 1 en3 en een negatief resultaat voor echtpaar 2, plus de kans op ee n positief resultaat voor het tweede en derde echtpaar en een negatief resultaat voor het eerste echtpaar. Dit is natuurlijk gelijk aan (3 * (.5 * .5 * .5 =) 0.375. En de kans op géén enkel positief resultaat is natuurlijk weer gelijk aan 0.125. Zoals je ziet wordt eerst het aantal mogelijke keren dat een bepaalde uitkomst kan optreden bepaald, waarna dit aantal vermenigvuldigd wordt met de kans op één van deze uitkomsten. Wanneer het aantal observaties gering is, kan je eenvoudig alle mogelijke uitkomsten opschrijven, maar als dit aantal groter is kun je beter gebruik maken van de volgende formule: N N! 1*2*3*...*N = . = k k!(N-k!) 1*2*...*k*[(N-1)*(N-2)*...*(N-k)
(13.3)
Hierbij is N het totaal aantal waarnemingen, en k is het aantal malen dat een bepaalde uitkomst (bij voorbeeld: +) optreedt. Het meest linker lid van Vergelijking 13.3, wordt uitgesproken als N boven k, en dit is gelijk aan N faculteit gedeeld door (k faculteit vermenigvuldigd met (N - k) faculteit). Deze faculteiten lijken heel ingewikkeld, maar komen er in feite op neer dat alle getallen van 1, 2, ..., N of k of (N k) worden vermenigvuldigd. Als we bijvoorbeeld drie observaties doen en daarbij twee plusjes observeren, dan is het aantal mogelijke keren dat dit op kan treden in een steekproef van die (N) gelijk aan: 3 1* 2 * 3 6 = =3 = 2 1 * 2 *( 2 − 1 ) 2
wat precies gelijk is aan het aantal mogelijke echtparen met twee positieve resultaten wat we hierboven besproken hebben. Om de kans te berekenen op één van deze mogelijkheden (twee positieve resultaten) gebruiken we een productregel: pk *q(N-k)
(13.4)
HOOFDSTUK 13: NON-PARAMETRISCHE TOETSEN De kans op één positief resultaat is p, en de kans op één negatief resultaat is gelijk aan q. Nu is onder H0 p = q = .5. We kunnen dus voor de mediaantoets de bovenstaande vergelijking vereenvoudigen tot: k
.5 * .5
(N - k)
= .5
N
De kans om k plusjes te observeren bij N waarnemingen is onder H0 dus gelijk aan: N p= *0.5N k
(13.5)
Voor ons voorbeeld uit Tabel 13.5 geeft dit: 10 1* 2 *...*10 3628800 p = * 0.510 = * 0.510 = * 0.0009766 = 0.117 7 1 * 2 *...* 7 * 1 * 2 * 3 5040 * 6
Als H0 juist zou zijn, is deze uitkomst niet al te onwaarschijnlijk. In ongeveer 12% van de gevallen kan een dergelijke steekproefuitkomst gevonden worden, als H0 in de populatie juist is. We moeten derhalve de geobserveerde verschillen in ‘leeswaardering’ toeschrijven aan het toeval. Een aardige toepassing van de mediaantoets is de volgende. Als we één keer een toets uitvoeren, en een van .05 hanteren, dan is de kans om H0 te verwerpen .05 ofwel 5%. Maar als we tien keer een toets uitvoeren en elke keer een van 5% hanteren, wat is dan de a priori kans om één significant resultaat te vinden. Met de mediaantoets in het achterhoofd is het niet moeilijk te bedenken dat N = 10; k = 1; p = 1 - .05 =.95; q = .05 Even invullen: 10 9 1 * 0.95 * 0.05 = 10 * 0.63 * 0.05 = 0.32 1
Dus de a priori kans op één significant resultaat is niet .05, maar door het herhaald uitvoeren van een toets .32. De kans op een α-fout is dus aanzienlijk. Maar de vraag -- wat is de kans op één significant resultaat -- is niet zo heel erg reële. Reëler is: wat is de kans op tenminste één significant resultaat bij het uitvoeren van 10 toetsen en een α van .05. Dit is de kans op één, twee, drie, ... tien significante resultaten. Deze kans is natuurlijk gelijk aan (1 - de kans op geen significant resultaat), die met de mediaantoets eenvoudig is uit te rekenen (n.b. 0! = 1): 10 10 0 * 0.95 * 0.05 = 1* 0.60 *1 = 0.60 0
270 De kans op tenminste één significant resultaat is derhalve (1 - .6 =) .4. De kans om een -fout te maken neemt dus enorm toe als het aantal toetsingen toe neemt. Je ziet hoe het kan lonen om verschillende gemiddelden, medianen e.d. tegelijk te vergelijken in plaats van ze paarsgewijs te vergelijken. Soms is het echter nodig dat een paarsgewijze vergelijking plaats vindt. Dan is een dergelijke toename van de kans op een α-fout domweg onacceptabel. Er is echter een eenvoudig recept: pas α aan. Als we niet bij .05, maar pas bij .005 zouden besluiten tot een significant resultaat, dan is de overall kans op een α-fout (bij benadering) weer .05. De algemene regel is simpel: kies een α (zoals traditioneel .05) en deel deze gekozen α door het totaal aantal uit te voeren toetsingen. Hanteer dit laatste getal als nieuwe α. Pas als de overschrijdingskans kleiner is dan deze nieuwe α wordt besloten tot het verwerpen van H0. Deze regel heet de ongelijkheid van Bonferroni. 13.7 De toets van Kruskal-Wallis De toets van Kruskal-Wallis wordt gebruikt om de nulhypothese dat k (k >= 3) populaties dezelfde centrummaat hebben te toetsen. Deze toets wordt gebruikt om na te gaan of overigens identiek verdeelde populaties wel of niet in centrummaten verschillen. De nulhypothese wordt in dat geval H0: m1 = m2 = ... = mk. De alternatieve hypothese stelt dat niet alle medianen aan elkaar gelijk zijn. In dat laatste geval vallen dus niet alle verdelingen samen, maar is er minstens één verschoven ten opzichte van de overigen. Zo geformuleerd wordt met de toets van KruskalWallis dezelfde vraagstelling onderzocht als bij de toets van Wilcoxon. De toets van Wilcoxon wordt echter gebruikt bij twee onafhankelijke steekproeven, terwijl de toets van Kruskal-Wallis bij meer dan twee onafhankelijke steekproeven (vergelijk de t-toets versus variantie-analyse). Om de hypothese te toetsen worden uit k populaties k onafhankelijke steekproeven getrokken, met respectievelijk de omvang n1, n2, ..., nk. De toetsing wordt gebaseerd op de rangnummers van de steekproefwaarnemingen, wat meteen de keuze voor de mediaan als centrummaat motiveert. Op steekproefniveau is een ordinale schaal dus voldoende wanneer het tenminste mogelijk is met behulp van die meetschaal de elementen uit alle steekproeven tezamen naar grootte te ordenen. Wanneer op intervalniveau gemeten wordt, vormt de Kruskal-Wallis een verdelingsvrij alternatief voor de éénwegsvariantie-analyse. De nulhypothese in de variantie-analyse heeft betrekking op populatiegemiddelden (µ1 = µ2 = ... = µk), terwijl de nulhypothese bij de Kruskal-Wallis betrekking heeft op populatiemedianen (m1 = m2 = ... mk). Maar de nulhypothese bij de Kruskal-Wallis kan in het geval van een intervalschaal net zo goed in termen van gemiddelden geformuleerd worden. Immers, meting op intervalniveau impliceert al een rangorde. De toets van KruskalWallis is in feite een éénwegsvariantieanalyse op rangnummers. De verdelingsvrije toets van Kruskal-Wallis is vooral geschikt voor de analyse van de volgende twee experimentele opzetten. Bij de eerste opzet wordt een aselecte steekproef uit een populatie getrokken, waarna de elementen uit die steekproef aselect worden toegewezen aan k condities of behandelingen. Eén van die condities kan een controle conditie zijn. Zo worden k onafhankelijke groepen waarnemingen verkregen die opgevat kunnen worden als k onafhankelijke steekproeven
HOOFDSTUK 13: NON-PARAMETRISCHE TOETSEN uit k hypothetische populaties die bij de behandeling horen. De toets gaat na of de resultaten van die behandelingen wel of niet van elkaar verschillen. Bij de tweede opzet worden de k onafhankelijke steekproeven rechtstreeks uit evenzoveel verschillende populaties getrokken. Het volgende voorbeeld zullen we met behulp van Kruskal-Wallis analyseren, waarbij we en passant de toetsingsgrootheid voor deze toets zullen afleiden. Uit een populatie van leerlingen met leesmoeilijkheden wordt een aselecte steekproef van 15 leerlingen getrokken. Vervolgens wordt deze groep aselect opgedeeld in drie steekproeven van elk vijf leerlingen, die ieder op een andere manier speciaal leesonderwijs krijgen. Van elke leerling wordt vervolgens zijn leesvaardigheid gemeten. Om er voor te zorgen dat er niet te veel knopen optreden (leerlingen met dezelfde leesvaardigheidscore, want dan zijn de leerlingen niet meer te rangordenen op basis van hun score) moeten alle leerlingen twee leesvaardigheidtoetsen maken. Tijdens de uitvoering van het experiment verhuist één van de leerlingen uit de derde groep zodat geldt n1 = n2 = 5 en n3 = 4. De geregistreerde tekstbegripscores staan in de onderstaande tabel vermeld. Tabel 13.8. Tekstbegripscores voor leerlingen met leesmoeilijkheden Onderwijsmethode 1
120
63
50
23
21
Onderwijsmethode 2
70
48
31
20
11
Onderwijsmethode 3
68
29
18
12
Getoetst wordt de nulhypothese dat de lesmethoden niet verschillen qua behaalde leesvaardigheidscore tegen het alternatief dat dit wel het geval is, c.q. de verschillen in leesvaardigheidscore zijn toe te schrijven aan steekproeffluctuaties of zij worden veroorzaakt door de verschillende onderwijsmethoden. Toetsingsgrootheid In het algemeen worden bij de Kruskal-Wallis dus k onafhankelijke steekproeven getrokken. De omvang van elke steekproef kunnen we aangeven met ni (i = 1, 2, ..., k). Onder de nulhypothese zijn deze k steekproeven identiek verdeeld en onder de alternatieve hypothese is dit niet het geval, de verdeling betreft hier dus het aandeel scores rond de mediaan per steekproef naar rangorde. Dit betekent dat de k steekproeven onder de nulhypothese feitelijk uit één en dezelfde populatie komen en dat ze ook opgevat kunnen worden als één aselecte steekproef van omvang n = ni uit deze populatie. Hieruit volgt dat alle theoretisch mogelijke rangordeningen van de n steekproefwaarnemingen onder H0 even waarschijnlijk zijn. Hoge en lage rangnummers zullen dus volgens toeval verdeeld zijn over de k steekproeven wanneer de n waarnemingen uit de k steekproeven gerangordend worden van 1 tot en met n. Dit heeft tot gevolg dat het gemiddelde rangnummer per steekproef ongeveer gelijk zal zijn aan het gemiddelde rangordenummer van de n gezamenlijke waarnemingen. Het laatste gemiddelde is gelijk aan (1 + 2 + ... + n) / n = n (n+1) / 2n = (n + 1) / 2. Wanneer de som van de rangordenummers in steekproef i (i = 1, 2, ..., k) aangegeven wordt met Ri is het gemiddelde van de rangnummers in deze steek-
272 proef gelijk aan Ri / ni. Onder de nulhypothese geldt dus dat Ri / ni ongeveer gelijk is aan (n + 1) / 2 voor i = 1, 2, ..., k. De toetsingsgrootheid wordt daarom gebaseerd op de verschillen Ri / ni - (n+1) / 2. Om de toetsingsgrootheid te bepalen wordt nu, net zoals in de variantie-analyse, de som van de met de steekproefomvang ni gewogen gekwadrateerde verschillen tussen de steekproefgemiddelden en het algemeen gemiddelde als basis voor de toetsingsgrootheid gekozen: Alleen worden de gemiddelden, anders dan in de variantie-analyse, berekend op de rangnummers. Naarmate D groter is, wordt het onwaarschijnlijker dat de steekproeven uit één en dezelfde populatie komen. Gelukkig kunnen we de bovenstaande formule ook makkelijker schrijven (d.w.z.: op een manier die minder reken werk vraagt) als: D=
R2i n(n+1)2 4 i
∑n =
(13.6)
Om nu te bereiken dat de steekproevenverdeling van de toetsingsgrootheid voor voldoende grote waarden van n1, n2, ..., nk met een eenvoudige verdeling te benaderen is moet D nog gedeeld worden door de constante n (n + 1) / 12. Dit geeft de uiteindelijke toetsingsgrootheid van Kruskal-Wallis: H=
D 12 = n(n+1) n(n+1) 12
D=
∑
R2i
∑ n -3(n+1)
(13.7)
i
R 1 ni * i − * ( n + 1) 2 n i
2
In deze formule is: k: het aantal steekproeven; ni: het aantal waarnemingen in steekproef i; n = Σ ni: het totaal aantal waarnemingen in de k steekproeven; Ri: de som van de rangnummers in steekproef i.
(13.8)
HOOFDSTUK 13: NON-PARAMETRISCHE TOETSEN De berekening van de toetsingsgrootheid H verloopt stapsgewijs als volgt: 1) voorzie de n1 + n2 + ... + nk = n waarnemingen uit de k onafhankelijke steekproeven van rangnummers 1 tot en met n; 2) bepaal voor i = 1, 2, ..., k de som van de rangnummers Ri in de i-de steekproef; 3) bereken H met formule: vermenigvuldig het aantal waarnemingen met het aantal waarnemingen plus één. Deel twaalf door dit getal en onthoud het. Bereken per conditie de som van de rangnummers, kwadrateer deze som, en deel door het aantal waarnemingen in die conditie, en sommeer de verkregen getallen over de condities. Vermenigvuldig dit getal met het getal dat je zojuist onthouden hebt. En tot slot moet je hier drie maal het totaal aantal waarnemingen plus één van af halen. De nulhypothese dat de drie lesmethoden niet in effectiviteit van elkaar verschillen wordt met de toets van Kruskal-Wallis getoetst tegen het alternatief dat dit wel het geval is. We rangordenen daarom eerst de verschillende waarnemingen: Methode 1
Methode 2
Methode 3
120 - 14
70 - 13
68 – 12
63 -11
48 - 9
29 – 7
50 - 10
31 - 8
18 – 3
23 - 6
20 - 4
12 – 2
21 - 5
11 - 1
R1 = 46
R2 = 35
R3 = 24
n1 = 5
n2 = 5
n3 = 4
Nu kunnen we H uitrekenen: H=
12 462 352 242 * + + -3*15=0.6*(423.3+245+144)-45=1.41. 14*15 5 5 5
De toetsingsgrootheid H heeft een 2-verdeling met k - 1 vrijheidsgraden, zodat we in de tabel voor de chi-kwadraat de kans kunnen opzoeken op deze resultaten onder de aanname dat H0 juist is. Als we 3.73 opzoeken bij twee vrijheidsgraden, dan zien we dat deze kans kleiner is dan .25, maar groter dan .10. H0 mag duidelijk niet verworpen worden. Immers, het is niet onwaarschijnlijk dat we een dergelijke steekproefuitkomst vinden indien H0 juist is. We moeten concluderen dat de verschillen tussen R1, R2 en R3 het gevolg zijn van toevallige steekproeffluctuaties.
274
13.8 Kruskall-Wallis in SPSS Een heel gedoe, wat in SPSS veel makkelijker gaat. We hebben een datafile nodig met: het respondentnummer (RESPON), een code voor de conditie (CONDIT) en de SCORE. Bij ANALYZE, NONPARAMETRIC TESTS, kiezen we voor K INDEPENDENT SAMPLES. Zoals gewoonlijk moeten we weer aangeven wat de afhankelijke en wat de onafhankelijke variabele is. En, we moeten even aangeven wat de minimale en de maximale waarde is voor de onafhankelijke (of groeperingsvariabele). Als je nog descriptives wilt, dan moet je even via options gaan, (dat is wel makkelijker voor de interpretatie. Anders druk je gewoon op OK. We geven de output van deze analyse zonder verder commentaar. Kruskal-Wallis Test
Ranks Conditie
N
Mean Rank
1
5
9.20
2
5
7.00
3
4
6.00
Total
14
Oordeel
Test Statistics
a,b
Score Chi-Square
1.411
df
2
Asymp. Sig.
.494
a. Kruskal Wallis Test b. Grouping Variable: Conditie
HOOFDSTUK 13: NON-PARAMETRISCHE TOETSEN
13.9 . De toets van Friedman De toets van Kruskal-Wallis wordt gebruikt om na te gaan of k behandelingen of experimentele condities van elkaar verschillen. Hiertoe worden voor i (i = 1, 2, ..., k) aselect ni proefpersonen aan conditie i toegewezen. Door de aselecte toewijzing zijn de waarnemingen niet alleen binnen één conditie, maar ook tussen de verschillende condities onafhankelijk van elkaar. Dit betekent dat alle waarnemingen uit k condities met elkaar vergeleken kunnen worden. Bij de Kruskal-Wallis gebeurt dat door de waarnemingen te rangordenen van 1 tot en met n. Wanneer de proefpersonen voor de behandeling niet te veel van elkaar verschillen op de onderzoeksvariabele, ligt het voor de hand verschillen na de behandelingen te interpreteren als behandelingseffecten. Door de proefpersonen aselect aan de k behandelingen toe te wijzen wordt een systematische vertekening van de onderzoeksresultaten door de betrekkelijk geringe individuele verschillen voorkomen. Wanneer de proefpersonen voor de behandeling wel sterk variëren in hun scores op de onderzoeksvariabele, wordt de bij Kruskal-Wallis gehanteerde experimentele opzet minder effectief. Het aselect toewijzen van de proefpersonen aan de k behandelingen kan niet voorkomen dat bestaande verschillen tussen de behandelingen niet opvallen door de grote variatie in scores van de proefpersonen die in eenzelfde conditie thuishoren. In dergelijke gevallen kan de analyse verscherpt worden door de proefpersonen in subgroepen te verdelen die zo homogeen mogelijk zijn met betrekking tot de onderzoeksvariabele (matchen). Dergelijke homogene subgroepen worden blokken genoemd. Wanneer k behandelingen worden vergeleken zal een blok gewoonlijk uit k proefpersonen bestaan. De k behandelingen worden dan aselect aan de proefpersonen toegewezen. Deze onderzoeksopzet wordt een aselect blokontwerp (randomized block design) genoemd. De behandelingen worden nu alleen binnen een blok met elkaar vergeleken door ze van 1 tot en met k te ordenen. De toets van Friedman wordt op deze bloksgewijze rangordeningen gebaseerd. Kruskal-Wallis komt niet als analysetechniek in aanmerking, want die is gebaseerd op de rangordening van alle waarnemingen van 1 tot en met n. Een blok kan uit één persoon bestaan, die alle k behandelingen ondergaat en zo k herhaalde metingen oplevert. Stel dat men de effectiviteit van drie verschillende slaapmiddelen wil onderzoeken. Om het effect van individuele verschillen te elimineren krijgt iedere proefpersoon achtereenvolgens alle drie de slaapmiddelen toegediend. Een blok bestaat nu uit drie herhaalde metingen aan dezelfde proefpersoon. Om volgorde effecten te voorkomen wordt nu de volgorde waarin de behandelingen toegediend worden aselect gekozen. Sterke individuele verschillen in scores op de onderzoeksvariabele worden meestal veroorzaakt door verschillen op achtergrondvariabelen die samenhangen met de onderzoeksvariabele. Variabelen op grond waarvan homogene blokken gevormd kunnen worden zijn bij voorbeeld: leeftijd, intelligentie en sekse. Door bij voorbeeld blokken te vormen van proefpersonen die ongeveer even oud zijn en die bloksgewijs te analyseren, wordt de invloed van de variabele leeftijd op de onderzoeksvariabele geneutraliseerd.
276 Omdat de verdelingsvrije toets van Friedman wordt uitgevoerd op per blok gerangordende waarnemingen is een ordinale meetschaal voldoende. Wanneer er op intervalniveau gemeten wordt, kan de experimentele opzet ook met een éénwegsvariantieanalyse met herhaalde waarnemingen geanalyseerd worden, als tenminste aan de vereiste verdelingsvoorwaarden is voldaan. Friedman vormt een verdelingsvrij alternatief voor de variantie-analyse. Net zoals Kruskal-Wallis is Friedman in wezen een variantie-analyse op gemiddelde rangnummers in plaats van gewone gemiddelden. Als er slechts twee condities vergeleken worden (k = 2) is de toets van Friedman gelijkwaardig met de tweezijdige tekentoets voor gematchte paren of herhaalde metingen. Zoals Kruskal-Wallis een generalisatie is van de toets van Wilcoxon voor meer dan twee onafhankelijke steekproeven, is Friedman een generalisatie van de tekentoets voor meer dan twee afhankelijke steekproeven. Het volgende voorbeeld is een variant van het vorige bij de toets van KruskalWallis, en het zal met behulp van de toets van Friedman geanalyseerd worden. Uit een populatie van leerlingen met leesmoeilijkheden wordt een aselecte steekproef van 15 leerlingen getrokken. Men wil de effectiviteit van verschillende onderwijsmethoden vergelijken in termen van leesvaardigheidscores. Omdat de leerlingen nogal verschillen in leeftijd en de factor leeftijd mede bepalend is voor het ‘ingeroest zijn van oude (en foute) leesstrategieën’, worden ze verdeeld in vijf blokken van elk drie leerlingen die met betrekking tot de variabele leeftijd homogeen zijn. Blok één bevat de drie jongste leerlingen en blok vijf bevat de drie oudste leerlingen. Op deze wijze wordt het effect van de factor leeftijd tot een minimum teruggebracht. In ieder blok worden de drie onderwijsmethoden aselect aan de drie leerlingen gegeven. De geregistreerde scores op de tekstbegriptoetsen staan in de onderstaande Tabel 13.8. Getoetst wordt de nulhypothese dat de onderwijsmethoden geen verschillen in mediane leesvaardigheid te zien geven tegen de alternatieve hypothese dat dit wel het geval is.
Tabel 13.8 Leesvaardigheidsscores na drie onderwijsmethoden. Onderwijsmethode Blok 1
1
2
3
130
100
85
2
80
60
70
3
35
40
18
4
21
18
11
5
18
20
4
Met het aselecte blokkenontwerp kan nagegaan worden of k experimentele condities of behandelingen van elkaar verschillen. Hiertoe worden nk proefpersonen verdeeld in n blokken van k proefpersonen. De blokken worden door te matchen zo samengesteld dat ze zo homogeen mogelijk zijn met betrekking tot een achtergrondvariabele die een duidelijke samenhang vertoont met de onderzoeksvariabele. Door de gegevens bloksgewijs te analyseren wordt de invloed van de achter-
HOOFDSTUK 13: NON-PARAMETRISCHE TOETSEN grondvariabele tot een minimum teruggebracht. Binnen een blok worden de k behandelingen aselect toegewezen aan de k proefpersonen. Het aselecte blokontwerp kan ook gebruikt worden om alle individuele verschillen tussen proefpersonen uit te schakelen. In dat geval worden n proefpersonen k keer herhaald gemeten zodat ieder van de n proefpersonen aan alle k behandelingen onderworpen wordt. De k metingen aan één proefpersoon vormen een blok. Om volgorde effecten te vermijden wordt nu de volgorde waarin de k behandelingen aan de proefpersoon worden toegediend aselect gekozen. In beide gevallen worden de waarnemingen binnen ieder blok gerangordend van 1 tot en met k. In Tabel 13.8 is dit schematisch weergegeven. De rijen zijn de blokken en de kolommen de behandelingen. Rij is het rangnummer dat toegekend wordt aan de proefpersoon die in het i-de blok de j-de behandeling heeft ondergaan. In ieder blok wordt gerangnummerd van 1 tot en met k zodat de rijtotalen gelijk zijn aan 1 + 2 + ... + k = k(k + 1) / 2. De som van de rangnummers in de j-de kolom wordt weer aangegeven met Rj.
Tabel 13.9. N rangordeningen van k behandelingen. Behandeling Blok
1
2
j
K
1
R11
R12
R1j
R1k
k (k + 1) / 2
2
R21
R22
R2j
R2k
k (k + 1) / 2
i
Ri1
Ri2
Rij
Rik
k (k + 1) / 2
n
Rn1
Rn2
Rnj
Rnk
k (k + 1) / 2
Rangsom
R1
R2
Rj
Rk
nk (k + 1) / 2
Gemiddelde
R1 / n
R2 / n
Rj / n
Rk / n
k (k + 1) / 2
Onder de nulhypothese verschillen de effecten van de k behandelingen niet van elkaar. Dit heeft tot gevolg dat binnen ieder blok de ordening van de k waarnemingen over de behandelingen toevallig is. Onder H0 vormen de rangnummers binnen een blok willekeurige permutatie van getallen 1 tot en met k, waarbij alle mogelijke permutaties even waarschijnlijk zijn. Dit betekent dat, wanneer er behandelingsgewijs gekeken wordt, de rangsommen Rj en dus ook de gemiddelden van de rangnummers per kolom Rj / n ongeveer aan elkaar gelijk moeten zijn. De gemiddelden variëren slechts volgens het toeval en niet systematisch. Bovendien zal het gemiddelde rangnummer Rj / n van behandeling j (j = 1, 2, ... k) ongeveer gelijk moeten zijn aan het algemeen gemiddelde rangnummer nk (k + 1) / 2k = (k + 1) / 2. Als basis voor de toetsingsgrootheid kan dus, net zoals bij de Kruskal-Wallis, de grootheid
∑ n( n − Rj
k +1 2 ) 2
(13.9)
278 gebruikt worden. Na enig rekenwerk blijkt dat we deze vergelijking eenvoudiger kunnen schrijven als: 1 n
∑R - 4n*k(k+1) 2 j
1
2
(13.10)
Om een toetsingsgrootheid te krijgen waarvan de steekproefverdeling voor voldoende grote n en k benaderd mag worden met een chi-kwadraat verdeling moet deze uitdrukking nog met de factor 12 / (k (k + 1)) vermenigvuldigd worden. Het resultaat is de toetsingsgrootheid Q van Friedman: Q=
12 nk(k+1)
∑ R -3n(k+1) 2 j
(13.11)
Waarbij Q χ2 verdeeld is, met k - 1 vrijheidsgraden, zodat we wederom Bijlage D kunnen raadplegen ter bepaling van de overschrijdingskans. In deze formule is: k: het aantal experimentele condities of behandelingen; n: het aantal blokken; Rj: de som van de rangnummers bij behandeling j. De berekening van de toetsingsgrootheid Q verloopt stapsgewijs als volgt: 1) rangnummer de waarnemingen binnen ieder blok van 1 tot en met k; 2) bepaal voor j = 1, 2 , ..., k de som van de rangnummers Rj behorend bij de j-de behandeling; 3) bereken Q met formule 10: bereken het aantal condities vermenigvuldigd met het aantal blokken (nk), vermenigvuldig dit met het aantal condities plus één. Deel 12 door het verkregen getal en onthoud het resultaat. Bereken per conditie de som van de rangnummers, kwadrateer deze en sommeer deze kwadraten over condities. vermenigvuldig de gesommeerde kwadraten met het zojuist onthouden getal. Trek van de uitkomst af drie keer het aantal blokken maal het aantal condities plus één. Als alle Rj gelijk zijn is Q gelijk aan nul. Naarmate de Rj meer van elkaar verschillen wordt Q groter. Slechts voldoende grote waarden van Q kunnen tot verwerping van de nulhypothese leiden. Wanneer H0 waar is zal Q gewoonlijk niet precies gelijk zijn aan nul, want er bestaan door het toeval niet systematische verschillen tussen de Rj. Terug naar het voorbeeld. De nulhypothese dat de drie behandelingen geen verschillen in leesvaardigheid laten zien wordt getoetst met de toets van Friedman tegen de alternatieve hypothese dat dit wel het geval is. In Tabel 13.9 zijn de waarnemingen uit Tabel 13.8 voorzien van rangnummers en zijn de rangsommen Rj per behandeling bepaald. Het aantal behandelingen is gelijk aan drie en het aantal blokken is gelijk aan vijf.
HOOFDSTUK 13: NON-PARAMETRISCHE TOETSEN
Tabel 13.10. De berekening van de som van de rangnummers per behandeling. Behandeling Blok
1
2
3
1
3
2
1
2
3
1
2
3
2
3
1
4
3
2
1
5
2
3
1
R1 = 13
R2 = 11
R3 = 6
Op grond van deze gegevens kunnen we Q berekenen: Q=
12 132 *122 * 62 − 3 * 5 * 4 = 5.20 5 * 3* 4
(
)
Bij deze waarde van Q behoort volgens Bijlage G een overschrijdingskans van .093. Als we een significantieniveau hanteren van 5% dan zouden we moeten concluderen dat er geen verschil is tussen de drie condities. Als we daarentegen een risico zouden willen lopen van 10% om H0 ten onrechte te verwerpen, dan zouden we moeten concluderen dat er wel degelijke een verschil is tussen de drie onderwijsmethoden. En dat onderwijsmethode 1 beter is dan de beide andere. 13.10
De toets van Friedman in SPSS
Om de toets van Friedman in SPSS uit te voeren moeten we een data-set maken met, de gegevens in Tabel 13.7 indachtig, vier variabelen: BLOK, scores op methode 1 (METHODE1), scores op methode 2, (METHODE2) en de scores op methode 3 (METHODE3). Vervolgens gaan we via ANALYZE, TESTS, NONPARAMETRIC naar K RELATED SAMPLES. Je komt dan in een schermpje waarin je aan moet geven wat de afhankelijke variabelen zijn (METHODE1, METHODE2, en METHODE3). Nu ga je naar Exact, om aan te geven dat je géén asymptotische benadering van de overschrijdingskans wilt, maar dat je de exacte waarde wilt weten. Nu ben je nog twee kliks van de output af (CONTINU en OK). De output bestaat uit twee delen. In het eerste deel krijg je de gemiddelde rangordes per variabele, en in het tweede deel de toetsingsgrootheden. Zoals je ziet is de
280 toetsingsgrootheid 2 5.2 met 2 vrijheidsgraden. De asymptotische overschrijdingskans is 0.074 en de exacte overschrijdingskans 0.093. Je ziet, dat scheelt nog al. Zorg er voor dat je, met name bij kleine steekproeven, de exacte overschrijdingskans hebt aangevinkt, anders kan je makkelijk tot verkeerde conclusies komen. Friedman Test Ranks Mean Rank Methode_1
2.60
Methode_2
2.20
Methode_3
1.20
Test Statistics
a
N
5
Chi-Square
5.200
df
2
Asymp. Sig.
.074
a. Friedman Test
13.11
Opgaven
1) Negen studenten volgen een typecursus. Om het effect van deze cursus te evalueren wordt voor en na de cursus hun aanslagsnelheid op een gestandaardiseerde wijze vastgesteld. Vanzelfsprekend geldt: hoe meer aanslagen, hoe beter het is. Student
A
B
C
D
E
F
G
H
I
Voor
150
135
102
96
127
118
132
124
115
Na
145
138
121
115
134
132
138
145
126
a. b. c.
Ga met behulp van de tekentoets na of de typesnelheid voor en na de cursus machineschrijven over het algemeen hoger geworden is. Doe hetzelfde, maar nu met behulp van de t-toets. Voer de gegevens in in spss, en toets of er verschil is.
HOOFDSTUK 13: NON-PARAMETRISCHE TOETSEN
2) Aan elf televisiekijkers wordt hun waardering voor een politieke figuur gevraagd voor en na een televisiedebat. In de onderstaande tabel zijn de waarderingen weergegeven. Kijker
A
B
C
D
E
F
G
H
I
J
K
Voor
66
45
36
41
60
54
54
54
64
72
18
Na
49
32
39
29
56
54
48
49
45
40
21
De onderzoeker wil nagaan of de verschillen tussen de voor en nameting toe te schrijven zijn aan het toeval. a. Welke toetsen zou je kunnen gebruiken om dit te toetsen. b. Als je een tekentoets uitvoert, dan vind je p = 0.0547. Hoe interpreteer je dit? c. Voer de toetsing uit in SPSS. 3) Achttien mensen die op doktersadvies af moeten vallen onderwerpen zich aan één van de volgende diëten: wheight watchers (1), bruin brood dieet (2), een sherry kuur (3), Monitgnac (4). Het is eenvoudig vast te stellen hoeveel deze achttien respondenten een half jaar na het doktersadvies afgevallen zijn. Dit is in de onderstaande tabel weergegeven in ponden. Dieet Weight Watchers
Bruin brood
Sherry kuur
Montignac
18
11
17
16
13
5
15
12
10
4
14
6
8
2
9
3
7
1
Ga door toetsing na of deze vier diëten een ander effect hebben. Hanteer een overschrijdingskans van 0.10. 4) Na afloop van een experiment wordt zowel aan de proefpersonen uit de experimentele, als die uit de controle conditie gevraagd of zij nog een keer met een dergelijk onderzoek mee zouden willen doen. De resultaten zijn als volgt: Ja
Nee
Weet niet
Totaal
Experimentele conditie
24
16
10
50
Controle conditie
18
11
21
50
Ga na of de proefpersonen in beide condities even graag aan een volgend onderzoek zouden willen mee werken.
282
5) Neuvel, Otter en Bos (1988) doen een onderzoek naar effecten van aanvankelijke leesmethoden. Zij vergelijken de prestaties van leerlingen die op traditionele manier hebben leren lezen met leerlingen die op een volgens wat zij noemen functionele wijze hebben leren lezen. Dat wil zeggen: het leesonderwijs is niet echt georganiseerd, maar er wordt voornamelijk uitgegaan van wat het kind aandraagt. Komt het kind met een moeilijk woord, dat niet klankzuiver is (zoals roos) bijvoorbeeld garage, dan staat dat woord centraal in het leren lezen, want dan wordt tenminste aangesloten bij de belevings- en interessewereld van het kind. De prestaties voor technisch en begrijpend lezen zijn in de onderstaande figuren samengevat (cito: traditioneel aanvankelijk leren lezen; fal: functioneel aanvankelijk leren lezen).
80
Percentage Leerlingen
Pecentage Leerlingen
60
FAL
40
FAL
20
FAL Cito
Cito
0
Voldoende
Cito
26
Cito
Matig
Onvoldoende
21
FAL
Cito
16
FAL
Cito FAL
11
Cito 6
Cito Cito FAL
1 1
2
3
4
5
Score
Opgemerkt moet nog worden dat de X2-grootheid voor technisch lezen 18.1 bedraagt, en voor begrijpend lezen 53.72. a. Zijn deze verschillen aan kans toe te schrijven? b. Welke conclusie moet getrokken worden voor technisch lezen, en welke voor begrijpend lezen?
HOOFDSTUK 13: NON-PARAMETRISCHE TOETSEN
6) In een New York Times van augustus 1991 stond een verhandeling over het nadeel van traditionele paardenracebanen. Deze ovalen zouden paarden die dicht bij de binnenrand starten bevoordelen boven paarden die aan de buitenkant starten. (N.b. de startplaats van een paard bij de binnenrand, de buitenrand of er tussen in wordt volledig door het toeval bepaald). In totaal worden er meestal acht startplaatsen onderscheiden, die we voor het gemak genummerd hebben van 1 tot en met 8. De code 1 geeft de startplaats het dichtst bij de binnenrand aan, en de code 8 de startplaats het dichtst bij de buitenrand. In de New York Times werd ter ondersteuning van deze stelling de volgende tabel aangedragen Wins occured on a circular track by horses from eight start positions start position No. of wins
1
2
3
4
5
6
7
8
29
19
18
25
17
10
15
11
Zoals je ziet zijn in 29 van de 144 races de paarden die aan de binnenkant gestart zijn als eerste geëindigd. a. Als je wilt toetsen of er een relatie is tussen startpositie en de kans op winnen, wat is dan H0? b. Welke toets zou je uitvoeren? Voer deze toets uit.
284 BIJLAGEN