Verdelingsvrije statistiek
Inleiding In hoofdstuk II-15 (deel 2) worden een aantal verdelingsvrije toetsen (ook wel niet-parametrische toetsen) besproken, die gebruikt worden als de te onderzoeken variabele niet normaal verdeeld is. In dit hoofdstuk wordt uitgelegd hoe een aantal van deze verdelingsvrije toetsen met behulp van SPSS uitgevoerd kan worden. Er wordt aandacht besteed aan de tekentoets, de rangtekentoets van Wilcoxon, de Friedman toets, de Mann-Whitney toets, de Kruskall-Wallis toets en de Spearman correlatie.
De Tekentoets Bij hypotheses over de mediaan, zowel bij het één steekproef probleem als bij het vergelijken van 2 groepen die aan elkaar gerelateerd zijn (i.e. afhankelijke steekproeven) kan de tekentoets toegepast worden. Omwille van de duidelijkheid beginnen we met een voorbeeld van het twee steekproeven probleem. Gegeven een onderzoek naar het ideale aantal kinderen onder 11 echtparen, die we beschouwen als 2 afhankelijke steekproeven. De data zijn samengevat in onderstaande tabel: PAAR 1 2 3 4 5 6 7 8 9 10 11
MAN 1 3 2 1 5 2 1 0 2 1 7
VROUW 2 0 2 3 2 4 2 2 2 3 2
VERSCHIL -1 +3 0 -2 +3 -2 -1 -2 0 -2 +5
We willen onderzoeken of de fractie gezinnen waarin de mannen meer kinderen wensen dan hun vrouwen gelijk is aan de fractie gezinnen waarin de mannen minder kinderen wensen dan hun vrouwen. Allereerst wordt onderzocht of de variabele VERSCHIL (=MAN-VROUW) normaal verdeeld is middels de Shapiro-Wilk toets. Deze normaliteitstoets kan in SPSS worden uitgevoerd via Analyze → Descriptive Statistics →Explore, en vervolgens onder de drukknop Plots Normality plots with tests aan te klikken. Er wordt dan tevens een normal probability plot van de data gemaakt. Een histogram kan ook worden opgevraagd door histogram aan te klikken onder het kader Descriptive. We geven hier alleen een voorbeeld van de uitvoer van de normaliteits toets.
II15-1
SPSS uitvoer Normaliteits toets: Tests of Normality a
verschil
Kolmogorov-Smirnov Statistic df Sig. .242 11 .071
Shapiro-Wilk Statistic df .819 11
Sig. .017
a. Lilliefors Significance Correction
Er wordt getoetst: H0: normaliteit versus Ha geen normaliteit. Uit bovenstaande uitvoer is af te lezen dat de Shapiro-Wilk toets voor de variabele VERSCHIL significant is (p≤ 0.05). De data mogen dus niet als normaal verdeeld beschouwd worden, de gepaarde t-toets voor 2 gemiddelden is dus niet geschikt. Een alternatief voor de gepaarde t-toets is de tekentoets. De opdracht voor de tekentoets voor gepaarde waarnemingen is te vinden onder de menu-optie Analyze → Nonparametric Tests →2 Related Samples. Klik in het dialoogvenster Two-Related- Samples Tests de 2 variabelen aan die een paar vormen, in het voorbeeld zijn dit de variabelen K_man en K_vrouw. Als de beide variabelen zijn aangeklikt neemt SPSS ze op in het blok onder 'Current Selections', linksonder in het dialoogvenster. Klik vervolgens op de drukknop met de pijl naar rechts om de variabelen over te brengen naar het kader onder Test Pair(s) List. In het blok onder Test type wordt de gewenste toets aangeklikt. Klik op Sign voor het uitvoeren van de tekentoets. Standaard is dit dialoogvenster ingesteld op het uitvoeren van de Wilcoxon Signed Ranks toets (Wilcoxon rangtekentoets). Klik op Wilcoxon om deze toets uit te zetten:
Het dialoogvenster Two-Related Sample Tests kent twee drukknoppen, Exact en Options. Met Options kunnen kengetallen worden opgevraagd. Exact wordt hier niet besproken.
II15-2
SPSS uitvoer Tekentoets: Frequencies N k_vrouw - k_man
Negative Differencesa Positive Differencesb Ties c Total
3 6 2 11
a. k_vrouw < k_man b. k_vrouw > k_man c. k_vrouw = k_man
Test Statisticsb
Exact Sig. (2-tailed)
k_vrouw k_man .508a
a. Binomial distribution used. b. Sign Test
In het voorbeeld wordt getoetst: H0: η = 0 versus Ha η≠0. Hierbij is η de mediaan van de verschillen. In de uitvoer wordt een samenvatting gegeven van de gevonden verschillen. Bij 3 echtparen is de ideale gezinsgrootte voor vrouwen kleiner dan voor mannen. Bij 6 echtparen is het gewenst aantal kinderen voor vrouwen hoger dan het ideaal van hun echtgenoot. In 2 gevallen geven beide echtelieden aan evenveel kinderen te willen. SPSS geeft dit aan met Ties. Waarden die gelijk zijn aan de waarde van de mediaan onder de nulhypothese worden door SPSS bij het toetsen automatisch weggelaten. Tenslotte wordt in de uitvoer het resultaat van de tekentoets gegeven. De tweezijdige overschrijdingskans (Exact Sig. (2-tailed) ) is gelijk aan .508. De nulhypothese dat er geen verschil is in ideale gezinsgrootte tussen echtgenoten en echtgenotes wordt niet verworpen. Tenslotte moet opgemerkt worden dat SPSS alleen een tweezijdige tekentoets kan uitvoeren.
Toetsen met behulp van de binomiale verdeling Uit de theorie is bekend dat het aantal waarnemingen dat groter of kleiner is dan de populatiemediaan binomiaal verdeeld is (n, p=.5). In het voorgaande, waar de tekentoets met SPSS wordt uitgevoerd, worden 2 variabelen gebruikt, ideaal aantal kinderen man (K_MAN) en ideaal aantal kinderen vrouw (K_VROUW). De analyse kan echter ook uitgevoerd worden met behulp van Binomial Test. Bereken eerst de verschillen met Transform → Compute Variable: COMPUTE VERSCHIL = K_MAN - K_VROUW We hebben nu te maken met slechts één variabele, nl. VERSCHIL. De paren die geen verschil vertonen moeten van de analyse worden uitgesloten omdat deze paren ervoor zorgen dat de verdeling van het teken van de verschillen niet II15-3
meer binomiaal verdeeld is. Selecteer daarom alleen die verschillen die groter of kleiner zijn dan 0 met de menu-optie Data → Select Cases. Klik op de optie If condition is satisfied en vul de voorwaarde VERSCHIL ˜= 0 in ( ˜= betekent niet gelijk aan). Vervolgens kan getoetst worden of de populatiemediaan van de variabele VERSCHIL gelijk is aan 0. Gebruik hiervoor de menu-optie Analyze → Nonparametric tests → Binomial. Plaats de variabele VERSCHIL in het kader onder Test Variable List van het dialoogvenster Binomial Test. Klik in het kader onder define Dichotomy op Cutpoint en vul hier de waarde 0 in (dit is de waarde van de populatiemediaan onder de nulhypothese). Stel de Test proportion in op .5 (dit is de verwachte proportie van de verschillen onder en boven de mediaan):
SPSS uitvoer Binomial Test (I): Binomial Test
verschil
Group 1 Group 2 Total
Category <= 0 >0
N 6 3 9
Observed Prop. .67 .33 1.00
Test Prop. .50
Exact Sig. (2-tailed) .508
Merk op dat bovenstaande uitvoer dezelfde resultaten oplevert als de uitvoer van de tekentoets op pagina 3 (p=.508). De hierboven beschreven binomiale test voor het mediane verschil tussen 2 variabelen is in feite een één steekproef probleem daar uiteindelijk slechts 1 variabele (= VESCHIL) getest wordt. Ter verdere verduidelijking van het één steekproef probleem nemen we als voorbeeld het in §15.4 van het statistiekboek beschreven onderzoek naar de mediane dagelijkse voedselinname van 11 vrouwen. Aangezien uit de ShapiroWilk toets blijkt dat de data niet normaal verdeeld zijn (p = .048) mag men geen t-toets voor het gemiddelde uitvoeren. Er zijn 7 vrouwen die minder en 3 vrouwen die meer dan 7500 kJ consumeerden, n(-) = 7 en n(+) = 3. De II15-4
nulhypothese H0: η = 7500 kJ vs Ha: η ≠ 7500 kJ kan in SPSS worden getest middels de binomial test procedure (Analyze → Nonparametric tests → Binomial). Vrouwen met een voedselinname gelijk aan 7500 kJ worden daarbij uitgesloten. De variabele INNAME wordt in het kader onder Test Variable List van het dialoogvenster Binomial Test geplaatst Klik in het kader onder Define Dichotomy op Cutpoint en vul hier de waarde 7500 in (de waarde van de populatiemediaan onder H0). Stel de Test proportion in op .5 (de verwachte proportie van Inname onder en boven de mediaan) en laat de toets uitvoeren:
SPSS uitvoer Binomial Test (II): Binomial Test
inname
Group 1 Group 2 Total
Category <= 7500 > 7500
N 8 3 11
Observed Prop. .73 .27 1.00
Test Prop. .50
Exact Sig. (2-tailed) .227
Uit bovenstaande uitvoer blijkt dat de nulhypothese niet kan worden verworpen (p = .227). Voor éénzijdig toetsen moet de gevonden (tweezijdige) p-waarde allereerst door 2 worden gedeeld. Voor linkséénzijdig toetsen krijgen we dan p = .1135 en voor rechtséénzijdig toetsen p = 1-.1135=.8865 Tenslotte wordt uitgelegd hoe een tweezijdige, linkseenzijdige en rechtseenzijdige toetsing uitgevoerd kan worden met behulp van de tabel van de binomiale verdeling. Met de CDF.BINOM functie (Transform → Compute Variable) kan de cumulatieve kansverdeling worden opgevraagd. Uitgaande van het onderzoek naar het ideale aantal kinderen onder 11 echtparen maakt men aldus een variabele K in het datavenster die uit de waarden 0 t/m 9 bestaat. Gebruik de expressie P = CDF.BINOM(K,9,.5) om de cumulatieve kansen van de variabele K te berekenen (zie tevens hoofdstuk 7). Middels de procedure Case Summaries kunnen de waarden in de uitvoer worden afgedrukt.
SPSS uitvoer cumulatieve binomiale verdeling: Case Summariesa K 1 2 3 4 5 6 7 8 9 10 Total
N
.00 1.00 2.00 3.00 4.00 5.00 6.00 7.00 8.00 9.00 10
a. Limited to first 100 cases.
II15-5
P .0020 .0195 .0898 .2539 .5000 .7461 .9102 .9805 .9980 1.0000 10
Tweezijdige toetsing In het voorbeeld moet de binomiale verdeling gebruikt worden met p=.5 en n'=n(+) +n(-), waarbij n' gelijk is aan 4+5=9. Bij tweezijdige toetsing wordt het minimum van n(+) en n(-) als toetsingsgrootheid gekozen, in dit geval n(+)=4. De linkeroverschrijdingskans behorend bij n(+)=4, is gelijk aan .5 (P (K≤4)). Ga dit na! Hieruit volgt dat de tweezijdige overschrijdingskans gelijk is aan 2*.5=1.00. Merk op dat deze tweezijdige overschrijdingskans in de uitvoer van de tekentoets ook werd weergegeven. De nulhypothese wordt niet verworpen. Een andere mogelijkheid om de tweezijdige toetsing uit te voeren is via het kritieke gebied. Ga aan beide kanten vanaf de uiterste waarden naar het midden van de kansverdeling net zolang tot de waarde van α/2 = .025 net niet wordt overschreden. Bij K≤1 is de linker overschrijdingskans gelijk aan .0195. Bij K≤2 wordt de grenswaarde van .025 overschreden (de overschrijdingskans van K≤2 is gelijk aan .0898). De rechter kritieke waarde is dus gelijk aan 1. Op basis van symmetrie van de binomiale verdeling als p=.5, ligt de rechter kritieke waarde bij K=8. Het kritieke gebied ={0,1,8,9}. De gevonden waarde van n(+)=4 ligt niet in het kritieke gebied. De conclusie is dat de nulhypothese niet verworpen wordt.
Linkseenzijdige toetsing Bij een linkseenzijdige toetsing (H0: η = 0 versus Ha: η < 0) wordt n(+) als toetsingsgrootheid gebruikt. In het voorbeeld is n(+) gelijk aan 4. De linker overschrijdingskans van K≤4 is .5. Dit is veel groter dan α=.05. De nulhypothese wordt dus niet verworpen. De linkseenzijdige toetsing kan ook uitgevoerd worden met behulp van het kritieke gebied. Ga in de cumulatieve binomiale verdeling vanaf de waarde 0 naar boven net zolang totdat de grens van α=.05 net niet overschreden wordt. Bij K ≤1 is de linker overschrijdingskans gelijk aan .0195. P(K≤2)=.0895. De kritieke waarde bij linkseenzijdige toetsing ligt bij K=1. Het kritieke gebied = {0,1}. Aangezien de waarde van de toetsingsgrootheid gelijk is aan 4 (n(+)=4) wordt de nulhypothese niet verworpen.
Rechtseenzijdige toetsing Een rechtseenzijdige toets (H0: η = 0 versus Ha: η > 0) hanteert n(-) als toetsingsgrootheid. Als de alternatieve hypothese juist is, worden relatief weinig waarden kleiner dan 0 verwacht. De gevonden waarde van de toetsingsgrootheid, n(-)=5 heeft een overschrijdingskans van .7461 (P(K ≤5=.7461). Dit is veel groter dan α=.05. De nulhypothese wordt dus niet verworpen. Ook de rechtseenzijdige toets kan uitgevoerd worden met behulp van het kritieke gebied. Het kritieke gebied bestaat uit de waarden K=0 en K=1 . De gevonden waarde van de toetsingsgrootheid K=5, valt niet in het kritieke gebied zodat de nulhypothese niet verworpen wordt.
II15-6
Wilcoxon rangtekentoets De Wilcoxon rangtekentoets wordt toegepast bij het toetsen van de mediaan van een symmetrische verdeling. Zo’n symmetrische verdeling wordt o.a. verkregen bij de verschilscores van 2 variabelen die dezelfde populatieverdeling hebben. Aan de hand van het in §15.5 van het statistiekboek beschreven onderzoek naar de verbetering van de managementvaardigheden d.m.v. een trainingsprogramma wordt de Wilcoxon rangtekentoets uitgelegd. 16 Cursisten legden aan het eind van het programma een examen af. Ze kregen 2 cijfers, één van docent A (DOCENTA) en één van docent B (DOCENTB). Men vermoedt dat docent A gemiddeld hogere cijfers geeft dan docent B. De volgende nulhypothese wordt getest: H0: η = 0 Ha: η>0 η = mediane verschil (cijfer docent A – cijfer docent B) in de populatie. Voor het uitvoeren van de Wilcoxon rangtekentoets wordt dezelfde SPSS procedure gebruikt als bij de tekentoets. Roep het dialoogvenster Two-RelatedSample Tests op via de menu-optie Analyze →Nonparametric Tests → 2 Related Samples. Klik de variabelen DOCENTA en DOCENTB aan en plaats deze in het kader onder Test Variable List. Onder Test Type kan de gewenste toets geselecteerd worden door deze aan te klikken. Standaard staat de instelling op Wilcoxon. Met een klik op OK wordt de toets uitgevoerd.
SPSS uitvoer Wilcoxon Rangtekentoets: Ranks N docentA - docentB
Negative Ranks Positive Ranks Ties Total
7a 9b 0c 16
Mean Rank 5.43 10.89
Sum of Ranks 38.00 98.00
a. docentA < docentB b. docentA > docentB c. docentA = docentB Test Statisticsb
Z Asymp. Sig. (2-tailed)
docentA docentB -1.552a .121
a. Based on negative ranks. b. Wilcoxon Signed Ranks Test
Het eerste gedeelte van de uitvoer bestaat uit een samenvatting van de verschillen. Het komt 7 maal voor dat het cijfer van docent A lager is dan het cijfer van docent B (negative ranks). In 9 gevallen is het omgekeerde het geval (positive ranks). Het komt geen enkele keer voor dat de docenten hetzelfde cijfer hebben gegeven (Ties). Het gemiddelde rangnummers met een negatief teken is 38 en het gemiddelde van de rangnummers met een positief teken is II15-7
gelijk aan 98. Tenslotte volgt het resultaat van de Wilcoxon toets. Net zoals bij de tekentoets is het bij de Wilcoxon rangtekentoets alleen mogelijk om een tweezijdige toets uit te voeren. Deel de tweezijdige overschrijdingskans (Asymp. Sig. (2-Tailed) = .121) door 2 om de eenzijdige toets uit te voeren. De conclusie is dat de nulhypothese niet wordt verworpen (p= .061) bij een significantieniveau van 5%.
De Friedman toets De Friedman toets wordt toegepast wanneer er sprake is van meer dan twee afhankelijke steekproeven. Ga uit van het voorbeeld van de studie naar het verloop van de hartslag bij 10 personen gedurende 5 meetmomenten (zie §15.6 van het statistieboek). Voer de gegevens van de meetmomenten in het datavenster in (T1 t/m T5). De rijen vormen de personen en de kolommen de meetmomenten. Selecteer via Analyze → Nonparametric Tests, de optie Krelated samples. Selecteer in het dialoogvenster dat nu verschijnt de variabelen waarop getoetst moet worden (T1 t/m T5) en plaats deze in het kader onder Test Variables. In het kader onder Test Type kan de gewenste toets worden aangeklikt. Standaard is de instelling Friedman. De toets wordt uitgevoerd met een klik op OK:
SPSS uitvoer Friedman toets: Ranks Mean Rank 2.30 3.05 3.20 2.85 3.60
t1 t2 t3 t4 t5
Test Statisticsa N Chi-Square df Asymp. Sig.
10 3.697 4 .449
a. Friedman Test
II15-8
In bovenstaand voorbeeld is getoetst of de mediaan van de hartslag op de 5 meetmomenten gelijk is.Het eerste deel van de uitvoer geeft de gemiddelde rangnummers van de 5 meetmomenten weer. Uit het tweede deel van de uitvoer is af te lezen dat de toets een overschrijdingskans (Asymp. Sig.) oplevert van .449. Deze p-waarde is groter dan α (=.05), zodat de nulhypothese dat de medianen aan elkaar gelijk zijn niet verworpen wordt.
De Mann-Whitney toets Met de Mann-Whitney U toets kan getoetst worden of twee onafhankelijke steekproeven uit populaties met dezelfde verdeling komen. De Mann-Whitney toets wordt ookwel de Wilcoxon rangsom W toets genoemd, niet te verwarren met de Wilcoxon rangtekentoets. Als voorbeeld wordt uitgegaan van het onderzoek bij 11 kleuters, waarin onderzocht werd of het concentratievermogen veranderd kan worden door middel van een bepaalde training (zie §15.7 statistiekboek). De gegevens worden op de volgende wijze in het datavenster ingevoerd: maak een variabele GROEP, die aangeeft of de kleuters wel of niet een speciale training gehad hebben (bijv. 1 = wel training en 2=geen training). De bijbehorende scores worden in de variabele SCORE geplaatst. Zie onderstaande tabel.
GROEP
SCORE
1 1 1 1 1 1 2 2 2 2 2
7 13 40 45 49 49 4 5 7 30 32
De Mann-Whitney toets wordt uitgevoerd met de menu-optie Analyze → Nonparametric Tests → 2 Independent Samples. In het dialoogvenster dat nu verschijnt moet opgegeven worden voor welke variabele de toets uitgevoerd moet worden. Selecteer de variabele SCORE en plaats deze in het kader onder Test Variable List. In het kader onder Grouping variable moet opgegeven worden welke variabele de groepsindeling bevat. In het voorbeeld is dit de variabele GROEP. De waarden van de groepen worden opgegeven met behulp van de drukknop Define Groups. Vul in dit kader de waarden 1 en 2 in. Tenslotte kan onder Test Type de gewenste toets geselecteerd worden. De Mann-Whitney U toets is de standaard instelling. Met een klik op OK wordt de toets uitgevoerd:
II15-9
SPSS uitvoer Mann-Whitney toets: Ranks score
groep 1 2 Total
N
Mean Rank 7.75 3.90
6 5 11
Sum of Ranks 46.50 19.50
Test Statisticsb Mann-Whitney U Wilcoxon W Z Asymp. Sig. (2-tailed) Exact Sig. [2*(1-tailed Sig.)]
score 4.500 19.500 -1.926 .054 .052
a
a. Not corrected for ties. b. Grouping Variable: groep
Er wordt getest: H0: η1 = η2 vs. Ha: η1 > η2 In de uitvoer worden de aantallen waarnemingen in beide groepen, het gemiddelde rangnummer (Mean Rank), en de som van de rangnummers (Sum of Ranks) vermeld. In het onderste gedeelte van de uitvoer staan de resultaten van de toets. De normale benadering levert een Z-waarde van –1.926, waarbij een tweezijdige overschrijdingskans (Asymp.Sig. (2-Tailed)) hoort van .054. De éénzijdige p-waarde is gelijk aan .054 * .5 = .027. Bij een α van .05 kan II15-10
geconcludeerd worden dat de training een postitief effect heeft op het concentratievermogen van de kleuters. De nulhypothese wordt verworpen.
De Kruskall-Wallis toets De Kruskall-Wallis toets wordt gebruikt om meer dan 2 onafhankelijke groepen te vergelijken (generalisatie van de Mann-Whitney U toets), waarbij getoetst wordt of de verschillende groepen afkomstig zijn uit dezelfde populatie. Als voorbeeld wordt uitgegaan van een onderzoek naar het effect van een geneesmiddel tegen migraine toegepast onder drie verschillende condities bij migrainepatiënten (zie §15.8 van het statistiekboek). De data organisatie is dezelfde als bij de Mann-Whitney U toets. In de variabele SCORE staan de pijn- en misselijkheid scores van 21 patiënten en in de variabele GROEP staan de codes voor de verschillende conditiegroepen (A = 1 , B = 2 en C = 3). In eerste instantie wordt onderzocht of aan de aannamen van éénweg variantieanalyse wordt voldaan: de waarnemingen moeten onafhankelijk zijn, de data moeten normaal verdeeld zijn en de populatievarianties moeten gelijk zijn. Met behulp van de procedure Explore kan voor elke groep de variantie worden opgevraagd en de normaliteit kan onderzocht worden door voor elke groep een histogram en een normal probability plot (Q-Q plot) te maken. In het dialoogvenster Explore wordt in het kader onder Dependent List de variabele opgegeven waarvan de kengetallen en plots berekend moeten worden. In het voorbeeld is dit de variabele SCORE. Plaats in het kader onder Factor List de variabele met de groepsindeling, de variabele GROEP. Met behulp van de drukknop Plots worden de diagrammen opgegeven. Klik op histogram en op normality plots with tests en laat de opdracht uitvoeren.
II15-11
SPSS uitvoer Explore: GROEP Descriptives score
groep 1
2
3
Mean 95% Confidence Interval for Mean 5% Trimmed Mean Median Variance Std. Deviation Minimum Maximum Range Interquartile Range Skewness Kurtosis Mean 95% Confidence Interval for Mean 5% Trimmed Mean Median Variance Std. Deviation Minimum Maximum Range Interquartile Range Skewness Kurtosis Mean 95% Confidence Interval for Mean
Statistic 31.57 19.34
Lower Bound Upper Bound
Std. Error 4.999
43.80 30.80 25.00 174.952 13.227 21 56 35 21 1.404 .747 26.67 5.61
Lower Bound Upper Bound
.794 1.587 8.192
47.73 25.46 17.50 402.667 20.067 11 64 53 28 1.694 2.560 19.38 4.61
Lower Bound Upper Bound
.845 1.741 6.245
34.14
5% Trimmed Mean Median Variance Std. Deviation Minimum Maximum Range Interquartile Range Skewness Kurtosis
18.03 13.50 311.982 17.663 5 58 53 20 1.847 3.302
.752 1.481
Tests of Normality a
score
groep 1 2 3
Kolmogorov-Smirnov Statistic df Sig. .321 7 .028 .334 6 .035 .326 8 .012
a. Lilliefors Significance Correction
II15-12
Statistic .787 .786 .777
Shapiro-Wilk df 7 6 8
Sig. .030 .044 .016
SCORE Histograms Histogram for groep= 1 5
Frequency
4
3
2
1 Mean =31,57 Std. Dev. =13,227 N =7
0 20
30
40
50
60
score
Histogram for groep= 2 4
Frequency
3
2
1
Mean =26,67 Std. Dev. =20,067 N =6
0 10
20
30
40
50
60
70
score
Histogram for groep= 3 4
Frequency
3
2
1
Mean =19,38 Std. Dev. =17,663 N =8
0 0
10
20
30
score
II15-13
40
50
60
Normal Q-Q Plots Normal Q-Q Plot of score for groep= 1 1,5
Expected Normal
1,0
0,5
0,0
-0,5
-1,0
-1,5 10
20
30
40
50
60
Observed Value
Normal Q-Q Plot of score for groep= 2 1,5
Expected Normal
1,0
0,5
0,0
-0,5
-1,0
-1,5 0
20
40
60
Observed Value
Normal Q-Q Plot of score for groep= 3 1,5
Expected Normal
1,0
0,5
0,0
-0,5
-1,0
-1,5 0
20
40
60
Observed Value
Uit de histogrammen valt niet direct af te leiden of aan de aanname van normaliteit voldaan is. De groepen zijn erg klein, zodat het moeilijk is om II15-14
hierover een uitspraak te doen. Een soortgelijke redenatie geldt voor de Q-Q plots. Bij het bestuderen van de histogrammen en Q-Q plots kan de vraag of de data normaal verdeeld zijn, niet eenduidig beantwoord worden. Het valt echter altijd aan te raden om histogrammen en Q-Q plots te maken om een beeld van de verdelingen te krijgen. De Shapiro-Wilk normaliteitstoets is bij alle groepen significant bij een α van .05, zodat er aan de aanname van normaliteit getwijfeld wordt. Tevens lopen de varianties van de pijn en misselijkheid scores nogal uiteen: van 174.95 tot 402.667. Daarom wordt gekozen voor het verdelingsvrij alternatief van de éénweg variantieanalyse, de Kruskall-Wallis toets. Via de menu-optie Analyze → Nonparametric Tests → K Independent Samples verschijnt het dialoogvenster waar opgegeven wordt voor welke variabele getoetst moet worden. Plaats de variabele SCORE in het kader onder Test Variable List en de variabele GROEP in het kader onder Grouping Variable. Via de drukknop Define Range wordt de minimum waarde en de maximum waarde van de groepsvariabele opgegeven, in het voorbeeld de waarde 1 en de waarde 3. In het kader onder Test Type kan de gewenste toets opgegeven worden. Standaard is de SPSS instelling Kruskall-Wallis. Laat de toets uitvoeren met een klik op OK:
SPSS uitvoer Kruskall-Wallis toets: Ranks score
II15-15
groep 1 2 3 Total
N 7 6 8 21
Mean Rank 14.57 11.25 7.69
Test Statisticsa,b Chi-Square df Asymp. Sig.
score 4.612 2 .100
a. Kruskal Wallis Test b. Grouping Variable: groep
Het eerste gedeelte van de uitvoer bestaat uit het gemiddelde rangnummer van elke groep. Tenslotte volgen de resultaten van de toets. De waarde van de toetsingsgrootheid is 4.612 (Chi-Square) met een bijbehorende overschrijdingskans van .10 (Asymp. Sig.) en 2 vrijheidsgraden (df). Geconcludeerd kan worden dat er geen verschil is tussen de drie condities (bij een α van .05).
Spearman correlatie De samenhang tussen 2 variabelen wordt tot uitdrukking gebracht in de correlatiecoëfficiënt. In hoofdstuk 3 van het statistiekboek is uitgelegd dat de Pearson correlatie een goede maat is voor de lineaire samenhang bij een bivariate normale verdeling. Het valt aan te raden om eerst een puntenwolk te maken van de variabelen om te onderzoeken of het zinvol is om Pearson te gebruiken. Dit wordt geïllustreerd aan de hand van een onderzoek naar de samenhang tussen hemoglobine concentratie in het bloed en sporttraining. Van 19 atleten zijn de waarden van Hemoglobine concentratie (HB) en het aantal uren training per dag (TIJD) vastgelegd. Onderzocht wordt of een laag Hb samenhangt met veel uren training. Er wordt eerst een plot gemaakt van de HB concentratie tegen de tijd (Graphs →Legacy dialogs→ Scatter/Dot):
SPSS uitvoer plot van HB versus TIJD: Graph 1000
HB
900
800
700
600 0
20
40
60
tijd
II15-16
80
100
Uit de plot blijkt dat bij een toename van de trainingstijd van ± 3 uren tot ±5 uren per dag een sterke afname van de Hemoglobine concentratie optreedt. Bij verdere toename van de trainingstijd lijkt de Hemoglobine concentratie niet meer te veranderen. De Pearson correlatie wordt berekend met de opdracht Analyze → Correlate → Bivariate. Plaats in het dialoogvenster Bivariate Correlations de variabelen HB en Tijd in het kader onder Variables. In het kader onder Correlation Coefficients kan de gewenste correlatiemaat geselecteerd worden. Standaard is de instelling Pearson:
SPSS uitvoer Pearson Correlatie tussen HB en TIJD: Correlations tijd tijd
hb
Pearson Correlation Sig. (2-tailed) N Pearson Correlation Sig. (2-tailed) N
1 19 -.803** .000 19
hb -.803** .000 19 1 19
**. Correlation is significant at the 0.01 level (2 il d)
De Pearson correlatie tussen HB en Tijd bedraagt -.803. Deze correlatie geeft echter een vertekend beeld omdat het paar HB en Tijd geen lineair verband hebben (zie plot HB versus Tijd). Daarom moet de Spearman correlatie gebruikt worden.De Spearman correlatie is niets anders als de berekening van de Pearson correlatie op de rangnummers van de variabelen. Bereken de rangnummers van HB en Tijd via de menu-optie Transform → Rank Cases:
II15-17
De toegekende rangnummers worden bewaard in nieuwe variabelen, waaraan SPSS zelf een naam toekent. In het voorbeeld wordt van de variabele HB de variabele RHB gemaakt en van de variabele TIJD wordt RTIJD gemaakt. Vervolgens wordt een plot gemaakt van RHB versus RTIJD (Graphs → Legacy Dialogs → Scatter/Dot):
SPSS uitvoer plot van de rangnummers van HB versus TIJD: Graph 20,000
Rank of HB
15,000
10,000
5,000
0,000 0,000
5,000
10,000
15,000
20,000
Rank of tijd
Uit de plot van de rangnummers van HB en TIJD valt af te leiden dat de Hemoglobine wel steeds daalt naarmate de trainingstijd toeneemt. Bereken nu de Spearman correlatie met dezelfde opties als de Pearson correlatie, maar klik nu in het dialoogvenster Bivariate Correlations op Spearman:
II15-18
SPSS uitvoer Spearman Correlatie tussen HB en TIJD: Correlations Spearman's rho
HB
tijd
HB 1.000 . 19 -.989** .000 19
Correlation Coefficient Sig. (2-tailed) N Correlation Coefficient Sig. (2-tailed) N
tijd -.989** .000 19 1.000 . 19
**. Correlation is significant at the 0.01 level (2-tailed).
De Spearman correlatie is gelijk aan -.989. Deze is beduidend hoger dan de Pearson correlatie (-.803). Dit komt omdat er bij de Spearman correlatie geen lineair verband tussen de variabelen verondersteld wordt. Let op: De Spearman correlatie is gelijk aan de Pearson correlatie tussen de rangnummers van HB en TIJD!:
SPSS uitvoer Pearson Correlatie tussen rangnummers van HB en TIJD: Correlations RHB RHB
Rtijd
Pearson Correlation Sig. (2-tailed) N Pearson Correlation Sig. (2-tailed) N
1 19 -.989** .000 19
**. Correlation is significant at the 0.01 level (2 il d)
II15-19
Rtijd -.989** .000 19 1 19
Beknopte aanwijzingen met betrekking tot de oefeningen van hoofdstuk II-15 Lees dit hoofdstuk eerst goed door!! De oefeningen van hoofdstuk II-15 kunnen grotendeels met SPSS uitgevoerd worden. Bij de meeste oefeningen moeten de gegevens in het datavenster ingevoerd worden. Denk goed na over de toetsen die bij oefening 15.5, 15.6, 15.8 en 15.9 moeten worden toegepast i.v.m. de dataorganisatie.
Oefening 15.2
De toets kan uitgevoerd worden met de Binomial Test (Analyze → Nonparametric Tests). Maak een variabele VERSCHIL met de waarden 1 (A beter dan B, plus) en 2 (B beter dan A, min) bestaat. In de variabele AANTAL wordt aangegeven hoe vaak de waarden 1 en 2 voorkomen (22 en 8 maal resp.). Maak via Data → Weight cases aan SPSS duidelijk dat in de variabele AANTAL de frequenties van VERSCHIL staan. Voer vervolgens de toets uit (kan ook eventueel met de hand worden berekend).
15.2.a: Bereken de tweezijdige overschrijdingskans met behulp van Transform → Compute Variable en de functie CDF.BINOM.
Oefening 15.3 15.3.b: Voer de gegevens van tijdstip 1 en tijdstip 2 in het datavenster in. Bereken een variabele Verschil die uit de verschilscores tussen tijdstip 2 en tijdstip 1 bestaat (Transform → Compute Variable). Vermenigvuldig de verschilscores met 10 (i.v.m. afrondingsfouten in SPSS) en voer vervolgens een geschikte verdelingsvrije toets uit.
Oefening 15.4 Voer de gegevens in het datavenster in. Maak een variabele GROEP die aangeeft of de betreffende patiënt (n=20) tot de controlegroep dan wel experimentele groep behoort. Maak een variabele VOOR, die uit de scores van de voormeting bestaat en een variabele NA, die de scores van de nameting bevat. Bereken de variabele VERSCHIL die uit het verschil tussen de na- en voormeting bestaat (Transform → Compute Variable). Voer vervolgens een geschikte verdelingsvrije toets uit.
II15-20