Verband tussen twee variabelen Inleiding Dit practicum sluit aan op hoofdstuk I-3 van het statistiekboek en geeft uitleg over het maken van kruistabellen, het berekenen van de correlatiecoëfficiënt en het uitvoeren van een enkelvoudige lineaire regressieanalyse.
De procedure Crosstabs Met Crosstabs kun je een meerdimensionale frequentietabel maken. In een zo’n kruistabel worden de waarden van de ene variabele afgezet tegen de waarden van de andere variabele. De inhoud van de cellen geeft de geobserveerde frequenties weer. Aan de hand van een voorbeeld wordt de procedure Crosstabs uitgelegd. Stel dat je wilt onderzoeken of er een verband bestaat tussen roken (SMOKE) en geslacht (SEX) in het Pulse bestand (voor een beschrijving van dit bestand verwijzen wij naar het statistiekboek). Het dialoogvenster Crosstabs maak je actief met de menu-optie Analyze → Descriptive Statistics → Crosstabs. In het dialoogvenster geef je in het kader onder Row(s) de variabele op die de rijen vormt, bijv. Sex en in het kader onder Column(s) de kolomvariabele, bijv. Smokes. Met de drukknop Cells kunnen kolom-, rij- en totaalpercentages worden opgevraagd. Ook is het mogelijk om de ‘verwachte waarde’ per cel te verkrijgen via Expected. De verwachte waarde per cel kan als volgt worden berekend: (Rijtotaal x Kolomtotaal)/Totaal.
I3-1
SPSS uitvoer Crosstabs: Case Processing Summary
sex * smoke
Valid N Percent 88 95,7%
Cases Missing N Percent 4 4,3%
Total N 92
Percent 100,0%
sex * smoke Crosstabulation
sex
1.00 male
Count Expected Count % within sex % within smoke % of Total
2.00 female
Total
smoke 1.00 yes 2.00 no 34 19
16.3 35.8% 70.4% 21.6%
Total
53
36.7
53.0
64.2%
100.0%
55.7%
60.2%
38.6%
60.2%
Count Expected Count % within sex % within smoke % of Total Count
8 10.7 22.9% 29.6% 9.1%
27 24.3 77.1% 44.3% 30.7%
35 35.0 100.0% 39.8% 39.8%
27
61
88
Expected Count % within sex % within smoke % of Total
27.0 30.7% 100.0% 30.7%
61.0 69.3% 100.0% 69.3%
88.0 100.0% 100.0% 100.0%
In de cel smoke=yes en sex=male kan achtereenvolgens worden afgelezen: • Er zijn 19 mannelijke rokers (Count). • Het verwachte aantal mannelijke rokers is gelijk aan: (rijtotaal*kolomtotaal)/totaal = (53*27)/88= 16.3(Expected Count). • Van alle mannen is 35.8% roker (19/53*100%, % within sex). • Van alle rokers is 70.4% een man (19/27*100%, % within smoke). • Van alle personen is 21.6% een mannelijke roker (19/88*100%, % of Total)
De correlatiecoëfficiënt Met de opdracht Analyze → Correlate → Bivariate wordt de Pearsons correlatiecoëfficiënt berekend. In het dialoogvenster geef je de variabelen op waartussen de correlatie berekend moet worden. Neem als voorbeeld de relatie tussen lengte (LENGTH) en gewicht (WEIGHT):
I3-2
Via de drukknop Options van Bivariate Correlations verkrijgt men het gemiddelde en de standaarddeviatie van elke variabele. SPSS uitvoer Bivariate Correlations: Descriptive Statistics length weight
Mean 68,6739 145,1522
Std. Deviation 3,67680 23,73940
N 92 92
Correlations length length
weight
Pearson Correlation Sig. (2-tailed) N Pearson Correlation Sig. (2-tailed) N
1 92 ,786** ,000 92
weight ,786** ,000 92 1 92
**. Correlation is significant at the 0.01 level (2 il d)
In bovenstaande tabel ziet men dat de Pearsons correlatiecoëfficiënt tussen LENGTH en WEIGHT .786 bedraagt. N geeft het aantal cases weer waarover de correlatiecoëfficiënt is berekend, hier 92.
Lineaire regressie Om te weten te komen of er sprake is van een lineair verband tussen de afhankelijke en de onafhankelijke variabele kun je allereerst een puntenwolk maken middels de menu-optie Graphs → Legacy Dialogs →Scatter/Dot…. Kies voor Simple Scatter en klik op Define. Plaats de afhankelijk variabele op de y-as en de onafhankelijke variabele op de x-as. De scatterplot komt nu in het output venster te staan. Met een dubbelklik op deze scatterplot verschijnt de Chart Editor waarbinnen het mogelijk is de grafiek aan te passen. Je kunt bijvoorbeeld de kleur van de punten veranderen. Dit gaat als volgt: Klik dubbel op 1 van de punten van de puntenwolk en het Properties venster verschijnt automatisch, selecteer in het tabblad Marker een kleur en klik daarna op Apply: I3-3
Opm. Het Properties venster verschijnt ook middels van de toolbar of via Edit→ Properties. Klik voor het juiste venster de punten van de puntenwolk 1 keer aan! Binnen de Chart Editor is het mogelijk een regressielijn door de puntenwolk te fitten: Kies Elements → Fit Line at Total. In het tabblad Fit Line kies je bij Fit Method voor Linear:
Opm. Een regressielijn fitten kan ook middels I3-4
van de toolbar.
SPSS uitvoer Scatterplot GEWICHT versus LENGTE inclusief regressielijn:
210,00
weight
180,00
150,00
120,00
R Sq Linear = 0,618 90,00
60,00
62,00
64,00
66,00
68,00
70,00
72,00
74,00
length
De procedure Linear Regression SPSS kent meerdere opdrachten voor een regressieanalyse. Voorlopig beperken we ons tot enkelvoudige lineaire regressie. Via de menu-optie Analyze → Regression → Linear verschijnt het dialoogvenster Linear Regression. In het meest eenvoudige geval geef je onder Dependent de naam van de afhankelijke variabele op en onder Independent(s) de naam van de onafhankelijke variabele(n):
De procedure Linear Regression geeft nogal wat uitvoer. Alleen díe zaken die relevant zijn voor dit hoofdstuk zullen besproken worden.
I3-5
SPSS uitvoer Linear Regression: Model Summary Model 1
Adjusted R Square ,614
R R Square ,786a ,618
Std. Error of the Estimate 14,74841
a. Predictors: (Constant), length
• R: de Pearson correlatiecoëfficiënt (.786) • Std Error of the Estimate: de standaarddeviatie van de regressielijn, sregressie , deze is gelijk aan de wortel uit de gemiddelde kwadratensom van de residuen (14.7484). ANOVAb Model 1
Regression Residual Total
Sum of Squares 31707,473 19576,396 51283,870
df 1 90 91
Mean Square 31707,473 217,516
F 145,771
Sig. ,000a
a. Predictors: (Constant), length b. Dependent Variable: weight
In de bovenstaande variantie-analyse tabel vind je de vrijheidsgraden (df), kwadratensommen (Sum of Squares) en de gemiddelde kwadratensommen (Mean Square) van de componenten regressie (Regression) en error (Residual). Coefficientsa
Model 1
(Constant) length
Unstandardized Coefficients B Std. Error -203,491 28,918 5,077 ,420
Standardized Coefficients Beta ,786
t -7,037 12,074
Sig. ,000 ,000
a. Dependent Variable: weight
In het laatste gedeelte van de uitvoer volgen in kolom B van de Unstandardized Coefficients de geschatte waarden van de regressiecoëfficienten: de geschatte waarde voor β0 is gelijk aan -203.491 (Constant) en de geschatte waarde voor β1 is gelijk aan 5.077 (length). In dit voorbeeld luidt de regressievergelijking : WEIGHT = -203.491 +5.077 * LENGTH Opmerking: SPSS past een zg. Listwise deletion toe, d.w.z. alleen die cases die voor alle betrokken variabelen een valide waarde hebben worden in de analyse betrokken: heeft een case voor variabele x een valide waarde en voor variabele y een ontbrekende waarde dan wordt de hele case van de analyse uitgesloten. De zaken in de uitvoer die hier niet besproken zijn komen in hoofdstuk 9 alsnog uitvoerig aan de orde.
Kengetallen Met de drukknop Statistics van het programma Linear Regression verkrijgt men een aantal kengetallen. Zoals uit het voorbeeld blijkt, worden standaard de I3-6
regressiecoëfficiënten afgedrukt. Om de gemiddelde en standaarddeviatie van elke variabele en een correlatiematrix te krijgen klik op Descriptives van dit venster.
Residuenplot In een residuenplot worden de gestudentiseerde residuen uitgezet tegen de gefitte y-waarden. Via de drukknop Plots in het dialoogvenster Linear Regression, kunnen diverse grafieken opgevraagd worden. Voorlopig laten we deze knop even rusten en volgen we een andere werkwijze voor het maken van een residuenplot. Eerst worden de residuen berekend en opgeslagen middels de drukknop Save van de procedure Linear Regression. Met deze drukknop kunnen een aantal variabelen bewaard worden, o.a. de voorspelde waarden en de waarden van de residuen. Klik onder Residuals op Studentized en onder Predicted Values op Standardized van het venster Save. Bij het uitvoeren van de lineaire regressie maakt SPSS nu twee nieuwe variabelen aan: SRE_1 die de gestudentiseerde residuen bevat en ZPR_1 die de gestandaardiseerde gefitte (voorspelde) ywaarden bevat (zie datavenster). Voor het verkrijgen van een residuenplot zet men via Graphs → Legacy Dialogs →Scatter/Dot… SRE_1 uit tegen ZPR-1
in een puntenwolk. Ga via een dubbelklik op de scatterplot naar de Chart Editor. Kies Options→Y Axis Reference Line. Het Properties venster verschijnt. Zet in het tabblad Reference Line de positie bij Scale Axis op 0:
Druk op Apply en verlaat de Chart Editor. Opm. Een referentielijn op de y-as kan ook middels worden opgevraagd. I3-7
van de toolbar
SPSS uitvoer residuenplot:
4,00000
Studentized Residual
2,00000
0,00000
-2,00000
-3,00000
-2,00000
-1,00000
0,00000
Standardized Predicted Value
I3-8
1,00000
2,00000
Beknopte aanwijzingen met betrekking tot de oefeningen van hoofdstuk I-3 Lees eerst voorafgaand hoofdstuk goed door!!! Bij het maken van de opdrachten wordt verondersteld dat je in staat bent zelfstandig data in te voeren, files in te lezen, nieuwe variabelen te berekenen en analyses uit te voeren die eerder behandeld zijn. Aan dit soort zaken wordt praktisch geen aandacht meer besteed.
Oefening 3.2 3.2.c: Gebruik Transform 6 Rank cases om rangnummers te berekenen.
Oefening 3.4 Lees het bestand PULSE.SAV in.
3.4.g: Maak via het Graphs→Legacy Dialogs menu een scatterplot van WEIGHTtegen LENGTH waarbij de mannen en vrouwen duidelijk van elkaar te onderscheiden zijn door SEX aan te geven in Set Markers By. 3.4.h: Het boek is niet duidelijk, maar de bedoeling is dat je de correlatie gevonden bij e (tussen WEIGHT en LENGTH betreffende de hele groep) vergelijkt met de correlatie tussen WEIGHT en LENGTH voor mannen en vrouwen afzonderlijk! Deze laatste bereken je door het bestand te splitsen m.b.v. Data → Split File. Klik op Organize output by groups en selecteer SEX als groepsvariabele. Vanaf nu worden alle procedures (ook Correlate) voor mannen en vrouwen apart uitgevoerd. Split File daarna weer opheffen!!
3.4.i: Bereken met Transform → Compute Variable gewicht in kilogrammen en lengte in centimeters (1 pound=.453 kg en 1 inch = 2.54 cm).
Oefening 3.5 3.5.d: Gebruik de drukknop Save van het venster Linear Regression om de voorspelde waarden te laten berekenen. Klik op Unstandardized onder Predicted Values.
Oefening 3.6 3.6.a en 3.6.b: Via Data → Select Cases kan SPSS een steekproef trekken. Klik in het venster Select cases op Random sample of cases en vervolgens op Sample. Je kunt de steekproef laten trekken door het gewenste steekproefpercentage op te geven (Approximately) of door het exact gewenste aantal waarnemingen (Exactly) op te geven. Gebruik voor deze oefening Exactly. Er moet nl. een steekproef van 10 cases getrokken worden uit een totaal van 92 cases (dus Exactly 10 cases from the first 92 cases). Maak van deze steekproef een scatterplot van WEIGHT tegen LENGTH, en voer een lineaire regressie analyse uit. Herhaal dit nog 3 keer.
I3-9