1 INLEIDING SPSS; AANWIJZINGEN.
1
24 april 2007: A.K. en M.d.L.
Inleiding spss; Aanwijzingen.
=⇒ Start Windows Internet Explorer op. Ga naar www.stat.unimaas.nl. Klik op education. Klik op Statistics for Ph D students. Klik op Statistics part II - regression analysis and SPSS. Klik op SPSS DATA-file in zip format. Een file download venster opent. Klik op de knop Open. Een Winzip venster opent. Klik op het extract icoon. Een extract venster opent. Klik op het + teken voor “C$ op ’Client’ (V:)” Selecteer de directory “temp”. Controleer of het keuze rondje voor all files is geselecteert. Klik op de knop Extract. Sluit het Winzip venster. Sluit Windows Internet Explorer. Alle benodigde data staan nu op V:/temp. Start SPSS 11.5 for Windows via Start/ Programs. Kies File/ Open/ Data. Klik op het pijltje naast SPSS11. Er verschijnt een drop down list waarin je op C$ op ’Client’ (V:) klikt Dan dubbelklikken op de directory temp, en vervolgens kun je het gewenste bestand kiezen. 1. Open het “euros.sav” spss gegevensbestand. Hierin staan lengte, gewicht en geslacht van eerdere cursisten, alsmede het bedrag aan euros dat ieder bij zich had. Tevens gaf een ieder een door hem of haar bedacht willekeurig getal van een tot tien: Random (Gefingeerde data). =⇒ Dubbelklikken op de map “AIO lineaire regressie”. Bestand “euros.sav” selecteren en knop Open aanklikken.
2. Bereken de gemiddelde waarden en de variantie van Lengte, Gewicht en Euros. =⇒ Kies Analyze/ Descriptive Statistics/ Descriptives Links de variabelen Lengte, Gewicht en Euros selecteren. (U kunt alle drie de variabelen tegelijkertijd selecteren door de Ctrl toets ingedrukt te houden terwijl u met de muis de variabelen selecteert.) Op het pijltje drukken zodat deze variabelen in het vakje variable(s) komen te staan. 1
24 april 2007: A.K. en M.d.L.
1
INLEIDING SPSS; AANWIJZINGEN.
Als je de knop Options aanklikt kun je de descriptives aanvinken die je in je uitvoer wilt zien. Dan de knop OK aanklikken. Bekijk de output.
3. Maak een nieuwe variabele met de naam “Quetelet” en bereken die volgens de formule: (gewicht in kilo’s) / ( (lengte in meters) in het kwadraat). =⇒ Minimize het output venster. Kies Transform/ Compute Vul linksboven onder Target Variable de naam “quetelet” in. Vul in het vak rechts boven onder Numeric Expression de formule “gewicht/((lengte/100)**2)” in. Dan de knop OK aanklikken. In de data editor zijn nu de waarden van de variabele Quetelet te zien.
4. Verdeel de uitkomsten van de variabele Gewicht in drie klassen in een nieuwe variabele “gewklass”. Gewklass krijgt de waarde 1 als het gewicht ligt in de range laagste waarde tot en met 60. Gewklass krijgt de waarde 2 als het gewicht ligt in de range 60 tot en met 67. Gewklass krijgt de waarde 3 als het gewicht ligt in de range 67 tot en met de hoogste waarde. =⇒ Kies Transform/ Recode/ Into Different Variables. (Verwijder indien nodig eventuele gegevens van een vorige recode uit het Numeric Variable Output Variable vak. Dit doe je door een regel aan te klikken. Dan wijst het kleine zwarte driehoekje tussen de vakken naar links. Als je dit pijltje aanklikt wordt de geselecteerde regel verwijderd. Herhaal dit tot het vak leeg is.) Selekteer nu links de variabele Gewicht. Nu wijst het kleine zwarte driehoekje(pijltje) tussen de vakken naar rechts. Klik het pijltje aan en de naam van de variabele wordt in het Numeric Variable Output Variable vak geplaatst. Vul nu rechts onder het kopje Output Variable de naam “gewklass” in voor de nieuwe categorische variabele. Klik op de knop Change. Klik op de knop Old en New Values. Nu verschijnt er een nieuw venstertje. 2
1 INLEIDING SPSS; AANWIJZINGEN.
24 april 2007: A.K. en M.d.L.
(Verwijder eventuele gegevens van een vorige recode uit het Old New vak. Dit doe je door een regel aan te klikken en dan op de knop remove te klikken. Herhaal dit tot het vak leeg is.) Kies dan links het keuze rondje Range lowest through.. en vul daar de waarde 60 in. Kies rechts boven onder het kopje New Value het keuze rondje Value aan en vul de waarde 1 in. Klik dan op de knop Add. Kies links het keuze rondje Range .... through .... en vul 60 in en na through vul 67 in. Kies rechts boven onder het kopje New Value het keuze rondje Value aan en vul de waarde 2 in. Klik dan op de knop Add. Kies dan links het keuze rondje Range .... through highest en vul daar de waarde 67 in. Kies rechts boven onder het kopje New Value het keuze rondje Value aan en vul de waarde 3 in. Klik dan op de knop Add. Klik op de knop Continue. Het venstertje sluit. Klik nu in het venster Recode into Different Variables op de knop OK. In de data editor is de nieuwe variabele te zien. ! Je kunt ook de keuze maken Into Same Variables maar houd er rekening mee dat je dan je oorspronkelijke variabele kwijt bent. Voor deze opgaven is dat niet de juiste keuze.
5. Maak een kruistabel van Geslacht tegen Gewklass. =⇒ Analyze/ Descriptive Statistics/ Crosstabs Selekteer links de variabele Geslacht. Klik op het pijltje naast het vak Rows. Selekteer links de variabele Gewklass. 3
24 april 2007: A.K. en M.d.L.
1
INLEIDING SPSS; AANWIJZINGEN.
Klik op het pijltje naast het vak Column(s). Bekijk wat er onder de knoppen Statistics, Cells en Format zit. Dan de knop OK aanklikken. Bekijk de output
6. Bereken de gemiddelde waarde van Lengte, Gewicht en Euros, voor mannen en vrouwen apart. =⇒ Minimize het output venster. Data/ Split File
Selecteer een van de keuzen Compare groups of Organize output by groups afhankelijk van je wensen. Probeer met beide keuzen de opgave te maken. Selecteer de variabele volgens welke het bestand gesplitst moet worden, Geslacht in dit geval. Op het pijltje drukken zodat deze variabele in het vakje Groups Based on komt te staan. Dan de knop OK aanklikken. Denk er aan dat deze Split File blijft gelden tot het weer ongedaan is gemaakt. Verder als opgave 4.
7. Onderzoek de variabelen Gewicht, Lengte, Euros en Random met Descriptive Statistics/ Explore, voor mannen en vrouwen apart. Maak daarbij “Boxplots”, “Stem and Leaf” grafieken en Histogrammen. Is de verdeling van Gewicht en Lengte ongeveer normaal? Hebben mannen en vrouwen ongeveer dezelfde standaardafwijking? =⇒ Minimize het output venster. Kies Analyze/ Descriptive Statistics/ Explore Selecteer links de variabelen Lengte, Gewicht, Euros en Random. Klik het pijltje naast het vak Dependent List aan, zodat de variabelen in het vak verschijnen. Klik op de knop Plots. Vink in het vak Descriptives de vakjes voor Stem-andleaf en Histogram aan. Klik op de knop Continue. Dan de knop OK aanklikken.
4
1 INLEIDING SPSS; AANWIJZINGEN.
24 april 2007: A.K. en M.d.L.
8. Doe een t-toets om het gemiddelde Gewicht en Lengte van de mannen en vrouwen te vergelijken. Noteer het 95% BI voor het verschil tussen mannen en vrouwen. Hoe groot is de p-waarde van de t-toets? Stemt de conclusie met de pwaarde en de conlusie met het BI overeen? Is het verstandig om hier een t-toets te gebruiken? =⇒ Minimize het output venster. Nu eerst “Split File” uitzetten. Kies Analyze/ Compaire Means/ Independent Samples T Test Links de variabele Gewicht selecteren en klik het pijltje naast het vak Test Variables zodat die variabele in het vak verschijnt. Dan de variabele Geslacht selecteren en klik het pijltje naast het vakje Grouping Variable zodat de variabele in dat vakje verschijnt. Vervolgens op de knop Define Groups drukken. In het Define Groups venstertje achter Group 1 een 1 invullen en achter Group 2 een 2 invullen. Klik dan op de knop Continue. Klik dan op de knop OK in het venster Independent-Samples Test.
9. Doe dan de Mann-Whitney U test om de gemiddelden van Gewicht en Lengte van de mannen en vrouwen te vergelijken. Is het verschil significant? Is het verstandig om hier een rang-toets te gebruiken? =⇒ Minimize het output venster. Analyze/ Nonparametric tests/ 2 Independent Samples
Links de variabele Euros selecteren en klik het pijltje naast het vak Test Variables zodat die variabele in het vak verschijnt. Dan de variabele Geslacht selecteren en klik het pijltje naast het vakje Grouping Variable zodat de variabele in dat vakje verschijnt. Vervolgens op de knop Define Groups drukken. In het Define Groups venstertje achter Group 1 een 1 invullen en achter Group 2 een 2 invullen. Klik dan op de knop Continue. Klik dan op de knop OK in het venster Two Independent-Samples Test. Bekijk de output.
10. Maak met spss een scatterplot van Gewicht tegen Lengte. Laat in deze puntenwolk de regressielijn van het totaal en van de mannen en vrouwen tekenen. 5
24 april 2007: A.K. en M.d.L.
1
INLEIDING SPSS; AANWIJZINGEN.
=⇒ Minimize het output venster. Kies Graphs/ Scatter Selecteer het vakje Simple. Klik dan op de knop Define. Selecteer Lengte en klik op het pijltje naast het vakje X Axis. Selecteer Gewicht en klik op het pijltje naast het vakje Y Axis. Selecteer Geslacht en klik op het pijltje naast het vakje Set Markers by .... Klik dan op de knop OK. Als de grafiek in het output venster is verschenen klik dan dubbel op de grafiek. Er verschijnt een nieuw venster met een ander menu en een andere iconenbalk. Kies Chart/ Options Selecteer in het venster Scatterplot Options in de groep Fit Line het vakje Total en Subgroups. Klik dan op de knop OK. Bekijk de output.
11. Bereken het aantal dagen tussen de geboortedatum (Gebdag, Gebmaand en Gebjaar ) en de datum waarop de vragenlijst is ingevuld (idag, etc.). =⇒ Minimize het output venster. Kies Transform/ Compute Vul links boven onder Target Variable de naam “dagen” in. Vul in het vak rechts boven onder Numeric Expression de formule in. Maak hierbij gebruik van de functie YRMODA. Een omschrijving van een functie krijgt men te zien door op de betreffende funktie rechts te klikken. Als men links op de naam van de functie klikt wordt de functie in het Numeric Expression vak gezet. Op de plaats van de vraagtekens vult men de variabelen in. De formule wordt dus: YRMODA(ijaar,imaand,idag)-YRMODA(gebjaar,gebmaand,gebdag) Dan de knop OK aanklikken.
In de data editor zijn nu de waarden van de variabele Dagen te zien.
12. Bereken de leeftijd (in voltooide jaren) die de invullers vandaag hebben. 6
1 INLEIDING SPSS; AANWIJZINGEN.
24 april 2007: A.K. en M.d.L.
=⇒ Kies Transform/ Compute Vul in links boven onder Target Variable de naam ”jaren”. Vul in het vak rechts boven onder Numeric Expression de formule in. Om de leeftijd in voltooide jaren te berekenen kun je in de eerste plaats het verschil van het huidige jaar en het geboorte jaar nemen. Vervolgens, als datum van de verjaardag nog niet geweest is, er ´e´en van af trekken. De formule ziet er dan zo uit: (2003 - gebjaar) - ((YRMOD(2003,gebmaand,gebdag) - YRMOD(2003,3,27)) < 0) De boolean expressie ((YRMOD(2003,gebmaand,gebdag) - YRMOD(2003,3,27)) < 0) levert 1 als hij ’waar’ is. Dan de knop OK aanklikken.
In de data editor zijn nu de waarden van de variabele jaren te zien.
7
24 april 2007: A.K. en M.d.L.
2
2
CORRELATIE; AANWIJZINGEN.
Correlatie; Aanwijzingen.
=⇒ Start Windows Internet Explorer op. Ga naar www.stat.unimaas.nl. Klik op education. Klik op Statistics for Ph D students. Klik op Statistics part II - regression analysis and SPSS. Klik op SPSS DATA-file in zip format. Een file download venster opent. Klik op de knop Open. Een Winzip venster opent. Klik op het extract icoon. Een extract venster opent. Klik op het + teken voor “C$ op ’Client’ (V:)” Selecteer de directory “temp”. Controleer of het keuze rondje voor all files is geselecteert. Klik op de knop Extract. Sluit het Winzip venster. Sluit Windows Internet Explorer. Alle benodigde data staan nu op V:/temp. Start SPSS 11.5 for Windows via Start/ Programs. Kies File/ Open/ Data. Klik op het pijltje naast SPSS11. Er verschijnt een drop down list waarin je op C$ op ’Client’ (V:) klikt Dan dubbelklikken op de directory temp, en vervolgens kun je het gewenste bestand kiezen. Opgave 2.1 1. Bereken de Pearson en de Spearman correlaties in de systolische druk data van hoofdstuk 1, Colton6r.sav. =⇒ Kies Analyze/ Correlate/ Bivariate... Selecteer in het venstertje Bivariate Correlations de variabelen Leeftijd in jaren [leeftijd] en Systolische bloeddruk [syst]. Op het pijltje drukken zodat deze variabelen in het vakje variable(s) komen te staan. Zorg dat het vakje v´oo´r Pearson en v´oo´r Spearman aangevinkt zijn. Dan de knop OK aanklikken. Opgave 2.2 De data voor deze opgave moeten eerst worden ingelezen met behulp van File/ Read Text Data. De datafile is ‘Bmol.dat’, dat zijn de data bij het niet-parametrische correlatievoorbeeld. De kolommen in de data zijn resp. Aggr en Bmol. =⇒ Kies File/ Read Text Data Druk op het pijltje in het vakje Files of type: en kies All Files (*.*). 8
2 CORRELATIE; AANWIJZINGEN.
24 april 2007: A.K. en M.d.L.
Selecteer, in de lijst bestanden die zichtbaar wordt, het bestand Bmol.dat. Klik de knop Open aan. Het venster Text Import Wizard step 1 of 6 wordt geopend. In het blok Does your text file match a predefined format? klik het keuzevakje No aan. Klik de knop Next> aan. Het venster Text Import Wizard step 2 of 6 wordt geopend. In het blok How are your variables arranged? klik het keuzevakje Delimited aan. In het blok Are variable names included at the top of your file? klik het keuzevakje No aan. Klik de knop Next> aan. Het venster Text Import Wizard step 3 of 6 wordt geopend. Verhoog het getal achter de vraag The first case of data begins on which line number? zodanig dat in het Data Preview vak de bovenste twee getallen 36.5 en 51.3 op regel 1 staan. Klik in het blok How are your cases represented? het keuzevakje voor Each line represents a case aan. Klik in het blok How many cases do you want to import? het keuzevakje voor All of the cases aan. Klik de knop Next> aan. Het venster Text Import Wizard step 4 of 6 wordt geopend. Zorg dat in het blok Which delimiters appear between variables? het keuzeblokje voor Space is aangevinkt. Klik de knop Next> aan. Het venster Text Import Wizard step 5 of 6 wordt geopend. Selecteer in het vak Data Preview de variabele naam V1. Vul in het vakje Variable name in “aggr”. Selecteer dan in het vak Data Preview de variabele naam V2. Vul in het vakje Variable name in “bmol”. Klik de knop Next> aan. Het venster Text Import Wizard step 6 of 6 wordt geopend. Vul nu de blokken in naar eigen wens. Klik de knop Finish aan. De data verschijnt in de spreadsheet. 1. Maak een plaatje van de data: plot de Bmol variabele tegen Aggr. =⇒ Kies Graphs/ Scatter.... Selecteer Simple en klik de knop Define aan. Selecteer links de variabele bmol en druk op het pijltje naast het cvakje waar Y-Axis boven staat, zodat deze variabele in het vakje komt te staan. Selecteer links de variabele aggr en druk op het pijltje naast het vakje waar X-Axis boven staat, zodat deze variabele in het vakje komt te staan. Dan de knop OK aanklikken.
9
24 april 2007: A.K. en M.d.L.
2
CORRELATIE; AANWIJZINGEN.
2. Bereken de Pearson en de Spearman correlaties. =⇒ Kies Analyze/ Correlate/ Bivariate... Selecteer in het venstertje Bivariate Correlations de variabelen aggr en bmol. Op het pijltje drukken zodat deze variabelen in het vakje variable(s) komen te staan. Zorg dat het vakje v´oo´r Pearson en v´oo´r Spearman aangevinkt zijn. Dan de knop OK aanklikken.
3. Laat zien dat de Pearson correlatie verandert als punt 4 (Aggr =54.5, Bmol =63.5) veranderd wordt zodat Bmol =85. =⇒ Verander in de spreadsheet de waarde 63.5 van Bmol in 85. Verricht verder dezelfde handelingen als bij de vorige opgave.
4. Laat zien dat de Spearman correlatie hetzelfde blijft bij deze verandering in Bmol. Hoe komt dat? =⇒ De Spearman correlatie wordt berekend door de Pearson correlatie te berekenen op de rangnummers van de variabelen. In dit geval veranderd het rangnummer van deze waarde niet, dus ook de Spearman correlatie niet. Opgave ∗ 2.3 Dit is een kleine inleiding in het simuleren van data, om te zien hoe variabel resultaten van data uit dezelfde bron kunnen zijn. spss heeft een ingebouwde willekeurigegetallen generator (random number generator) waarmee variabelen met bekende eigenschappen wat betreft gemiddelde en standaardafwijking kunnen worden gemaakt. In het transform/ compute menuutje vindt u deze functies als RV.NORMAL(<mean>,<SD>). Deze functie maakt (genereert) random getallen met door u te kiezen gemiddelde en standaardafwijking. Simuleren van data kan nuttig zijn om te zien hoe variabel bepaalde uitkomsten zouden kunnen zijn, bijvoorbeeld voor powerberekeningen, en simuleren van data is onvermijdelijk als u uw onderzoeksresultaten faken wilt (dit is strafbaar, en niet gemakkelijk zo te doen dat het niet aan het licht zal komen). Met behulp van de formules voor covarianties in 2.7.4 in de syllabus kunt u data genereren uit een verdeling met een door u te bepalen correlatieco¨effici¨ent: Als X en Y onafhankelijke standaard normaal verdeelde variabelen zijn, en Z wordt berekend als p Z = Y ρ + X 1 − ρ2 dan is de correlatieco¨effici¨ent van Y en Z gelijk aan ρ en bovendien is de SD van Z gelijk aan 1. 10
2 CORRELATIE; AANWIJZINGEN.
24 april 2007: A.K. en M.d.L.
Aanwijzing Als u met een leeg data-scherm begint weet spss niet hoeveel cases er zijn. Uw compute opdrachten hebben dan niet het gewenste effect. Wat wel werkt is de volgende truuk: Om 100 cases te krijgen gaat u naar regel 100 van de data-editor (dit kan met behulp van Go to Case in het Data menu). Dan typt u een 1 in de cel van de eerste variabele van die case. Nu heeft u 100 cases, waarbij de gewenste random variabelen kunnen worden gegenereerd. 1. (2.7.2 in syllabus) Genereer voor 100 cases onafhankelijke variabelen X1 en X2 met gemiddelde 10 en standaardafwijking 2. Bereken Xdif = X2 − X1. Maak een plaatje van Xdif tegen X1. Bereken de correlatieco¨effici¨ent van Xdif en X1. Constateer dat de correlatie vrij groot is, Xdif is groter voor kleine waarden van X1. Dit kan dus een artefact zijn veroorzaakt door toevallige variaties in X1. =⇒ Kies File/ New/ Data In het venstertje SPSS for Windows klik No. Kies Data/ Goto Case. Vul als Case Number in “100”. Dan de knop OK aanklikken. vul een getal in en geef <enter>. Kies Transform/ Compute Vul in links boven onder Target Variable de naam ”x1”. Vul in het vak rechts boven onder Numeric Expression de formule “RV.NORMAL(10,2)” in. Dan de knop OK aanklikken. In de data editor zijn nu de waarden van de variabele x1 te zien. Kies Transform/ Compute Vul in links boven onder Target Variable de naam ”x2”. Vul in het vak rechts boven onder Numeric Expression de formule “RV.NORMAL(10,2)” in. Dan de knop OK aanklikken. In de data editor zijn nu de waarden van de variabele x2 te zien. Kies Transform/ Compute Vul in links boven onder Target Variable de naam ”xdif”. Vul in het vak rechts boven onder Numeric Expression de formule “x2 - x1” in. Dan de knop OK aanklikken. In de data editor zijn nu de waarden van de variabele xdif te zien. Kies Analyze/ Correlate/ Bivariate... Selecteer in het venstertje Bivariate Correlations de variabelen xdif en x1. Op het pijltje drukken zodat deze variabelen in het vakje variable(s) komen te staan. Zorg dat het vakje v´oo´r Pearson aangevinkt is. 11
24 april 2007: A.K. en M.d.L.
2
CORRELATIE; AANWIJZINGEN.
Dan de knop OK aanklikken.
2. (2.7.6 in syllabus) Genereer voor 100 cases onafhankelijke variabelen X, Y en Z, met gemiddelde 10 en standaardafwijking 2. Bereken per variabele hoeveel procent het is van de som X + Y + Z, dit geeft variabelen pX, pY en pZ. Laat zien dat de correlaties van pX, pY en pZ negatief zijn. =⇒ Begin met een leeg datasheet door te kiezen File/ New/ Data. Bereid de datasheet voor zoals in de vorige opdracht is omschreven. Kies Transform/ Compute. Vul in links boven onder Target Variable de naam “x”. Vul in het vak rechts boven onder Numeric Expression de formule “RV.NORMAL(10,2)” in. Dan de knop OK aanklikken. In de data editor zijn nu de waarden van de variabele x te zien. Kies Transform/ Compute Vul in links boven onder Target Variable de naam “y”. Vul in het vak rechts boven onder Numeric Expression de formule “RV.NORMAL(10,2)” in. Dan de knop OK aanklikken. In de data editor zijn nu de waarden van de variabele y te zien. Kies Transform/ Compute Vul in links boven onder Target Variable de naam “z”. Vul in het vak rechts boven onder Numeric Expression de formule “RV.NORMAL(10,2)” in. Dan de knop OK aanklikken. In de data editor zijn nu de waarden van de variabele z te zien. Kies Transform/ Compute Vul in links boven onder Target Variable de naam ”px”. Vul in het vak rechts boven onder Numeric Expression de formule “100 * x / (x + y + z)” in. Dan de knop OK aanklikken. In de data editor zijn nu de waarden van de variabele px te zien. Kies Transform/ Compute Vul in links boven onder Target Variable de naam ”py”. Vul in het vak rechts boven onder Numeric Expression de formule “100 * y / (x + y + z)” in. Dan de knop OK aanklikken. In de data editor zijn nu de waarden van de variabele py te zien. Kies Transform/ Compute Vul in links boven onder Target Variable de naam ”pz”. Vul in het vak rechts boven onder Numeric Expression 12
2 CORRELATIE; AANWIJZINGEN.
24 april 2007: A.K. en M.d.L.
de formule “100 * z / (x + y + z)” in. Dan de knop OK aanklikken. In de data editor zijn nu de waarden van de variabele pz te zien. Kies Analyze/ Correlate/ Bivariate... Selecteer in het venstertje Bivariate Correlations de variabelen px, py en pz. Op het pijltje drukken zodat deze variabelen in het vakje variable(s) komen te staan. Zorg dat het vakje v´oo´r Pearson aangevinkt is. Dan de knop OK aanklikken. 3. Genereer X, Y en Z met ρ(Y, Z) = 0.5 voor 100 cases en bereken de Pearson correlatie van Y en Z. Waarom is deze niet precies gelijk aan 0.5? =⇒ Kies Transform/ Compute Vul in links boven onder Target Variable de naam “x”. Vul in het vak rechts boven onder Numeric Expression de formule “RV.NORMAL(0,1)” in. Dan de knop OK aanklikken. In de data editor zijn nu de waarden van de variabele x te zien. Kies Transform/ Compute Vul in links boven onder Target Variable de naam “y”. Vul in het vak rechts boven onder Numeric Expression de formule “RV.NORMAL(0,1)” in. Dan de knop OK aanklikken. In de data editor zijn nu de waarden van de variabele y te zien. Kies Transform/ Compute Vul in links boven onder Target Variable de naam “z”. Vul in het vak rechts boven onder Numeric Expression de formule “0.5 * y + SQRT(1 - 0.5 * 0.5)* x” in. Dan de knop OK aanklikken. In de data editor zijn nu de waarden van de variabele z te zien. Kies Analyze/ Correlate/ Bivariate... Selecteer in het venstertje Bivariate Correlations de variabelen y en z Op het pijltje drukken zodat deze variabelen in het vakje variable(s) komen te staan. Zorg dat het vakje v´oo´r Pearson aangevinkt is. Dan de knop OK aanklikken. 4. Herhaal opdracht 1 een aantal keer en zie hoe veel de correlatie varieert. Noteer telkens de correlatieco¨effici¨ent. 5. Doe hetzelfde met veel minder (10) of veel meer data (1000) en zie wat dat uitmaakt. 13
24 april 2007: A.K. en M.d.L.
3
3
ENKELVOUDIGE REGRESSIE; AANWIJZINGEN.
Enkelvoudige regressie; Aanwijzingen.
=⇒ Start Windows Internet Explorer op. Ga naar www.stat.unimaas.nl. Klik op education. Klik op Statistics for Ph D students. Klik op Statistics part II - regression analysis and SPSS. Klik op SPSS DATA-file in zip format. Een file download venster opent. Klik op de knop Open. Een Winzip venster opent. Klik op het extract icoon. Een extract venster opent. Klik op het + teken voor “C$ op ’Client’ (V:)” Selecteer de directory “temp”. Controleer of het keuze rondje voor all files is geselecteert. Klik op de knop Extract. Sluit het Winzip venster. Sluit Windows Internet Explorer. Alle benodigde data staan nu op V:/temp. Start SPSS 11.5 for Windows via Start/ Programs. Kies File/ Open/ Data. Klik op het pijltje naast SPSS11. Er verschijnt een drop down list waarin je op C$ op ’Client’ (V:) klikt Dan dubbelklikken op de directory temp, en vervolgens kun je het gewenste bestand kiezen. Enkelvoudige lineaire regressie vindt u in het spss menu onder Analyse/ Regression/ Linear. Het invulscherm wijst zichzelf, in eerste instantie vult u een afhankelijke variabele (dependent) en een onafhankelijke variabele (independent) in. Opgave 3.1 Gebruik de data van hoofdstuk 1 over de leeftijd en de systolische bloeddruk. Datafile: Colton6r.sav. 1. Bereken de regressielijn voor de systolische druk afhankelijk van de leeftijd. =⇒ Kies Analyze/ Regression/ Linear. Selecteer links de variabele Systolische bloeddruk (syst) en druk op het pijltje naast het vakje waar Dependent: boven staat, zodat deze variabele in het vakje komt te staan. Selecteer links de variabele Leeftijd in jaren (leeftijd) en druk op het pijltje naast het vakje waar Independent(s): boven staat, zodat deze variabele in het vakje komt te staan. Dan de knop OK aanklikken.
14
3 ENKELVOUDIGE REGRESSIE; AANWIJZINGEN.
24 april 2007: A.K. en M.d.L.
2. Zoek op in de uitvoer: de geschatte regressieco¨effici¨enten, de bijbehorende standaardfouten, t-waarden en p-waarden. =⇒ De geschatte regressieco¨effici¨enten vind je in de tabel Coefficients in de kolom waar B boven staat. De bijbehorende standaardfouten staan in de kolom rechts hiervan waar Std. Error boven staat. De t-waarden staan weer twee kolommen verder naar rechts in de kolom waar t boven staat. De p-waarden staan in de kolom rechts hiervan waar Sig. boven staat.
3. Hoe groot is de residuele kwadratensom? =⇒ De residuele kwadratensom vind je in de tabel ANOVA in de kolom Sum of Squares en in de rij Residual. Minimize het Output venster. Opgave 3.2 (Vervolg) 1. Bereken met behulp van de geschatte co¨effici¨enten voor iedere subject de voorspelde waarde van de systolische druk, en het bijbehorende residu. Gebruik hiervoor compute opdrachten. =⇒ Kies Transform/ Compute. Vul in links boven onder Target Variable de naam “resid”. Vul in het vak rechtsboven onder Numeric Expression de formule (syst-(81.517+1.222*leeftijd)) in. Dan de knop OK aanklikken. In de data editor zijn nu de waarden van de variabele resid te zien.
2. Kwadrateer de residuen en tel ze op (compute opdracht en descriptives opdracht). Controleer dat de som gelijk is aan de hierboven uit de SPSS uitvoer gezochte kwadratensom. =⇒ Kies Transform/ Compute. Vul in links boven onder Target Variable de naam “residsq”. Vul in het vak rechtsboven onder Numeric Expression de formule “resid ** 2 ” in. Dan de knop OK aanklikken. 15
24 april 2007: A.K. en M.d.L.
3
ENKELVOUDIGE REGRESSIE; AANWIJZINGEN.
In de data editor zijn nu de waarden van de variabele residsq te zien. Kies Analyze/ Descripive Statistics/ Descriptives...
Selecteer links de variabele residsq en druk op het pijltje, zodat deze variabele in het vakje komt te staan. Klik de knop Options... aan. Vink het keuzevakje Sum aan. Maak evt. andere keuzevakjes leeg. Klik de knop Continue aan. Dan de knop OK aanklikken. Bekijk de output. Minimize het outputvenster.
3. ∗ Laat zien dat voor andere waarden van de co¨effici¨enten de residuele kwadratensom groter is. Verklaar. Hint Dit gaat gemakkelijk in het syntax scherm waarin u de compute opdrachten en de descriptives opdracht heeft gezet. U hoeft voor elke keuze van co¨effici¨enten deze steeds alleen in de berekening van de voorspelde waarde te veranderen. =⇒ Verricht de handelingen als in punt 1 en 2 van deze opgave besproken maar klik steeds de knop Paste aan in plaats van OK. Vervang een aantal keren de waarden 81.517 en of 1.222 in het syntax venster door andere waarden en kies Run/ All. De laatste waarde van sumresid zal steeds groter zijn dan 10769.71 Opgave 3.3 Bereken een nieuwe variabele lft50 = Leeftijd − 50. Bereken de regressielijn van de systolische druk op lft50. Vraag ook om betrouwbaarheidsintervallen van de co¨effici¨enten. Vergelijk de uitkomsten met die van opgave 3.1. Verklaar de verschillen. Wat is de interpretatie van de constante in het regressiemodel? Hoe interpreteert u het betrouwbaarheidsinterval van de constante? =⇒ Kies Transform/ Compute. Vul in links boven onder Target Variable de naam ”lft50”. Vul in het vak rechtsboven onder Numeric Expression de formule “leeftijd - 50” in. Dan de knop OK aanklikken. In de data editor zijn nu de waarden van de variabele lft50 te zien. Kies Analyze/ Regression/ Linear... Selecteer links de variabele Systolische bloeddruk (syst) en druk op het pijltje naast het vakje waar Dependent: boven staat, zodat deze variabele in het vakje komt te staan. Selecteer links de variabele lft50 en druk op het pijltje naast het vakje waar Independent(s): boven staat, zodat deze variabele in het vakje komt te staan. 16
3 ENKELVOUDIGE REGRESSIE; AANWIJZINGEN.
24 april 2007: A.K. en M.d.L.
Dan de knop OK aanklikken. Bekijk de output en probeer de vragen te beantwoorden. Opgave 3.4 Gebruik weer de data van Colton over leeftijd en systolische druk. 1. Voer de regressie-analyse uit van Syst als functie van Leeftijd, en bepaal voor iedere subject de Cook afstand. Zoek op wie de hoogste Cook afstand heeft. Hint: Sorteer de data op Cook afstand. =⇒ Kies Analyze/ Regression/ Linear... Selecteer links de variabele Systolische bloeddruk (syst) en druk op het pijltje naast het vakje waar Dependent: boven staat, zodat deze variabele in het vakje komt te staan. Selecteer links de variabele Leeftijd in jaren (leeftijd) en druk op het pijltje naast het vakje waar Independent(s): boven staat, zodat deze variabele in het vakje komt te staan. Klik de knop Save, het venster Linear Regression: Save opent. Selecteer in het blok Distances het vakje Cook’s aan. Haal alle andere vinkjes weg. Klik de knop Continue aan. Dan de knop OK aanklikken. In je Data Editor zie je de Cook’s distances. Als je de colom coo 1 selecteert en met de rechtermuisknop op coo 1 klikt kun je in het menu kiezen hoe je de kolom wilt sorteren.
2. Herhaal de regressie-analyse met weglaten van de persoon met de hoogste Cook afstand. Hoeveel veranderen de co¨effici¨enten? Verandert de kwalitatieve conclusie van de analyse? =⇒ Kies Data/ Select Cases... Selecteer het keuzevakje if condition is satisfied. Klik op de knop if... Selecteer links de variabele Cook’s Distance (coo 1) en druk op het pijltje zodat de variabele in het vakje komt te staan. Tik hier achter “< .5”. Klik de knop Continue aan. Dan de knop OK aanklikken. Kies Analyze/ Regression/ Linear... Selecteer links de variabele Systolische bloeddruk (syst) en druk op het pijltje naast het vakje waar Dependent: boven staat, zodat deze variabele in het vakje komt te staan. Selecteer links de variabele Leeftijd in jaren (leeftijd) en druk op het pijltje naast het vakje waar Independent(s): boven staat, zodat deze variabele in het vakje komt te staan. 17
24 april 2007: A.K. en M.d.L.
3
ENKELVOUDIGE REGRESSIE; AANWIJZINGEN.
Dan de knop OK aanklikken. Bekijk de output en probeer de vragen te beantwoorden. Voor je verder gaat zorg dat alle cases weer meedoen. Kies Data/ Select Cases... Selecteer het keuzevakje All cases Opgave 3.5 (Vervolg) Maak een plaatje met een scatterplot, de regressielijn en de betrouwbaarheidsgrenzen voor de geschatte lijn. Stappen hierin zijn: 1. In het regressiemenu, kies Save, en bewaar de predicted value en de ci(mean). U krijgt er variabelen bij in uw data-file. Kijk hoe ze heten. =⇒ Kies Analyze/ Regression/ Linear... Selecteer links de variabele Systolische bloeddruk (syst) en druk op het pijltje naast het vakje waar Dependent: boven staat, zodat deze variabele in het vakje komt te staan. Selecteer links de variabele Leeftijd in jaren (leeftijd) en druk op het pijltje naast het vakje waar Independent(s): boven staat, zodat deze variabele in het vakje komt te staan. Klik de knop Save, het venster Linear Regression: Save opent. Selecteer in het blok Predicted Values het vakje Unstandardized aan. Selecteer in het blok Predicted Intervals het vakje Means aan en controleer of in het vakje Confidence Interval 95% staat vermeld. Klik de knop Continue aan. Dan de knop OK aanklikken. Bekijk de uitvoer. Minimize het Output venster.
2. Zoek bij een subject van 50 jaar oud het betrouwbaarheidsinterval op in de data en vergelijk dat met het betrouwbaarheidsinterval voor de constante in opgave 3.3. 3. Nu moet hiervan nog een plaatje gemaakt worden: In het Graphs/ Scatter menu kiest u de Overlay knop. U kiest als eerste variabele van het te plotten paar Syst, de voorspelde waarden en de grenzen van het interval. Dan telkens als tweede variabele leeftijd. Gebruik de Swap Pair knop om de volgorde te veranderen. =⇒ Kies Graphs/ Scatter Selecteer nu de Overlay knop. 18
3 ENKELVOUDIGE REGRESSIE; AANWIJZINGEN.
24 april 2007: A.K. en M.d.L.
Klik de Define knop. Dan moet u drie paren variabelen kiezen. Eerst selecteert u leeftijd en de Unstandardized Predicted Value(pre 1). Dan klikt u op het pijltje naast het vakje waar Y-X Pairs boven staat, zodat deze variabelen in het vakje komen te staan. De variabele leeftijd moet logischerwijs op de X-as komen te staan dus als tweede van het paar staan. Als dat niet het geval is druk op de knop Swap Pair. Vervolgens selecteert u leeftijd en de 95% L CI for SYST mean(lmci 1). Dan klikt u weer op het pijltje naast het vakje waar Y-X Pairs boven staat, zodat deze variabelen in het vakje komen te staan. Pas weer de volgorde aan zodat leeftijd weer als tweede staat. Daarna selecteert u leeftijd en de 95% U CI for SYST mean(umci 1). Dan klikt u weer op het pijltje naast het vakje waar Y-X Pairs boven staat, zodat deze variabelen in het vakje komen te staan. Pas weer de volgorde aan zodat leeftijd weer als tweede staat. Tenslotte selecteert u leeftijd en de Systolische bloeddruk(syst). Dan klikt u weer op het pijltje naast het vakje waar Y-X Pairs boven staat, zodat deze variabelen in het vakje komen te staan. Pas weer de volgorde aan zodat leeftijd weer als tweede staat. Dan de knop OK aanklikken.
4. Het vervelende van bovenstaande methode is dat u met spss geen fatsoenlijke lijntjes door de predicted en de intervalgrenzen kunt krijgen. Het kan wel, maar dan moet u de hiervoor in spss ingebakken methode gebruiken: Maak een ‘simple scatterplot’ van syst tegen leeftijd, dan op het plaatje dubbelklikken, en op het ‘passer’ knopje (Chart/ Options) drukken. Kies vervolgens Fit Line/ Total en Fit Options/ Linear, Mean. 5. Maak net zo’n plaatje met het voorspellingsinterval voor individuele waarnemingen. =⇒ Als bij 3, maar ipv. keuzeblokje Mean, Individual aanvinken.
19
24 april 2007: A.K. en M.d.L.
4
4
MEERVOUDIGE REGRESSIE; AANWIJZINGEN.
Meervoudige regressie; Aanwijzingen.
=⇒ Start Windows Internet Explorer op. Ga naar www.stat.unimaas.nl. Klik op education. Klik op Statistics for Ph D students. Klik op Statistics part II - regression analysis and SPSS. Klik op SPSS DATA-file in zip format. Een file download venster opent. Klik op de knop Open. Een Winzip venster opent. Klik op het extract icoon. Een extract venster opent. Klik op het + teken voor “C$ op ’Client’ (V:)” Selecteer de directory “temp”. Controleer of het keuze rondje voor all files is geselecteert. Klik op de knop Extract. Sluit het Winzip venster. Sluit Windows Internet Explorer. Alle benodigde data staan nu op V:/temp. Start SPSS 11.5 for Windows via Start/ Programs. Kies File/ Open/ Data. Klik op het pijltje naast SPSS11. Er verschijnt een drop down list waarin je op C$ op ’Client’ (V:) klikt Dan dubbelklikken op de directory temp, en vervolgens kun je het gewenste bestand kiezen. Opgave 4.1 Gebruik de data van de vis-trial, vis.sav. 1. Gebruik de t-toets om de eindbloedingstijd van groepen makreel en controle met elkaar te vergelijken. Bereken ook het 95%-betrouwbaarheidsinterval voor het verschil in eindbloedingstijd. =⇒ Kies Analyze/ Compare Means/ Independent-Samples T Test. Het venster Independent-Samples T Test verschijnt. Selecteer in het linker vak de variabele Bloedingstijd na 6 weken in minuten(bt0). Klik op het pijltje links van het vak Test Variable(s): zodat deze variabele in het vakje Variable(s) komt te staan Selecteer dan in het linker vak de variabele Vis Klik op het pijltje links van het vak Grouping Variable: zodat deze variabele in het vakje Grouping Variable: komt te staan. Klik de knop Define Groups... aan. Het venstertje Define Groups... verschijnt. Achter Group 1 een 0 invullen en achter Group 2 een 1 invullen. 20
4 MEERVOUDIGE REGRESSIE; AANWIJZINGEN.
24 april 2007: A.K. en M.d.L.
Klik dan op de knop Continue. Klik vervolgens op de knop OK in het venser Independent-Samples T Test. Bekijk de output in minimize daarna het output venster.
2. Doe hetzelfde door middel van lineaire regressie en vergelijk de resultaten. Waarom is het resultaat van de ‘ongelijke varianties t-toets’ afwijkend? =⇒ Kies Analyze/ Regression/ Linear. Selecteer links de variablele Bloedingstijd na 6 weken in minuten (bt6) en druk op het pijltje naast het vakje waar Dependent: boven staat, zodat deze variabele in het vakje komt te staan. Selecteer links de variabele vis en druk op het pijltje naast het vakje waar Independent(s): boven staat, zodat deze variabele in het vakje komt te staan. Dan de knop OK aanklikken.
Opgave 4.2 Nu vergelijken we de bovenstaande analyse met die van de verschillen t.o.v. de nulmeting en met een covariantie-analyse. 1. Bereken voor iedere deelnemer het verschil in bloedingstijd tussen aanvang en einde, en doe een t-toets (op de regressie-manier) om te zien of ze in de makreel groep verschillen van die in de controlegroep. =⇒ Kies Transform/ Compute. Vul links boven onder Target Variable de naam “btdiff” in. Vul in het vak rechts boven onder Numeric Expression de formule “bt6 - bt0” in. Dan de knop OK aanklikken. In de data editor zijn nu de waarden van de variabele btdiff te zien. Kies Analyze/ Regression/ Linear. Selecteer links de variabele btdiff en druk op het pijltje naast het vakje waar Dependent: boven staat, zodat deze variabele in het vakje komt te staan. Selecteer links de variabele vis en druk op het pijltje naast het vakje waar Independent(s): boven staat, zodat deze variabele in het vakje komt te staan. Dan de knop OK aanklikken..
2. Doe nu de covariantie-analyse om het verschil in eindbloedingstijd te toetsen met correctie voor aanvangswaarde. Merk op dat de residuele variantie hierbij kleiner is dan bij beide eerdere analyses. 21
24 april 2007: A.K. en M.d.L.
4
MEERVOUDIGE REGRESSIE; AANWIJZINGEN.
=⇒ Kies Analyze/ Regression/ Linear. Selecteer links de variabele Bloedingstijd bij aanvang in minuten (bt6) en druk op het pijltje naast het vakje waar Dependent: boven staat, zodat deze variabele in het vakje komt te staan. Selecteer links de variabele vis en Bloedingstijd bij aanvang in minuten (bt0) en druk op het pijltje naast het vakje waar Independent(s): boven staat, zodat deze variabele in het vakje komt te staan. Dan de knop OK aanklikken. . 3. ∗ In de eerste opgave van dit hoofdstuk toetsten we Bt6, en in item 1 van deze opgave Bt6 − Bt0 met een t-toets. De covariantie-analyse kan ook zo beschouwd worden: we toetsen dan Bt6 − b2 Bt0, waarin b2 de co¨effici¨ent van Bt0 in de covariantie-analyse is. Laat met een t-toets zien dat dit klopt – bijna, de vrijheidsgraden van de t-toets houden er geen rekening mee dat b2 uit de data geschat is. =⇒ Kies Transform/ Compute. Vul linksboven onder Target Variable de naam “btstar” in. Vul in het vak rechtsboven onder Numeric Expression de formule “bt6 - .554 * bt0” in. Dan de knop OK aanklikken. In de data editor zijn nu de waarden van de variabele btstar te zien. Kies Analyze/ Regression/ Linear. Selecteer links de variabele btstar en druk op het pijltje naast het vakje waar Dependent: boven staat, zodat deze variabele in het vakje komt te staan. Selecteer links de variabele vis en druk op het pijltje naast het vakje waar Independent(s): boven staat, zodat deze variabele in het vakje komt te staan. Dan de knop OK aanklikken.
Opgave 4.3 Nu gaan we het volledige model onderzoeken, waarin ook met Centrum rekening gehouden wordt. 1. Analyseer het behandelingseffect m.b.v. model 3.8 uit de syllabus. =⇒ Kies Analyze/ Regression/ Linear. Selecteer links de variabele Bloedingstijd bij aanvang in minuten (bt6) en druk op het pijltje naast het vakje waar Dependent: boven staat, zodat deze variabele in het vakje komt te staan. Selecteer links de variabele vis, bt0, trom en zeis en druk op het pijltje naast het vakje waar Independent(s): boven staat, zodat deze variabele in het vakje 22
4 MEERVOUDIGE REGRESSIE; AANWIJZINGEN.
24 april 2007: A.K. en M.d.L.
komt te staan. Dan de knop OK aanklikken. . 2. Definieer een nieuwe dummy Maas die ´e´en is als de proefpersoon in Maastricht aan het onderzoek meedeed, en nul anders. =⇒ Kies Transform/ Compute. Vul linksboven onder Target Variable de naam “maas” in. Vul in het vak rechtsboven onder Numeric Expression de formule “centrum = 4” in. Dan de knop OK aanklikken. In de data editor zijn nu de waarden van de variabele maas te zien. 3. Wat gebeurt er als u die dummy toevoegt aan de analyse van item 1 en waarom? =⇒ Kies Analyze/ Regression/ Linear. Selecteer links de variabele Bloedingstijd bij aanvang in minuten (bt6) en druk op het pijltje naast het vakje waar Dependent: boven staat, zodat deze variabele in het vakje komt te staan. Selecteer links de variabele vis, bt0, trom, zeis en maas en druk op het pijltje naast het vakje waar Independent(s): boven staat, zodat deze variabele in het vakje komt te staan. Dan de knop OK aanklikken. . 4. Herhaal de analyse van item 1 met Maas en Trom als dummy’s voor Centrum. Verklaar de waarden van de co¨effici¨enten. =⇒ Kies Analyze/ Regression/ Linear. Selecteer links de variabele Bloedingstijd bij aanvang in minuten (bt6) en druk op het pijltje naast het vakje waar Dependent: boven staat, zodat deze variabele in het vakje komt te staan. Selecteer links de variabele vis, bt0, maas en trom en druk op het pijltje naast het vakje waar Independent(s): boven staat, zodat deze variabele in het vakje komt te staan. Dan de knop OK aanklikken. . Opgave 4.4 Nu gaan we de modelvoorwaarden controleren. 1. Analyseer het behandelingseffect m.b.v. model 3.8 uit de syllabus. Controleer hierbij de modelvoorwaarden door middel van een residuenplot en een normal quantiles plot. Hiervoor moet u in uw regressie-opdracht de residuen en de voorspelde waarden laten bewaren in de data-file (in het menu onder de Save knop, de quantielen plot vindt u in het Graphs menu). 23
24 april 2007: A.K. en M.d.L.
4
MEERVOUDIGE REGRESSIE; AANWIJZINGEN.
=⇒ Kies Analyze/ Regression/ Linear. Selecteer links de variabele Bloedingstijd bij aanvang in minuten (bt6) en druk op het pijltje naast het vakje waar Dependent: boven staat, zodat deze variabele in het vakje komt te staan. Selecteer links de variabele vis, bt0, maas en trom en druk op het pijltje naast het vakje waar Independent(s): boven staat, zodat deze variabele in het vakje komt te staan. Klik op de knop Save. Het venster Linear Regression: Save opent. Klik in het blok Predicted Values het keuzevakje unstandardized aan Klik in het blok Residuals het keuzevakje unstandardized aan. Klik op de knop Continue. Dan de knop OK aanklikken. Kies Graphs/ Scatter Selecteer het vakje Simple. Klik dan op de knop Define. Selecteer pre 1 en klik op het pijltje naast het vakje X Axis. Selecteer res 1 en klik op het pijltje naast het vakje Y Axis. Dan de knop OK aanklikken. Kies Graphs/ Q-Q.... Selekteer Unstandardized Residual(res 1)en druk op het pijltje naast het vakje waar Variables: boven staat, zodat deze variabele in het vakje komt te staan. Dan de knop OK aanklikken.
Opmerkingen: Onder de Plots knop in het regressie scherm heeft u de mogelijkheid om gestandaardiseerde residuen tegen gestandaardiseerde voorspelde waarden te plotten. Dat is equivalent aan de bovengevraagde residuenplot. De ‘normal probability plot’ in het Plots menu is echter minder geschikt voor het beoordelen van normaliteit van de residuen. Opgave 4.5 In bovenstaande opgave kunt u concluderen dat de residuen geen constante variantie hebben. We proberen enkele mogelijke transformaties: 1. Maak plotjes als boven van de analyse van de log, de wortel en de inverse van de uitkomstvariabele Bt6. Hierbij is het netjes (maar niet per se noodzakelijk) ook de aanvangswaarde overeenkomstig te transformeren. Opmerking De inverse transformatie keert de volgorde van de data om, dat kan verwarring geven bij het lezen van de uitvoer. U kunt dit voorkomen door de inverse te defini¨eren als 1 − 1/X. 2. Constateer dat de wortel-transformatie niet veel helpt, en de inverse misschien wel t´e veel. 24
4 MEERVOUDIGE REGRESSIE; AANWIJZINGEN.
24 april 2007: A.K. en M.d.L.
=⇒ Uitwerking als boven. Opgave 4.6 Ga verder met het model voor de log-getransformeerde bloedingstijden. Interpretatie. 1. Hoe groot is het geschatte verschil in log(bloedingstijd) op grond van deze analyse? 2. Geef een interpretatie van dit verschil in termen van de ongetransformeerde gegevens. 3. ∗ In het model waarin behalve de eindbloedingstijd ook de aanvangsbloedingstijd log-getransformeerd is, geef een interpretatie van de co¨effici¨ent van ln(Bt0). 4. ∗∗ (vervolg) Herhaal het vorige item, maar gebruik nu niet de natuurlijke logaritme ln(Bt0) maar de log met grondtal 2 om Bt0 te transformeren. Aanwijzing: 2 log(X) = ln(X)/ ln(2). =⇒ Uitwerking als boven.
25
24 april 2007: A.K. en M.d.L. 5
5
VERVOLG MEERVOUDIGE REGRESSIE; AANWIJZINGEN.
Vervolg meervoudige regressie; Aanwijzingen.
=⇒ Start Windows Internet Explorer op. Ga naar www.stat.unimaas.nl. Klik op education. Klik op Statistics for Ph D students. Klik op Statistics part II - regression analysis and SPSS. Klik op SPSS DATA-file in zip format. Een file download venster opent. Klik op de knop Open. Een Winzip venster opent. Klik op het extract icoon. Een extract venster opent. Klik op het + teken voor “C$ op ’Client’ (V:)” Selecteer de directory “temp”. Controleer of het keuze rondje voor all files is geselecteert. Klik op de knop Extract. Sluit het Winzip venster. Sluit Windows Internet Explorer. Alle benodigde data staan nu op V:/temp. Start SPSS 11.5 for Windows via Start/ Programs. Kies File/ Open/ Data. Klik op het pijltje naast SPSS11. Er verschijnt een drop down list waarin je op C$ op ’Client’ (V:) klikt Dan dubbelklikken op de directory temp, en vervolgens kun je het gewenste bestand kiezen. Opgave 5.1 Onderzoek gelijkheid van regressiehellingen. Gebruik hiervoor de data van het tenniselleboog onderzoek data2002.sav. In dat onderzoek zijn ruim 100 pati¨enten met een tenniselleboog in twee groepen behandeld, groepsvariabele: Therapie. De eerste groep kreeg de gebruikelijke therapie, fysiotherapie volgens Cyriax. De tweede groep kreeg corticostero¨ıden-injecties. Na zes weken is o.a. de knijpkracht van de zieke arm gemeten, variabele Kna6 (in kilo’s). Vooraf is ook de knijpkracht van beide handen gemeten, variabelen Kna0 en Knc0 voor de aangedane en de andere (controle) arm. Leeftijd, geslacht, het hebben van nachtpijn en de pijnintensiteit werden als belangrijke covariaten beschouwd. 1. Maak een scatterplot van eindknijpkracht tegen aanvangsknijpkracht. Kijk of er rare waarden inzitten en laat die weg uit alle volgende analyses. =⇒ Kies Graphs/ Scatter.... Selecteer Simple en klik de knop Define aan. Selecteer links de variabele Knijpkracht aanged. arm na zes weken (Kna6) en druk op het pijltje naast het cvakje waar Y-Axis boven staat, zodat deze variabele in het vakje komt te staan. 26
5 VERVOLG MEERVOUDIGE REGRESSIE; AANWIJZINGEN. 24 april 2007: A.K. en M.d.L.
Selecteer links de variabele Knijpkracht aanged. arm bij aanvang (Kna0) en druk op het pijltje naast het vakje waar X-Axis boven staat, zodat deze variabele in het vakje komt te staan. Dan de knop OK aanklikken. Opmerking De getallen 99 die u ziet voor de knijpkrachten zijn in feite de code van een ontbrekende meting, missing. Een aantal pati¨enten had geen eindmeting, daar is 99.00 voor ingevuld. U moet deze waarde aanduiden als ‘missing’: Druk in het datascherm op variable view en dan in het vakje Missing bij variabele Kna6. Er verschijnt een blokje met drie puntjes erop, druk daarop. Het scherm Missing Values verschijnt. Vul bij Discrete Missing Values de waarde 99.0 in. Druk op OK . Ga terug naar Data View. Om te controleren dat de waarde 99.0 inderdaad als ‘missing’ wordt beschouwd kunt u een gemiddelde uitrekenen voor deze variabele (Desriptives). Maak de scatterplot opnieuw.
2. Maak een eenvoudige data-samenvatting, waarin per groep het gemiddelde, standaardafwijking en minimum en maximum van de begin- en eindknijpkracht staan. =⇒ Dit kan op vele manieren, het gemakkelijkst gaat het met Analyze/ Compare means/ Means Het venster :Means verschijnt. Vul de knijpkracht-variabelen in de Dependent List in, en de groepsvariabele Therapie in de Independent List. Onder de knop Options het maximum en minimum aan de lijst van gevraagde
‘Cell Statistics’ toevoegen. Klik op de knop Continue. Dan de knop OK aanklikken. U ziet nu in de kolom voor de aanvangsknijpkracht van de controle-arm Knc0 een maximum van 99.00 staan. Oei, daar zitten dus ook missings in. Zet ook voor deze variabele de waarde 99 op missing, zoals boven voor Kna6 gedaan is.
3. Analyseer het interventie-effect op de eindknijpkracht met correctie voor de aanvangsknijpkracht Kna0. Hoe groot is het interventie-effect in kilo’s? Wat is het betrouwbaarheidsinterval? Let hierbij op de codering van de interventievariabele Therapie. =⇒ Kies Analyze/ Regression/ Linear. Het venstertje Linear Regression verschijnt. 27
24 april 2007: A.K. en M.d.L. 5
VERVOLG MEERVOUDIGE REGRESSIE; AANWIJZINGEN.
Selecteer links de variabele knijpkracht aang. arm na zes weken (Kna6) en druk op het pijltje naast het vakje waar Dependent: boven staat, zodat deze variabele in het vakje komt te staan. Selecteer links de variabelen Therapie en knijpkr in kg aang. arm bij aanvang (Kna0) en druk op het pijltje naast het vakje waar Independent(s): boven staat, zodat deze variabelen in het vakje komen te staan. Voor het betrouwbaarheidsinterval moet u in het regressie-menu onder de knop Statistics nog het vakje Confidence intervals aanvinken. Dan de knop OK aanklikken.
4. Maak nu een plotje van eindknijpkracht tegen aanvangswaarde, met verschillende symbolen voor de groepen (Set markers by). Door dubbelklikken op het plaatje komt u in de SPSS chart editor, waar met Chart/ Options het Scatterplot Options venster aangeroepen kan worden. Hierin kunnen, in de Fit Line box, lijnen per groep worden aangevraagd. =⇒ Kies Graphs/ Scatter Selecteer het vakje Simple. Klik dan op de knop Define. Selecteer Knijpkr. in kg. aang. arm bij aanvang(kna0) en klik op het pijltje naast het vakje X Axis. Selecteer Knijpkr aang. arm na zes weken(kna6) en klik op het pijltje naast het vakje Y Axis. Selecteer therapie en klik op het pijltje naast het vakje Set Markers by:. Dan de knop OK aanklikken. Dubbelklik in de output in het plaatje. Nu opent de SPSS chart editor. Kies /Chart/ Options. Het Scatterplot Options venster opent. In de Fit Line box zet een vinkje voor Subgroups. Kijk, door op de Fit Options knop te klikken, of als Fit Method voor Linear Regression gekozen is. Klik op de knop Continue. Dan de knop OK aanklikken.
5. Onderzoek in het bovenstaande regressiemodel of de regressiehellingen per groep hetzelfde zijn. =⇒ U moet aan het regressiemodel een interactievariabele toevoegen. Deze moet eerst worden aangemaakt: Kies Transform/ Compute Vul in links boven onder Target Variable de naam ”ThexKna0”. 28
5 VERVOLG MEERVOUDIGE REGRESSIE; AANWIJZINGEN. 24 april 2007: A.K. en M.d.L.
Vul in het vak rechts boven onder Numeric Expression de formule ”therapie * kna0” in. Dan de knop OK aanklikken. In de data editor zijn nu de waarden van de variabele ThexKna0 te zien. Kies Analyze/ Regression/ Linear. Het venstertje Linear Regression verschijnt. Selecteer links de variabele kna6 en druk op het pijltje naast het vakje waar Dependent: boven staat, zodat deze variabele in het vakje komt te staan. Selecteer links de variabelen Therapie, kna0 en ThexKna0 en druk op het pijltje naast het vakje waar Independent(s): boven staat, zodat deze variabelen in het vakje komen te staan. Dan de knop OK aanklikken.
6. Bereken ook voor elke groep apart de regressielijn. Kloppen die lijnen met die uit het vorige item? =⇒ Door middel van “split file” kunnen we de regressielijn per groep berekenen: Kies Data/ Split File. Het :Split File venster verschijnt. Kies Organise output by groups en vul Therapie in het vakje Groups based on in. Kies ook Sort file by grouping variables. Druk op OK . Kies nu Analyze/ Regression/ Linear, en vul de knijpkracht na zes weken bij Dependent in en de aanvangsknijpkracht Kna0 bij Independent. Dan de knop OK aanklikken. Controleer dat dit dezelfde hellingen en intercepten geeft als de analyse van item 4. Let hierbij op de codering van Therapie.
7. Uitgaande van een regressiemodel waarin de helling van beide lijnen verschillend is, bereken een betrouwbaarheidsinterval voor het therapie-effect bij aanvangswaarde Kna0 = 20 (kilo). =⇒ Hier moeten we een betrouwbaarheidsinterval uitrekenen voor de co¨effici¨ent van Therapie plus 20 maal de co¨effici¨ent van ThexKna0. Dat is nogal een gedoe, zie formule 5.25 in de syllabus. Gelukkig is er een slimmere manier: De truuk is erop gebaseerd dat de co¨effici¨ent van Therapie ge¨ınterpreteerd wordt als het therapie-effect bij een aanvangsknijpkracht nul. We gaan het nulpunt van de aanvangsknijpkracht verschuiven naar 20: Kies Transform/ Compute. Vul linksboven onder Target Variable de naam “kna0m20” in. Vul in het vak 29
24 april 2007: A.K. en M.d.L. 5
VERVOLG MEERVOUDIGE REGRESSIE; AANWIJZINGEN.
rechtsboven onder Numeric Expression de formule “kna0 - 20” in. Dan de knop OK aanklikken. Kies Transform/ Compute. Vul linksboven onder Target Variable de naam “tkna0m20” in. Vul in het vak rechtsboven onder Numeric Expression de formule “therapie * kna0m20” in. Dan de knop OK aanklikken. In de data editor zijn nu de waarden van de variabele kna0m20 en tkna0m20 te zien. Kies Analyze/ Regression/ Linear. Selecteer links de variabele kna6 en druk op het pijltje naast het vakje waar Dependent: boven staat, zodat deze variabele in het vakje komt te staan. Selecteer links de variabelen Therapie, kna0m20 en tkna0m20 en druk op het pijltje naast het vakje waar Independent(s): boven staat, zodat deze variabelen in het vakje komen te staan. Klik de knop statistics en zet in het blok Regression Coefficients een vinkje voor Confidence intervals. Dan de knop OK aanklikken. Controleer of de co¨effici¨ent van Therapie de juiste waarde heeft die u uit het model van item 5 afleidt.
30
6 LOGISTISCHE REGRESSIE; AANWIJZINGEN.
6
24 april 2007: A.K. en M.d.L.
Logistische regressie; Aanwijzingen.
=⇒ Start Windows Internet Explorer op. Ga naar www.stat.unimaas.nl. Klik op education. Klik op Statistics for Ph D students. Klik op Statistics part II - regression analysis and SPSS. Klik op SPSS DATA-file in zip format. Een file download venster opent. Klik op de knop Open. Een Winzip venster opent. Klik op het extract icoon. Een extract venster opent. Klik op het + teken voor “C$ op ’Client’ (V:)” Selecteer de directory “temp”. Controleer of het keuze rondje voor all files is geselecteert. Klik op de knop Extract. Sluit het Winzip venster. Sluit Windows Internet Explorer. Alle benodigde data staan nu op V:/temp. Start SPSS 11.5 for Windows via Start/ Programs. Kies File/ Open/ Data. Klik op het pijltje naast SPSS11. Er verschijnt een drop down list waarin je op C$ op ’Client’ (V:) klikt Dan dubbelklikken op de directory temp, en vervolgens kun je het gewenste bestand kiezen. Logistische regressie vindt u in het spss menu onder Analyze/ Regression /Binary Logistic
Opgave 6.1 Gebruik de data van de Metoprolol trial, ‘Meto.sav’. Let erop, dat de kolom Aantal in het databestand aangeeft hoeveel pati¨enten de regel betreft. In het spss menu vindt u dit onder Data/ Weight cases/ Frequency variable. In spss syntax geeft u dit op met de opdracht WEIGHT BY AANTAL. =⇒ In het data-scherm, kies Data /Weight Cases. Het Weight Cases scherm verschijnt. Kies dan Weight cases by en selecteer de variabele Aantal, druk op het pijltje zodat Aantal in het Frequency variable vakje verschijnt. Dan de knop OK aanklikken.
1. Controleer de data door een kruistabel te maken van Dead tegen Treat. Als u hier in elk vakje een 3 vindt heeft u de bovenstaande aanwijzing niet gevolgd. 31
24 april 2007: A.K. en M.d.L.
6
LOGISTISCHE REGRESSIE; AANWIJZINGEN.
=⇒ Kies Analyze/ Descriptive Statistics/ Crosstabs Kies Overlijden binnen 90 dagen (dead) als Row(s) variabele en Behandeling (treat) als Column(s) variabele. Zet eventueel de leeftijdsvariabele in het vakje voor Layer. Dan de knop OK aanklikken.
2. Bereken de co¨effici¨enten van het logistisch model log(Odds) = β0 + β1 ∗ Treat. Controleer de uitkomsten aan de hand van de syllabus. =⇒ Kies Analyze/ Regression/ Binary Logistic. Het Logistic Regression scherm verschijnt. Kies Overlijden binnen 90 dagen (dead) als Dependent, en Behandeling (treat) als Covariate(s). Dan de knop OK aanklikken.
3. Kunt u ook het betrouwbaarheidsinterval voor de odds ratio berekenen? =⇒ In het Logistic Regression scherm kiest u Options en vervolgens vinkt u CI for Exp(B) aan. Druk op de knop Continue om terug te gaan naar het Logistic Regression scherm. Dan de knop OK aanklikken. Opgave 6.2 We gaan door met dezelfde data: ‘Meto.sav’. 1. Reproduceer de analyse van het model waarin de log odds op overlijden afhangt van de behandelingsgroep en van de leeftijdsgroep als in tabel 5.4 in de syllabus. Hiertoe moet u dummy-variabelen L65 en L70 maken voor de twee hoogste leeftijdscategorie¨en. =⇒ Kies in het datascherm Transform/ Compute. Het Compute Variable scherm verschijnt. Type L65 in het Target Variable vakje en age = 2 in het Numeric expression vak. Druk op OK. De variabele L65 verschijnt in het datascherm. Doe nog eens Transform/ Compute. Type L70 in het Target Variable vakje en age = 3 in het Numeric expression vak. Druk op OK. 32
6 LOGISTISCHE REGRESSIE; AANWIJZINGEN.
24 april 2007: A.K. en M.d.L.
De variabele L70 verschijnt in het datascherm. Kies voor de analyse in het Logistic Regression scherm zoals in de vorige opgave de variabele Dead als Dependent en de variabelen Treat, L65 en L70 als Covariates. Dan de knop OK aanklikken. =⇒ Opmerking Bij logistische regressie kan spss ook zelf de dummy’s maken. U moet dan age als Covariate opgeven en op de knop Categorical drukken. Het vernster Logistic Regression: Define categorical variables verschijnt. Klik links op Leeftijdscategorie en op het pijltje. De tekst age(Indicator) verschijnt in het vakje rechts. Onderaan in het schermpje vindt u reference category. Als daar last aangeklikt staat moet u dat veranderen in first en op de Change knop drukken om dit te bevestigen. Druk op Continue. In het Covariates vakje staat nu age(Cat). Dan de knop OK aanklikken. 2. Definieer ook een dummy-variabele L40, die ´e´en is in de laagste leeftijdsklasse, en anders nul. Bereken een logistisch model met behandeling, L40 en L65 als voorspellers. Vergelijk de uitkomsten met die van het model van item 1 van deze opgave. =⇒ Bereken de nieuwe dummy als boven. Doe de logistische regressie met Treat, L40 en L65. 3. Kunt u nu voorspellen welke co¨effici¨enten er uit een model komen met L40 en L70 in plaats van L40 en L65 ? =⇒ Bestudeer eerst de uitkomsten van de vorige opgave, en vergelijk ze met de uitkomsten van item 1. Bereken de nieuwe dummy als boven. Doe de logistische regressie met Treat, L40 en L70. 4. Wat gebeurt er als u zowel L40 als L65 als L70 in het model stopt? – Niet alle statistiekprogramma’s doen dit goed! =⇒ Zonder dat u er veel uitleg over krijgt wordt L40 weggelaten uit het model. De drie dummy’s kunnen niet samen in het model omdat de co¨effici¨ent van (b.v.) L40 het effect van “al dan niet in de eerste leeftijdscategorie zitten” zou moeten aangeven binnen de categorie¨en van de andere leeftijdsdummy’s. Binnen mogelijke waarden van L65 en L70 vari¨eert L40 niet; er kan dus geen effect geschat worden.
33
24 april 2007: A.K. en M.d.L.
6
LOGISTISCHE REGRESSIE; AANWIJZINGEN.
Opgave 6.3 Ga verder met dezelfde data, ‘meto.sav’. 1. Toets in het model met leeftijd en behandeling de significantie van Treat, met de likelihood ratio toets. =⇒ De LR toets krijgt u door twee modellen te fitten, een z´onder de desbetreffende variabele(n) en een m´et. Kies weer Binary Logistic en vervolgens Dead als dependent en L65 en L70 als Covariates. Druk dan op de knop Next naast de tekst Block 1 of 1. De tekst luidt dan Block 2 of 2 en u kunt daaronder de variabele Treat zetten. Dan de knop OK aanklikken. Het gevolg hiervan is dat u twee analyses krijgt, een alleen met de leeftijdsdummy’s en een waarin Treat is toegevoegd. Bovendien krijgt u de LR toets voor de toegevoegde variabele. Deze toets vindt u in de tabel Omnibus Test of Model Coefficients achter Step of Block Controleer dat de LR chi-kwadraat overeen komt met het verschil in −2 LogLikelihood van de twee modellen.
2. Bereken de co¨effici¨enten van het model met interactie van leeftijd en behandeling. =⇒ Bereken eerst de interactiedummy’s met behulp van Transform/ Compute. De variabele TrxL65 als Treat * L65 en TrxL70 als Treat * L70. Controleer in het datascherm dat de berekening goed gedaan is. Kies dan logistische regressie en kies Behandeling(treat), l65, l70, trxl65 en trxl70 als Covariates. Dan de knop OK aanklikken.
3. Toets d.m.v. de likelihood ratio toets de significantie van de interactie van behandeling en leeftijd. =⇒ Zoals in item 1 vergelijkt u het model met interactie met het model zonder interactie. Controleer dat de LR chi-kwadraat overeen komt met het verschil in −2 LogLikelihood van de twee modellen.
34
6 LOGISTISCHE REGRESSIE; AANWIJZINGEN.
24 april 2007: A.K. en M.d.L.
4. Maak een nieuwe variabele “levend” die 1 is als de pati¨ent na 90 dagen nog leeft en anders 0. Herhaal de analyse van opgave 1 met levend als uitkomstvariabele en verklaar de verschillen die u opmerkt t.a.v. de analyse van opgave 1 =⇒ U ziet dat de co¨effici¨enten alle van teken veranderd zijn. de s.e.’s en toetsen zijn hetzelfde gebleven. Dit komt omdat u nu i.p.v. de log(odds) op overlijden nu de log(odds) op in leven zijn analyseert, en de odds op overlijden is de inverse van de odds op leven, dus de log(odds) is het tegenovergestelde.
35
24 april 2007: A.K. en M.d.L.
7
7
VERVOLG LOGISTISCHE REGRESSIE; AANWIJZINGEN.
Vervolg logistische regressie; Aanwijzingen.
=⇒ Start Windows Internet Explorer op. Ga naar www.stat.unimaas.nl. Klik op education. Klik op Statistics for Ph D students. Klik op Statistics part II - regression analysis and SPSS. Klik op SPSS DATA-file in zip format. Een file download venster opent. Klik op de knop Open. Een Winzip venster opent. Klik op het extract icoon. Een extract venster opent. Klik op het + teken voor “C$ op ’Client’ (V:)” Selecteer de directory “temp”. Controleer of het keuze rondje voor all files is geselecteert. Klik op de knop Extract. Sluit het Winzip venster. Sluit Windows Internet Explorer. Alle benodigde data staan nu op V:/temp. Start SPSS 11.5 for Windows via Start/ Programs. Kies File/ Open/ Data. Klik op het pijltje naast SPSS11. Er verschijnt een drop down list waarin je op C$ op ’Client’ (V:) klikt Dan dubbelklikken op de directory temp, en vervolgens kun je het gewenste bestand kiezen. Opgave 7.1 Gebruik de data van het CTS onderzoek: ‘Cts.sav’. In deze opgave analyseren we de relatie van CTS met de polsbelasting. Polsbelasting is gerepresenteerd door 5 variabelen: Polsachter t/m Typen. Dit zijn de uren polsbelasting gemiddeld over de laatste 5 jaar. Vergeet niet dat de in dit onderzoek gebruikte stratificatie in elk model opgenomen moet worden. 1. Controleer de data door een kruistabel te maken van leeftijdscategorie Glft tegen Cts per geslacht (zet Sexe in het Layer vakje). =⇒ Kies Analyze/ Descriptive Statistics/ Crosstabs. Selecteer 1=ja, 0=nee(cts) en druk op het pijltje naast het vakje waar Row(s) boven staat, zodat deze variabele in het vakje komt te staan. Selecteer leeftijdsgroep(glft) en druk op het pijltje naast het vakje waar Column(s) boven staat, zodat deze variabele in het vakje komt te staan. Selecteer 1=man, 2=vrouw(sexe) en druk op het pijltje naast het vakje waar Layer 1 of 1 boven staat, zodat deze variabele in het vakje komt te staan. Dan de knop OK aanklikken.
36
7 VERVOLG LOGISTISCHE REGRESSIE; AANWIJZINGEN.
24 april 2007: A.K. en M.d.L.
2. De eerste beslissing die genomen moet worden is of elke polsbelastingsvariabele als continue in het model wordt opgenomen, of gecategoriseerd, en in dat geval, welke categorie¨en gekozen dienen te worden. Maak om het categoriseren te vergemakkelijken frequentietabellen van de uren polsbelasting. De eerste categorie is altijd ‘geen belasting’; nul uren. Als u op grond van de frequentietabellen redelijke grenzen heeft gekozen, moeten hiermee nieuwe variabelen gemaakt worden, die de in categorie¨en ingedeelde polsbelasting representeren. =⇒ Kies Analyze/ Descriptive Statistics/ Frequencies. Selecteer uren/week werk met pols in extensie(polsacht), uren/week werk met pols in flexie(polsvoor), uren/week werk zowel extensie als flexie(polsbeid), uren/week werk met pincetgreep (duim in oppositie)(duim) en uren/week typewerk(typen) en druk op het pijltje naast het vakje waar Variable(s) boven staat, zodat deze variabelen in het vakje komen te staan. Dan de knop OK aanklikken. Kies Transform/ Recode/ Into different variables. Het venster Recode into Different Variables verschijnt. Selecteer de variabele uren/week werk met pols in extensie(polsacht) en druk op het pijltje naast het vakje waar Numeric Variable −− > Output Variable: boven staat, zodat in het vak polsacht --> ? komt te staan. Rechts daarvan staat het blok Output variable, daar schrijft u de nieuwe naam, b.v. ‘pacat’, en drukt op Change. In het Numeric Variable −− > Output Variable: vakje staat nu polsacht --> pacat. Vervolgens kiest u Old and New values .... Het scherm Recode into Different Variables: Old and New Values verschijnt. Kies nu links de oude waarde (dit kan ook een range van waarden zijn, die eventueel bij de laagste begint of bij de hoogste eindigt), en rechts de nieuwe waarde. Druk voor elke combinatie van oud en nieuw op Add. Voor overlappende ranges geldt dat de regel die hoger staat in het Old - -> New vakje prioriteit heeft. Druk op Continue. In hetzelfde Recode into different variable scherm kunt u ook de recodes van de andere polsbelastingen kwijt. Het is netjes voor alle soorten belasting dezelfde categorie¨en te kiezen. Dan de knop OK aanklikken. 3. Controleer van uw categorie¨en of ze niet te klein zijn, laat zonodig een afkappunt weg. Deze controle dient te gebeuren zonder naar de uitkomstvariabele CTS te kijken. =⇒ Tja, wat is ‘te klein’ ? In dit onderzoek is pakweg een kwart van de subjecten ‘case’ (dus als cts= 1). In een categorie van 20 subjecten zitten dan naar verwachting 5 cases, dat is al vrij weinig. Minder dan 20 is dus eigenlijk wel te klein. 37
24 april 2007: A.K. en M.d.L.
7
VERVOLG LOGISTISCHE REGRESSIE; AANWIJZINGEN.
4. Ga nu uit van een model met categorie¨en-indeling van de verschillende soorten polsbelasting. Toets met de LR toets of alle polsbelastingen samen van invloed zijn op de odds ratio voor CTS. =⇒ Kies Analyze/ Regression/ Binary Logistic. Selecteer 1=ja, 0=nee(cts) en druk op het pijltje naast het vakje waar Dependent boven staat, zodat deze variabele in het vakje komt te staan. Selecteer 1-5: mannen, 6-10: vrouwen(stratum) en druk op het pijltje naast het vakje waar Covariates: boven staat, zodat deze variabele in het vakje komt te staan. Om aan te geven dat Stratum een categorie¨en variabele is, druk op de knop Categorical... . Het venstertje Logistic Regression: Define Categorical Variables verschijnt. Selecteer 1-5: mannen, 6-10: vrouwen(stratum) en druk op het pijltje naast het vakje waar Categorical Covariates: boven staat, zodat deze variabele in het vakje komt te staan. Controleer of in het blok Change Contrast voor de Reference Category het keuzerondje First is gekozen. Denk er om dat als je daar een verandering maakt je daarna de knop Change aanklikt want anders blijven de oorspronkelijke instellingen geldig. Druk op de knop Continue. Omdat we een LR toets willen doen op alle polsvariabelen samen, moeten we twee modellen vragen, ´e´en met alleen de stratum-dummy’s en een waarbij de polsvariabelen zijn toegevoegd: Ongeveer midden op het Logistic Regression venster staat Block 1 of 1. Druk op de knop Next om het volgende blok van variabelen te defini¨eren. Selecteer de vijf in categotie¨en gehercodeerde polsvariabelen en druk op het pijltje naast het vakje waar Covariates: boven staat, zodat deze variabelen in het vakje komen te staan. Om aan te geven dat deze variabelen categoriesche variabelen zijn, druk op de knop Categorical... . Het venstertje Logistic Regression: Define Categorical Variables verschijnt weer. Selecteer links de polsvariabelen en druk op het pijltje naast het vakje waar Categorical Covariates: boven staat, zodat deze variabelen in het vakje komen te staan. Controleer of in het blok Change Contrast voor de Reference Category het keuzerondje First is gekozen. Hier is nu een “eigenaardigheid” te zien. Het keuzevakje geeft First aan maar toch moet je nog de knop Change aanklikken. Je ziet na het aanklikken van Change achter de variabele namen na het woord indicator het woord (first) verschijnen. Let hier goed op want aan de uitvoer die spss geeft is het verschil niet te zien. Ga terug naar het Logistic Regression scherm met Continue. Dan de knop OK aanklikken. 38
7 VERVOLG LOGISTISCHE REGRESSIE; AANWIJZINGEN.
24 april 2007: A.K. en M.d.L.
5. Bepaal welke factoren vooral van invloed zijn door niet-significante factoren een voor een weg te laten. =⇒ Bepaal in de voorgaande analyse d.m.v. de Wald toets welke van de nietsignificante variabelen de grootste p-waarde heeft, en laat die uit het model weg. Controleer bij iedere variabele die u weglaat dat de likelihood ratio toets ook niet-significant is, door de loglikelihoods van elkaar af te trekken.
39
24 april 2007: A.K. en M.d.L.
7
VERVOLG LOGISTISCHE REGRESSIE; AANWIJZINGEN.
Geschat risico met 95% betrouwbaarheidsinterval 10.0
OR (log schaal)
8.0 6.0 4.0 3.0 2.0 1.5 1.0 0
1−8
9−20
>20
Polsbelasting in flexie, uren/week
6. Bereken voor elk van de overblijvende factoren de odds ratios en betrouwbaarheidsintervallen t.o.v. de nul-categorie. Bovenstaand plaatje is afkomstig uit een statistisch programma met wat meer grafische mogelijkheden. Probeer een dergelijk plaatje te maken in spss. Gebruik Graphs/ High-Low. =⇒ Druk in het venster Logistic Regression op de knop Options. Zet dan in het Statistics and Plots blok een vinkje voor CI for exp(B):. Klik op Continue. Dan de knop OK aanklikken. Om een plaatje te maken als boven moet u uw databestand even saven (File/ Save as) op de F: schijf bv als mycts.sav . Kies File/ New/ Data, u krijgt nu weer een lege spreadsheet waarin u data kunt intypen. U gaat per categorie een rij maken. In de eerste colom maakt u een variabele “catnr” en zet in iedere rij een nummer van nul tot en met het aantal categorie¨en-1. In de tweede colom maakt u een variabele “oratio” en zet in iedere rij de geschatte odds ratio van de betreffende categorie. In de derde colom maakt u een variabele “cilow” en zet in iedere rij de ondergrens van het geschatte betrouwbaarheidsinterval van de betreffende categorie. In de vierde colom maakt u een variabele “cihigh” en zet in iedere rij de bovengrens van het geschatte betrouwbaarheidsinterval van de betreffende categorie. Kies Graphs/ High-Low en dan Simple high-low-close, en zorg ervoor dat Summaries of separate variables aan staat. Klik Define. In High en Low zet u resp cilow en cihigh. In Close zet u oratio. 40
7 VERVOLG LOGISTISCHE REGRESSIE; AANWIJZINGEN.
24 april 2007: A.K. en M.d.L.
In het vakje Category axis komt de variabele catnr. Dan de knop OK aanklikken. Helaas kunnen we niet een suggestief verbindingslijntje tussen de geschatte log OR waarden aanbrengen. Ook het gebruik van de OR zelf op een logaritmische schaal is mij niet gelukt. Dit plaatje ziet er niet erg fraai uit. U kunt nog proberen dit wat te verbeteren door in plaats van de odds ratio (exp(B)) de log(odds ratio) te nemen en van de geschatte betrouwbaarheids intervallen met behulp van Transform/ Compute ook de log te berekenen. 7. Als het verband er enigszins lineair uitziet zou u kunnen overwegen het model eenvoudiger te maken. Onderzoek of een lineair model goed genoeg is door een model te maken met zowel de lineaire als de gecategoriseerde risikovariabele erin. Toets nu of de categorie¨en var echt nodig is, met de likelihood ratio toets. =⇒ Gebruik logistische regressie met Cts als ‘dependent’ variabele en twee blokken ‘covariates’. In het eerste blok de variabelen Stratum en de polsbelasting in uren. In het tweede blok de gecategoriseerde polsbelasting. U krijgt een LR toets voor de categorie¨en variabele, waarmee getoetst wordt of de relatie van log OR en de polsbelasting afwijkt van lineair. 8. Bereken voor het model waarin de log odds lineair van Polsvoor afhangt, betrouwbaarheidsintervallen voor de log odds bij een polsbelasting van 8, 20 en 40 uur. =⇒ U kunt dit met de hand doen, want het betrouwbaarheidsinterval voor 8 maal de co¨effici¨ent van Polsvoor is van 8 maal de ondergrens van het betrouwbaarheidsinterval van de co¨effici¨ent tot 8 maal de bovengrens. Als u liever de computer laat werken kunt u de polsbelasting uitdrukken in eenheden van 8 uur (dus in werkdagen i.p.v. in uren), in halve weken of in hele weken. Opmerking. Dit zijn exploratieve analyses, waarin het model gestuurd wordt door de data. Als u een variabele weglaat uit het model neemt u daarmee aan dat die variabele niet van invloed is op de uitkomst, en dat die variabele niet als confounder in het model nodig is. Als u een verband wilt aantonen, dus voor een toetsende analyse, moet u de vorm van het verband vooraf bepalen. In feite gebeurt dat hier alleen in item 4.
41
24 april 2007: A.K. en M.d.L.
8
8
MODELBOUW; AANWIJZINGEN.
Modelbouw; Aanwijzingen.
=⇒ Start Windows Internet Explorer op. Ga naar www.stat.unimaas.nl. Klik op education. Klik op Statistics for Ph D students. Klik op Statistics part II - regression analysis and SPSS. Klik op SPSS DATA-file in zip format. Een file download venster opent. Klik op de knop Open. Een Winzip venster opent. Klik op het extract icoon. Een extract venster opent. Klik op het + teken voor “C$ op ’Client’ (V:)” Selecteer de directory “temp”. Controleer of het keuze rondje voor all files is geselecteert. Klik op de knop Extract. Sluit het Winzip venster. Sluit Windows Internet Explorer. Alle benodigde data staan nu op V:/temp. Start SPSS 11.5 for Windows via Start/ Programs. Kies File/ Open/ Data. Klik op het pijltje naast SPSS11. Er verschijnt een drop down list waarin je op C$ op ’Client’ (V:) klikt Dan dubbelklikken op de directory temp, en vervolgens kun je het gewenste bestand kiezen. Opgave 8.1 In deze opgave wordt het bestand van geboortegewichten Hoslem.sav gebruikt. De data-beschrijving staat in het spss-bestand en in de syllabus, sectie 4.5. We analyseren de uitkomstvariabele Gewkd, gedefinieerd als 1 voor te lichte kinderen (lichter dan 2500 gram) en 0 voor kinderen met een goed geboortegewicht. Het is de bedoeling een model te maken voor het voorspellen van een te laag geboortegewicht. 1. Definieer dummy-variabelen als in sectie 4.5 van de syllabus.
=⇒ De potenti¨ele voorspellers zijn: lft, gewm (leeftijd en gewicht moeder), ras, (moeder is ‘blank’, ‘zwart’ of ‘anders’), roken, prem (aantal eerdere premature bevallingen), hypten (hoge bloeddruk), prikb (prikkelbaarheid van de baarmoeder) en visites (aantal artsbezoeken in eerste trimester). De te defini¨eren dummy’s zijn: 42
8 MODELBOUW; AANWIJZINGEN.
24 april 2007: A.K. en M.d.L.
Dummy is gelijk 1 als Lft19 lft ≤ 19 Lft36 lft ≥ 36 Zwart ras = 2 Anders ras = 3 Prem1 prem > 0 Visit0 visites = 0 Visit3 visites ≥ 3 De opdrachten zijn COMPUTE lft19 = (lft le 19)., etc.
2. Maak tabellen van alle predictorvariabelen of -dummy’s tegen de uitkomst Gewkd. Geef voor continue variabelen het gemiddelde en de standaardafwijking. =⇒ Kies Analyse/ Descriptive Statistics/ Crosstabs. Zet de dummy variabelen in het rows vakje en de uitkomstvariabele Gewkd in het Columns vakje. Dan de knop OK aanklikken. Kies Analyze/ Compare Means/ Means en zet de continue variabelen Lft en Gewm in het bovenste vakje, de groepsindeling Gewkd in het onderste vakje. Dan de knop OK aanklikken.
3. Voldoen de (dummy-) variabelen aan de gestelde eisen (groepen niet te klein)? =⇒ De categorie Lft36 = 1 is veel te klein; er zitten maar 3 vrouwen in. U kunt de leeftijdsgrens beter wat laten zakken, naar 31 jaar bv.
4. Maak een logistisch regressiemodel waarin de kans op een te licht kind afhangt van alle hierboven beschouwde predictoren. Ga na of u rekening houdend met sectie 5.7 van de syllabus een goed model heeft geschat. Maak desnoods redelijke veranderingen. =⇒ Kies Analyze/ Regression/ Binary Logistic, definieer Gewkd als de uitkomstvariabele, en de hierboven gemaakte dummy’s en andere variabelen als ‘covariates’. Dan de knop OK aanklikken. Controleer of er geen verdachte signalen zijn (grote co¨effici¨enten, grote correlatieco¨effici¨enten).
5. Maak een ROC curve op grond van het geschatte predictiemodel en bereken hiervan de AUC. 43
24 april 2007: A.K. en M.d.L.
8
MODELBOUW; AANWIJZINGEN.
=⇒ Voor de ROC curve heeft u de predicted probabilities van het model nodig. U kunt hierom vragen door in het Logistic Regression menu op Save te drukken en dan de Predicted values/ Probabilities aan te zetten. Let op hoe de bijgemaakte variabele gaat heten – u kunt dit zien in het data-scherm, of door links in de ‘inhoudsopgave’ van het het output scherm (SPSS Viewer) op ‘Notes’ onder ‘Logistic Regression’ te klikken, en dan op View/ Show. Kies Graphs ROC curve, zet Predicted Probability (pre 1) in het Test Variable vak, en Gewkd in het State Variable vak. Zet een 1 in het Value of state variable vakje. Dan de knop OK aanklikken. =⇒ Van de waarschuwing omtrent ‘ties’ in de predicted probability kunt u de ernst nagaan door de AUC op een andere manier te berekenen: gebruik de Mann-Whitney toets om de predicted probabilities van groepen (Gewkd =1) en (Gewkd =0) te vergelijken: Kies Analyze/ Nonparametric Tests/ 2 independent samples, en vervolgens de Mann-Whitney test. In de uitvoer vindt u de ‘Mann-Whitney U’ test statistic. De AUC kan worden berekend als AUC = 1 − U/(n0 ∗ n1 ), waarbij n0 en n1 de aantallen in de vergeleken groepen zijn.
6. Reduceer nu het model tot u alleen significante voorspellers overhoudt. Controleer met de likelihood ratiotest dat het gereduceerde model niet significant slechter is dan het eerste ‘volledige’ model. =⇒ Stapsgewijs kunnen visit0, Lft19, visit3, Lft31 en Prikb worden weggelaten. In het laatste model heeft u nu een -2 LogLikelihood waarde van 200.482, dat is bijna 7 punten groter dan de initi¨ele waarde 193.773 voor het volledige model. U zou moeten nagaan dat dit verschil voor het bijbehorende aantal vrijheidsgraden (5 variabelen minder in het model) niet significant is.
7. Maak een ROC curve van het gereduceerde model en bereken de AUC. Is de voorspelling veel slechter geworden? =⇒ Als boven.
8. ∗∗ Voor gemakkelijke bruikbaarheid zou u nog kunnen overwegen de geschatte co¨effici¨enten van uw laatste model flink af te ronden, zodat de score uit het hoofd te berekenen is. Zijn uw geschatte co¨effici¨enten b.v. (−0.897, 0.827, −0.173, 1.037, 1.875, 0.924, 1.306, 0.883), dan zou de afronding kunnen zijn (−1, 1, −0.2, 1, 2, 1, 1, 1). Bereken een afgeronde score S. Uw model wordt dan log(Odds) = S. Dit moet vervolgens nog wat gecorrigeerd worden door het 44
8 MODELBOUW; AANWIJZINGEN.
24 april 2007: A.K. en M.d.L.
model log(Odds) = β0 + β1 ∗ S te schatten. Maak vervolgens weer een ROC curve om te zien of u niet teveel heeft ingeleverd. Met dit model maakt u dan een tabelletje of een grafiek van de kansen (predicted probabilities) die bij verschillende waarden van S horen. =⇒ De geschatte co¨effici¨enten van het laatste model zijn respectievelijk -.017, 1.264, .864, .876, 1.231, 1.767 voor de variabelen gewm, zwart, anders, roken, prem1 en hypten. Delen we alle co¨effici¨enten door de kleinste (0.017) dan krijgen we het rijtje (-1.00, 74.35, 50.82, 51.53, 72.41, 103.94), hetgeen verdraaid veel lijkt op (-1, 75, 50, 50, 75, 100). De ‘risicoscore’ zou nu dus zijn: 75 punten voor zwart ras of 50 punten voor ‘anders’ (niet blank, niet zwart) plus 50 punten voor roken, 75 punten voor minstens een eerdere premature bevalling en 100 punten voor hypertensie. Daarvan afgetrokken moet worden een punt per pond lichaamsgewicht. Om te zien hoe deze score het doet kunnen we een ROC curve maken: Compute score= -gewm+75*zwart*50*anders+50*roken+75*prem1+100*hypten.
en dan een ROC curve maken met Score als predictor. U ziet dat de ROC curve niet slechter is dan de vorige. Het is nu nog nuttig een plaatje te maken van de met Score voorspelde kansen (uit een logistisch model met Score als predictor) tegen Score zodat de kans op een te licht kind kan worden afgelezen bij de waarde van de score. Opmerking In feite is hierboven maar een klein beetje afgerond. Meestal kan dat nog wel wat forser zonder veel van de voorspellingskracht te verliezen. De bovenstaande score kan overigens nog wat vereenvoudigd worden tot 3, 2, 2, 3 en 4 punten voor resp. zwart, anders, roken, prem1 en hypten minus 1 punt voor elke 25 pond lichaamsgewicht.
45
24 april 2007: A.K. en M.d.L.
9
9
VARIANTIE-ANALYSE; AANWIJZINGEN.
Variantie-analyse; Aanwijzingen.
=⇒ Start Windows Internet Explorer op. Ga naar www.stat.unimaas.nl. Klik op education. Klik op Statistics for Ph D students. Klik op Statistics part II - regression analysis and SPSS. Klik op SPSS DATA-file in zip format. Een file download venster opent. Klik op de knop Open. Een Winzip venster opent. Klik op het extract icoon. Een extract venster opent. Klik op het + teken voor “C$ op ’Client’ (V:)” Selecteer de directory “temp”. Controleer of het keuze rondje voor all files is geselecteert. Klik op de knop Extract. Sluit het Winzip venster. Sluit Windows Internet Explorer. Alle benodigde data staan nu op V:/temp. Start SPSS 11.5 for Windows via Start/ Programs. Kies File/ Open/ Data. Klik op het pijltje naast SPSS11. Er verschijnt een drop down list waarin je op C$ op ’Client’ (V:) klikt Dan dubbelklikken op de directory temp, en vervolgens kun je het gewenste bestand kiezen. Opgave 9.1 Gebruik de ‘porim.sav’ data van de obstructietijden. 1. Controleer de data door een tabel te maken van gemiddelden en standaardafwijkingen per groep. =⇒ Kies Analyze/ Compare Means/ Means en geef ot als ‘dependent’ en vet als ‘independent’. Dan de knop OK aanklikken.
2. Reproduceer de regressie-analyse als op pagina 118 van de syllabus. Hiervoor moet u eerst dummy-variabelen aanmaken! =⇒ Er is geen snelle manier om dummy variabelen te maken voor een regressieanalyse, het zal met compute-opdrachten moeten. Transform/ Compute is een mogelijkheid, maar in het syntax scherm gaat het echt sneller. de opdrachten zijn: 46
9 VARIANTIE-ANALYSE; AANWIJZINGEN.
compute compute ... compute EXECUTE
24 april 2007: A.K. en M.d.L.
vet1=(vet=1). vet2=(vet=2). vet9=(vet=9). .
en dan mag u nog zelf kiezen welke dummy uit de analyse wordt weggelaten.
3. Reproduceer de variantie-analyse tabel –d.m.v. GLM/Univariate. =⇒ Kies Analyze/ General Linear Model/ Univariate en dan de obstructietijd in het dependent vakje, en vet in het fixed factors vakje. Dan de knop OK aanklikken.
4. Een plotje precies zoals figuur 6.2 maakt spss niet. U kunt wel een plaatje maken dat er veel op lijkt. U moet een data-bestandje maken met gemiddelden en standaardafwijkingen per groep. Knippen en plakken uit de tabel van item 1 is misschien het gemakkelijkst. Dan nog log-transformeren en plotten en het regressielijntje berekenen. =⇒ U moet een nieuw databestandje maken, bewaar eventueel eerst uw oude data. Kies File/ New/ Data en u krijgt een leeg data-scherm. Klik dan op de Variable View tab en vul onder Name geschikte namen in voor de gemiddelden en standaardafwijkingen. Ga terug naar Data View. Dubbelklik in uw outputscherm op het tabelletje met gemiddelden en standaardafwijkingen uit item 1. Selecteer het kolommetje met de gemiddelden van de vetten 1 t/m 9 en plak dat in het datascherm onder de eerste variabele. Doe hetzelfde met de standaardafwijkingen. Bereken door middel van transform of compute de log van beide variabelen, en plot de log van de standaardafwijking tegen de log van het gemiddelde. Kies Analyze/ Regression/ Linear om de regressielijn te berekenen.
5. Als de helling van de hierboven berekende regressielijn b is, dan is de transformatie die de SD’s zo goed mogelijk gelijk maakt, Z = Y −(b−1) . U vond hierboven dat b ≈ 2, dus de inverse transformatie zou optimaal zijn. Maak een tabel van gemiddelden en SD’s van de inverse getransformeerde obstructietijden, de “obstructiesnelheden”. =⇒ Gebruik transform/ compute om de inverse obstructietijd otinv te berekenen. Compute otinv=1/ot . Maak de tabel als in item 1. Merk op dat de standaardafwijkingen veel beter gelijk zijn dan in de ongetransformeerde data. 47
24 april 2007: A.K. en M.d.L.
9
VARIANTIE-ANALYSE; AANWIJZINGEN.
Opmerking De inverse obstructietijden zijn erg kleine getallen. Bovendien is de volgorde ervan omgekeerd t.o.v. de oorspronkelijke data. U kunt dit aanpakken door de inverse te berekenen als bv. otinv = 100 ∗ (1 − 10/ot). Het is altijd verstandig transformaties te controleren door een plotje te maken van getransformeerde tegen ongetransformeerde.
6. Doe, om te zien of hier een log-transformatie ook voldoende is, deze transformatie op de obstructietijden en maak weer een tabel van gemiddelden en standaardafwijkingen. =⇒ Als boven. Merk op dat de meeste SD’s dicht bij elkaar liggen, er is maar ´e´en afwijkende.
7. Analyseer de log-getransformeerde obstructietijden, en maak een q-q plot (normal quantiles plot) van de residuen. =⇒ De analyse is als boven in item 3. Kies in het variantie-analyse scherm Save om de residuen te bewaren, en dan Graphs/ Q-Q plot voor een normal quantiles plot. Constateer dat de normaliteit van de residuen nu prima in orde is. Opgave 9.2 We gaan nu contrasten berekenen; dit is hogere spss-kunde; bijna niemand weet dit! We gebruiken weer het GLM/univariate programma, want daarin kan gemakkelijk gegeneraliseerd worden naar meerdere variabelen. 1. Toets in het variantie-analysemodel voor de log-obstructietijden het contrast voor het verschil tussen geraffineerde palmolie en ruwe palmolie. De truuk is dat je in het syntax scherm de volgende regel moet opnemen in de analyse (bv.): /contrast(vet) = special(1, -1, 0, 0, 0, 0, 0, 0, 0)
Deze regel vergelijkt de eerste twee vetten (1 maal het eerste gemiddelde plus −1 maal het tweede). U moet zelf het juiste contrast invullen. =⇒ Kies Analyze/ General Linear Model/ Univariate en specificeer de variantieanalyse van logot als boven. Druk op Paste i.p.v. OK. Ga naar het syntaxscherm, en voeg onder de tweede regel van de UNIANOVA opdracht de regel /contrast(vet) = special(1, 1, 1, 1, 1, 1, 0, 0, -6)
in. Merk op dat dit contrast 6 keer de waarde van dat in formule 6.12 in de 48
9 VARIANTIE-ANALYSE; AANWIJZINGEN.
24 april 2007: A.K. en M.d.L.
syllabus is. Voor de toets maakt dat niets uit maar de geschatte waarde van het verschil tussen geraffineerde en ruwe olie is nu 6 keer te groot. Opmerking Controleer de met spss berekende waarde van het contrast door middel van de gemiddelden uit opgave 6.1, item 6.
2. Toets ook het contrast voor het verschil tussen de fysisch (‘R’) geraffineerde en de chemisch (‘N’) geraffineerde olies. =⇒ Als boven. De twee contrasten kunnen ook in ´e´en analyse aangevraagd worden. De regel is dan /contrast(vet) = special(1, 1, 1, 1, 1, 1, 0, 0, -6, 1, 1, 1, -1, -1, -1, 0, 0, 0)
Let op; het tweede contrast is drie keer het gewenste verschil. Opgave 9.3 Toets de verschillen tussen de vetten niet-parametrisch d.m.v. de Kruskal-Wallis toets. Toets ook de verschillen tussen de vetten van de log-getransformeerde obstructietijden met de Kruskal-Wallis toets. Waarom komt er precies hetzelfde uit? =⇒ Kies Analyze/ Nonparametric tests/ k Independent samples, zet ot in het Test Variable List vak, en vet in het Grouping variable vakje. Druk dan op de Define Range knop en zet 1 en 9 in Minimum en Maximum. Druk op Continue en dan op OK. Opmerking In kleinere groepen is het een goed idee de ‘exacte’ p-waarde te laten berekenen. Dat duurt wel even, maar u kunt een tijdslimiet aangeven. =⇒ De analyse van logot gaat net zo, en daar komt precies hetzelfde uit.
49
24 april 2007: A.K. en M.d.L.
10
10
VERVOLG VARIANTIE-ANALYSE; AANWIJZINGEN.
Vervolg variantie-analyse; Aanwijzingen.
=⇒ Start Windows Internet Explorer op. Ga naar www.stat.unimaas.nl. Klik op education. Klik op Statistics for Ph D students. Klik op Statistics part II - regression analysis and SPSS. Klik op SPSS DATA-file in zip format. Een file download venster opent. Klik op de knop Open. Een Winzip venster opent. Klik op het extract icoon. Een extract venster opent. Klik op het + teken voor “C$ op ’Client’ (V:)” Selecteer de directory “temp”. Controleer of het keuze rondje voor all files is geselecteert. Klik op de knop Extract. Sluit het Winzip venster. Sluit Windows Internet Explorer. Alle benodigde data staan nu op V:/temp. Start SPSS 11.5 for Windows via Start/ Programs. Kies File/ Open/ Data. Klik op het pijltje naast SPSS11. Er verschijnt een drop down list waarin je op C$ op ’Client’ (V:) klikt Dan dubbelklikken op de directory temp, en vervolgens kun je het gewenste bestand kiezen. Opgave 10.1 We analyseren het cross-over voedingsonderzoek van Liesbeth Temme (HB). Het databestand heet ‘Temme2.sav’. Elke proefpersoon at in drie perioden telkens zes weken lang een ander soort margarine, in gerandomiseerde volgorde. De uitkomst die we hier analyseren is het cholesterolgehalte van het bloed Mtchsw56, het gemiddelde van de metingen in week 5 en in week 6. 1. De data moeten nog voorzien worden van geschikte value labels voor diet (dieet) en per (periode). Noem de di¨eten respectievelijk A, B en C. =⇒ Open het ‘temme2.sav’ bestand, en ga naar de Variable view in het datascherm. In de kolom Values kunt u voor per en diet de gevraagde labels opgeven. Helaas is het Value Labels schermpje niet voorzien van een Paste knop. De syntax voor value labels is VALUE LABELS varname 1 ’label1’ 2 ’label2’. (etc.) 2. Kijk hoe de data georganiseerd zijn. Een aardig overzicht krijgt u door een tabel te maken van dieet maal periode. Let op dat u de cases met ontbrekende eindwaarde van de cholesterolmeting weglaat uit uw tabel. 50
10 VERVOLG VARIANTIE-ANALYSE; AANWIJZINGEN.
24 april 2007: A.K. en M.d.L.
=⇒ Selecteer eerst de cases waarvan Mtchsw56 niet missing is. Gan naar Data/ Select Cases, zet If condition .. aan en druk op de If knop. Zet vervolgens ~MISSING(mtchsw56) in het vakje rechtsboven (of NOT MISSING(mtchsw56)) en druk op Continue en dan op OK. Maak een tabel van periode (kolommen) en dieet (rijen) Met behulp van Descriptives/ Crosstabs. Merk op dat het aantal deelnemers afneemt in perioden 2 en 3. Hoeveel deelnemers hebben maar ´e´en periode meegedaan? 3. Bereken gemiddelden van de eindwaarde van cholesterol per dieet. Laat ook de standaardfout van het gemiddelde afdrukken. =⇒ Kies Analyze/ Compare Means/ Means en vraag om het gemiddelde van mtchsw56 per mogelijke waarde van diet. Druk op Options om ook de standard error afgedrukt te krijgen. Waarom mag u deze s.e.’s niet gebruiken om de gemiddelden te vergelijken? =⇒ Deze vergelijkingen zijn ongeldig omdat het geen onafhankelijke data betreft. 4. In de variantie-analyse nemen we de factor ‘proefpersoon’ (no) op om er voor te zorgen dat de analyseresultaten van de andere variabelen gelden binnen proefpersonen. De aanname is nu dat de onafhankelijkheid binnen proefpersonen geldig is. Analyseer de eindwaarde van de cholesterolmeting met als verklarende factoren: no, periode (per ) en dieet. In principe is een proefpersoon-factor altijd een ‘random factor’, maar als u alleen binnen-subject verschillen toetst maakt dat geen verschil. Zorg ervoor g´e´en interacties in het model op te nemen. =⇒ Kies Analyze/ General Linear Model/ Univariate, zet mtchsw56 in het Dependent vakje, diet en per in Fixed Factor(s) en no in Random Factor(s). Druk op Model en kies Custom. Zet diet, per en no(R) in het Model vakje en druk op Continue. Kijk maar eens wat het uitmaakt voor de toets op diet als u no niet als ‘random’ maar als ‘fixed’ definieert. 5. Sommige proefpersonen hebben maar ´e´en periode meegedaan. Laat deze proefpersonen weg uit de data en herhaal bovenstaande analyse. Verklaar de overeenkomsten en verschillen. =⇒ Dit is lastig te doen met opdrachten. Het is het eenvoudigst een lijstje te maken met aantallen per proefpersoon (frequencies) . . . Maar u heeft zo’n lijst al: in de uitvoer van het vorige item heeft u een opsomming van de ’between subjects factors’ en daar is no ook bij. Gebruik Data/ Select Cases om de proefpersonen met maar ´e´en waarneming weg te laten uit de analyse. Herhaal de variantie-analyse. De toets voor diet is identiek, maar de kwadratensom voor no en z’n vrijheidsgraden verschillen. 51
24 april 2007: A.K. en M.d.L.
10
VERVOLG VARIANTIE-ANALYSE; AANWIJZINGEN.
6. Onderzoek nu de onderlinge verschillen van de di¨eten. Onder de knop Post Hoc vindt u ogenschijnlijk het juiste gereedschap. Helaas, deze toetsen gaan uit van de ‘observed means’. U wilt de ‘adjusted means’ of ‘estimated means’ vergelijken. Onder de knop Options vindt u Estimated Marginal Means en u vraagt in het vakje Display Means For om de gemiddelden voor diet. U krijgt hiermee voor ontbrekende waarnemingen gecorrigeerde gemiddelden, waarvan u met de Tukey toets de verschillen kunt toetsen. Dit moet helaas ‘met de hand’. =⇒ Kies in het Univariate scherm de knop Options en zet diet in het Display means for vakje. Als u nu Compare Main effects aanvinkt, kunt vervolgens kiezen voor Confidence interval adjustment volgens ‘LSD(none)’, ‘Bonferroni’ of ‘Sidak’. Kies ‘Sidak’, dit is een aangepaste Bonferroni methode. We gebruiken van de uitvoer echter alleen de geschatte verschillen en hun standaardfouten, en die hangen niet van de correctiemethode af. Door het geschatte verschil te delen door de bijbehorende s.e. krijgt u de twaarde voor de Tukey toets. Vergelijk de t-waarde met de kritieke waarde uit tabel E in de syllabus (bij 3 groepen en 63 vrijheidsgraden). 7. In zeldzame gevallen zou u ge¨ınteresseerd kunnen zijn in de vraag of het dieet effect verschillend is voor mannen en vrouwen. U moet dan de interactie van diet en sex onderzoeken. =⇒ Voeg in het Fixed Factors vakje van het Univariate scherm sex toe, en in het Model vakje van het Univariate/ Model scherm de interactie diet * sex. In de uitvoer blijkt dat de interactie van geslacht en dieet niet significant is. Waarom is het aantal vrijheidsgraden voor sex nul? =⇒ In feite hoeft sex niet expliciet als factor te worden opgegeven, het proefpersoonnummer no zit er immers al in. Maar als u sex er toch bijgezet had in het Model, dan wordt herkend dat sex overbodig is, vrijheidsgraden en kwadratensom zijn nul. 8. Mocht u een hoofdeffect van sex willen toetsen (is het cholesterolniveau – gemiddeld over de di¨eten– van mannen en vrouwen verschillend?), dan is het essentieel dat no als ‘random factor’ wordt opgegeven en dat in de /DESIGN regel in de syntax no within sex wordt gezet om aan te geven dat no zoals dat heet genesteld is in sex ; bij iedere proefpersoon hoort slechts ´e´en geslacht. =⇒ Voeg sex toe aan de Fixed Factors, zorg ervoor dat no bij de Random Factors staat. Als model geeft u op de factoren diet, per, no en sex. Druk op Continue en vervolgens op Paste. Verander in het syntax scherm de /DESIGN regel zo dat er no within sex staat i.p.v. no. Dan de knop OK aanklikken.
52