SPSS 15.0 in praktische stappen voor AGW-bachelors
auteurs: Miranda Winkelhuijzen Mickey Chenault Monique Reusken Pauline Vilters Robbie Martens
Capaciteitsgroep Methodologie & Statistiek 2008-2009
Inhoudsopgave Inleiding .............................................................................................................. 3 1. 2. 3. 4. 5. 6. 7.
Training 1 SPSS-scherm, vensters, balken en data invoeren en opslaan ............................. 5 Labels en Meetniveaus ..................................................................................... 11 Beschrijvende Statistiek (Descriptive Statistics).............................................. 15 Ontbrekende waarden (Missing Values) .......................................................... 18 Rekenen-1 (Compute Variable) ....................................................................... 20 Kruistabellen (Crosstabs).................................................................................. 22 Oefenen I ........................................................................................................ 25
8. 9. 10. 11. 12. 13.
Training 2 Grafische uitvoer, printen en SPSS uitvoer in WORD..................................... 27 Groeperen (Split File) ....................................................................................... 29 Selecteren (Select Cases).................................................................................. 31 Hercoderen (Recode) ........................................................................................ 33 Editen van de Uitvoer, het Syntaxvenster, Files en SPSS............................... 38 Oefenen II ......................................................................................................... 42
Facultatief 14. Rekenen-2 (rekenen met If) .............................................................................. 44 15. Bestanden samenvoegen (Merge Files)............................................................ 48 16. Cases samenvoegen (Aggregate) ..................................................................... 53
Inhoudsopgave 2
Inleiding Het kunnen werken met statistische software is van onmisbaar belang bij het verrichten van onderzoek. In dit blok (1.2b) wordt een introductie gegeven in het softwarepakket SPSS (Statistical Package for the Social Sciences), één van de meest populaire statistische programma’s waarmee alle gangbare statistische procedures kunnen worden uitgevoerd. Gedurende 3 trainingen van twee uur zullen de basisbeginselen van het pakket worden overgedragen. Meer geavanceerdere toepassingen van SPSS zullen in navolgende blokken aan de orde komen. Eventueel kan men voor meer gedetailleerde beschrijvingen van het SPSS-softwarepakket en voor geavanceerdere toepassingen binnen SPSS een keuze maken uit het ruime aanbod van Nederlandstalige en Engelstalige literatuur. Aanwijzingen voor het gebruik van dit boek Dit boek bevat 16 hoofdstukken (Stappen) die in principe zelfstandig kunnen worden doorgewerkt. Er zijn 3 SPSS trainingen van elk 2 uur in het Computerlandschap. Onder toezicht van een SPSS trainer zullen Stap 1 tot en met 7 tijdens de eerste training worden gemaakt en Stap 8 tot en met 13 tijdens de tweede training. De laatste 3 Stappen worden niet behandeld in de trainingen, maar kunnen wel handig zijn tijdens je onderzoek. Elke Stap bevat een inleidende tekst met opdrachten. In de teksten en opdrachten worden de keuzemogelijkheden uit het menu van het SPSS-programma
. De eigenlijke opdrachten, die je in SPSS maakt zijn vet gedrukt. Tijdens de 3de SPSS training is het de bedoeling dat je de Antropometrie gegevens van blok 1.2a m.b.v. SPSS gaat analyseren ten behoeve van je verslag. Ook dan is er een SPSS trainer aanwezig om je te helpen. De eerste 2 trainingen zijn verplicht, de derde niet. Lees een opdracht eerst helemaal door en probeer te begrijpen wat er van je gevraagd wordt. Ga vervolgens proberen om tot de oplossing te komen. Als je er na een aantal keren proberen echt niet uitkomt, kun je de hulp van de SPSS-trainer inroepen. Doe dat niet te snel, want met zelf proberen krijg je een computerprogramma het snelst onder de knie! Het kan voorkomen dat teksten in vensters en menu’s enigszins afwijken van de teksten die in deze handleiding zijn gebruikt. Bijvoorbeeld Engels i.p.v. Nederlands. Laat je daardoor niet afschrikken. Meestal is duidelijk wat bedoeld wordt. Bestanden De SPSS bestanden die je nodig hebt zijn te vinden op ELEUM ( 1.2B HET GEZONDE LICHAAM (2B-0203-0809) (FDGW_0809_2B_BLOK_0203) > COURSE MATERIAL > PRACTICA EN TRAININGEN > SPSS TRAINING )
Voor de eerste twee SPSS trainingen (Stap 1 t/m 13) heb je de volgende bestanden nodig: hearing.sav, stap12.sav en geboorte.sav. Voor de extra Stappen 14, 15 en 16 heb je nodig: stap14.sav, oef15.sav, medcomp.sav, toets3.sav en audiometry.sav. Omdat het in het Computerlandschap niet mogelijk is om de SPSS bestanden direct vanaf ELEUM in SPSS te openen moet je de bestanden eerst downloaden en opslaan in je eigen werkgebied (I-drive (I:\), onderdeel van het netwerksysteem in het Computerlandschap). Vanaf je I-drive kun je dan de bestanden binnen SPSS openen. Download nu eerst de benodigde bestanden voor de SPSS trainingen naar je I-drive.
Inleiding
3
Filmpjes Naast dit boek zijn er een aantal instructiefilmpjes op ELEUM beschikbaar waarin de verschillende SPSS procedures worden gedemonstreerd. Deze instructiefilmpjes worden afgespeeld met de Windows Media Player. Dit programma is alleen lokaal op de computers geïnstalleerd en niet in Citrix (=Student Desktop). Open ELEUM dus lokaal en speel dan de filmpjes af door er op te klikken. Zelf oefenen Natuurlijk mag je vooraf zelfstandig oefenen met SPSS maar voor beide verplichte trainingen is er een afsluitende opdracht die tijdens de training gemaakt dient te worden voordat presentie wordt genoteerd. Thuis werken Als je ergens anders, bijvoorbeeld thuis, met SPSS wilt werken heb je verschillende mogelijkheden: • •
Je kunt SPSS kopen via https://www.surfspot.nl/ . Inloggen kan met je eigen gebruikersnaam en wachtwoord. Je kunt SPSS gebruiken via http://anywhere.ub.unimaas.nl In plaats van SPSS op je eigen PC te installeren, kun je het dan starten op een Universiteitsserver. Ook hier kun je weer inloggen met je eigen gebruikersnaam en wachtwoord.
Verder is het handig om te weten dat er verschillende versies van SPSS zijn. In dit boek is gewerkt met SPSS versie 15. De benodigde practicumbestanden kun je vanaf je I-drive in het Computerlandschap doormailen naar huis.
Inleiding
4
1.
SPSS-scherm, vensters, balken en data invoeren en opslaan Wanneer je SPSS aanroept verschijnt een openingsscherm. Dat bestaat uit een aantal balken, knoppen en vensters. Welke balken enz. worden getoond is standaard geregeld, maar kan door de gebruiker worden aangepast. We gaan uit van de standaardinstellingen in het Computerlandschap.
1.1 SPSS opstarten Het programma SPSS kan men in het computerlandschap alleen vinden binnen Citrix (=Student Desktop). Hiertoe log je eerst in in één van de computers met je eigen username en password. Vervolgens klik je op Student Desktop en log in in Citrix, weer met gebruikmaking van je eigen username en password. Nu heb je beneden aan het scherm twee toolbars. De bovenste toolbar is die van Citrix!! Gebruik de bovenste toolbar en open SPSS via <Start><SPSS 15.0><SPSS15.0 for Windows> en bekijk het openingsscherm. Soms krijg je bij het opstarten een klein venster met de vraag “What would you like to do?” dat je de mogelijkheid biedt om recentelijk gebruikte bestanden te openen. Druk op [Cancel] en bekijk het datavenster dat de SPSS Data Editor wordt genoemd. Maak het scherm zo groot mogelijk door rechtsboven op het middelste icoontje te klikken (maximaliseren). De bovenste balk is de titelbalk: Untitled1[DataSet0]-SPSS Data Editor. Daaronder vind je de menubalk met het hoofdmenu: File, Edit, View, Data, Transform enz. Onder de menubalk vind je de knoppenbalk (toolbar). Met een klik op zo’n knop kunnen handelingen direct worden uitgevoerd. De betekenis van een knop wordt zichtbaar in de statusbalk (helemaal linksonder in het scherm) als de knop met de muis wordt aangewezen. Probeer! In het midden van deze statusbalk kun je bijvoorbeeld ook zien of het SPSS-programma gereed is of bezig is met de uitvoering van een taak. Het is goed om die boodschappen bij de volgende opdrachten eens in de gaten te houden! Een belangrijk kenmerk van SPSS is dat het werkt met verschillende vensters. De te analyseren gegevens en hun eigenschappen worden ingevoerd en opgeslagen middels de z.g. SPSS Data Editor. Deze bestaat uit 2 vensters: het datavenster (Data View) en het variabelenvenster (Variable View): • De Data View bevat de gegevens (de data) die geanalyseerd moeten worden. Elke kolom betreft een ander kenmerk, ofwel variabele (vb. gewicht, lengte, haarkleur) . Elke rij betreft een ander onderzoeksgeval, een case (vb. persoon, land, ziekenhuis, school).
Training 1
1. SPSS-scherm, vensters, balken en data invoeren en opslaan
5
Datavenster (Data View):
• In de Variable View worden de eigenschappen voor elke variabele weergegeven. Hierin worden o.a. het type variabele (numeriek, datum etc.), het aantal decimalen, de labels en de ontbrekende waarden (missing values) gedefinieerd. Variabelenvenster (Variable View):
Je kunt de Data View en de Variabele View afwisselend oproepen door linksonder op het desbetreffende tabblad te klikken:
Probeer! Training 1
1. SPSS-scherm, vensters, balken en data invoeren en opslaan
6
De resultaten van de analyse verschijnen in een uitvoer- ofwel outputvenster van de SPSS Viewer. Het outputvenster kun je nu nog niet zien, omdat er nog geen analyses uitgevoerd zijn. Pas vanaf het moment dat je een procedure aanroept wordt een outputvenster geopend.
Gegevens invoeren Stel je hebt van een drietal proefpersonen de volgende gegevens: Volgnummer, Leeftijd in jaren, Geslacht (1= man; 2= vrouw) Intelligentiequotiënt Lichaamslengte in cm Lichaamsgewicht in kg. De gegevens zijn als volgt in een tabel samengevat: Volgnummer
Leeftijd
Geslacht
IQ
Lengte
Gewicht
101
23
1
114
176
82.4
102
47
1
98
182
95.3
103
38
2
121
169
72.9
SPSS spreekt in zo’n geval van 3 cases (=de rijen of regels) met 6 variabelen (=de kolommen). We willen deze gegevens met SPSS analyseren en moeten ze daartoe eerst invoeren in SPSS. Daarbij moet je onderscheid maken tussen de getallen en de namen van de variabelen. 1.2 Getallen invoeren. Start SPSS en zorg dat je je in de Data View bevindt. In de bovenste cel van de eerste kolom moet de waarde 101 komen, daaronder 102 en tenslotte 103. Selecteer de eerste cel middels de muis of pijltjestoetsen. Deze cel wordt vet omrand. Type 101 in en druk vervolgens op Enter. Het getal 101.00 verschijnt in de eerste cel en de variabele krijgt de door SPSS gereserveerde naam: var00001. Tegelijkertijd wordt de volgende cel automatisch geselecteerd. Type 102 in en klik op Enter, en type 103 in de volgende cel. Het feit dat SPSS niet 103, maar 103.00 weergeeft heeft te maken met de standaardinstelling van SPSS. De standaardinstelling van SPSS is F8.2, d.w.z. gegevens mogen maximaal 8 karakters lang zijn en worden weergegeven in 2 decimalen. Dit kan worden gewijzigd in de Variable View. Hier komen wij later op terug. Ga nu met de pijltjestoetsen of de muis naar de bovenste cel van de tweede kolom. Voer op dezelfde manier de waarden van de andere variabelen (leeftijd, geslacht, iq, lengte en gewicht) in het datavenster in.
Training 1
1. SPSS-scherm, vensters, balken en data invoeren en opslaan
7
1.3
Variabelennamen invoeren. In principe maakt het voor SPSS niet uit welke namen je aan de variabelen geeft. Zoals we hierboven al zagen ‘bedenkt’ SPSS zelf variabele namen als je geen namen opgeeft: var00001, var00002, var00003, enz. SPSS stelt echter een aantal voorwaarden aan de naamgeving, bijvoorbeeld geen spaties en nog een aantal andere tekens worden niet toegestaan. Je merkt vanzelf wanneer een variabelennaam niet aan de voorwaarden voldoet daar SPSS onjuiste namen niet accepteert en de volgende melding “Variable name contains an illegal character” geeft in een venster. We zullen nu de door SPSS gegeven variabelennamen veranderen in namen die iets meer over de inhoud zeggen: we kiezen voor volgnummer, leeftijd, geslacht, iq, lengte en gewicht. Eerst volgnummer i.p.v. var00001 Dubbelklik op de cel waarin de naam var00001 staat. Het variabelenvenster (Variable View) verschijnt. Het is ook mogelijk om in het variabelenvenster te komen door links onder in de Data Editor op Variable View te klikken. De eerste regel is zwart gemarkeerd. Alleen de cel var00001 onder de kolom ‘Name’ is wit gemarkeerd. Type hier volgnummer in en klik op Enter. In de tweede rij onder de kolom ‘Name’ type je leeftijd in en klik daarna op Enter. Voer op dezelfde wijze de resterende vier variabelennamen in. De Variable View en Data View zullen er als volgt uitzien: Data View:
Variable View:
Training 1
1. SPSS-scherm, vensters, balken en data invoeren en opslaan
8
Laten we even vooruit lopen en kijken hoe je met SPSS gegevens uit het datavenster kan kopiëren naar het outputvenster. Dit is vooral handig als twee variabelen, bijvoorbeeld gewicht en lengte, met elkaar vergeleken moeten worden en in de datafile erg ver van elkaar staan. Kies bovenaan in de menubalk . Er verschijnt een dialoogvenster met duidelijk herkenbare kaders. In het linker kader staan alle variabelennamen van het datavenster en de rechter kaders zijn nog leeg. Je wilt per persoon (volgnummer) de variabelen lengte en gewicht met elkaar vergelijken. Selecteer met de pijltjestoetsen of de muis in het linker kader telkens 1 van de drie variabelen en breng deze één voor één via de í knop naar het bovenste rechter kader onder Variables. Men kan de drie variabelen ook in één keer naar dat kader overbrengen door de Ctrl-toets ingedrukt te houden ten tijde van het selecteren van de drie variabelen in het linker kader en ze vervolgens tegelijk met de í knop naar rechts onder Variables te transporteren:
Druk nu op [OK] en SPSS gaat aan het werk (kijk naar de statusbalk!). Je ziet meteen dat het datavenster verdwijnt en het outputvenster verschijnt. In het uitvoervenster komt een overzicht te staan van alle drie de personen (cases) met betrekking tot de opgegeven variabelen volgnummer, lengte en gewicht: Case Summariesa 1 2 3 Total
N
volgnummer 101.00 102.00 103.00 3
lengte 176.00 182.00 169.00 3
gewicht 82.40 95.30 72.90 3
a. Limited to first 100 cases.
1.4
Opslaan We willen nu de data en de output gaan opslaan. Deze files kunnen bijvoorbeeld op de I- drive bewaard worden. Voor het opslaan van de data ga je eerst met de cursor ergens in de SPSS Data Editor staan (Data View of Variable View)!! Kies vervolgens <Save As>. Selecteer achter Opslaan in de juiste schijf (drive, bijv. I-drive). Type achter Bestandsnaam de gewenste naam van het bestand, bijvoorbeeld. stap1. Achter Opslaan als type vult SPSS automatisch het juiste file type (.sav) in. Tenslotte klik je op Opslaan om de opdracht te laten uitvoeren. Het datavenster en variabelenvenster zijn nu beide opgeslagen in één file, namelijk stap1.sav. Merk op dat de extensie van de SPSS datafile altijd (!) .SAV is. Training 1
1. SPSS-scherm, vensters, balken en data invoeren en opslaan
9
Voor het opslaan van de output ga je eerst met de cursor ergens in de output van de SPSS Viewer staan en herhaal daarna bovenstaande procedure. De SPSS outputfile wordt altijd opgeslagen met .SPO als extensie (dus hier als stap1.spo). Dus onthoud goed: Datavenster = sav-file, Outputvenster = spo-file! Sluit SPSS af (<Exit>) nadat je zowel de datafile als de outputfile bewaard hebt. LET OP!!!!! 1. Wanneer je gegevens wilt opslaan moet je cursor altijd (!) in de Data View of Variable View staan, en als je uitvoer wilt opslaan moet de cursor in het betreffende Outputvenster staan. Het opslaan gaat zeer zeker fout als je dit niet in acht neemt. SPSS kan namelijk geen data inlezen met een .spo extensie en ook geen uitvoer met een .sav extensie!!! 2. In SPSS moet het datavenster en outputvenster altijd apart worden opgeslagen. Ze kunnen niet samen/tegelijkertijd worden opgeslagen!!
Training 1
1. SPSS-scherm, vensters, balken en data invoeren en opslaan
10
2.
Labels en Meetniveaus Meestal bestaan de gegevens die met SPSS geanalyseerd worden uit cijfers. Zo'n hele waslijst met cijfers is niet echt duidelijk, zeker als er geen omschrijving bij de variabele of van de waarden van die variabele staat. Om dit te verhelpen kunnen we labels toekennen aan de variabelen en hun waarden. Het is belangrijk te weten dat deze labels alleen dienen ter verduidelijking van de betekenis van de betreffende variabele zelf of van zijn waarden. De labels veranderen niets aan de waarden (de cijfers) zelf. Er kunnen twee soorten labels toegekend worden: • Variable labels voor de variabelen zelf (meestal een uitgebreidere variabelennaam) en • Value labels voor de verschillende waarden die een variabele kan aannemen. Zo zou de variabele geslacht geen variable label hoeven te krijgen (de naam is al duidelijk genoeg), maar wel value labels: de waarde 1 het value label ‘man’, en de waarde 2 het value label ‘vrouw’. De variabele iq zou het variable label ‘intelligentie-quotient volgens de methode van William Stern’ kunnen krijgen. Value labels zijn voor iq niet van toepassing. Variabelen kunnen worden ingedeeld in 3 soorten wat betreft hun meetniveau: variabelen waarvan de uitkomsten in klassen zijn verdeeld zoals geslacht, land van herkomst, etniciteit etc. noemen we categorische ofwel nominale variabelen. Aan de verschillende klassen kunnen getallen worden toegekend. Deze getallen hebben echter geen betekenis in rekenkundige zin: man=1 en vrouw=2 betekent niet dat vrouwen 2 keer een man zijn. Naast nominale variabelen kennen we ook ordinale variabelen, zoals opleidingsniveau. Hierbij is wel sprake van een rangorde (meer of minder opleiding, vb. VMBO=1, Havo=2, VWO=3). Variabelen waarbij de categorieën niet alleen kunnen worden geordend, maar waarbij ook geldt dat de afstanden tussen twee opeenvolgende categorieën steeds gelijk is noemen we interval variabelen, bijvoorbeeld bloeddruk (mmHg) en temperatuur (oC). In dit geval is er geen sprake van een vastliggend nulpunt. Het hoogste meetniveau hebben ratio variabelen. Deze variabelen hebben naast de kenmerken van het interval meetniveau ook nog een absoluut nulpunt. Voorbeelden zijn leeftijd (jaren) en lengte (cm). Voor de duidelijkheid van je SPSS databestand is het handig om nominale en ordinale variabelen te voorzien van value labels.
2.1
Meetniveau invoeren Binnen SPSS kan van elke variabele het meetniveau worden opgegeven. Je kunt dit instellen in de Variable View onder de kolom ‘Measure’. SPSS kent 3 mogelijkheden: Scale voor interval en ratio schalen, Ordinal voor ordinale schalen en Nominal voor nominale schalen. We zullen nu het meetniveau gaan opgeven van de variabelen in de datafile van Stap1. Open SPSS en daarbinnen de file stap1.sav ( ). Het datavenster van de Stap 1 verschijnt. Open de Variable View en stel in de kolom ‘Measure’ volgnummer en geslacht in op Nominal en de rest op Scale:
Training 1
2. Labels en Meetniveaus 11
Opmerking: Jammer genoeg geeft SPSS geen foutmelding als je bij variabelen waarbij je als meetniveau nominal hebt ingevoerd het gemiddelde uit laat rekenen! 2.2
Labels invoeren Vervolgens gaan we geschikte labels toekennen aan de variabelen. Het toekennen van value labels aan de variabele geslacht gaat als volgt: Open de Variable View. De variabele geslacht kent de waarden 1 en 2, respectievelijk ‘man’ en ‘vrouw’. Klik in de kolom ‘Values’ op ‘None’ (= er zijn (nog) geen Value Labels gedefinieerd) en klik vervolgens op het kleine, grijze vakje met puntjes:
Het Value Labels venster verschijnt. Zet achter Value de waarde 1 en achter Label het woord 'man'. Klik vervolgens op [Add]. Vul vervolgens achter Value 2 in en achter Label het woord 'vrouw'. Druk daarna weer op [Add].
Training 1
2. Labels en Meetniveaus 12
Klik op [OK] en de variabele geslacht is gelabeld! Vervolgens gaan we variable labels geven. Open de Variable View en vul in de kolom “Label’ het gewenste variable label in: ‘leeftijd in jaren’ voor leeftijd, ‘intelligentie quotiënt volgens de methode van William Stern’ voor iq, ‘lichaamslengte in cm’ voor lengte, ‘lichaamsgewicht in kg’ voor gewicht. Als de meetniveaus en labels zijn toegekend kan dit o.a. gecontroleerd worden door in het hoofdmenu te kiezen voor waarna onderstaand venster verschijnt. Links staat een kolom met alle variabelen en rechts de informatie (inclusief de toegekende labels) van een geselecteerde variabele (hier geslacht):
2.3
Nadat je de variabele geslacht van labels hebt voorzien is er in het datavenster ogenschijnlijk nog niets veranderd, maar druk nu eens in de Data View op de derde knop van rechts op de taakbalk (heeft de vorm van een kofferlabel of etiketje):
De cijfers veranderen nu in de toegekende value labels:
Door nog eens op die knop te drukken krijgt de variabele geslacht weer de getallen als inhoud:
Let wel: het toekennen van labels aan de variabelen en aan de waarden van variabelen beïnvloedt niet de data zelf, het is alleen ter verduidelijking van je data- en uitvoervenster!
Training 1
2. Labels en Meetniveaus 13
2.4
Als men variabele labels i.p.v. variabelennamen in de dialoogvensters gepresenteerd wilt zien (dus ‘intelligentie-quotient volgens de methode van William Stern’ i.p.v. ‘iq’), moet SPSS als volgt worden ingesteld: Kies <Edit> in het datavenster. Het Options venster verschijnt. Dit bevat 10 tabbladen, waaronder het ’General’ tabblad:
Kies Display labels onder Variable Lists (als dat nog niet is aangevinkt) en de labels i.p.v. de namen van de variabelen zullen in de dialoogvensters worden weergegeven. Dit kun je nagaan door bijvoorbeeld het volgende dialoogvenster op te vragen: Kies . Er verschijnt nu het volgende venster:
Training 1
2. Labels en Meetniveaus 14
In het dialoogvenster zie je nu het label: leeftijd in jaren in plaats van alleen de variabelennaam leeftijd. Zo zie je bij de volgende variabelen ook de labels met daarachter tussen haken de namen. Druk op [Cancel]. Het is ook mogelijk om de variable- en value labels in je uitvoer te verkrijgen. Daarvoor stel je onder <Edit> het tabblad ‘Output Labels’ als volgt in:
Alle geproduceerde uitvoer zal nu de variabelen presenteren met variable- en value labels.
Training 1
2. Labels en Meetniveaus 15
3.
Beschrijvende statistiek (Descriptive Statistics) Bij het beschrijven van variabelen met SPSS wordt veelal gebruik gemaakt van de procedures Frequencies, Descriptives en Explore, welke kunnen worden aangevraagd met . We zullen de verschillende procedures demonstreren a.d.h.v. het bestand hearing.sav. Dit bestand bevat de gegevens van een gehooronderzoek bij 99 proefpersonen. De volgende variabelen zijn gedefinieerd: id
identification number
sex
sex (1=male, 2=female)
hearing1
subjective opinion of own hearing ability (1=good, 2=moderate, 3=poor)
hearaid
hearing aid (1=yes, has a hearing aid; 2=has no hearing aid)
agegrp1
age group (1=55-64 years, 2=65-74 years, 3=75+ years)
hearimp
hearing impairment (1=hearing impaired, 0=not hearing impaired)
euroqol
Euroqol quality of life measurement on a scale of 0 to 100
hearscor
visual analogue scale (VAS) measurement of one's own hearing on a scale of 0 to 100
fi_b_ear
fletcher index best ear on the basis of audiometry, the higher the more hearing impairment, valid values ranging from 20 to 120
age
age in years
Het type variabele (het meetniveau, zie Stap 2) bepaalt welke Descriptive Statistics procedure geschikt is. Indien we te maken hebben met een nominale of ordinale variabele die in categorieën kan worden ingedeeld (categorische variabele) zoals bijvoorbeeld geslacht, is het zinloos om het gemiddelde te berekenen. Een frequentietabel is een geschikte methode om dergelijke variabelen te bestuderen. Het berekenen van kengetallen als het gemiddelde en de mediaan is natuurlijk wel zeer geschikt voor interval en ratio variabelen (continu variabelen). Frequencies Voor het maken van frequentietabellen gebruikt men de procedure Frequencies. 3.1
Open het bestand hearing.sav (Opmerking: het bestand stap1.sav kan daarna gesloten worden, bepaal zelf of je dit bestand nog wil bewaren). We willen weten hoeveel mensen er in elke leeftijdscategorie (agegrp1) zitten en maken daartoe als volgt een frequentietabel van deze variabele: Kies < Frequencies>. Klik links in het Frequencies venster op de variabele agegrp1 en plaats deze met een druk op de zwarte pijl í naar het rechter kader onder Variable(s):
Training 1
3. Beschrijvende Statistiek (Descriptive Statistics) 16
Klik op [OK]. Er wordt automatisch overgeschakeld naar het outputvenster, waarin de frequentietabel verschijnt (zie instructiefilmpje: frequencies.avi). Hoeveel mensen zitten er in elke leeftijdscategorie? [zie * onderaan] Roep het bovenstaande dialoogvenster opnieuw op. Ook andere zaken kunnen in de uitvoer worden opgevraagd door gebruik te maken van de drukknoppen [Statistics] (statistische kengetallen), [Charts] (staafdiagrammen, cirkeldiagrammen en histogrammen) en [Format] (wijzigt opmaak van frequentietabel). Wanneer er alleen maar interesse bestaat voor deze uitvoer en de frequentietabel zelf niet nodig is, kan men de optie Display frequency tables uitschakelen door hier met de muis op te klikken. 3.2
Maak middels de drukknop [Charts] onderaan het Frequencies venster een staafdiagram (Bar charts) van de variabele agegrp1, zonder dat er in de uitvoer weer de frequentietabel verschijnt. Descriptives Met deze procedure is het mogelijk statistische kengetallen (gemiddelde, standaarddeviatie, variantie, minimum, maximum etc) te berekenen. Wat betreft de betekenis van deze kengetallen wordt verwezen naar het theorieboek Methodologie en Statistiek deel 1 (Tj. Imbos, et al. Universitaire Pers Maastricht, Maastricht 2001)
3.3
Roep de procedure op via . Selecteer vervolgens in het Descriptive venster de variabele age en breng deze met de pijl í naar de rechterkant onder Variable(s). Standaard wordt het gemiddelde, de standaarddeviatie, het minimum en het maximum berekend, maar men kan ook een aantal andere kengetallen laten berekenen door onder de drukknop [Options] de gewenste statistische kengetallen te selecteren. Selecteer in het Options venster tevens Variance en klik op [OK] (zie instructiefilmpje:descriptives.avi). Wat is het gemiddelde en de variantie van de variabele age? [zie **]
*Er zitten resp. 25, 26 en 48 mensen in categorie 1, 2 en 3 **Gemiddelde 73.43, variantie 71.779 Training 1
3. Beschrijvende Statistiek (Descriptive Statistics) 17
Explore De procedure Explore is een zeer geschikte methode om inzicht te verkrijgen in de verdeling van een variabele en kent vele mogelijkheden. We bekijken de variabele fi_b_ear. 3.4
Kies < Explore>. Klik in het linker kader op de variabele fi_b_ear en plaats deze met een druk op de zwarte pijl ínaar het rechter kader onder Dependent List. Selecteer de variabele sex onder Factor list om de verdeling van fi_b_ear voor mannen en vrouwen apart te bestuderen:
Klik op [OK] en bekijk de uitvoer (zie instructiefilmpje: explore.avi). Het resultaat is dat de variabele fi_b_ear voor mannen en vrouwen afzonderlijk geanalyseerd wordt. Onder Display kun je kiezen welke uitvoer geproduceerd moet worden. Standaard bestaat de uitvoer uit een aantal statistische kengetallen en tevens wordt er voor elke groep een takbladgrafiek en een boxplot gemaakt. SPSS geeft dit aan met Both. Wil men slechts een deel van deze uitvoer kies dan voor Statistics dan wel Plots. Verder kent de procedure Explore nog een aantal drukknoppen: [Statistics] voor het aanvragen van extra statistische kengetallen (betrouwbaarheidsintervallen, percentielen en outliers), [Plots] voor het opvragen van diverse grafieken en [Options] die betrekking heeft op het wel of niet meenemen van cases met ontbrekende waarden wanneer er meerdere variabelen in de Dependent List staan.
Training 1
3. Beschrijvende Statistiek (Descriptive Statistics) 18
4.
Ontbrekende waarden (Missing Values) Een onderzoeker verzamelde van zes patiënten de 5 verschillende bloedwaarden (b1 t/m b5). De resultaten zijn als volgt: patnr b1 b2 b3 b4 b5 1 92.2 1.94 15.7 125 4.99 2 92.7 1.90 15.6 4.79 -1 3 95.0 2.05 13.7 76 4.57 4 90.8 1.83 15.1 24 5.46 5 92.2 1.88 15.1 57 4.36 6 92.7 1.89 15.1 4.52 -1 Bij de variabele b4 ontbrak de waarde van patiënt 2 en patiënt 6. Omdat -1 een waarde is die niet voor kan komen als bloedwaarde voor deze variabele gebruikte de onderzoeker de waarde -1 om aan te geven dat er iets fout is met die waarde (bijvoorbeeld niet gemeten of een verkeerde meting). Als SPSS met deze gegevens aan de slag gaat en bijvoorbeeld het gemiddelde van b4 moet berekenen, gaat dat als volgt: (125 + (-1) + 76 + 24 + 57 + (-1))= 280/6= 46.667. Dat kan niet bedoeling zijn! Die -1 vertekent het gemiddelde. Om dit te voorkomen moet de waarde -1 voor de betreffende variabele als ontbrekende waarde of missing value worden gedefinieerd. Wordt het gemiddelde dan berekend, dan neemt SPSS deze -1 niet mee in de berekening. Het gemiddelde wordt dan (125+76+24+57)/4 = 70.5, en verschilt nogal met de oorspronkelijke 46.67, maar is wel de juiste weergave van de gegevens.
4.1
Kies om een lege Data Editor te verkrijgen en sluit daarna het nog openstaande bestand hearing.sav af zonder te bewaren. Voer vervolgens van bovenstaande data alleen kolom b4 in. Dit kun je in de eerste kolom van de Data View doen. Ga naar de Variable View en noem de variabele b4. Klik bij variabele b4 onder de kolom ‘Missing’ op ‘None’ en klik op het kleine, grijze vakje met puntjes:
Het volgende venster verschijnt:
Training 1
4. Ontbrekende waarden (Missing Values) 19
Je wilt af van ‘No missing values’ en een discrete waarde (-1) als missing value definiëren. Selecteer de betreffende optie ‘Discrete missing values’ en vul het eerste rechthoekje met -1. Het zou kunnen zijn dat er voor deze variabele nog andere discrete waarden als ontbrekend gedefinieerd moesten worden. Daarvoor kun je het tweede en derde rechthoekje gebruiken (je kunt dus maar maximaal 3 discrete waarden als missing values aangeven). Dat is hier niet het geval. Klik daarom op de [OK] knop. In de Variable View staat nu bij variabele b4 onder Missing een -1.0, wat betekent dat -1 een ontbrekende waarde is voor variabele b4. Daar zie je niets van in het datavenster, maar als je nu het gemiddelde berekent van de betreffende variabele (via ) zul je zien dat SPSS bij het berekenen rekening houdt met de twee cases met een -1 voor de ontbrekende gegevens. Doen! Als sprake is van een range (of interval) van waarden die als ontbrekende waarden beschouwd moeten worden, kun je in het Missing Values venster kiezen voor de optie ‘Range plus one optional discrete missing value’ en in de twee rechthoekjes de laagste en de hoogste waarde opgeven. In het onderste rechthoekje kun je tevens nog één discrete waarde invullen. Tot nu is gesproken over missing values die door de gebruiker werden gedefinieerd en daarom User Missing Values heten. Een tweede soort missing values worden door SPSS zelf gecreëerd wanneer voor een case een cel niet wordt ingevuld, of wanneer het programma een reken- of leesopdracht krijgt en in een bepaald geval niet weet wat het moet invullen. SPSS vult dan automatisch een zgn. System Missing Value in, wat eigenlijk neerkomt op een lege cel. Bij de procedures Compute Variable en Recode komen we hier nog op terug.
Training 1
4. Ontbrekende waarden (Missing Values) 20
5.
Rekenen-1 (Compute Variable) SPSS biedt de mogelijkheid nieuwe variabelen te berekenen of te herberekenen.
5.1
Laat SPSS het bestand stap 12.sav lezen en sluit de overige databestanden. Kies en ga na dat er is sprake is van zes variabelen (nr, gewicht, lengte, x, y en z) en dat er bij lengte en y sprake is van ontbrekende waarden. Stel je wilt voor de zes personen de Quetelet-index berekenen. (Quetelet-index=het gewicht in kg gedeeld door het kwadraat van de lengte in meters).
5.2
Nadat je voor de opties en hebt gekozen verschijnt het Compute Variable venster. Linksboven vul je de naam van de zogenaamde Target Variable in. Dat is de naam van de variabele waarin het resultaat van de berekening wordt opgeslagen. Type hier quetelet in. Onder Numeric Expression bevindt zich het het formulevenster waarin het rekenvoorschrift ofwel de formule moet komen. Bestaande variabelen die je nodig hebt voor de berekening kun je links in de variabelenlijst selecteren en m.b.v. de pijl í in het rekenvoorschrift plaatsen. Selecteer links de variabele gewicht en breng die over naar het formulevenster. Vervolgens wil je gaan delen. Het teken voor deze operatie is ‘/’. Klik op dat teken in de ‘rekenmachine’. Daarna haal je de variabele lengte naar het formulevenster. Kwadrateren is machtsverheffen (teken: **) tot de macht 2. In de formule moet nu staan: gewicht/lengte**2. Omdat machtsverheffen vóór delen wordt uitgevoerd, hoef je hier niet met haakjes te werken. Haakjes vind je overigens ook op het toetsenbord van de rekenmachine. In plaats van gebruik te maken van de linker variabelenlijst en de toetsen van de rekenmachine, kun je ook de formule gewoon intypen in het formulevenster. Uiteindelijk ziet het Compute Variable venster dus als volgt uit:
Training 1
5. Rekenen-I (Compute Variable)
21
Als de formule gereed is kun je met [OK] SPSS de opdracht geven om de berekening uit te voeren (zie instructiefilmpje: compute.avi). De nieuwe variabele verschijnt in de meest rechtse kolom van de Data View. Controleer dit. Je ziet in het datavenster dat op de vierde regel geen waarde voor quetelet is ingevuld, maar dat er een ’.’ staat. Bij het berekenen van quetelet voor deze case kwam SPSS een ontbrekende waarde -1 tegen voor de variabele lengte. Zoals we in Stap 4 hebben gezien behandelt SPSS in zo’n geval de -1 alsof het een System Missing Value is! Tip: Als je een nieuwe variabele maakt met Compute Variable, is het handig om deze variabele meteen van een label en het juiste formaat te voorzien. Klik daarvoor in het Compute Variable scherm op drukknop [Type & Label]. In het nu volgend scherm kan het gewenste label en de juiste formaat worden opgegeven. Daarbij is het ook mogelijk de gebruikte rekenkundige expressie als label te kiezen. Opmerking 1: Onderstaande tabel geeft de betekenis van de tekens (relationele operators) in het rekenscherm: = ~= < <= > >= +,-,*,/ ** ~ ()
gelijk aan niet gelijk aan kleiner dan kleiner dan of gelijk aan groter dan groter dan of gelijk aan resp. plus, min, maal, gedeeld door tot de macht niet tussen haakjes
Voor het combineren van rekenkundige expressies kan gebruik worden gemaakt van: & en (ook: AND) Voorbeeld (hearing.sav bestand): geslacht =1 & hearaid = 1 (betreft mannen met een hoorapparaat) | of (ook: OR) Voorbeeld (hearing.sav bestand): hearaid = 1 | hearing1 = 3 (betreft alle respondenten met een gehoorapparaat en alle respondenten die zelf vinden dat ze slecht horen ) Opmerking 2: SPSS voert berekeningen altijd case voor case uit, dus rij voor rij. Je kunt daardoor bijvoorbeeld niet alle waarden van één variabele (per kolom) bij elkaar optellen.
Training 1
5. Rekenen-I (Compute Variable)
22
6.
Kruistabellen (Crosstabs) Een handige manier om inzicht in categorische data (= nominale en ordinale variabelen) te verkrijgen is middels een kruistabel, een soort multidimensionele frequentietabel. In een kruistabel worden de waarden van de ene variabele (de kolommen) gekruist tegen de waarden van de andere variabele (de rijen). Elke rij * kolom combinatie heet een cel. Alle cellen tezamen vormen de kruistabel. In de cellen staan de waargenomen aantallen ofwel de geobserveerde frequenties. De procedure Crosstabs zal aan de hand van een voorbeeld worden uitgelegd. We gaan uit van het hearing.sav bestand (voor de beschrijving van dit bestand zie Stap3) en we willen weten hoe de waarnemingen verdeeld zijn wat betreft het geslacht (sex) en de hoorverslechtering (hearimp).
6.1
Open hearing.sav en sluit daarna stap12.sav zonder te bewaren. Voorzie sex en hearimp van de juiste value labels (zie de beschrijving van het bestand in Stap 3) en definieer 999 als missende waarde voor hearimp. Het venster Crosstabs maak je actief via . In het kader onder Row(s) geef je de variabele op die de rij moet gaan vormen, en onder Column(s) de variabele die de kolom moet gaan vormen.
6.2
Start de procedure Crosstabs. Geef als rijvariabele sex op en als kolomvariabele hearimp:
Druk op [OK]. Het outputvenster verschijnt en in het eerste gedeelte van de uitvoer staat een tabel met samenvattende gegevens (aantallen en ontbrekende waarden). Vervolgens staat er een afdruk van de gewenste kruistabel(zie instructiefilmpje: crosstabs.avi). Ga na hoeveel vrouwen een verslechterd gehoor hebben. En hoeveel mannen? [zie *] *39 vrouwen en 34 mannen Training 1
6. Kruistabellen (Crosstabs) 23
6.3
Middels de procedure Crosstabs worden standaard de geobserveerde frequenties in een kruistabel weergegeven. Er kan ook een uitgebreidere kruistabel worden opgevraagd waarin percentages vermeld worden. Herhaal de vorige opdracht maar activeer nu in het Crosstabs venster de drukknop [Cells...]. Het volgende venster verschijnt:
Vink de hokjes onder Counts en Percentages aan zoals hierboven is aangegeven en druk op [Continue] en vervolgens op [OK]. Je verkrijgt op deze manier een uitgebreidere kruistabel waarin naast de geobserveerde frequenties ook de kolom,- rij,- en totale percentages vermeld staan: sex * hearimp Crosstabulation
sex
male
female
Total
Count % within sex % within hearimp % of Total Count % within sex % within hearimp % of Total Count % within sex % within hearimp % of Total
hearimp not hearing hearing impaired impaired 14 34 29.2% 70.8% 58.3% 46.6% 14.4% 35.1% 10 39 20.4% 79.6% 41.7% 53.4% 10.3% 40.2% 24 73 24.7% 75.3% 100.0% 100.0% 24.7% 75.3%
Total 48 100.0% 49.5% 49.5% 49 100.0% 50.5% 50.5% 97 100.0% 100.0% 100.0%
Uit bovenstaande tabel kan men aflezen dat 29.2% van de mannen geen verslechterd gehoor heeft (% within SEX, =14/48). Van de mensen die geen verslechterd gehoor hebben, is bovendien 58.3% man (% within HEARIMP, =14/24). Ook kan men in de tabel zien dat 14.4% van alle proefpersonen mannen zijn met geen verslechterd gehoor (% of Total, =14/97). Ga na hoeveel procent van de vrouwen een verslechterd gehoor heeft. [zie *] Hoeveel procent van het totale aantal proefpersonen zijn vrouwen met een verslechterd gehoor? [zie **] *79.6% **40.2% Training 1
6. Kruistabellen Crosstabs) 24
Het kan zijn dat je soms alleen geïnteresseerd bent in rijpercentages, vink dan alleen dat hokje aan. De tabel is daardoor gemakkelijker te lezen. Het is ook mogelijk een kruistabel te maken voor verschillende groepen, zoals bijvoorbeeld een kruistabel van sex tegen hearimp voor de drie leeftijdsgroepen (agegrp1) afzonderlijk. 6.4
Vraag een kruistabel op van sex (Row) tegen hearimp (Column) en geef daarbij onder Layer agegrp1 op. Het resultaat is dat voor elke waarde van de variabele agegrp1 een kruistabel van sex tegen hearimp wordt gemaakt. Vraag: Hoeveel procent van de mannen van 55-64 jaar (agegrp1=1) hebben een verslechterd gehoor? [zie *]
*100% Training 1
6. Kruistabellen Crosstabs) 25
7.
Oefenen I In deze Stap zullen de hiervoor besproken procedures toegepast worden. De uitwerkingen zijn na de laatste sessie van training 1 beschikbaar op ELEUM (file: uitwerkingen_Stap7.pdf) zodat je je eigen uitvoer en de antwoorden kunt controleren. Voordat je begint is het handig om te controleren of SPSS als volgt is ingesteld: kies binnen het SPSS datavenster of outputvenster <Edit> klik op het tabblad ‘Viewer’ en zorg dat links onderaan “Display commands in the log” is aangevinkt:
In de outputfile komt nu naast de uitvoer ook de SPSS syntax te staan, d.w.z. de SPSS ‘commandotaal’. Aan de hand van deze syntax kun je later bij elke opgave nagaan welke SPSS procedures je hebt toegepast bij een bepaalde opgave, en kun je deze vergelijken met de procedures en de syntax in de uitwerkingen op ELEUM. Sla alle uitvoer op in één outputfile en schrijf de antwoorden op de vragen hieronder op. Het kan zijn dat je SPSS trainer vraagt om je uitvoer en de antwoorden te laten zien voordat je kunt aftekenen, bewaar ze dus beide in elk geval!!!
7.1 7.2
Open het bestand hearing.sav en sluit alle andere databestanden die eventueel nog open zijn zonder te bewaren. Zorg dat de variabelen sex, hearaid en agegrp1 van de juiste value labels zijn voorzien. De hiervoor benodigde beschrijving van hearing.sav vind je in Stap 3! Onderzoek de variabele age middels de procedure Explore voor mannen en vrouwen afzonderlijk. Wat is de gemiddelde leeftijd van de mannen? ……………….. Wat is de variantie van de leeftijd van de vrouwen? ………….. Training 1
7. Oefenen I 26
7.3
Definieer 998 als missende waarde voor de variabele hearaid.
7.4
Gebruik de procedure Frequencies om te onderzoeken hoeveel procent van de proefpersonen een hoorapparaat heeft (wel hoorapparaat: hearaid =1, geen hoorapparaat: hearaid=2) Wat is het verschil tussen de percentages in de kolom ‘Percent’ en de kolom ‘Valid Percent’? …………………….…………………….………………………………….
7.5.1 Maak een kruistabel van hearaid en agegrp1. Zorg dat er alleen aantallen in deze kruistabel afgedrukt worden, dus geen percentages. Beantwoord onderstaande vragen: a. Hoeveel personen in de oudste leeftijdsgroep hebben een hoorapparaat? ……………… b. Hoeveel personen zitten er in de oudste leeftijdsgroep? ……………… c. Bereken nu hoeveel procent van de oudste leeftijdsgroep een hoorapparaat heeft? ........... d. Bereken ook hoeveel procent van de personen zonder hoorapparaat tot de jongste leeftijdsgroep behoort? ……………… e. Probeer uit de tabel af te leiden of er een relatie is tussen het hebben van een hoorapparaat en de leeftijdscategorie……………… 7.5.2 Vraag dezelfde kruistabel aan maar nu met alle rij, kolom en totaal percentages. Ga na waar de antwoorden van c. en d. terug te vinden zijn in de tabel. ………………………………………………………………………………………… 7.6
Maak middels de procedure Frequencies eerst een bar chart en daarna een histogram van de variabelen age en agegrp1 zonder dat er in de uitvoer frequentietabellen verschijnen. Beslis voor beide variabelen apart welke grafiek de data het beste weergeeft, en waarom? ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… Hier komen we in de volgende Stap nog op terug.
Training 1
7. Oefenen I 27
8.
Grafische uitvoer, printen en SPSS uitvoer in WORD Tot nu toe werd de uitvoer zichtbaar gemaakt in het outputvenster en kon de inhoud van dit venster, eventueel na correctie, worden opgeslagen in een file. De uitvoer bestond uit tekst, soms uit tabellen en tekst. Een aantal procedures produceert behalve tekst ook plaatjes. Bij weer andere procedures bestaat de uitvoer uit louter plaatjes.
8.1
Grafische uitvoer: Histogram Open hearing.sav. Kies voor . Selecteer in het venster dat wordt aangeboden age als variabele en druk op [OK]. SPSS maakt een histogram van de gekozen variabele. Controleer of dat inderdaad is gebeurd door het outputvenster te bekijken. Door in het uitvoervenster dubbel te klikken op het histogram verschijnt de zogenaamde “SPSS Chart Editor”. In dit venster is het mogelijk de grafische uitvoer van het betreffende histogram naar wens te veranderen (te editen). Dit venster heeft namelijk zijn eigen menu- en knoppenbalk. Als voorbeeld zullen we de kleur van de staven van het histogram veranderen. Dubbelklik in de uitvoer op het histogram zodat de Chart Editor verschijnt. Dubbelklik vervolgens op een staaf om het gehele histogram te selecteren. Het Properties venster verschijnt. In dit venster kan onder het tabblad ‘Fill & Border’ de gewenste kleur geselecteerd worden. Dit kan ook door gebruik te maken van de Fill Color knop van de knoppenbalk welke hieronder is aangegeven met de pijl:
Kies een kleur en druk op [Apply] in het Properties venster (niet nodig wanneer men gebruik maakt van de Fill Color knop). De kleur van het histogram verandert meteen.
Training 2
8. Grafische uitvoer, printen en SPSS uitvoer in WORD 28
8.2
Grafische uitvoer: Bar Chart (Staafgrafiek) Maak nu een Bar Chart (staafgrafiek) van de variabele age. Kies , en vervolgens ‘Simple’, druk op de knop [Define]. Vul in bij Bars Represent: N of cases. Definieer age als Category Axis en klik op [OK]. Vergelijk deze grafiek met het histogram. Naar welke gaat je voorkeur uit, motiveer. [zie *] Voor welk soort variabele geeft een Bar Chart een goede weergave van de data? [zie **] De inhoud van het uitvoervenster kan rechtstreeks naar een printer worden gestuurd of worden opgeslagen in een Spo-file (zie Stap1).
8.3
Printen: Om de computer een printopdracht te geven klik je op . Klik in het Afdrukken venster op [Eigenschappen] om in te stellen dat de printer 2 pagina’s per A4 print!!! Dat deze mogelijkheid bestaat is handig om te weten aangezien, je tijdens je studie regelmatig opdrachten met SPSS voor statistiek moet maken. Klik op [OK] en vervolgens op [Annuleren] (het echte uitprinten komt nog wel!).
8.4
SPSS uitvoer in Word.: Uitvoer in het outputvenster kan op een gemakkelijke manier gekopieerd worden naar een (bestaand) WORD document. Dit is erg handig voor bijvoorbeeld het maken van een verslag. In deze Stap gaan we eerst een grafiek en een tabel maken m.b.v SPSS, en vervolgens zullen we enkele onderdelen van deze uitvoer naar een WORD bestand kopieren. Om te kijken of er een verband bestaat tussen leeftijd en de fletcher index maken we een puntenwolk (een scatter). Definieer binnen hearing.sav eerst de waarde 999 als missing value voor fi_b_ear. Kies <Scatter/Dot...>, daarna ‘Simple Scatter’ en klik op [Define]. Zet age op de x-as en fi_b_ear op de y-as. Klik op [OK]. Hoe zou je het verband tussen beide variabelen kunnen omschrijven? [zie ***] Maak ook een frequentietabel van de variabele sex. Open een nieuw WORD document. Ga vervolgens weer terug naar het SPSS outputvenster. Dubbelklik in de uitvoer op de puntenwolk zodat de Chart Editor verschijnt. Kies <Edit> . Ga naar het WORD document en kies <Edit> <Paste>. Nu verschijnt de puntenwolk als plaatje in je WORD document. Selecteer nu de frequentietabel in het outputvenster. Kies <Edit> . Ga naar het WORD document en kies <Edit> <Paste>. Nu verschijnt de frequentietabel ook in het WORD document.
* Voorkeur voor histogram omdat age een continu variabele is ** Bar Chart is geschikt voor categorische variabelen *** Lineair verband
Training 2
8. Grafische uitvoer, printen en SPSS uitvoer in WORD
29
9.
Groeperen (Split File) Vaak is het wenselijk om een bepaalde procedure bijv. Descriptives, niet voor alle cases samen te laten uitvoeren, maar voor aparte groepen van cases. Dit kan met de procedure Split File. Deze procedure zullen we demonstreren aan de hand van het bestand geboorte.sav. Dit bestand bevat 40 cases met gegevens omtrent het geboortegewicht (geb_gew) en de zwangerschapsduur (zw_duur). Een derde variabele (zk_huis) bevat een code voor het deelnemende ziekenhuis (zk_huis =1, 2, of 3)
9.1
Open geboorte.sav en sluit hearing.sav (eventueel bewaren, is niet noodzakelijk voor verdere stappen). Dit bestand bevat geboortegegevens (geboortegewicht, zwangerschapsduur en deelnemend ziekenhuis) van 40 kinderen.Via en <Split File> kom je in het Split File venster. Selecteer de optie [○] voor Compare groups. Zet de variabele zk_huis in het venster “Groups Based on”. De optie [○] voor Sort the file by grouping variables is standaard geactiveerd, want de cases moeten gesorteerd zijn op basis van de groepsvariabele(n) om Split File goed te laten verlopen:
Na [OK] zie je in het datavenster dat de sortering is uitgevoerd en tevens staat rechtsonder vermeld dat Split File actief is (Split File On)
Training 2
9. Groeperen (Split File)
30
Voer nu op de gebruikelijke wijze de procedure Descriptives uit voor de variabelen geb_gew en zw_duur.( etc). De volgende uitvoer verschijnt (zie instructiefilmpje: splitfile.avi): Descriptive Statistics zk_huis 1,00
2,00
3,00
N geb_gew zw_duur Valid N (listwise) geb_gew zw_duur Valid N (listwise) geb_gew zw_duur Valid N (listwise)
15 15 15 14 14 14 11 11 11
Minimum ,70 26,00
Maximum 1,40 35,00
Mean 1,0733 30,0667
Std. Deviation ,20166 2,63131
,80 27,00
1,90 36,00
1,4429 31,3571
,33904 2,95107
1,00 28,00
1,70 36,00
1,3182 32,0909
,23587 2,77325
Uit de uitvoer is op te maken dat SPSS de drie ziekenhuizen apart heeft behandeld! Dit is het resultaat van Split File by zk_huis. Je hebt hier gebruik gemaakt van één groepsvariabele (zk_huis), maar dat mogen er ook meer zijn. Dan wordt er voor elke combinatie van deze variabelen een aparte uitvoer gegeven. Let op: Het is alleen zinvol om te splitsen op een variabele die groepen ofwel categorieën kent (categorische variabele) 9.2
Open het bestand hearing.sav en sluit geboorte.sav af zonder te bewaren. Bereken de gemiddelde leeftijd voor mannen en vrouwen apart door gebruik te maken van de procedure Split File. [zie*]
* mannen 73.51; vrouwen 73.36 Training 2
9. Groeperen (Split File)
31
10.
Selecteren (Select Cases) In Stap 9 (Split File) hebben we gezien dat het mogelijk is SPSS procedures te laten uitvoeren voor aparte groepen van cases. De uitvoer wordt dan voor elke groep apart weergegeven. Het is ook mogelijk om alleen die cases (rijen) te selecteren die aan bepaalde condities voldoen. Zo kunnen bijvoorbeeld die cases worden geselecteerd waarvoor de variabele geslacht gelijk is aan de waarde 1, en tevens de variabele leeftijd groter is dan 45. Dat selecteren kan van tijdelijke aard zijn (tot het moment dat de selectie wordt opgeheven) of van blijvende aard. In het eerste geval worden de NIET-geselecteerde cases in de Data View gemarkeerd (=Filtered) middels een schuine streep door het rijnummer (meest linker kolom). In het andere geval worden de cases uit het actuele bestand definitief verwijderd (=Deleted)!! Alleen door de gegevens opnieuw in te lezen kunnen deze cases nog geanalyseerd worden. Voorzichtigheid is dus geboden!!
10.1
Open de file geboorte.sav (mocht je deze nog hebben openstaan na Stap 9 zet dan eerst Split File uit!) en sluit hearing.sav af. Zoals we al zagen Stap 9 bevat dit bestand een aantal geboortegegevens van 40 kinderen. De derde variabele (zk_huis) bevat een code voor het deelnemende ziekenhuis (zk_huis = 1, 2 of 3). Voor de te verrichten analyses zijn alleen de gegevens van zk_huis=1 nodig. We willen dan ook alleen die cases selecteren die voldoen aan zk_huis=1. Via Menu-keuze <Select Cases> kom je in het Select Cases venster. Kies binnen dit venster onder Select voor If condition is satisfied en onder Output voor Delete unselected cases (we zijn dus onvoorzichtig!):
Klik op [If...] en je komt in een venster dat gelegenheid biedt de conditie (zk_huis = 1) op te geven:
Training 2
10. Selecteren (Select Cases) 32
Als je vervolgens [Continue] en [OK] gebruikt wordt de selectie uitgevoerd. De Data View blijkt inderdaad nog maar 15 cases te bevatten. Natuurlijk hebben die allemaal de waarde '1' voor de variabele zk_huis. 10.2
Open een nieuw datavenster middels en sluit het bestand geboorte.sav zonder (!) op te slaan. Laat SPSS geboorte.sav opnieuw lezen. Zoek het selectievenster weer op, maar kies nu voor Filter out unselected cases. Definieer onder [If…] dezelfde conditie en voer de selectie uit (zie instructiefilmpje: selectcases.avi). Je ziet nu in het datavenster dat alle waarden er nog in staan. Alleen zijn de niet-geselecteerde cases in de nummerkolom (links) gemarkeerd. Er is bovendien een nieuwe variabele gecreëerd: filter_$. Die bevat een '0' voor de niet-geselecteerde en een '1' voor de geselecteerde cases. Rechtsonder in het datavenster staat vermeld: Filter on. Wanneer je nu procedures uitvoert (Case Summaries, Frequencies, etc) hebben die slechts betrekking op de geselecteerde (= niet gemarkeerde) cases. Let op! • De selectie blijft bestaan totdat je de selectie opheft. De selectie wordt opgeheven door in het Select Cases venster onder Select de knop All Cases te activeren. Als je dat doet zul je zien dat de variabele filter_$ blijft bestaan. Die kun je dus later nog eens gebruiken. Zou je dan niet meer weten op welke selectie die variabele betrekking heeft dan kun je dubbelklikken op de naam van die variabele (filter_$). Dit geldt overigens alleen voor de laatst uitgevoerde selectie! • Stel dat je de cases wilt selecteren die betrekking hebben op zk_huis=1 en ook nog voldoen aan de voorwaarde zw_duur < 30. Je moet in dat geval de dubbele conditie in één keer opgeven: zk_huis = 1 AND zw_duur < 30. In plaats van ‘AND’ kun je ook het teken ‘&’ gebruiken. Het is dus niet mogelijk die selectie in twee stappen uit te voeren! • Alle procedures onder Transform worden ook voor de niet geselecteerde cases verricht!!!
Training 2
10. Selecteren (Select Cases) 33
11.
Hercoderen (Recode) Soms is het gewenst de waarden van een categorische variabele te hercoderen. Als bijvoorbeeld geslacht gecodeerd is als 0 (man) en 1 (vrouw) en je wilt dit veranderen in 3 (man) en 4 (vrouw) is Hercoderen (Recode) een geschikte methode. Dit moet men niet verwarren met het toekennen van de value labels in de Variable View (Stap 2)! Wanneer de variabele is gehercodeerd van 0-1 naar 3-4, zal men in de Variable View de value labels opnieuw moeten definiëren (dus: 3=man en 4=vrouw). Een ander geval waarin de procedure Recode gebruikt moet worden is wanneer men de waarden van een interval of continue variabele in klassen wil verdelen. Denk daarbij aan de variabele leeftijd (in jaren) die men wil hercoderen in de variabele lftcat, waarin de leeftijd in een beperkt aantal categorieën (bijv. jong, middel, oud) is verdeeld. Ook dit kan met de functie Hercoderen. Bij hercoderen heb je keuze uit twee mogelijkheden: 1. Into Same Variables, waarbij de oorspronkelijke waarden van de te hercoderen variabele worden overschreven met (ofwel vervangen door) de nieuwe waarden. Het gevolg is dat je niet meer kunt nagaan wat de oorspronkelijke waarden waren, de originele variabele wordt namelijk overschreven. Het is daarom aan te raden de andere mogelijkheid te gebruiken 2. Into Different Variables, waarbij een nieuwe variabele wordt gecreëerd en de oude variabele met de oorspronkelijke waarden blijft bestaan. Dit is de meest veilige methode!
11.1
Open het hearing.sav bestand en sluit geboorte.sav. We gaan de variabele hearscor indelen in klassen. Defineer eerst de waarde 999 van hearscor als missende waarde. Kies en . In het Recode into Different Variables venster staat links een lijst van de bestaande variabelen. Je kunt daar een of meerdere variabele(n) selecteren (= input variabele) door er op te klikken en middels een klik op de zwarte pijl í naar het middelste kader te transporteren (Numeric Variable>Output Variable). Selecteer de variabele hearscor en breng deze naar het middelste kader. Het is de bedoeling dat in dat kader achter ? op de plaats van het ?-teken de naam van de nieuwe variabele (= output variabele) moet komen. Die naam kun je rechtsboven onder Output Variable opgeven, waarna je op [Change] drukt en het ?-teken door de nieuwe naam wordt vervangen. Het is ook mogelijk om een label aan je nieuwe variabele toe te voegen onder Label, die ook rechts onder Output Variable staat. Noem de nieuwe variabele scocat en druk op [Change]:
Training 2
11. Hercoderen (Recode) 34
Druk vervolgens op [Old and New Values...]. Er verschijnt een venster waar je de oude en de nieuwe waarden kunt opgeven. We willen de variabele hearscor hercoderen in de nieuwe variabele scocat volgens het volgende hercoderingsvoorschrift: Hearscor ≤ 25 scocat = 1 25 75 scocat= 4 Bij hercoderen moet men het volgende goed onthouden:
SPSS hanteert de regel dat de eerste opdracht blijft gelden!! (d.w.z. dat opgegeven grenswaarden altijd bij de eerst gedefinieerde hercoderingsopdracht blijven horen, het voorbeeld zal dit verduidelijken) In de praktijk betekent dit dat bij het hercoderen in SPSS altijd moet worden gestart met de eerste opdracht waarin het ≤ of ≥ teken staat. In dit geval moeten we dus beginnen met het hercoderen van de variabele hearscor naar de categorie scocat = 1, want alleen dan weet SPSS dat de grenswaarde 25 bij die categorie (scocat = 1) hoort. Bij elke volgende opdracht waarin de grenswaarde 25 wordt gebruikt (bij scocat=2) leest SPSS > (groter dan) 25. • •
Klik links onder Old Value op de 5-de optie (= Range, LOWEST through value...) en vul 25 in het rechthoekje eronder. Rechts onder New Value typ je bij Value 1 in en klik op [Add]. Waarden van hearscor vanaf het minimum t/m 25 worden gehercodeerd naar 1. Klik nu links op de 4-de optie (= Range:) en vul 25 en 50 in. Bij New Value vul je bij Value 2 in en klik weer [Add]. Alle waarden van hearscor groter dan 25 en kleiner of gelijk aan 50 worden gehercodeerd naar 2. Completeer het hercoderings-voorschrift voor de andere waarden van de input variabele zodat het venster er uiteindelijk als volgt uit ziet:
Training 2
11. Hercoderen (Recode) 35
Druk op [Continue] en in het nieuwe venster op [OK] waarna de hercodering wordt uitgevoerd (zie instructiefilmpje: recode.avi). In het datavenster (meest rechtse kolom) staat een nieuwe variabele (scocat), met als uitkomstmogelijkheid de waarden 1, 2, 3 en 4. Geef in de Variable View aan dat scocat een ordinale variabele is (onder Measure, zie Stap 2). Controleer of de hercodering goed is uitgevoerd via <Explore>. Plaats de oorspronkelijke variabele (hearscor) onder de Dependent List en de nieuwe variabele (scocat) onder Factor List. Kies onderaan het venster onder Display voor Statistics (plots zijn niet nodig):
Druk op [OK]. In het uitvoerscherm verschijnt nu een beschrijving van de variabele hearscor voor elke waarde van scocat:
Training 2
11. Hercoderen (Recode) 36
Descriptives hearscor
scocat 1.00
Mean 95% Confidence Interval for Mean
Lower Bound Upper Bound
5% Trimmed Mean Median Variance Std. Deviation
2.00
Lower Bound Upper Bound
Lower Bound Upper Bound
5% Trimmed Mean Median Variance Std. Deviation
Minimum Maximum Range Interquartile Range Skewness Kurtosis
48.38
20 10 -1.447 1.355 66.41 64.71
.464 .902 .846
68.12 66.53 70.00 32.959 5.741
Minimum Maximum
4.00
. . 1.248
30 50
5% Trimmed Mean Median Variance Std. Deviation
Range Interquartile Range Skewness Kurtosis Mean 95% Confidence Interval for Mean
5 . . . 45.80 43.22
46.44 50.00 38.917 6.238
Minimum Maximum
3.00
49.27
15 20
5% Trimmed Mean Median Variance Std. Deviation
Range Interquartile Range Skewness Kurtosis Mean 95% Confidence Interval for Mean
Std. Error 2.500
. 17.50 12.500 3.536
Minimum Maximum Range Interquartile Range Skewness Kurtosis Mean 95% Confidence Interval for Mean
Statistic 17.50 -14.27
55 75
Lower Bound Upper Bound
20 10 -.220 -1.071 83.67 80.64
.350 .688 1.463
86.69 83.06 80.00 51.362 7.167
78 100 22 8 1.651 1.326
.472 .918
Aan de hand van de minimum en maximum waarden van hearscor binnen de scocat groepen kan men controleren of de hercodering is goed gegaan (vergelijk deze met het hercoderingsvoorschrift). Zo zie je dat de minimum(= 15) en maximum (= 20) waarden van hearscor binnen de categorie scocat =1 voldoen aan de voorwaarde van het hercoderingsvoorschrift: Hearscor ≤ 25 -> scocat = 1 Training 2
11. Hercoderen (Recode) 37
Opmerkingen: • Als je een nieuwe variabele maakt via de procedure Recode into Different Variables zullen de niet in het hercoderingsvoorschrift voorkomende waarden van de originele (input) variabele automatisch System Missing Values worden in de nieuwe variabele. Je kunt dat ondervangen door de onderste button (‘All other values’) te gebruiken in het Recode Variables venster en alle niet genoemde waarden samen te vatten in één nieuwe waarde. • Wil men bij de procedure Recode dat alle System- en User Missing Values van de originele variabele, ook als missing values worden gezien in de nieuwe variabele dan is het noodzakelijk dat in het Recode venster (Old and New Values) deze System- en User Missing Values worden gehercodeerd naar System Missing Values. Kies: System or user-missing (Old Value) → System-missing (New Value):
Training 2
11. Hercoderen (Recode) 38
12.
Editen van de Uitvoer, het Syntaxvenster, Files en SPSS In Stap 8 is heel kort al gesproken over het bewerken van de uitvoer. In deze Stap gaan we hier wat dieper op in. Het outputvenster bestaat uit twee delen, links een gedeelte waarin de opbouw van de uitvoer schematisch is weergegeven en rechts de uitvoer zelf.
12.1
Editen van de uitvoer: Voer een aantal procedures uit in het hearing.sav bestand, maak bijvoorbeeld een frequentietabel van fi_b_ear. Zorg dat het uitvoervenster schermvullend (groot) is. Er zijn verschillende mogelijkheden om de uitvoer te editen: In het linkergedeelte van het outputvenster staan de verschillende onderdelen van de uitvoer schematisch onder elkaar. Het gaat voor deze training te ver om alle onderdelen uit te leggen. Belangrijk om te onthouden is dat je een deel van een analyse kunt verwijderen door het desbetreffende onderdeel aan te klikken en op (van het toetsenbord) te drukken. In het rechtergedeelte staat de uitvoer zelf. Middels een schuifbalk helemaal aan de rechterkant kun je snel door deze uitvoer schuiven (scrollen). Een onderdeel kan worden verwijderd door erop te klikken en op te drukken. Het is ook mogelijk een stuk tekst of een tabel in de uitvoer te wijzigen. Om bijvoorbeeld de titel ‘Frequencies’ (boven aan de frequentietabel) te veranderen in ‘Frequentietabel van Fi-b-ear’ klikt men eerst twee keer dubbel op de betreffende tekst zelf. Er verschijnt een apart venster, waarbinnen men de tekst eenvoudig kan aanpassen. Verander de titel van de frequentietabel van ‘Frequencies’ naar ‘Frequentietabel van fi_b_ear’ en probeer tevens deze nieuwe titel cursief te maken door gebruik te maken van de formatting toolbar bovenaan het scherm (wanneer deze toolbar niet automatisch verschijnt klik je bovenaan op ): Originele titel
Training 2
12. Editen van de Uitvoer, het Syntaxvenster, Files en SPSS
39
Gewijzigde titel
Het is ook mogelijk een nieuw stuk tekst tussen te voegen in de uitvoer. Dit kan middels , of met onderstaand icoontje van de knoppenbalk bovenaan het uitvoervenster:
Er verschijnt nu een leeg tekstvenster waarbinnen je de gewenste tekst kunt typen:
Training 2
12. Editen van de Uitvoer, het Syntaxvenster, Files en SPSS
40
Opmerking: Het nieuwe tekstvenster verschijnt altijd direct onder het onderdeel dat op dat moment actief is, d.w.z. lichtgrijs gekleurd is met een rode pijl ervoor in het linkerdeel van het outputvenster. Je kunt zo’n onderdeel actief maken door er 1 keer op te klikken. Probeer een nieuw stukje tekst toe te voegen onder de frequentietabel. In Stap7 zagen we al dat het mogelijk is om de SPSS commando’s (syntax) die uitgevoerd worden op te nemen in de uitvoer (via <Edit> en vink dan ‘Display commands in the log’ aan). Dit is heel handig wanneer men in afgedrukte SPSS uitvoer wil nagaan welke procedures zijn uitgevoerd. Bekijk of deze optie al is aangevinkt! Het Syntaxvenster: Wij hebben tot nu toe gewerkt met de Data View, de Variable View en de Output. Er is ook een venster waarin SPSS instructies direct ingetikt kunnen worden, het Syntaxvenster (SPSS Syntax Editor). Het is je misschien al een keer opgevallen dat er in een menu-optie van een bepaalde procedure van SPSS ook een [Paste]-knop onder de [OK]-knop staat. Als je in plaats van de [OK]-knop op de [Paste]-knop zou drukken, kom je automatische in het Syntaxvenster terecht, waarin de instructie van SPSS in ‘geschreven’ vorm staat. Vanuit het Syntaxvenster kun je deze instructies laten uitvoeren door in de toolbar op het pijltje í te drukken.Een syntaxvenster is heel handig als je bijvoorbeeld een handeling vaak wil laten uitvoeren maar telkens voor een andere conditie. Je kunt namelijk in het syntaxvenster stukjes tekst markeren, kopiëren en plakken en kleine veranderingen, al naar gelieve, aanbrengen. 12.2
We werken met het hearing.sav bestand. Stel je wilt een aantal kruistabellen maken: sex vs hearing1, sex vs hearaid, agegrp1 vs hearaid, hearing1 vs hearaid. Via krijg je automatische alle mogelijke combinaties van tabellen van de variabelen die onder Rows(s) staan met de variabelen die onder Column(s) worden vermeld. Dit betekent dat je een aantal tabellen zou krijgen die je niet wilt. Of je zou een paar keer de crosstabs procedure moeten uitvoeren met iedere keer andere combinaties van variabelen. Dit kun je ook anders aanpakken door gewoon de eerste kruistabel aan te vragen via . Voer dit uit en geef de variabele sex als rijvariabele op en de variabele hearaid als kolomvariabele. Klik nu niet op [OK], maar op [Paste]. Je komt dan automatische in een venster met als titel Syntax1-SPSS Syntax Editor:
Training 2
12. Editen van de Uitvoer, het Syntaxvenster, Files en SPSS
41
De tekst die erin staat beschrijft in syntax taal het commando Crosstabs. Elk commando eindigt met een punt. Je kunt dit commando selecteren en middels Copy en Paste een aantal keren plakken. Kopieer de tekst twee keer en pas vervolgens per kopie de variabelenamen aan zodat er uiteindelijk drie kruistabellen zullen worden gemaakt: sex tegen hearaid, sex tegen agegrp1 en hearaid tegen agegrp1. Selecteer de gehele tekst middels Ctrl-A en klik vervolgens op het driehoekige pijltje (í) in de toolbar om de opdracht uit te laten voeren. Dit kan ook via de menukeuze . Alle gewenste kruistabellen worden nu achter elkaar aangemaakt in het uitvoervenster. Als je commentaar wilt toevoegen binnen een syntaxfile dan kan dit voorafgaande aan een commando, tussen twee commando’s of na het laatste commando en moet je de regel beginnen met een * en afsluiten met een punt. Dan weet SPSS dat zo’n regel alleen commentaar bevat en niet als een commando beschouwd dient te worden. Wanneer je bezig bent met een onderzoeksopdracht is het handig om de syntax file op te slaan voor toekomstig gebruik (File> Save As). Deze file krijgt automatisch .sps als extensie. Files en SPSS: In de loop van de practica zijn we een aantal bestandstypen tegengekomen. Om een overzicht te geven staan ze in onderstaande tabel. Bestandstype
Extensie
Datafile van SPSS
*.sav
Outputfile
*.spo
Syntaxfile
*.sps
Training 2
12. Editen van de Uitvoer, het Syntaxvenster, Files en SPSS
42
13.
Oefenen II Net zoals in Stap7 gaan we ook nu weer een aantal SPSS procedures die tot nu toe aan de orde zijn gekomen toepassen. De uitwerkingen van de opgaven zullen na de laatste sessie van training 2 beschikbaar zijn op ELEUM (file: uitwerkingen_Stap13.pdf) zodat je je eigen uitvoer en de antwoorden kunt controleren. Sla alle uitvoer op in één outputfile en schrijf de antwoorden op de vragen hieronder op. Het kan zijn dat je SPSS trainer vraagt om je uitvoer en de antwoorden te laten zien voordat je kunt aftekenen, bewaar ze dus beide in elk geval!!! Open hearing.sav (misschien heb je dit bestand nog openstaan van de vorige Stap, daar kun je dan ook mee verder werken). Zie Stap3 voor een beschrijving van dit bestand.
13.1
Onderzoek alle variabelen middels de procedure Descriptives: Bekijk van alle variabelen (behalve van id) de minimum en maximum waarde. Vergelijk deze met de waarden die deze variabelen kunnen aannemen volgens de beschrijving in Stap3. Zijn er variabelen met waarden die niet valide zijn? Zo ja, definieer al deze waarden dan als missing values voor de desbetreffende variabele. NB: Bij fi_b_ear is naast 999 ook 16,67 een niet valide waarde. In het databestand is deze waarde ingevoerd als 16,6666666… Om dit op een juiste manier als missing te definieren kun je in dit geval in het betreffende venster bij missing de derde optie Range plus one optional discrete value kiezen en invullen: low 1, high 19, Discrete value 999. Herhaal vervolgens de opdracht Descriptives en kijk opnieuw naar de minimum en maximum waarden. Check of je de volgende tabel hebt gekregen: Descriptive Statistics N sex hearing1 hearaid agegrp1 hearimp euroqol hearscor fi_b_ear age Valid N (listwise)
99 98 98 99 97 97 97 95 99 88
Minimum 1 1 1 1 0 25 15 20,00 56
Maximum 2 3 2 3 1 100 100 68,33 92
Mean 1,51 1,81 1,98 2,23 ,75 68,61 64,36 40,5263 73,43
Std. Deviation ,503 ,668 ,142 ,831 ,434 16,117 16,379 10,10952 8,472
Pas als je bovenstaande tabel hebt gekregen kun je verder gaan met de volgende opdracht! 13.2
Zorg dat de variabelen sex en agegrp1 zijn voorzien van de juiste value labels.
13.3
Bereken een nieuwe variabele agemonth die de leeftijd in maanden weergeeft. Bestudeer hiervoor nogmaals Stap 5. Wat is de gemiddelde leeftijd in maanden?.............................
13.4
We willen alleen die mensen analyseren die geen hoorapparaat hebben (hearaid = 2) én een fletcherindex hebben van groter of gelijk aan 35 (fi-b-ear≥35), omdat juist deze mensen veel baat zouden hebben van een hoorapparaat. Selecteer deze mensen. Aanwijzing: Selecteer de betreffende mensen via procedure Select Cases (zie Stap10). Check de instelling bij Select Cases: unselected cases moeten gefilterd worden! Training 2
13. Oefenen II 43
Van deze groep mensen willen we onderstaande vragen beantwoorden. Laat SPSS de daarvoor benodigde analyses uitvoeren. Wat is de gemiddelde leeftijd van deze groep mensen? ……………. Wat zijn de percentages mannen en vrouwen in deze groep? …………………….. 13.5
Gebruik de procedure Explore om de fletcher index per leeftijdscategorie van alle cases te bestuderen. Aanwijzing: Zet eerst Select Cases uit!! Ga hievoor terug naar het Select Cases venster en selecteer onder Select de knop All cases. Kies vervolgens in Explore: Dependent list: fi_b_ear, Factor List: agegrp1!! En niet age! Bestudeer de kengetallen zoals het gemiddelde, de standaard deviatie, het minimum en maximum, de range etc. en maak geschikte grafieken. Probeer alle uitvoer te begrijpen. Wat merk je op als je naar de relatie tussen de fletcher index en de leeftijd kijkt?...................................................................................................................
13.6
Onderzoek de verschillen in fletcher index tussen de verschillende leeftijdsgroepen, maar nu zonder gebruik te maken van de procedure Explore (zie Stap 9).
13.7
Maak een nieuwe variabele euroqolcat waarbij de waarden van euroqol in klassen ingedeeld worden. De waarden van 0 t/m 50 van euroqol moeten bij de nieuwe variabele waarde 1 krijgen, 51 t/m 75 waarde 2, en 76 t/m 100 waarde 3, dus het hercoderingsvoorschrift luidt: 0 ≤ euroqol ≤ 50 -> euroqolcat =1 51 ≤ euroqol ≤ 75 -> euroqolcat =2 76 ≤ euroqol ≤ 100 -> euroqolcat =3 Controleer via de procedure Explore of de hercodering is goed gegaan. Maak van deze nieuwe variabele een frequentieverdeling. Beslis welke grafiek (bar chart of histogram) het meest geschikt is voor de variabele euroqolcat en maak deze grafiek.
Training 2
13. Oefenen II 44
14.
Rekenen-2 (rekenen met If) In Stap5 is het rekenen in SPSS behandeld. Bekijk die Stap nog eens. Vaak komt het voor dat je een rekenvoorschrift wilt laten uitvoeren alleen voor cases die aan een bepaalde voorwaarde voldoen. We willen bijvoorbeeld een inkomensafhankelijke bijdrage berekenen die niet voor alle inkomens hetzelfde percentage bedraagt. Dit is niet mogelijk middels de procedures Select Cases of Split File!
14.1
Laat SPSS het bestand stap14.sav lezen en zorg dat via het rekenvenster verschijnt. Stap14.sav bevat drie variabelen: nr, geslacht en inkomen. We willen nu een nieuwe variabele laten berekenen die we bijdrage noemen. Deze variabele moet worden berekend volgens onderstaand rekenvoorschrift: Als inkomen ≤ 5000 dan bijdrage= 5% * (inkomen-2000) Als 5000 < inkomen ≤ 7500 dan bijdrage= 7.5% * (inkomen-2000) Als inkomen > 7500 dan bijdrage= 10% * ( inkomen-2000) Dit doen we als volgt: • Maak eerst het sommetje bijdrage = (inkomen- 2000) * 0.05:
Gebruik nog niet de [OK]-knop, maar klik onderaan op [If]. Onderstaand venster verschijnt. Kies voor de optie 'Include if case satisfies condition’ en vul de voorwaarde in (hier: inkomen ≤ 5000): Facultatief
14. Rekenen-2 (rekenen met If) 45
Druk vervolgens op [Continue] en in het volgende venster op [OK] om de rekenpartij uit te laten voeren. Je ziet dat de rekenpartij alleen voor de cases met een inkomen ≤ 5000 wordt uitgevoerd, terwijl voor de andere cases de System Missing waarde is ingevuld. • Ga terug naar het Compute Variable venster en voer vervolgens de volgende rekenopdracht uit: bijdrage = (inkomen-2000) * 0.10. Stel middels [If] als voorwaarde de conditie: inkomen > 7500. Klik op [Continue] en daarna op [OK]. SPSS vraagt nu toestemming om de bestaande variabele te overschrijven (‘Change existing variable?’). Klik op [OK], want je wilt natuurlijk een aantal van de System Missing waarden vervangen (namelijk die waarvoor geldt: inkomen > 7500). • Tenslotte moet bijdrage = (inkomen-2000) * 0.075 nog worden berekend onder de voorwaarde dat 5000 < inkomen ≤ 7500. Hierbij doet zich een probleem voor. Je zou mogen verwachten dat onder [If ] gewoon '5000 < inkomen ≤ 7500' ingevuld kan worden. Als je dat doet begint SPSS inderdaad te rekenen, maar doet dat alleen voor het linker deel van de ingevulde conditie: '5000 < inkomen' (anders gezegd: voor inkomen > 5000). De gewenste conditie bestaat echter uit twee delen en die delen moeten apart worden opgegeven en verbonden door de operators AND ofwel &. Je dient dus in dit geval onder [If] op te geven: inkomen > 5000 AND inkomen ≤ 7500 of: inkomen > 5000 & inkomen ≤ 7500. Als je nu kijkt naar de waarden die voor bijdrage zijn berekend valt het op dat case 7 een negatieve waarde heeft:
Facultatief
14. Rekenen-2 (rekenen met If) 46
Rekenkundig klopt dat wel, maar de opdrachtgever wil in het geval van een negatieve waarde de bijdrage op 0 stellen. Hiervoor staan verschillende methoden ter beschikking, zoals: • RECODE bijdrage: waarden kleiner dan 0 worden 0. • COMPUTE bijdrage: waarden kleiner dan 0 worden 0. We kunnen echter ook een andere, ingewikkeldere methode gebruiken, waarmee meteen het gebruik van ‘Functions’ wordt gedemonstreerd. 14.2
Ga weer naar het Compute Variable venster. De Target Variable is nog steeds bijdrage. In het veld Numeric Expression maken we gebruik van de functie Max. Deze functie bevindt zich onder Function group: Statistical, selecteer vervolgens bij Functions and Special Variables: Max. Max zorgt ervoor dat het maximum van een aantal argumenten wordt gekopieerd naar de Target Variable. Selecteer Max en breng die met het pijltje omhoog. Op de plaats van de ?,? komt achtereenvolgens bijdrage en 0 te staan:
Facultatief
14. Rekenen-2 (rekenen met If) 47
De functie Max bepaalt nu voor elke case het maximum van 0 en de waarde van de variabele bijdrage en plaatst dat maximum in bijdrage. Met andere woorden, wanneer de waarde van bijdrage kleiner dan 0 is, zoals het geval bij case 7, wordt deze waarde vervangen door 0. In alle andere gevallen blijft de eerder berekende waarde van bijdrage gewoon gehandhaafd. Laat SPSS de rekenpartij uitvoeren voor alle cases (dus onder [If] selecteer je Include all cases !). SPSS kent een groot aantal functies. Het gaat hier te ver om het gebruik ervan te demonstreren. Blader het lijstje eens door om een indruk te krijgen van de mogelijkheden.Via Help zou je nog informatie kunnen krijgen over een specifieke functie en tijdens je studie zul je meer mogelijkheden vanzelf ontdekken.
Facultatief
14. Rekenen-2 (rekenen met If) 48
15.
Bestanden samenvoegen (Merge Files) In de praktijk komt het dikwijls voor dat gegevens, die bij elkaar horen, zijn opgeslagen in verschillende files. Het kan zijn dat er twee (of meer) files zijn met verschillende cases, het kan ook zijn dat in twee (of meer) files verschillende variabelen van dezelfde cases zijn opgeslagen. Vaak moeten die files worden samengevoegd (= merge). Add Cases De datafile oef15.sav bevat gegevens omtrent vier toetsuitslagen van een vijftal studenten. Indien er toetsuitslagen van andere studenten in een andere datafile zijn opgeslagen, is het natuurlijk wenselijk om op een gegeven moment de twee datafiles te combineren in één file. Dat kan met de menu-optie onder <Merge Files>. Wanneer je op <Merge File> klikt, moet je kiezen voor . We willen de gegevens van toets3.sav (data over de vier toetsuitslagen van vijf andere studenten) toevoegen aan de datafile oef15.sav.
15.1
Open eerst oef15.sav en sluit databestanden van vorige Stappen af. Dit is je actieve datafile. Kies vervolgens <Merge Files> . In het venster dat nu verschijnt kies je voor “an external SPSS data file. Kies toets3.sav middels [Browse]. Nadat je op [Continue] hebt geklikt verschijnt het volgende venster:
Je ziet dat SPSS meteen begrijpt dat de beide datafiles overeenkomstige variabelen hebben. Deze gezamenlijke variabelen plaatst SPSS automatisch in de rechter box van het dialoog venster. Klik op [OK] en constateer zelf door in het datavenster te kijken hoe de twee datafiles samengevoegd zijn. Je kunt de samengevoegde datafile, eventueel onder een nieuwe naam, opslaan. Bedenk een toepasselijke filenaam en sla de nieuwe datafile op met behulp van <Save as>. Uit bovenstaand voorbeeld wordt duidelijk dat het handig is als de twee datafiles die je wilt samenvoegen dezelfde variabelen(-namen) bevatten. Het kan echter ook voorkomen dat de Facultatief
15. Bestanden samenvoegen (Merge Files) 49
ene datafile variabelen bevat die niet in de andere datafile voorkomen. Stel we willen de cases van de databestanden hearing.sav en geboorte.sav (zie Stap 9) samenvoegen. Onderstaand dialoogvenster verschijnt:
Een (*) achter de variabelenaam betekent dat de variabele behoort tot het actieve bestand (hearing.sav), terwijl een (+) betekent dat de variabele alleen tot de toe te voegen file behoort (geboorte.sav). De variabelen die in beide bestanden voorkomen worden automatisch opgenomen in de nieuwe samengevoegde file. De andere (*) en (+) variabelen kunnen in het nieuwe bestand worden opgenomen door ze met de pijl í naar rechts onder Variables in New Active Dataset te brengen. De (+)-variabelen, die dus niet voorkomen in het actieve bestand, worden daarbij voor de cases in het actieve bestand aangemaakt en gevuld met de waarde ‘system missing’ (zie Stap 4). Het omgekeerde kan natuurlijk ook het geval zijn! 15.2
Add Variables Naast het samenvoegen van twee datafiles met dezelfde variables (Add Cases) is het ook mogelijk om twee datafiles die dezelfde cases (bijv. personen) betreffen maar die verschillende variabelen bevatten, aan elkaar te koppelen met <Merge files>. Stel je beschikt bijvoorbeeld voor de personen in het bestand hearing.sav ook over gegevens van hun medische consumptie. Die gegevens staan echter in een ander databestand. Het kan interessant zijn om deze datafiles aan elkaar te koppelen om zodoende bijvoorbeeld te onderzoeken of medische consumptie verschilt voor de personen met en zonder een hoortoestel. De datafile met de gegevens over de medische consumptie is medcomp.sav. Deze bevat 2 variabelen, identificatie nummer (id) en medische consumptie (medcomp). We willen de variabele medcomp gaan toevoegen aan hearing.sav. Van essentieel belang bij zo’n koppelmanoeuvre is de ‘sleutel’ ofwel ‘key variable’. Dat is een variabele die in beide bestanden voorkomt en die SPSS laat weten welke cases gekoppeld moeten worden. Het is overigens heel goed mogelijk, en in de praktijk zelfs meestal het geval, dat er onderzoekseenheden (hier personen) zijn die niet in beide data sets voorkomen. In dit voorbeeld is de sleutel het identificatienummer (id). Dit moet uniek zijn voor de Facultatief 15. Bestanden samenvoegen (Merge Files) 50
dataset(s). SPSS vereist bovendien dat in beide datafiles de cases geordend zijn in oplopende waarden voor de sleutel of key variabele. Open het bestand medcomp.sav en sluit andere databestanden. Zorg dat de cases van medcomp.sav gesorteerd worden volgens de variabele id. Dit doe je volgens de stappen: <Sort Cases> in het volgende scherm:
Vul onder ‘Sort by:’ id in, klik op [OK]. Open naast medcomp.sav de file hearing.sav. Sorteer ook binnen hearing.sav op id. Zorg dat je met je muis in hearing.sav staat (dan is dat de actieve file). Klik op <Merge Files>. In het dialoogvenster ‘Add Variables to hearing.sav’ selecteer je onder de optie An open dataset de file medcomp.sav.:
Klik dan op Continue en het onderstaand venster opent:
Facultatief
15. Bestanden samenvoegen (Merge Files) 51
Links in het het venster zie je een regel ‘Match cases on key variable in sorted files’. Vink dit aan. Je ziet dat de eerste optie onder die regel (Both files provide cases) automatisch gekozen wordt. Dit is de ‘Default’ en dat kun je zo laten. Er is hooguit 1 case per key variable (hier identificatienummer) per dataset. Opmerking: Het is handig om te weten dat je de keyed table opties (Non-active dataset is keyed table of Active dataset is keyed table) gebruikt als je wilt zorgen dat meerdere cases eventueel dezelfde waarde kunnen krijgen voor dezelfde variabele. Denk hierbij aan het geval dat je een groep kinderen elk jaar laat komen voor een aantal standaard metingen. Je dataset is zo georganiseerd dat elk kind voor elk jaar een apart record heeft. Stel dat je de geboortedatum voor elk kind bij elk record zou willen toevoegen, en dat je in een apart databestand voor elk kind zowel het identificatienummer als de geboortedatum hebt staan. Dan zou je het databestand met geboortedatum als een keyed table willen zien die in elk geval de key variable (b.v. identificatienummer) en geboortedatum bevat. Deze file is een keyed table en zou geen nieuwe cases toevoegen, maar wel voor elke case een waarde voor de toe te voegen variabele (hier geboortedatum). Als de actieve file de file is waarin de vier cases per kind staan, dan zou je kiezen voor de optie External file is keyed table. Maar als je de file met de geboortedatum open hebt en je daaraan de file met vier cases per kind wilt toevoegen, kies dan voor de optie Active file is keyed table.
Facultatief
15. Bestanden samenvoegen (Merge Files) 52
Vervolgens is het mogelijk om id te kiezen en over te hevelen naar het raampje rechts onder ‘Key Variables’. Voer dit uit. Met behulp van [OK] kun je het samenvoegen nu in gang zetten. Je krijgt altijd de waarschuwing dat de merge files zou mislukken als de data sets niet gesorteerd zijn op de key variable, ook al heb je netjes gesorteerd. SPSS geeft die waarschuwing zodat je het gewoon niet vergeet!!! Er wordt tevens gevraagd of je de nieuwe datafile meteen al wil opslaan. Kies No. We kunnen namelijk altijd later nog beslissen of we de nieuwe file willen opslaan. Kijk in het datavenster van hearing.sav of alles is goed gegaan en de variabele medcomp aan het bestand is toegevoegd:
Facultatief
15. Bestanden samenvoegen (Merge Files) 53
16.
Cases samenvoegen (Aggregate) Stel dat bij de mensen uit het hearing.sav databestand een aantal keer een audiometrie is afgenomen. De deelnemers zijn bijvoorbeeld gedurende drie maanden elke maand gemeten, waarmee men hoopt een meer betrouwbare indicatie van de slechthorendheid te verkrijgen. De dataset audiometry.sav bevat de gegevens van het onderzoek. Voor elke audiometrie is een apart record aangemaakt, dus per patiënt zijn er 2 records. Als variabelen zijn het identificatienummer van de persoon en de audiometrie in de vorm van de ‘Fletcher- indexbeste- oor’ gegeven. Indien de audiometrische gegevens van het onderzoek in een datafile binnen SPSS in drie aparte variabelen bijvoorbeeld audiom1, audiom2, audiom3 geregistreerd waren dan was het makkelijk om het gemiddelde van de drie waarden te verkrijgen via en (zie Stap 5 en Stap 14). Bij dit onderzoek was het in de praktijk van de huisarts gemakkelijker om bij elke nieuwe meting een nieuw record aan te maken. Daarom gebruiken wij de procedure om toch het gemiddelde te kunnen berekenen. Open het bestand audiometry.sav en sluit alle andere databestanden (bewaren is niet nodig). Kies de menu-optie en vervolgens . Je komt dan in het volgende scherm:
In het venster wordt je gevraagd om minimaal twee dingen op te geven: de Break Variabele(s) en de Aggregated Variable(s).
Facultatief
16. Cases samenvoegen (Aggregate)
54
In dit onderzoek is de Break Variabele het identificatienummer (id). Dit wil zeggen dat het aggregeren afgebroken wordt als de Break Variable verschillend is. Dus per identificatienummer wordt geaggregeerd. Onder Summaries of Variables zet je de variabele audiom. Je kunt op verschillende manieren aggregeren. Kijk zelf maar eens naar de mogelijkheden onder de knop [Function] en probeer je iets bij de verschillende mogelijkheden voor te stellen. In dit onderzoek willen wij gewoon het gemiddelde of ‘mean’ berekenen. Ook is het mogelijk om de Aggregate Variable een zelf gekozen naam en label onder de knop [Name & Label]’ te geven. Default wordt hier de naam audiom_mean_1 gegeven. Vul de Break Variable en de Aggregate Variable in bovenstaand venster in. Zorg ervoor dat SPSS het gemiddelde berekent. Kies bij save voor de derde optie en geef onder [File] aan waarin de geaggregeerde gegevens moeten worden opgeslagen. Bij default wordt de file aggr.sav genoemd. Je mag uiteraard een andere naam en locatie bepalen. Geef zelf hier de naam aggr_audio.sav en kies de I-drive (I:\). Als je dit gedaan hebt, merk je dat de file audiometry.sav nog steeds de actieve file is. Open de file aggr_audio.sav en bekijk deze in de data editor.
Facultatief
16. Cases samenvoegen (Aggregate)
55