SPSS Reader seminar Communicatie & Organisatieverandering 2001 Afdeling Communicatiewetenschap Universiteit van Amsterdam
Wim J.L. Elving
Het materiaal in deze reader is samengesteld voor het seminar Communicatie en Organisatieverandering 2001. Het is gebaseerd op het onderzoekspracticum voor de opleiding Toegepaste Communicatiewetenschap van de Universiteit Twente. Bij de reader hoort een dataset. Het SPSS gedeelte is gebaseerd op een cursus SPSS/PC+ van het rekencentrum van de Rijksuniversiteit Groningen. Het is aangepast aan SPSS for windows versie 8.0. Voor details en meer geavanceerde mogelijkheden van het programma, wordt verwezen naar de SPSS-manuals en meer uitgebreide leerboeken zoals het boek van Huizingh. Het leren omgaan met een programma-pakket is het leren kennen van de commando's die binnen het pakket kunnen worden gegeven. Dit is een zaak van oefenen. Voor het oefenen is een data -set met gefingeerde gegevens beschikbaar, waarop de in de tekst geformuleerde opdrachten kunnen worden uitgevoerd. De commando's die nodig zijn voor het uitvoeren van de opdracht worden behandeld direct voorafgaande aan de opdracht. Gebruik de gestelde vragen om verder in te gaan op de stof en om te toetsen of de behandelde stof goed is begrepen. Bij de samenstelling van deze reader is gebruik gemaakt van: H. Camstra en D.M. van der Sluis: SPSS/PC + Cursusboek, Rijksuniversiteit Groningen, 1991 D.M. van der Sluis: Data Entry van SPSS/PC + V4.0 Rekencentrum Rijks universiteit Groningen, 1991 L.Th. van der Weele: Cursusboek DBASE en SPSS Rekencentrum Rijksuniversiteit Groningen, 1991 Overige literatuur: Dr. D.B. Baarde, Dr. M.P.M. de Goede: Basisboek Methoden en Technieken Stenfert Kroese, Leiden, 1990 SPSS/PC + V4.0 Base manual, SPSS lnc. E. Huizingh: Inleiding SPSS/PC+ en Data Entry Addison-Wesley Publishin Cornpany, lnc., Amsterdam, 1989
Inhoudsopgave
Voorwoord
2
Inhoudsopgave
3
Inleiding
4
1.
Organisatie data invoer
5
1.1. Codeboek 1.2. Analyseschema 1.3. Verschillende files
5 5 6
2.
Data invoer 2.1. 2.2. 2.3. 2.4. 2.5.
3
4
7
Te gebruiken coderingssysteem Missing values In de cursus gebruikte gegevens Invoeren van gegevens Files en organisatie van een spss sessie
7 8 8 9 12
Bewerkingen binnen SPSS
13
3.1. Werkwijze 3.2. Het veranderen van gegevens 3.2.1. Datamodificatie 3.2.2. Het Co mpute commando 3.2.3. Select cases 3.2.4. Count commando 3.2.5. Het sort cases commando
13 17
Analyses
24
4.1. Correlaties 4.2. T-Toets 4.3. Regressie 4.4. Variantie -analyse
24 24 25
Bijlage 1: Overzicht van de analyses binnen SPSS Bijlage 2: Overzicht van de betrouwbaarheidsanalyse
2
28 30
Inleiding Statistical Package for the Social Sciences (SPSS) is een algemeen statistisch pakket. Dit is een programma waarmee een groot aantal statistische bewerkingen kunnen worden uitgevoerd. Verder kunnen gegevensbestanden worden opgebouwd en gewijzigd. De mainframe-versie wordt SPSSX genoemd, terwijl de PC-versie de naam SPSS/PC + draagt. Inmiddels heeft SPSS meerdere versies windows 95 versie. In deze versie gebruiken we versie 8.0 (terwijl 10.0.5 alweer in de winkel ligt). SPSS bevat vrijwel alle denkbare statistische technieken en is een van de meest gebruikte statistische programma in de wereld. Naast statistiek, heeft SPSS ook zeer uitgebreide data -manipulatie voorzieningen voor omcodering, transformatie en groepering van gegevens. Variabelen en coderingen in een variabele kunnen van een label worden voorzien, wat de leesbaarheid van de uitvoer zeer bevordert. De PC-versie heeft ook voorzieningen om grafieken te maken. De mainframe-versie is batchgeoriënteerd met een redelijk eenvoudige commando-taal. De PC-versie is zowel menu- als commandogestuurd, maar is ook als batch-programma te gebruiken. Bovendien heeft de PC-versie een eventueel apart te gebruiken data-entry gedeelte. De windows versie tenslotte heeft de zogenaamde pulldown menu’s. Omdat de stuurtalen van de mainframe - en de PC-versie afgezien van enkele commando's identiek zijn en de gegevens op zogenaamd system-file niveau zijn uit te wisselen, zijn beide vormen uitstekend naast elkaar te gebruiken. In deze cursus zullen we de windows versie gebruiken. Hoewel SPSS in de eerste plaats bestemd is voor het uitvoeren van statistische analyses, is het pakket -ondanks beperkte mogelijkheden voor de verwerking van alfanumerieke gegevens- ook redelijk goed bruikbaar voor eenvoudig database-werk.
3
1.
Organisatie Data invoer en analyseren
De organisatie van een onderzoek is een belangrijk onderdeel waar meestal geen richtlijnen voor worden gegeven. Vele onderzoekers maken er dan ook een puinhoop van. De standaard die aan studenten wordt verteld is om de organisatie dusdanig voor elkaar te hebben dat een ander hieruit meteen wegwijs kan worden en direct analyses met de data moet kunnen uitvoeren. Dit kan door de volgende documenten te maken voordat je gaat analyseren. 1.1.
Codeboek
In het codeboek moet worden vastgelegd welke variabelen er worden gebruikt en welke codes er bij de diverse variabelen worden gebruikt. Vaak wordt een onderzoek afgenomen middels een schriftelijke vragenlijst, waarin respondenten middels het aankruizen van een hokje of het omcirkelen van een antwoord het antwoord op een item geeft. Het codeboek is het document dat deze vragenlijsten vertaalt in de gegevens die uiteindelijk binnen SPSS worden ingevoerd. In een codeboek staan de namen van de variabelen, de mogelijke waarden die deze variabele kan aannemen, de missende waarden die een variabele kan aannemen (die door de onderzoeker zelf is toegewezen). Tevens kan in het codeboek een code worden opgegeven in het geval een item tegengesteld is gesteld in vergelijking met de andere items die hetzelfde construct meten en waardoor deze uiteindelijk zal moeten worden gehercodeerd.
1.2.
Analyseschema
Het analyseschema is een document waarin komt te staan welke analyses je wilt gaan uitvoeren. In eerste instantie zul je bewerkingen met je data moeten uitvoeren om überhaupt statistische analyses te kunnen uitvoeren. Een analyseschema helpt je bij de organisatie van je data-analyse. Veel onderzoekers zoeken maar wat in de data -file zonder eerst na te gaan wat men wil weten (vissen genoemd). In je analyseschema geef je op welke items je op welke wijze wilt hercoderen, hoe je van meerdere items over één construct deze transformeert tot één waarde. Vervolgens geef je in het analyseschema aan hoe descriptieve analyses zullen worden uitgevoerd (frequentieverdelingen, gemiddelden, standaarddeviaties, tabellen e.d.). Als laatste geef je aan hoe je de onderzoeksvraag wilt gaan beantwoorden. Het analyseschema zal nooit compleet zijn, omdat men nooit van tevoren zeker kan weten hoe de relaties in de uiteindelijke dataset eruit zullen zien. Het geeft echter wel een leidraad voor je analyses. 1.3
Verschillende files
4
Binnen SPSS onderscheiden we verschillende soorten files. Ten eerste worden datafiles aangeduid met de extensie .sav. De output wordt gepresenteerd in de file .spo. Als laatste kennen we de opdrachtfiles (zogenaamde syntaxfiles of job’s) aangeduid met de extensie: .sps Kader 1.1 Bewaar de originele data. Het is belangrijk dat je niet met je ruwe data gaat analyseren. Je moet altijd een originele ruwe data file bewaren waar geen enkele bewerking mee is gedaan. Wanneer je dit niet doet loop je kans dat je data verloren gaan omdat je niet meer kunt nagaan wat je precies hebt gedaan, welke variabelen je hebt gehercodeerd en / of getransformeerd in andere waarden. Als de originele data niet meer beschikbaar zijn moeten de gegevens opnieuw worden ingevoerd.
Tip:
Om het overzicht tijdens het analyseren te bewaren is het handig om in een schrift of schrijfblok bij te houden met hierin de verschillende analyses die je hebt uitgevoerd.
5
2.
Data invoeren
In de fase van het verzamelen van gegevens verdient het aanbeveling al rekening te houden met eisen en mogelijkheden van, de bij verwerking te gebruiken, programmatuur. Van belang daarbij is het ontwerpen van een formulier om de data vast te leggen in een vorm dat het machine-leesbaar maken, dat wil zeggen: het vastleggen van de gegevens in een computer-bestand, met zo gering mogelijke inspanning kan plaatsvinden. Een beschrijving van de vragen en de gebruikte coderingen wordt het codeboek genoemd. Data invoeren kan op vele manieren, er kan ook een spreadsheet worden gebruikt, de data kan zelfs binnen een wordprocessor worden ingetypt. Het voordeel van data invoeren binnen SPSS zelf is dat eigenschappen van de variabele kunnen worden opgegeven, zoals labels, missing values, ranges etc. Bovendien kan het meetniveau van de variabele worden meegegeven (zie kader 2.1) Kad er 2.1. Meetniveau’s Onderzoeksgegevens kunnen van een verschillend meetniveau zijn. We verduidelijken dat met behulp van een eenvoudig voorbeeld. Weersomstandigheden kan je bijvoorbeeld typeren of benoemen als ‘kil’, ‘snikheet’ of als ‘rillerig herfstweer’. Dergelijke typeringen van weersomstandigheden zijn van nominaal meetniveau. Je kan ook een ordening aanbrengen in je beschrijving van het weer, zoals: ‘het was gisteren kouder dan vandaag’, of ‘er staat vandaag meer wind dan eergisteren’. Dergelijke ord eningen van de weersverschijnselen zijn van ordinaal meetniveau. Tevens zijn er meetinstrumenten om de weersomstandigheden vast te stellen. Je kan de temperatuur weergeven in graden Celsius. De stand op een thermometer geeft dan per interval aan hoe de weersomstandigheden zijn. Dergelijke metingen zijn van interval meetniveau. Heeft die thermometer dan ook nog een vast 0-punt, zoals bij het meten in graden Fahrenheit het geval is, dan is er sprake van een ratio meetniveau (Baarda, de Goede & Teunissen (1995): Basisboek Kwalitatief onderzoek. Houten: Stenfert Kroese).
2.1
Te gebruiken coderings-systeem
Hoewel met alfanumerieke en logische coderingen kan worden gewerkt, moet uiterst terughoudend worden omgegaan met niet-numerieke variabelen, omdat SPSS weinig voorzieningen voor niet-numerieke variabelen heeft. Het verdient dan ook aanbeveling zoveel mogelijk numerieke variabelen te gebruiken.
6
2.2
Missing values
In het codeboek zien we dat er bij de variabelen een code ‘missing value’ voor kan komen. Hiervoor is het getal 0 gekozen (een 9 komt ook vaak voor; bij meerdere posities wordt dit 00 of 99). Een missing value of ontbrekend gegeven staat voor een uitkomst die we niet hebben kunnen waarnemen. Bijvoorbeeld een leeftijd die niet was ingevuld of het niet invullen van een antwoord op de vraag naar verhuisplannen. Bij berekeningen, zoals de gemiddelde leeftijd of het percentage vrouwen, zullen deze ontbrekende gegevens niet beschouwd moeten worden. Dit kan in SPSS worden gerealiseerd door de code voor ontbrekend gegeven tot MISSING VALUE te verklaren. SPSS kent twee soorten missing values: de ‘system missing value’ en de ‘user missing value’. De system missing value wordt aan een variabele toegekend als de in te lezen score niet past bij het invoer-formaat. Bijvoorbeeld een letter of een veld dat geheel uit spaties bestaat bij een numerieke variabele. Ook wordt de system missing value toegekend wanneer bij een berekening de uitkomst ongedefinieerd is. Bijvoorbeeld een deling door nul of de wortel uit een negatief getal. Ook vindt dit plaats als in een expressie missing values voorkomen waardoor de uitkomst niet is te bepalen. De user missing value wordt door de gebruiker toegekend. Per variabele kan één code tot missing value worden verklaard. Hiervoor wordt het MISSING VALUE command gebruikt. In de specificatie worden de variabelen vermeld, of lijsten van variabelen, met tussen haakjes de missing value code. 2.3.
In de cursus gebruikte gegevens
In het onderzoekspracticum wordt geoefend met gegevens van een denkbeeldig onderzoek, dat aansluit bij het Basisboek Methoden en Technieken van Baarde en De Goede. In de jonge gemeente Tranendal leeft het gevoel dat er bij de bevolking enige onvrede bestaat over het wonen. Om na te gaan hoe de waardering over het wonen in de gemeente is, is een steekproef onderzoek gehouden bij inwoners van 18 tot 80 jaar. Gevraagd is naar de algemene waardering door de respondenten een cijfer hiervoor te laten geven tussen 1 (zeer slecht) en 10 (zeer goed). Verder is specifiek naar een oordeel over de voorzieningen gevraagd. Om na te gaan welke factoren deze oordelen beïnvloeden is bovendien het geslacht, de leeftijd, de opleiding en het aantal jaren dat men in Tranendal heeft gewoond gevraagd. Bovendien is gevraagd naar eventuele verhuisplannen en redenen hiervoor: de woning, de woonomgeving, de winkels, de culturele voorzieningen en de recreatieve voorzieningen. In deze cursus wordt gebruik gemaakt van een a-selecte steekproef van 50 respondenten met gefingeerde antwoorden.
7
De gegevens zijn vastgelegd volgens het volgende codeboek Variabele Respondentnummer Geslacht Leeftijd Hoogste opleiding Woonduur Waardeer Voorzieningenniveau
NAAM (in SPSS) RESPOND GESLACHT LEEFTIJD OPLEID WOONDUUR WAARDEER VOORZ
Verhuisplannen VERHUIS Redenen voor verhuizing Woning WONING Omgeving OMGEVING Winkels WINKELS Culturele voorzieningen CULTUUR Recreatiemogelijkheden RECREA Voor alle variabelen betekent code 0 missing value 2.4
Label 1= vrouw;2= man .. 1 = laag; 2 = midden; 3 = hoog Cijfers 1 t/m 10 1 = heel goed; 2 = tamelijk goed 3 = niet goed niet slecht 4 = tamelijk slecht; 5 = slecht 1 = ja; 2 = misschien; 3 = nee 1 = ja; 2 = nee 1 = ja; 2 = nee 1 = ja; 2 = nee 1 = ja; 2 = nee 1 = ja; 2 = nee
Invoeren van gegevens
Open SPSS middels de taakbalk (of het icoon in de desktop). Het volgende openingsscherm wordt getoond (zie figuur 2.1).
Figuur 2.1. Kies de optie ‘Type in data’ Door te dubbelklikken op de eerste var, die linksboven staat wordt het volgende scherm ge toond (zie figuur 2.2).
8
Figuur 2.2. Vul nu de naam van de variabele in volgens het codeboek op pagina 8. Begin met het respondentnummer (Naam RESPOND). Het respondentnummer kan de onderzoeker zelf altijd toewijzen. Alleen in het geval dit van te voren is opgeschreven op bijvoorbeeld de vragenlijst, en de respondent heeft het weggehaald kan het voorkomen dat een missende waarde voor respondentnummer kan voorkomen (denk hierbij bijvoorbeeld aan een onderzoek waarin meerdere keren een vragenlijst moet worden ingevuld, of een onderzoek waarbij andere gegevens van de respondent beschikbaar zijn en die gekoppeld moeten worden met de gegevens uit de vragenlijst). Bij RESPOND geef je door labels aan te klikken dat het respondentnummer betreft. Value labels hebben geen zin. Column format hoeft alleen gedefinieerd te worden als het aantal respondenten (bij een gewone telling althans) groter is dan acht posities (= DEFAULT; heel vaak niet dus). Met measurement kun je het meetniveau aangeven. Bij RESPOND is dat dus nominaal (je hebt het zelf toegewezen). Door OK aan te klikken kun je de tweede variabele definiëren. De tweede variabele betreft het geslacht. Definieer deze door GESLACHT als naam te geven, definieer de value labels als 1= vrouw, 2= man, definieer de missende waarde als zijnde ‘0’.
9
Opdracht 1: Definieer de volgende variabelen: Variabele RESPOND GESLACHT LEEFTIJD OPLEID
WOONDUUR •
Code -1 2 -1 2 3 --
Label -Vrouw Man Jaren Laag Midden Hoog Jaren
Missing value -0 00 0
00
Namen van variabelen.
Een naam mag uit maximaal acht tekens bestaan en moet beginnen met een letter of een der speciale tekens: @, # of $. Spaties mogen niet in een naam worden gebruikt.
Samenvattend kunnen we vaststellen dat het programma moet worden verteld welke namen voor de variabelen worden gebruikt (in de dosversie dienen we tevens aan te geven op welke posities de scores op die variabelen zijn gegeven).
Let op: bij de variabelen leeftijd en woonduur zijn twee waarden opgegeven als missende waarde. Dit omdat leeftijd en woonduur soms twee posities vergen (bij een leeftijd of woonduur die langer is dan 9 jaar). Opdracht 2: Voer de onderstaande gegevens in. Respondentnummer Geslacht 52 2 53 3 54 1 55 1 56 2 57 2 58 1 59 1
Leeftijd
Opleid 88 44 55 18 22 18 74 54
0 1 1 2 3 2 1 2
Woonduur 06 08 10 20 01 06 74 18
De opmerkende student zal in bovenstaande datalijst 2 fouten ontdekken. Geslacht kan geen waarde 3 aannemen (resp.nr= 53) Vraag 1: wat ga je doen als je dit tegenkomt? Wordt het een man of een vrouw?).
10
En (subtieler) de woonduur kan nooit hoger zijn dan de leeftijd (resp.nr.= 55). Het invoeren van data moet natuurlijk erg zorgvuldig gebeuren. Laat zien dat je de data hebt ingevoerd en je kunt verder gaan met analyseren. Wanneer je de data allemaal hebt ingevoerd bewaar je deze data. Gebruik hiervoor bijvoorbeeld de naam ruwedata.sav . Wanneer je vervolgens dan bewerkingen gaat maken kun je een kopie van je ruwedata.sav openen. Op deze manier hou je altijd de originele data. Kader 2.2. Invoeren van gegevens Bij het invoeren van data moet natuurlijk altijd voorkomen worden dat er fouten worden gemaakt. Vaak wordt data twee keer ingevoerd om zeker te zijn dat er geen fouten in de data-set zitten. Mocht iemand anders jouw data invoeren controleer dat dan altijd. Accepteer een foutenmarge van < 2% . Wees zorgvuldig bij het invoeren van data, controleer altijd steekproefsgewijs of de juiste data zijn ingevoerd!
2.5
Files en organisatie van een SPSS sessie
Binnen SPSS kennen we verschillende soorten files. Het is belangrijk dat je een originele file behoudt met de ruwe scores. Vaak is het zo dat je veel bewerkingen moet maken met je data. Als je op een gegeven moment niet meer kunt achterhalen wat je allemaal hebt gedaan kun je altijd teruggrijpen op de ruwe datafile. Het is dus handig om naast de ruwe data een file te hebben met daarin de bewerkingen. Die worden wel eens werkfile o.i.d. genoemd. Verder kun je door met de muis ‘paste’ aan te klikken, een zogenaamde syntax of job-file aanmaken waarin de opdrachten en/of bewerkingen staan die je op dat moment uit wil voeren. Tevens is het handig om tijdens het ‘rekenen’ een zogenaamd logboek bij te houden waarin je alle acties die je hebt uitgevoerd bijhoudt. Tevens staat er binnen windowsdirectory een file (meestal c:\windows\temp\spss.jnl) die aangemaakt wordt door SPSS waarin alle opdrachten en bewerkingen worden beschreven. Het is verstandig om aan te geven in de opties van SPSS dat deze file niet moet worden overschreven (=overwrite) bij een bewerking, maar dat nieuwe informatie (= append) er aan vast moet worden geplakt (helaas zal dat voor de pc’s in de CIV zaal niet opgaan, maar voor je eigen computer is het handig om dit aan te geven).
11
3.
Bewerkingen binnen SPSS
figuur 3.1
3.1
Werkwijze
SPSS for Windows kan zowel menugestuurd worden gebruikt alsook met behulp van syntax files (jobs). In oudere versies van SPSS/PC+ was het essentieel dat commando’s goed werden opgegeven. Het vergeten van een punt achter een commando kon desastreuze gevolgen hebben. De syntax files binnen de huidige SPSS versies lijken op de ‘oude’files. In kader 3.1 wordt een syntaxfile weergegeven
Kader 3.1. Voorbeeld van een syntax file GET FILE ‘A:\RUWE.DAT’. RECODE SEKSE (1=2)(2=1). REGRESSION/ DEPEPENDENT LONELINESS/ STATISTICS R-CHANGE/ FACTORS SELFEFF, SOCSUP/ METHOD ENTER.
In de windowsversie wordt standaard de data getoond. Met behulp van de muis kan in het gewenste pull down menu de gewenste optie worden gekozen. Met behulp van deze menu’s kan een opdracht worden geformuleerd. Door de variabelen te selecteren die in de analyse of andere bewerking moeten worden
12
betrokken en de gewenste opties aan te klikken zal met een simpele muisklik op OK de analyse of bewerking worden verricht. In deze cursus werken we met een bestaande datafile. Deze staat op de bijgeleverde floppy disk. Selecteer de dataset (op de cursusflop: a:\DATAOP.DAT). Een van de meest gebruikte analyses zijn descriptieve analyses. Die staan onder het menu analyse data, summarize,. Daarin staan een aantal opties waaronder frequencies en descriptives. Met frequencies kunnen frequentieverdelingen berekend worden, met descriptives kunnen gemiddelden etc. worden berekend. Na selectie van Variables kunnen de gewenste variabelen worden geselecteerd. Opdracht 3: Maak een frequentie verdeling van de variabele geslacht. Hoeveel vrouwen en hoeveel mannen zitten er in de steekproef? Opdracht 4: Bereken vervolgens de gemiddelde (MEAN) leeftijd van de proefpersonen. Bij een variabele als de leeftijd waarin veel verschillende scores kunnen voorkomen is een frequentie-tabel weinig zinvol Voorbeeld 3.1
Figuur 3.2
13
figuur 3.3 In figuren 3.2 en 3.3 wordt een voorbeeld gegeven van een frequentie verdeling van leeftijd en woonduur en wordt het gemiddelde van beide variabelen berekend en een histogram weergegeven van de geselecteerde variabelen. LET OP: alle bewerkingen kunnen in 1 analyse gedaan worden, je dient met de muis de verschillende opties aan te klikken.
14
Figuur 3.4 Voorbeeld 2: Het maken van een kruistabel: In figuur 3.4 wordt weergegeven hoe een kruistabel kan worden berekend. Door nu op statistics te klikken, de opties aan te geven en eventueel het formaat kun je een simpele kruistabel maken. De kruistabel voor de variabelen opleid en geslacht wordt ge vormd met aantallen (CELLS = COUNT), rij-percentages (CELLS = ROW), kolompercentages (CELLS =COLUMN) en percentages van het totale aantal cases (CELLS = TOTAL). Verder wordt de Chi-kwadraat toetsingsgrootheid berekend (STATISTICS = CHISQ).
Opdracht 5: Maak een kruistabel van de variabelen geslacht en verhuis en toets of er een (statistisch) verband is tussen deze twee variabelen. Opdracht 6: Maak een frequentie-verdeling en een staafdiagram van de variabele opleiding. Opdracht 7: is het percentage met een hoge opleiding van: •
alle respondenten?
•
de respondenten die antwoord hebben gegeven op de variabele opleid?
3.4
Het veranderen van gegevens
15
Voor het analyseren van de gegevens is het vaak nodig veranderingen in de data aan te brengen. Zo kan de codering van een variabele worden gewijzigd, kunnen nieuwe variabelen worden gevormd uit één of meer bestaande variabelen, kunnen cases worden onderverdeeld in groepen of deelbestanden worden gevormd. Elke verandering vindt plaats op de gegevens in de actieve file. Als de gegevens weer opgeslagen zijn zullen oude gegevens verloren gaan (zie ook organisatie en files)
Figuur 3.5
3.4.1
Datamodificatie
Het RECODE command Met RECODE kan de codering van bestaande variabelen worden gewijzigd en daarmee aan de scores van alle individuen een aangepaste waarde worden gegeven. Dit commando gebruik je nogal eens omdat ter voorkoming van responsesets (een proefpersoon vult in een vragenlijst alleen maar viertjes in) je soms een variabele tegengesteld vraagt (in plaats van bijvoorbeeld: ‘Ik mis vrienden om me heen’ ‘Ik heb veel vrienden’). In het geval dat er op een 5-puntsschaal wordt gevraagd dien je op te geven dat bij het
16
specifieke item dat de 5 een 1 moet zijn dat de 4 een 2 moet zijn, een 2 een 4 en een 1 een 5 (de 3 blijft een 3 natuurlijk). In het specificatie -gedeelte worden de namen van de te wijzigen variabelen vermeld met tussen ronde haakjes de hercodering. Bijvoorbeeld willen we de variabele verhuis wijzigen in: ja of misschien (codes 1 en 2) en nee (code 3). Dit kan met de volgende opdracht: RECODE verhuis (1,2 = 1)(3 = 2). De nul blijft ongewijzigd en blijft dan ook een missing value. Voor de laagste en hoogste waarden die voorkomen, kunnen de keywords LOWEST en HIGHEST worden gebruikt. De system missing value is niet inbegrepen bij dit bereik. Binnen SPSS for windows 8.0 kan gekozen worden uit recode into same variable en recode into different variable. Als de eerste optie wordt gekozen zal de data van deze variabele gewijzigd worden, de tweede (veiliger) optie maakt een nieuwe variabele aan. Zie figuur 3.6. Figuur 3.6. Door de optie If te kiezen kan een conditie worden aangegeven onder welke omstandigheden data moet worden gehercodeerd. Met de optie Old and New Values.. wordt het volgende scherm getoond (figuur 3.7).
17
Figuur 3.7 Door Add aan te klikken wordt ook de laatste hercodering (61 through highest = 4) toegevoegd. Wanneer een aantal codes wordt gewijzigd en de overigen één bepaalde waarde moeten krijgen, kan het keyword ELSE worden gebruikt, met de betekenis: alle andere variabelen. Voorbeeld RECODE verhuis (1,2 = 1)(ELSE =- 2). Bij ELSE zijn nu de system en de user missing value wel inbegrepen. Opdracht 8: Hercodeer de variabele verhuis tot een variabele met twee klassen: ‘ja’ tegenover ‘misschien’ en ‘nee’. Verdeel ook de variabele leeftijd in twee klassen: jonger dan 35 jaar/ 35 jaar of ouder. Maak een kruistabel van de aldus gevormde variabelen.
3.4.2. Het COMPUTE command Met COMPUTE kan een waarde voor een variabele worden berekend uit bestaande variabelen, functies en constanten met behulp van rekenkundige en logische uitdrukkingen. In de sociale wetenschappen worden vaak bestaande schaaltjes gebruikt om iets te meten. Zo zijn er schaaltjes voor het vaststellen van de hoeveelheid eenzaamheid, om een tendentie te meten van de sociale wenselijkheid, de attitude naar een bepaald object, een annoyance schaal enzovoort (zie voor verdere uitleg en uitleg over de betrouwbaarheid bijlage 2). Meestal bestaan de schaaltje uit meerdere items (vragen) waarop respondenten moeten aangeven in hoeverre men het ermee eens is of hoe vaak iets voorkomt. Om van de afzonderlijke items één bepaalde schaalwaarde te bepalen dien je de afzonderlijke items (mits gehercodeerd in dezelfde richting) bij elkaar op te tellen. Daarvoor kun je het compute commando gebruiken.
18
Voorbeelden
De nieuwe variabelen worden geplaatst achteraan de lijst van bestaande variabelen. In de rekenkundige uitdrukking die na het =teken komt, kunnen constanten, variabelen en functies voorkomen, gekoppeld door rekenkundige operatoren. De prioriteit kan worden veranderd met ronde haakjes. Voor elke te creëren variabele moet een aparte COMPUTE- opdracht worden gegeven. 3.4.3
Select cases
Het select cases (het selecteren van respondenten) wordt gebruikt wanneer berekeningen moeten worden uitgevoerd voor individuen die aan een bepaalde voorwaarde voldoen. Bijvoorbeeld alleen voor de mannen in het bestand. Voor de voorwaarden worden logische uitdrukkingen gebruikt die WAAR of NIET-WAAR kunnen zijn. Hiervoor beschikken we over relationele operatoren die in tabel 3.1 staan. De niet geselecteerde cases kunnen worden verwijderd (deleted) of tijdelijk buiten de analyses worden gelaten (filtered = DEFAULT). Bij verwijderen moet je natuurlijk voorzichtig blijven.
19
Tabel 3.1.: Relationele operatoren binnen SPSS Relationele operator GE of >= GT
betekenis Groter dan of gelijk aan
of >
groter dan
of < =
kleiner dan of gelijk aan
LT
of <
kleiner dan
EO
of =
gelijk aan
of < >
ongelijk aan
LE
NE .
Na het keyword IF volgt als specificatie een uitdrukking, als in de COMPUTE- opdracht, maar dan voorafgegaan door de logische uitdrukking tussen ronde haakjes.
Voorbeeld Figuur 3.8. Naast het IF commando kennen we het OR en het AND commando. OR geeft aan dat als een van beide beweringen waar moet zijn, AND geeft aan dat beide beweringen waar moeten zijn. Tevens kennen we NOT, welke de waarde van de uitdrukking omkeert.
20
Let op WAAR AND MISSING geeft als uitkomst NIET-WAAR. WAAR OR MISSING geeft als uitkomst WAAR.
3.4.3. Het COUNT commando Met de COUNT-opdracht wordt voor een opgegeven lijst van variabelen geteld bij hoeveel van die variabelen aan een gespecificeerde voorwaarde wordt voldaan. Voorbeeld 1
Figuur 3.9 In figuur 3.9 wordt het voorbeeld gegeven voor de telling van het aantal ontbrekende gegevens (code 0) (variabele aantont = aantal ontbrekende gegevens).
21
De waarde van aantont loopt van 0 voor die individuen waarbij geen enkele keer de 0 was ingevuld, tot 12 (het aantal variabelen in de lijst) voor die gevallen waarbij uitsluitend nullen waren ingevuld. Opdracht 9: Maak een variabele die voor elke respondent weergeeft op hoeveel van de vijf redenen om te verhuizen hij/zij ja heeft geantwoord. Bepaal de correlatiecoëfficiënt tussen de aldus gecreëerde variabele en de variabele waardeer. Opdracht 10: Bereken voor elk individu het aantal jaren dat het niet in Tranendal heeft gewoond. Bereken het gemiddelde en de standaarddeviatie van deze variabele voor mannen en vrouwen apart.
3.4.7. Het SORT CASES command Voor het combineren van files, is het vereist dat de te combineren files zijn gesorteerd op de variabele die als sleutel voor het combineren wordt gebruikt. Ook voor een overzichtelijke listing is het soms prettig de individuen in een bepaalde volgorde te hebben. Het sorteren kan worden uitgevoerd met de SORT CASES opdracht. In de specificatie wordt het keyword BY gevolgd door een lijst van variabelen waarop moet worden gesorteerd. De individuen worden geplaatst in opklimmende volgorde (ascending) van de codering van de als eerste genoemde variabele en daarbinnen de volgorde van de tweede variabele, enz. Wil men een afnemende volgorde, dan moet de optie descending worden gekozen.
22
4.
Analyses
Binnen onderzoek kunnen heel veel verschillende analyses worden uitgevoerd. De meest voorkomende worden hieronder behandeld. Voor details betreffende de analyse zelf verwijs ik naar de literatuur die je bij M&T vakken hebt gehad.
4.1
Correlaties
Een correlatie wordt uitgevoerd om een verband tussen twee variabelen te berekenen. Een correlatie kan de waarde tussen –1.0 (perfecte, tegengestelde relatie), en 1.0 (perfecte relatie) aannemen. Een correlatie van 0 betekent dat er geen relatie is tussen de twee variabelen.
Opdracht 11: Is er een (statistisch) verband tussen de woonduur en de waardering voor het wonen in Tranendal? Geldt dit ook voor de groep Individuen die verhuisplannen heeft? En voor de groep die geen verhuisplannen heeft? Opdracht 12: Is er een (statistisch) verband tussen de opleiding en het al dan nie t noemen van cultuurvoorzieningen als reden om te verhuizen? 4.2
T-Toets
We geven nog een voorbeeld van een opdracht voor de Sudent t-toets. De Student t-toets wordt uitgevoerd op de variabele leeftijd voor de steekproeven gevormd door de mannen en door de vrouwen.
Figuur 4.1.
23
Opdracht 13: Toets of er een statistisch verschil is tussen mannen en vrouwen wat betreft hun waardering voor het wonen. Wat is de gemiddelde waardering van de vrouwen? En van de mannen? Welk aantal individuen wordt in de analyse betrokken? Hoe komt het dat dit aantal lager is dan de totale steekproef-omvang? Welke overwegingen bepalen je keus voor de toetsingsmethode?
4.3
Regressie
Met de procedure Regression kunnen muitiple lineaire regressie -modellen worden uitgerekend. In kader 4.1. wordt regressie nader uitgelegd. Kader 4.1 Regressie Multiple regressie-modellen houden in dat: een Y-variabele wordt beschreven door een serie Xvariabelen volgens het (lineaire) model: Y= a + bl*X, + b2*X, + ... + bm*Xm.De Y wordt de afhankelijke of te verklaren variabele genoemd. De X-en vormen de onafhankelijke of verklarende variabelen. a is een constante, de b’s worden regressie-coëfficiënten genoemd. Bijvoorbeeld wordt de variabele waardeer ‘verklaard’ uit de variabelen leeftijd en woonduur: waardeer = a + b, *leeftijd + b2
*
woonduur. Regressie is niet alleen te gebruiken om een variabele te ‘verklaren’, maar ook om een voorspelling (predictie) te geven. Is het regressiemodel bepaald, dan kan bij gegeven X- waarden een voorspelling voor de bijbehorende Y worden gegeven. We zullen ons hier beperken tot het regressiemodel met één verklarende variabele: Y = a + b*X. De waarnemingen voor een steekproef van individuen kun je voorstellen als punten in de tweedimensionale ruimte met de variabele X op de x-as en de variabele Y op de y-as. Bij lineaire regressie wordt een lijn gezocht die zo goed mogelijk bij de punten past. Voor ‘zo goed mogelijk passen’ wordt het kleinste-kwadraten criterium gebruikt. Dat wil zeggen: de lijn wordt zo getrokken dat de som van de kwadraten van de afstanden van de punten tot de lijn in de y-richting (deze afstand wordt residu genoemd) minimaal is. Dit levert schattingen voor de constante a (doorsnijding met de X-as) en de regressie-coëfficiënt b (richtingscoëfficiënt) op, waardoor de lijn is bepaald. De multipele correlatie-coëfficiënt, of het kwadraat hiervan, is een maat voor de ‘goedheid’ van het model.
24
Multiple regressie geeft veel uitgebreidere mogelijkheden. De opdracht om de variabele waardeer te verklaren uit de woonduur luidt: REGRESSION DEPENDENT waardeer/ METHOD ENTER woonduur. Met DEPENDENT wordt de afhankelijke variabele gespecificeerd. Met METHOD wordt het model, dus de serie onafhankelijke variabelen, gespecificeerd. We voeren nu één x- variabele in door onder Method de optie Enter te kiezen. De overige opties: Forward, Backward en Stepwise, worden gebruikt bij modellen met meer dan één onafhankelijke variabele. Het ‘beste’ model wordt bepaald door te selecteren uit een opgegeven verzameling x- variabelen. Bijvoorbeeld bij Forward wordt begonnen met de variabele die het hoogst correleert met de y-variabele. Vervolgens wordt de op één na beste aan het model toegevoegd, enz. Bij Backward worden eerst alle variabelen in het model opgenomen. Vervolgens wordt de minst verklarende variabele weggelaten. Dit wordt voortgezet tot er slechts ‘significante’ variabelen overblijven. Met de optie Descriptive kunnen beschrijvende statistieken, gemiddelde en standaarddeviatie van alle opgegeven variabelen en de matrix van correlatie-coëfficiënten, worden opgevraagd. Onder Residuals analyses vindt je mogelijkheden om de residuen, die voor een adequaat model aan bepaalde voorwaarden moeten voldoen, te analyseren.
Figuur 4.4.
Opdracht 14: Voer met REGRESSION een regressie -analyse uit met waardeer als afhankelijke variabele en leeftijd als onafhankelijke voor Individuen met een lage of een midden opleiding.
25
Opdracht 15: Geef de regressie -vergelijking. In er sprake van een significante relatie tussen leeftijd en waardeer? Lijkt het model redelijk wat betreft de residuen?
3.5.3
Variantie -analyse
Het analyseren van data met behulp van een regressie wordt uitgevoerd om te kunnen nagaan in hoeverre één variabele te verklaren is uit een andere variabele. T-toetsen worden vaak uitgevoerd om na te gaan of er een significant verschil is in de gemiddelde scores van twee groepen. Vaak hebben we te maken met meerdere groepen, in dat geval kunnen we variantie-analyse gebruiken.
Figuur 4.5
Opdracht 16: Voer een variantie -analyse uit met waardeer als afhankelijke variabele en opleid als factor. Bestaat er een significant verschil tussen de groepen met verschillende opleidingen op de variabele waardeer?
26
Bijlage 1
Overzicht van de analyses binnen SPSS
Hieronder wordt een overzicht gegeven van in SPSS opgenomen procedures. Procedure
Inhoud
FREQUENCIES
Frequentie-verdeling, percentages, staafdiagrammen voor discrete variabelen, histogrammen voor continue variabelen, gemiddelde, standaard-error, standaarddeviatie, variantie, scheefheid, kurtosis, range, minimum, maximum, som, modus, mediaan en percentielen
DESCRIPTIVE
Dezelfde statistische grootheden als bij FREQUENCIES, behalve de modus en mediaan, en z-scores
CROSSTABS
Kruistabel, Chi-kwadraat, phi of Cramer’s V, contingentie coëfficiënt, lambda, onzekerheidscoëfficiënt, Kendall’s tau-b en tau-c, gamma, Somars’ d, eta, Cohen’s kappa, risk-coëfficiënt en Pearson’s r
MEANS
Som, gemiddelde, standaarddeviatie en variantie van afhankelijke variabele(n) per subgroep. De subgroepen worden gedefinieerd door de onafhankelijke variabele(n). Oneway-variantie -analyse en toets voor lineariteit
T-TEST
Student’s t-toets voor onafhankelijke steekproeven en voor gepaarde waarnemingen, tweezijdige overschrijdingskans
ANOVA
Variantie -analyse
ONEWAY
Een-weg-variantie -analyse
MANOVA
Muitivariate variantie-analyse
HILOGLINEAR
Hiërarchische log-lineaire modellen voor frequentie -tabellen
PLOT
Spreidingsdiagrammen
CORRELATIONS
Pearson’s product-moment correlatie
REGRESSION
Multiple regressie
DISCRIMINANT
Discriminantanalyse
FACTOR
Factoranalyse (verschillende methoden), rotatie (verschillende methoden) en factorscores
CLUSTER
Hiërarchische clustering (diverse methoden)
NPAR TESTS
Non-parametrische toetsen, gebaseerd op Non-parametric Statistics for the Behavioral Sciences van Siegel
RELIABILITY
Betrouwbaarheidscoëfficiënten
TABLES
Genereren van tabellen
27
EXAMINE
Stem-and-leaf diagram, Box-plot, toetsen op normaliteit
LOGISTIC REGRESSION
Logistische regressie
LOGLINEAR
Log-lineaire modellen
SURVIVAL
Overlevings -analyse
PROBIT
Probit-analyse
TRENDS
Tijdreeksen analyse
CATEGORIES
Schaalanalysemodellen
GRAPHICS
Grafieken
MAPPING
Cartografie
28
Bijlage 2:
Overzicht van betrouwbaarheids analyse
Vaak worden constructen gemeten met behulp van meerdere items. Zo bestaat bijvoorbeeld een internationaal gevalideerde eenzaamheidsschaal (die dus gevoelens van eenzaamheid meet) uit 12 items. Items worden ter voorkoming van responsesets soms tegengesteld gesteld. Zo staan hieronder twee items uit de lijst die tegengesteld aan elkaar zijn. Item 1: Ik ervaar een gevoel van leegte om mij heen Item 2: Ik heb voldoende mensen op wie ik kan terugvallen als ik ze nodig heb. Bovenstaande items zijn onderdelen van één construct. Deze moeten (met de overige 10 items) in één waarde uitgedrukt worden. Begonnen wordt dan om de items zodanig te hercoderen dat deze allemaal dezelfde richting op ‘wijzen’. Oftewel een waarde vijf betekent dan dat iemand veel eenzaamheidsgevoelens heeft. Om nu na te kunnen gaan of de items een intern betrouwbare schaal vormen wordt er een reliability berekend. Dit staat onder analyse data, scale, reliabilities. In de analyse wordt opgegeven welke items volgens de onderzoeker iets zeggen over één construct en die de onderzoeker wil samenvoegen tot een score. De uitdraai ziet er als volgt uit: R E L I A B I L I T Y Item-total Statistics Scale Mean if Item Deleted EENZ01 28,9033 EENZ02 31,2714 EENZ03 31,5242 EENZ04 29,0595 EENZ05 31,4201 EENZ06 31,1896 EENZ07 29,3532 EENZ08 29,0669 EENZ09 31,3494 EENZ10 31,5948 EENZ11 29,0595 EENZ12 31,7435
A N A L Y S I S Scale Variance if Item Deleted 37,9160 28,8477 30,0563 36,9367 29,0953 30,3930 37,5950 36,6224 29,4744 31,7643 38,0188 33,1392
-
S C A L E
Corrected ItemTotal Correlation -,0502 ,5324 ,4865 ,0073 ,5495 ,4017 -,0500 ,0285 ,5027 ,4126 -,0761 ,3339
Reliability Coefficients N of Cases = 269,0 Alpha = ,6033
(A L P H A)
Alpha if Item Deleted ,6317 ,5157 ,5309 ,6274 ,5146 ,5478 ,6406 ,6241 ,5247 ,5515 ,6439 ,5687
N of Items = 12
In dit overzicht zie je onder aan de waarde staan waarom het gaat. De Cronbach’s α bedraagt 0.60. Er geldt als regel dat de betrouwbaarheid hoger dan de 0.7 moet zijn (sommige onderzoekers hanteren ook de 0.6). In het overzicht staat dat de alpha wel kan worden verhoogd, door een aantal items te verwijderen (onder het kopje alpha if item deleted). Op die manier kunnen items buiten de waarde worden gelaten en kan de interne betrouwbaarheid van het construct ‘eenzaamheid’ worden verhoogd.
29
30