7. Software 7.1 SPSS, Een summier overzicht van een aantal faciliteiten 7.1.1 Inleiding SPSS is een afkorting van ”Statistical Package for the Social Sciences”. Het wordt veel gebruikt en is al vrij lang op de markt. De laatste versies zijn volledig menugestuurd en eenvoudig te gebruiken. Het belangrijkste bij het gebruik van zo’n pakket is, dat je weet wat een statistisch begrip of toets betekent en hoe hierbij de gegevens gebruikt worden. Via de menu’s wijst de rest zich dan vanzelf.
7.1.2 Het werkblad (data editor) In het werkblad worden de gegevens geordend zoals weergegeven in tabel 1.1. In de kolommen staan de waarnemingen behorende bij een variable. In de rijen staan de gevallen (“cases”), de waarnemingen van de verschillende variabelen van eenzelfde persoon of object. Links onderaan bevinden zich twee tabs met de namen data view en variable view . Het eerste laat de waarnemingen zien en het tweede laat de gegevens over het type van de gebruikte variabelen zien. De omschrijving van de variabelen in de variable view dient enerzijds om er voor te zorgen, dat het programma de gegevens in de data-editor goed interpreteert en er correct mee rekent en anderzijds ook om de gegevens voor de menselijke gebruiker leesbaar en overzichtelijk te presenteren. De volgende gegevens over een variable worden in de variable view beschreven: 1. naam: werknaam van de variable, maximaal 8 letters en cijfers, beginnend met een letter. 2. type: getal, datum of string. Een string is een rij karakters, je kunt er niet mee rekenen maar je kunt hem wel als nominale of ordinale variabele gebruiken een erop sorteren. Een datum is een speciaal soort string met een eigen sorteervolgorde. Een getal kun je gebruiken in een nominale of ordinale variabele (meestal gebruik je dan kleine gehele getallen 0 , 1 , 2 , 3 , ) en als ratio-variabele (re¨eel getal). Een re¨eel getal als π 4 arctan 1 kun je neerschrijven als “ 3.14159” met decimale punt of komma of als mantisse–exponent “ 0.314159 E+01” (scientific notation); met 5 decimalen heb je in het eerste geval 8 karakters nodig (plusteken, decimale punt of komma en 6 cijfers) en in het tweede geval 13. Je kunt ook de nauwkeurigere benadering 3.14159265358979 invoeren. SPSS zal deze bij berekeningen ook gebruiken, maar als je het aantal decimalen op 5 hebt staan ga je er in het datawindow nooit meer zien. 3. width: aantal karakters dat neergeschreven wordt in het datawindow. 4. decimals: als de variabele een getal is, dan kun je hier het aantal neer te schrijven decimalen opgeven. 5. label: veld waarin je een uitgebreide omschrijving van je variabele kunt neerschrijven, zodat je ook volgend jaar nog weet wat de betreffende data voorstellen. 6. missing: Bij een enquete gebeurt het vaak dat sommige velden niet ingevuld worden; bij het coderen van de data wordt dan vaak een speciaal karakter of getal (b.v. 9 of 99) gebruikt om dit aan te geven. 7. columns – align: breedte van het veld in dataview en alignering van de data. 8. measure: datatype scale – ordinal – nominal zoals beschreven in 1.2.1 De inhoud van alle velden kun je aanpassen via een submenu dat je oproept door met de muis rechts in het veld te klikken (alleen bij “naam” en “label” kun je gewoon in het veld zelf tijpen).
7.1.3 Het FILE-menu Het file menu biedt drie mogelijkheden om een bestaande dataset te openen of een nieuwe te cre¨eren: a. New: Cre¨eer een nieuw werkblad (data window). b. Open: Open een reeds bestaande file. Standaard is dit een SPSS-datafile ( .sav), maar je kunt via deze weg ook een tekst-file ( .txt) of een excel-file ( .xls) openen door rechts in het menuveld “files of type” 153
7.1. Een summier overzicht van SPSS
154
te klikken en het gewenste type te selecteren. In een tekst-file moeten de verschillende waarnemingen op een regel gescheiden zijn door tabs (of andere speciale karakters). Als de eerste regel van een Excel-file namen bevat, kan SPSS deze automatisch overnemen. c. Read ASCII Data: Importeer data uit een ASCII-file, een bestand met pure tekst en dus zonder font- en layout aanwijzingen. SPSS zal de gebruiker vragen naar de namen van de variabelen en de wijze waarop de data moeten worden ge¨ınterpreteerd. Als je in je werkblad al een bestand in gebruik hebt, wordt dit verwijderd bij het openen van een nieuw. Via het file-menu kun je een bestand bewaren (Save) of uitprinten.
7.1.4 Aanmaken van kolommen en invoeren van data Bij het opstarten van SPSS verschijnt er op het scherm een werkblad (of data editor), mogelijk gevuld met data als je vertrekt van een bestaande file. Iedere kolom (variabele) draagt een naam van maximaal 8 karakters. Iedere rij (case) draagt een nummer. Een cel is bepaald door zijn kolomnaam en zijn rijnummer. De cursor wijst altijd naar een cel; rijnummer en kolomnaam ervan staan in de linker bovenhoek. Een nieuwe kolom kan alsvolgt worden aangemaakt: a. Door in een cel een getal te zetten. De bijbehorende kolom krijgt dan het numerieke formaat (F8.3) van een decimaal getal met 3 cijfers na de komma (decimal point) en de (default) naam “var0000x”. b. Door in de variable view een nieuwe regel te vullen met naam en andere gegevens over een variabele zoals boven beschreven. c. Met Compute in het Transform–menu, zie hieronder. N.B. Punt (b) biedt je ook de mogelijkheid om de naam en de presentatie van een bestaande kolom te wijzigen.
7.1.5 Wegen en selecteren van data Als je datakolom (variabele) X metingen bevat en een tweede datakolom N de aantallen van deze metingen (b.v. als X en N afkomstig zijn van een frequentietabel), dan kan je de data van X door SPSS laten “wegen” weight door de kolom N. Hiertoe duid je deze kolom aan als “frequency variable” in het menu Data cases. select cases. Als je rijen bij de statistische verwerking wilt uitsluiten, kun je dit doen via het menu Data Een eenvoudige manier is om eerst een (extra) kolom met nullen en enen te maken
7.1.6 Transformatie van data Met Compute in het Transform–menu kun je een nieuwe kolom (target variable) defini¨eren en de waarden erin berekenen via een formule, samengesteld uit namen van variabelen, getallen en standaard-operatoren ( voor machtsverheffing) en standaardfuncties. Variabelen en functies “selecteer” je in hun menu’s en importeer je in het compositie-venster door op de pijl te klikken. Compute Voorbeeld 1: Een kolom met n random getallen maak je door in het menu met Transform een nieuwe kolom te defini¨eren en te vullen met de functie RV.XXX( ), waar RV staat voor “Random Variable” , XXX de naam is van de gewenste verdeling en de parameters van die verdeling zijn, b.v. RV.normal(µ σ ) als de getallen normaal N µ σ ) verdeeld moeten zijn. Je moet er wel eerst voor zorgen dat de n-de cel van een kolom een waarde heeft. Compute Voorbeeld 2: Een kolom met de rangnummers 1, 2, 3, maak je door eerst in Transform een nieuwe kolom met waarden 1 te maken en vervolgens hiervan via Transform Time Series een cumulatieve som te maken.
7.1. Een summier overzicht van SPSS
155
In het help–menu vind je onder keyword functions een overzicht van de beschikbare functies en in het bijzonder van verdelingsfuncties (Cumulative Distribution functions: Normaal, χ n2 , tn , Fm n , ) en inverse verdelingsfuncties (voor de berekening van quantielen). Met Sort Cases in het Data–menu kun je een bestand sorteren. Als je de mogelijkheid wilt hebben om de oorspronkelijke orde terug te krijgen, maak je eerst een kolom met rangnummers. De oude orde kun je dan herstellen door op deze kolom te sorteren.
7.1.7 Grafische weergave van de data Via het Graphs–menu kun je onder andere een histogram, een boxplot, een scatterplot en normale P–P-plots en Q–Q-plots maken. a. Een histogram kun je op drie manieren maken, automatisch, interactief of manueel. i. Voor een automatisch histogram kies je het menu Graphs Histogram. In het betreffende menu kies je de gewenste variabele en klikt op OK. Helaas bevat het plaatje dat SPSS nu maakt een blunder! In plaats van de range, het interval tussen de kleinste en grootste waarde, op te delen wordt een groter interval opgedeeld. Dit geeft een probleem als de data binnen een bepaald interval moeten liggen. Als de data b.v. percentages zijn, moeten ze tussen 0 en 100 liggen; een klassenindeling in 11 klassen 5 5 5 15 95 105 , zoals SPSS maakt is onzin omdat negatieve waarden en waarden boven 100 niet voor mogen komen; effectief zijn de twee buitenste klassen dan 0 5 en 95 100 en is hun lengte slechts de helft van de andere klassen. Je kunt je histogram manueel aanpassen door de chart editor te openen (dubbel klikken op het histogram) en dan via het menu-item chart axis interval OK het veld Intervals: “custom” te selecteren en dan de gewenste waarden voor minimum, maximum en aantal klassen in te vullen. Interactive Histogram. In het pop-up ii. Voor een interactief histogram kies je het menu Graphs menu kun je kiezen uit een twee- of driedimensionaal histogram; onder “assign variables” moet je de gewenste variabelen naar de assen slepen met je muis. Onder “histogram” kun je de klassenindeling aanpassen. In tegenstelling tot het voorgaande wordt hier wel een opdeling van de range voorgesteld als default. iii. Manueel kun je een histogram maken door via het menu Transform Compute de gewenste kolom met de functie RND (=round, afronden) af te beelden op de gewenste verzameling klassemiddens en dan een Barchart te maken. RND rondt een re¨eel getal af naar het dichtstbijzijnde gehele getal, als k geheel en k
1 2
x
1 2
k
, dan RND(x k .
Als je de indeling in klassen a a d , a d a 2d , met klassebreedte d wilt maken, dan kun je de elementen van de kolom OudeCol op de klassemiddens a 12 d a 32 d afbeelden (ga na!) met NieuwCol
a d 0 5 RND OudeCol
a d
5 .
b. In het Boxplot-menu heb je de mogelijkheden simple
clustered
en
groups of cases
separate variables.
In het geval van “groups” heb je een aparte variabele (categorie) nodig die je dataset uitsplitst in deelgroepen. Voor ieder van deze groepen wordt een aparte boxplot gemaakt. Zie help keyword boxplots chart types voor details. Uitschieters (data verder weg dan 1.5 maal het interkwartiel) worden apart getekend als rondjes en grove uitschieters (verder weg dan driemaal het interkwartiel) als sterretjes. Een boxplot (in twee of drie dimensies) kun je ook maken via de interactieve weg Graphs Boxplot.
Interactive
7.1. Een summier overzicht van SPSS
156
c. In een scatterplot van de variabelen X en Y worden de koppels x i yi uitgezet in het XY –vlak om te zien of er een verband zou kunnen zijn tussen beide variabelen. d. P–P en Q–Q plots: Laat xi i 1 n een gegeven gesorteerde dataset zijn met gemiddelde m, stan daarddeviatie s en empirische verdelingsfunctie FX en laat Y N m s de “best bijpassende” normale verdeling zijn. Een “normale P–P plot” is een scatterplot van FX xi i n en de theoretische kans P Yi xi . Een “normale Q–Q plot” doet hetzelfde voor de quantielen van beide verdelingen. Het is een hulpmiddel om te zien of een dataset (min of meer) normaal verdeeld is.
7.1.8 Beschrijvende statistiek Via het menu Analyze descriptive statistics Explore vind je het meest uitgebreide overzicht van beschrijvende grootheden zoals gemiddelde, mediaan, modus, standaardafwijking, interkwartiel, range, scheefheid en kurtosis. Kwartielen, het betrouwbaarheidsinterval met betrouwbaarheid 1 α , uitschieters, boxplot en histogram kun je opvragen via submenu’s statistics en plots . Desgewenst kun je deze grootheden laten uitsplitsen naar factoren; als je bijvoorbeeld in tabel 1.1 een BI voor mannen en vrouwen apart wilt hebben, dan geef je de variabele X2 (sexe) als factor op. Als je decielen of andere percentielen wilt hebben, moet je Analyze descriptive statistics Frequencies gebruiken en de gewenste percentielen invullen in het submenu statistics. Als je een variabele wilt standaardiseren (Z X X S), moet je Analyze descriptive statistics Descriptives gebruiken. NB. Het menu-item crosstabs hoort niet onder beschrijvende statistiek thuis maar onder Nonparametric Tests.
7.1.9 t-Toetsen Te vinden in het menu Analyze Compare Means. SPSS geeft als uitvoer de waarde van de toetsgrootheid, de overschrijdingskans Sig (of Significance level), het aantal vrijheidsgraden df en het (tweezijdig) betrouwbaarheidinterval CI (Confidence Interval). Standaard wordt de betrouwbaarheid op 95% gezet maar in het options submenu kun je deze zelf instellen. SPSS doet altijd een tweezijdige toets. Als je een eenzijdige toets wilt doen, moet je het niveau α verdubbelen om de goede grens voor het betrouwbaarheidsinterval te vinden. De door SPSS berekende overschrijdingskans moet je delen door twee. Maar je moet wel nagaan of de toetsgrootheid aan de goede zijde van het midden van het betrouwbaarheidsinterval van de tweezijdige toets ligt!. a. t-toets voor e´ e´ n groep: H0 : µ µ0 tegen H1 : µ µ0 . Selecteer in het One-Sample T Test–menu een of meer toets-variabelen, geef de gepostuleerde waarde voor µ op in test value (dezelfde voor alle variabelen!) en kies desgewenst in de options een betrouwbaarheid verschillend van 95%.
b. t-toets voor twee ongepaarde groepen: H0 : µ1 µ2 tegen H1 : µ1 µ2 . Zet de beide data-reeksen achtereen in een kolom en kies (of maak) een tweede kolom (de grouping variable) waarin (b.v. door een integer 1 of 2) is aangegeven tot welke groep het betreffende gegeven behoort. Dit mag een categorale variabele zijn, maar ook een re¨ele variabele of een string-variabele. Selecteer in het Independent-Samples T Test–menu de toetsvariabele en de groeperende variabele. Via de knop “define groups” kun je de twee waarden intijpen, die de te vergelijken groepen aanduiden. Je kunt ook een splitsing maken door (bij een ordinale variabele) een “cut point” te kiezen. Zoals het hoort, toetst SPSS eerst met een F-toets (Levene) of de varianties gelijk geacht mogen worden. Vervolgens wordt er dan zowel een t-toets gedaan voor het geval, dat de varianties gelijk zijn, alsook een (benaderende) t-toets voor het geval, dat de hypothese van gelijke varianties wordt verworpen. De keuze tussen beide resultaten wordt aan de gebruiker overgelaten.
7.1. Een summier overzicht van SPSS
157
c. t-toets voor twee gepaarde groepen: H0 : µ1 µ2 tegen H1 : µ1 µ2 . Zet de beide data-reeksen in twee kolommen, met overeenkomstige elementen op dezelfde rij. Selecteer in het Paired-Samples T Test–menu twee toets-variabelen door ze aan te klikken en transporteer ze naar het “paired variables window” door de pijl aan te klikken. Desgewenst kun je zo meerdere paren voor een gepaarde t-toets selecteren. Bij de uitvoer vinden we ook het gemiddelde en de standaarddeviatie van beide groepen apart en de correlatie ertussen; bovendien staat onder het hoofdje Sig de significantie (overschrijdingskans) van de hypothese dat deze correlatie nul is. Als de correlatie niet significant is, kun je net zo goed een ongepaarde toets gebruiken.
7.1.10 Toetsen met de χ 2 –verdeling a. χ 2 -toets op een kansverdeling: H0 : ni νi i 1 n tegen H1 : ni νi voor minstens e´ e´ n i, waar ni het gemeten aantal van groep i is en ν i het aantal op grond van de gepostuleerde verdeling. Nonparametric Tests Chi–Square kun je een kolom opgeven met Via het menu Analyze waargenomen frequenties (of een kolom met categorie¨en gewogen door een kolom met frequenties). Als de verwachte frequenties niet allemaal gelijk zijn, moet je deze in de goede volgorde manueel inbrengen of een syntax window gebruiken, zie 7.1.13.
b. Kruistabellen (contingency tables of crosstabs). Toets H 0 : gegevens in rijen en kolommen zijn onafhankelijk tegen H1 : er is afhankelijkheid tussen rijen en kolommen. Een kruistabel zoals tabel 2 is (vrijwel altijd) een uittreksel van een groter bestand zoals tabel 1. In SPSS kun je niets doen met de kruistabel van de vorm 2 en moet je werken met de primaire data zoals in tabel 1. tabel 1. aantal 252 224 248 276 20 16
Uittreksel uit een enqu`ete geslacht stemming man voor man tegen vrouw voor vrouw tegen vrouw blanco man blanco
tabel 2. bijbehorende kruistabel man vrouw voor 252 248 tegen 224 276 blanco 16 20
In het menu Data weight cases duid je de kolom aantal aan als “frequency variable” zodat de andere kolommen met deze aantallen gewogen worden. In het menu Analyze Descriptive Satistics crosstabs selecteer je de rij-variabele stemming en kolom-variabele geslacht (of andersom), in het “Statistics ...” submenu duid je aan dat je een (benaderende) toets met de Chi-kwadraat verdeling doet en in “Cells ...” duid je aan welke tussenresultaten je in je uitvoer wilt zien. Als resultaat krijg je de waarde van de toetsgrootheid, het aantal vrijheidsgraden (df) en de overschrijdingskans (Sig) berekend met drie methoden, de oorspronkelijke methode van Pearson (zoals behandeld in de cursus), Pearsons methode met continu¨ıteitscorrectie en de maximum likelihood methode.
7.1. Een summier overzicht van SPSS
158
7.1.11 Regressie en correlatieanalyse Zet de data in kolommen X en Y . In het menu Analyze regression linear selecteer je de onafhankelijke variabele (X) en de afhankelijke variabele (Y ); in het submenu “Statistics ...” selecteer je de gewenste uitvoer en in het submenu “Plots ...” de gewenste scatterplots.
7.1.12 De Kolmogorov-Smirnov toets Deze is te vinden in het menu Analyze Nonparametric tests 1-Sample K-S. Je kunt toetsen of je data trekkingen uit een normale, uniforme, Poisson- of exponenti¨ele verdeling zouden kunnen zijn. SPSS berekent de tweezijdige overschrijdingskans, de parameter d n in formule (4.66), de grootste afwijkingen naar beneden en naar boven, en de K-S Z-waarde (=d n n ; het is de geobserveerde waarde van de teller in de breuk op de laatste regel van tabel 4.5).
7.1.13 Het Syntax Window SPSS is van oorsprong een command language; alle opdrachten worden door textcommando’s gegeven. Bovenop deze command language is een menu-systeem gebouwd, dat de commando’s genereert en doorgeeft aan de SPSS-processor. Als je via het menu een opdracht samenstelt kun je de equivalente commando’s in de SPSS-programmeertaal zien in een syntax window, dat je cre¨eert door je opdracht niet af te sluiten met het aanklikken van OK maar met paste; desgewenst kun je de opdracht aanpassen en (alsnog) uit laten voeren door in de menubalk de betreffende knop (met een klein naar rechts gericht driehoekje) aan te klikken. In de meeste gevallen werkt het menu-systeem vrij goed, en hoef je je als gebruiker niets aan te trekken van die command language, maar soms is werken via een menu wel zeer onhandig. Via een syntax window kun je dan je commando’s bijsturen. Een goed voorbeeld is de χ 2 -toets op een kansverdeling, als de kansen van de verschillende klassen niet alle dezelfde waarde hebben. Als je volledig via het menu werkt, moet je de verwachte kansen (of waarden) een voor een intijpen maar dat is een methode uit het stenen tijdperk. Je kunt echter ook via het Nonparametric Tests Chi–Square ) alle details opgeven behalve deze verwachte menu (Analyze waarden en dan vervolgens via de knop paste een syntax window openen en hierin vervangen door verwachte waarden via een copy-paste operatie. Als voorbeeld beschouwen we de data van het Rutherford-Geiger experiment (zie tabel 3.1 in 3.4). tabel 3. Het SPSS DataWindow voor het Rutherford-Geiger experiment. aantal desintegraties per tijdsinterval
aantal tijdsintervallen
desintgr 0 1 2 3 4 5 6 7 8 9 10 11
aantal.w 57 203 383 525 532 408 273 139 45 27 10 6
Poisson-kans als λ th.kans .0209 .0807 .1562 .2015 .1949 .1509 .0973 .0538 .0260 .0112 .0043 .0015
3 87
7.1. Statistische faciliteiten in Excel
159
We wegen de kolom met de kolom . Het gemiddelde aantal desintegraties per tijdsinterval is 3.870 en de variantie 3.664. We schatten de parameter λ van de Poisson-verdeling dus met 3.870 Compute met de opdracht en berekenen de kolom van de kansen P λ in het menu Transform "!!#%$&' )(&*,+ -/.0 "!!"#1$&' 023(4*),+ -/. , waarbij je de naam th.kans invult als target variable. Als we nu in het Chi-square-menu de test-variabele kiezen met Expected Value: “All Categories Equal” en vervolgens op paste klikken, krijgen we de volgende tekst in een syntax window:
# 5 !
"6"! 5 ' "78!!#9 # :!"!
Met copy–paste vervangen we hierin het woord door de kolom ;<3 van kansen op de verschillende uitkomsten (onder de hypothese dat de waarnemingen Poisson-verdeeld zijn met λ 3 87 ):
# 5 !
"6"! 5 ' =,>?>@AB>+>-CD2EF?C4?>/2EGH2@ I@ D2E>@C,>@-*JB>E *+CB>?F>C,>/22?C,>> I*CB>>/2E "78!!#9 # :!"! Bij uitvoering van deze opdracht berekent SPSS automatisch de verwachte aantallen en geeft dan als uitkomst "0!KL/" M !"""MNN"
2I=B>82F*
22
,?*?2
Er is e´ e´ n probleem: SPSS weet niet, dat de parameter λ geschat is uit de data en dat dus het aantal vrijheidsgraden (df) met e´ e´ n verminderd moet worden, zodat de overschrijdingskans (Significance) in feite .1722 is (in het Transform-Compute-menu te berekenen met 2O0
= 68!P $Q2I=B>82F*A(Q2>. ).
7.2 Statistische faciliteiten in Excel 7.2.1 Inleiding Het belangrijkste bij het gebruik van statistische software is, dat je weet wat een statistisch begrip of toets betekent en hoe hierbij de gegevens gebruikt worden. Via de menu’s wijst de rest zich dan vanzelf. Excel is een “spreadsheet”-programma met veel ruimere mogelijkheden dan de statistische verwerking van gegevens. In dit overzichtje beperken we ons echter hiertoe. Als je statistische functies in Excel wilt gebruiken moet je in het Tools-menu het veld Data Analysis aanklikken (of eventueel via Add-Ins het Analysis ToolPak kiezen). Via dit veld kun je de gebruikelijke statistische toetsen selecteren. In het kader van de cursus “Begrippen van Kansrekening en Statistiek” zijn de volgende tools van belang: Correlation & Covariance Random Number Generation Descriptive Statistics Regression F-Test Two-Sample for Variances t-Test: Paired Two-Sample for Means Histogram t-Test: Two-Sample Assuming Equal Variances
7.2.2 Het invoeren van data Bij het opstarten van Excel verschijnt er op het scherm een werkblad (workbook of worksheet) met cellen genummerd met een letter voor de kolom en een nummer voor de rij. Iedere cel is vanuit ieder andere cel uniek adresseerbaar met zijn kolomletter en rijnummer. Bij het tussenvoegen van kolommen of rijen worden