Het gebruik van Excel 2007 voor statistische analyses. Een beknopte handleiding. Bij Excel denken de meesten niet direct aan een statistisch programma. Toch biedt Excel veel mogelijkheden tot statistische analyse. Vrijwel alle statistische technieken die in het Statistiekkwartetspel besproken zijn, kun je uitvoeren met Excel. Het voordeel van Excel is dat het vrijwel standaard op alle pc’s en laptops zit. Je kunt het dus ook gebruiken als je voor je stage in de binnenlanden van Afrika zit. Voorwaarde is wel dat je de invoegtoepassing “Gegevensanalyse” installeert. Als je naar de volgende site van Microsoft gaat, wordt uitgelegd hoe je dat moet doen: http://office.microsoft.com/nl‐ nl/excel/HA102382521043.aspx#InstallAnalysisToolPak In het kort wordt hier besproken hoe je Excel kunt gebruiken voor de besproken statistische analyses. Ik ga ervan uit dat je vertrouwd bent met het werken met Microsoft‐programma’s zoals Word en je dus weet hoe je files moet openen, opslaan, hoe je moet kopiëren, knippen plakken en dergelijke. Wanneer je meer informatie over het statistisch gebruik van Excel wilt hebben, gebruik dan “Het Basisboek Statistiek met Excel” (verschijnt 2011). Als voorbeeld is voor deze beknopte handleiding het databestand “datakwartet8” gebruikt, dat je ook op deze website vindt in de databestanden map. Als je Excel opent, kom je in het volgende scherm:
Figuur E.1 Openingsscherm van Excel 2007. Beknopte handleiding Excel 2007 Statistiekkwartetspel Ben Baarda; 2010 © 2010 Noordhoff Uitgevers bv
Pagina 1
Voor het maken van een onderzoeksdatabestand is het goed om in Excel met vaste kolommen en rijen te werken. Waarbij in de kolommen de variabelen staan, zoals de leeftijd en het geslacht en in de rijen de ‘cases’. De cases zijn dus je onderzoekseenheden zoals de respondenten. Je ziet in figuur E.2 een voorbeeld van een ingevuld databestand; op rij 2 staat de mannelijke student 96, die 5 vragen goed had bij de toets en 34 uur had gestudeerd. Het is verstandig om in de eerste rij de namen van de variabelen te zetten en om het respondent‐, of casenummer als eerste kolom te nemen. Je hebt dat nummer soms in Excel nodig om bepaalde tabellen te maken, maar je hebt het ook nodig wanneer je een typefout hebt gemaakt. Als er bijvoorbeeld bij respondent 45 bij leeftijd 333 staat, is er waarschijnlijk wat misgegaan. Je moet dan in het dossier, of op de vragenlijst van respondent, kunnen controleren wat de werkelijke leeftijd is.
Figuur E.2 Datascherm Excel 2007. Voor de waarde van een ontbrekende waarde, zoals bij student 198 die geen toets heeft gedaan, kun je het best een spatie gebruiken.
Beknopte handleiding Excel 2007 Statistiekkwartetspel Ben Baarda; 2010 © 2010 Noordhoff Uitgevers bv
Pagina 2
Verder kun je zelf allerlei nieuwe variabelen maken door gebruik te maken van de formule functie van Excel. Stel dat je het verschil in aantal goede antwoorden tussen de eerste keer en de herkansing wilt weten, dan ga je met je cursor in de tweede cel van een nieuwe kolom staan, bijvoorbeeld H2. Je typt dan in het fx venstertje ‘=G2 – B2’. Het ‘=’ telken is voor Excel een teken dat hij wat uit moet rekenen.
Figuur E.3 Het maken van nieuw variabelen met de formulefunctie. Je ziet in figuur E.3 dat in het zwart omlijnde hokje H2 in de rechter onderhoek een zwart blokje staat. Als je hier op gaat staan en je sleept het blokje naar beneden, rekent Excel ook de verschillen voor de andere respondenten uit. Zoals je in figuur E.3 kunt zien kent Excel allerlei menu’s, zoals “Start”, “Invoegen” en “Pagina‐indeling”. Ik zal achtereenvolgens het “Start”‐, “Invoegen”‐ en “Gegevens”‐menu bespreken. Dit zijn de belangrijkste menu’s voor het uitvoeren van statistische analyses. De overige menu’s, zoals “Pagina‐indeling”, zijn of niet specifiek voor Excel en lijken op andere Microsoft‐toepassingen, of zijn weer juist heel erg specifiek, maar niet direct noodzakelijk.
Beknopte handleiding Excel 2007 Statistiekkwartetspel Ben Baarda; 2010 © 2010 Noordhoff Uitgevers bv
Pagina 3
Het ”Start”‐menu
Figuur E.4 Het ”Start”‐menu. De meeste opdrachten uit het “Start”‐menu zullen je bekend voorkomen, zoals het kiezen van een lettertype en grootte. Er zijn twee opdrachten die ik voor de analyse van onderzoeksgegevens kort zal bespreken, dat is “Getal” en “Sorteren en filteren”
Figuur E.5 Het getal en sorteer en filter‐menu in Excel 2007. Met het getal‐menu kun je het karakter van je gegevens definiëren. Je moet daartoe wel eerst de kolom markeren waarin de gegevens staan die je wilt definiëren. Je markeert bijvoorbeeld kolom C, geslacht, en geeft hier aan dat het tekst betreft. Wanneer het om getallen gaat, kun je hier ook aangeven hoeveel cijfers je achter de komma wilt hebben. Het komt voor dat Excel berekeningen, zoals een gemiddelde, niet uitvoert, doordat de gegevens niet goed gedefinieerd zijn. Wanneer er gedefinieerd is dat het tekst is, zal Excel geen gemiddelde uitrekenen. Controleer dus of je gegevens goed gedefinieerd zijn. Met “Sorteren” kun je je gegevens ordenen. Stel dat je de toetsresultaten van de mannelijke met de vrouwelijke studenten wilt vergelijken, dan is het handig om de gegevens te ordenen naar geslacht. Je markeert dan eerst de kolom geslacht (Kolom C) en gaat vervolgens naar “Sorteren”. Hier kies je voor sorteren van hoog naar laag. Excel vraagt dan of je de selectie wilt uitbreiden; breidt de selectie inderdaad uit. Excel sorteert dan niet alleen de Beknopte handleiding Excel 2007 Statistiekkwartetspel Ben Baarda; 2010 © 2010 Noordhoff Uitgevers bv
Pagina 4
geslachtsgegevens, maar ook de gegevens die bij die persoon met dat geslachtskenmerk horen. De gegevens blijven dus per persoon in tact. Je kunt nu met markeren, kopiëren en plakken op een nieuw blad twee kolommen maken; een kolom met de toetsresultaten van de mannen en een met de testresultaten van de vrouwen (zie figuur E.6).
Figuur E.6 De toetsresultaten van mannen en vrouwen in aparte kolommen.
Beknopte handleiding Excel 2007 Statistiekkwartetspel Ben Baarda; 2010 © 2010 Noordhoff Uitgevers bv
Pagina 5
Het “Invoegen”‐menu
Figuur E.7 Het “Invoegen”‐menu in Excel 2007. Met het “Invoegen”‐menu kun je tabellen en grafieken maken, dat is belangrijk wanneer je gegevens wilt presenteren en analyseren. De “Draaitabel”‐functie biedt de mogelijkheid om tabellen te maken. Markeer eerst weer de gegevens die in de tabel moeten komen. Als voorbeeld heb ik identiteit, het aantal goede antwoorden en het geslacht gemarkeerd, voor een tabel waarin de toetsresultaten worden gepresenteerd uitgesplitst naar geslacht. Vergeet niet de identiteitsgegevens te markeren, die heb je nodig om de tabel te maken. Klik nu op draaitabel. Je krijgt dan een scherm vergelijkbaar met figuur E.8. Sleep hier “geslacht” naar “Kolomlabels”, “goed” naar “Rijlabels” en “ident” naar “Waarden”. Je krijgt dan de tabel zoals in figuur E.8. Die moet je dan nog wel even verfraaien, de lege cellen staan bijvoorbeeld erg slordig. Door in de tabel op “Kolomlabels” te gaan staan en het vinkje voor “leeg” weg te halen, verdwijnen die in de kolom. Doe hetzelfde voor de “Rijlabels”.
Figuur E.8 Het Draaitabel‐menu in Excel 2007. Beknopte handleiding Excel 2007 Statistiekkwartetspel Ben Baarda; 2010 © 2010 Noordhoff Uitgevers bv
Pagina 6
Door op “Draaigrafiek” te klikken en te kiezen voor “Kolommen”, wordt de tabel vertaald in een staafdiagram die je weer op allerlei manieren kunt verfraaien. Excel biedt erg veel mogelijkheden tot het maken van grafieken.
Figuur E.9 Het maken van een staafdiagram in Excel 2007.
Beknopte handleiding Excel 2007 Statistiekkwartetspel Ben Baarda; 2010 © 2010 Noordhoff Uitgevers bv
Pagina 7
Het “Gegevens”‐menu.
Figuur E.10 Het Gegevensanalyse‐menu in Excel 2007. In het “Gegevens”‐menu is het belangrijk dat het onderdeel “Gegevensanalyse” geïnstalleerd is. Staat dat niet in jouw menu, instaleer het dan alsnog. Aan het begin van deze korte handleiding staat hoe je dat moet doen. Het onderdeel “Gegevensanalyse” biedt je de mogelijkheid tot veel, zelfs geavanceerde, statistische analysemogelijkheden. Ik zal alleen die onderdelen bespreken die in het “Satistiekkwartetspel” aan bod komen.
Beknopte handleiding Excel 2007 Statistiekkwartetspel Ben Baarda; 2010 © 2010 Noordhoff Uitgevers bv
Pagina 8
Het beschrijven van gegevens Het beschrijven van gegevens met gebruik van tabellen en grafieken is hiervoor al besproken. Wat niet besproken is, is hoe je met Excel beschrijvende statistische maten als het gemiddelde berekent. Kies in het “Gegevensanalysemenu” voor de opdracht “Beschrijvende statistiek”. Je krijgt dan een menu zoals in figuur E.11. Geef bij invoerbereik aan van welke gegevens je de beschrijvende maten wilt berekenen. In dit geval van het aantal goede antwoorden, kolom B dus. Verder moet je aangeven dat in de eerste rij de variabelennamen staan; “Labels in de eerste rij”. Door “Samenvattingsinfo” te markeren, krijg je alle beschrijvende maten.
Figuur E.11 Het berekenen van beschrijvende statistische maten met het onderdeel “Beschrijvende statistiek” uit het “Gegevensanalyse”‐menu.
Beknopte handleiding Excel 2007 Statistiekkwartetspel Ben Baarda; 2010 © 2010 Noordhoff Uitgevers bv
Pagina 9
Het resultaat vindt je in tabel E1, zie voor de uitleg van de maten Statistiekkwartet 5 . Goed Gemiddelde Standaardfout Mediaan Modus Standaarddeviatie Steekproefvariantie Kurtosis Scheefheid Bereik Minimum Maximum Som
8,002564103 0,06346183 8 8 1,253270719 1,570687496 ‐0,124969952 ‐0,501038093 5 5 10 3121
Aantal
390
Tabel E1 Voorbeeld van het resultaat van de berekening van beschrijvende maten met het onderdeel “Beschrijvende statistiek” uit het “Gegevensanalyse”‐menu.
Beknopte handleiding Excel 2007 Statistiekkwartetspel Ben Baarda; 2010 © 2010 Noordhoff Uitgevers bv
Pagina 10
Het toetsen van verschillen in gemiddelden in twee of meer steekproeven. In figuur E.9 kun je zien dat de toetsresultaten van de vrouwelijke studenten nogal verschillen van die van de mannelijke studenten. Wanneer het hier twee steekproeven betreft, is het de vraag in hoeverre dat verschil op toeval kan berusten, met andere woorden of het verschil in gemiddelde significant is. Zoals je weet kun je dit toetsen met de t‐test en in dit geval de t‐test voor onafhankelijke steekproeven. In het “Gegevensanalyse”‐menu moet de je “T‐test: twee steekproeven met ongelijke varianties” aanklikken. Kijk voor de uitleg waarom je deze toets moet gebruiken in statistiekkwartet 7.
Figuur E.12 Het berekenen van de t‐toets met het onderdeel “T‐toets: twee steekproeven met ongelijke varianties” uit het “Gegevensanalyse”‐menu. Het is handig als je eerst op een apart werkblad twee kolommen maakt, een met de gegevens van de vrouwen en de andere met de gegevens van de mannen (zie figuur E.6). Je geeft dan in het menu aan, dat de gegevens van de vrouwen in kolom A en van de mannen in kolom B staan (“Variabelenbereik” 1 en 2; figuur E12). Vervolgens geef je ook weer aan dat je labels gebruikt. Als je nu op “OK” klikt, krijg je het resultaat zoals in tabel E2 .
Beknopte handleiding Excel 2007 Statistiekkwartetspel Ben Baarda; 2010 © 2010 Noordhoff Uitgevers bv
Pagina 11
Hieruit blijkt dat de vrouwen (gem.= 7,20; s= 1,34; n= 297) inderdaad significant (t=6,84; df=134; p<.0001) beter presteren dan de mannen (gem.=8,25; s= 1,12; n= 93). T‐toets: twee steekproeven met ongelijke varianties Gemiddelde Variantie Waarnemingen Schatting van verschil tussen gemiddelden Vrijheidsgraden T‐ statistische gegevens P(T<=t) eenzijdig Kritiek gebied van T‐toets: eenzijdig P(T<=t) tweezijdig Kritiek gebied van T‐toets: tweezijdig
toets man
toets vrouw
7,204301075 1,794763908 93 0 134 ‐6,840010391 1,2805E‐10 1,656304542 2,561E‐10
8,252525253 1,243447993 297
1,97782573
Tabel E2 Voorbeeld van het resultaat van de t‐toets met het onderdeel “T‐toets: twee steekproeven met ongelijke varianties” uit het “Gegevensanalyse”‐menu. Heb je gepaarde steekproeven, bijvoorbeeld wanneer je het gemiddelde van de voortoets van de studenten met hun gemiddelde op de herkansing wilt vergelijken, dan moet je “T‐ toets: twee gepaarde steekproeven voor gemiddelden” gebruiken. Heb je meer dan twee steekproeven, dus meer dan twee gemiddelden die je wilt vergelijken, dan moet je kiezen voor “Unifactoriële variantie‐anlayse”.
Beknopte handleiding Excel 2007 Statistiekkwartetspel Ben Baarda; 2010 © 2010 Noordhoff Uitgevers bv
Pagina 12
Het toetsen van verschillen in gemiddelden in percentages of proporties. Het blijkt dat van de mannelijke studenten 43% geslaagd is, terwijl dat voor de vrouwelijke studenten 81% is; tabel E3. Het lijkt er dus op dat de vrouwen vaker slagen dan de mannen. Geslaagd Ja Nee Eindtotaal
Man (n=93) 40 (43%) 53 (57%) 100,00%
Vrouw (n=297) 240 (81%) 57 (19%) 100,00%
Tabel E3 Een draaitabel met het aantal al dan niet geslaagden uitgesplitst naar geslacht. Aangezien het hier steekproeven betreft, is er een kans dat dit verschil op toeval berust. Je moet daarom met Chi‐kwadraat toetsen wat de kans is dat dit verschil op toeval berust. Je kunt dan het best in Excel eerst een kruistabel maken zoals in tabel E3 gebeurd is, zie ook figuur E.8. Het uitrekenen van een Chi‐kwadraat in Excel is lastig. Beter kun je gebruikmaken van een van de “Chi square calculators” op internet. In het voorbeeld in figuur E.13 is gebruik gemaakt van de ‘calculator’ die je kunt vinden op: http://faculty.vassar.edu/lowry/newcs.html
Figuur E.13 Het berekenen van de t‐toets met het onderdeel “T‐toets: twee steekproeven met ongelijke varianties” uit het “Gegevensanalyse”‐menu. Je ziet (Figuur E.13) dat de kans om op basis van toeval een verschil te vinden als in tabel E3, heel erg klein is (Chi2= 48,12; df= 1; p< .0001). Vrouwelijke studenten slagen dus significant vaker dan mannelijke studenten.
Beknopte handleiding Excel 2007 Statistiekkwartetspel Ben Baarda; 2010 © 2010 Noordhoff Uitgevers bv
Pagina 13
Het berekenen van een samenhang Wanneer je wilt weten of er een verband is tussen de hoeveelheid tijd die een student gestudeerd heeft en het resultaat op zijn toets, is het verstandig om eerst een spreidingsdiagram te maken. Je markeert weer de kolommen van de twee variabelen waarvan Excel een spreidingdiagram moet maken; figuur E.14. Vervolgens klik je in het “Invoegen”‐menu op “Spreiding” en kiest daar voor de eerste grafiek met de bolletjes, zonder de lijntjes.
Figuur E.14 Het maken van een spreidingsdiagram. Het resultaat is een puntenwolk, die min of meer een stijgende lijn vormt. Wil je die lineaire (regressie)lijn laten trekken, ga dan op een van de puntjes staan en klik op je rechtermuisknop, je komt dan in het menu zoals in figuur E.15. Hier moet je kiezen voor “Lineair”, je wilt immers een rechte lijn. Als je ook nog “Vergelijking in grafiek weergeven” en “R‐kwadraat in grafiek weergeven” aanklikt, vermeldt Excel de formule die bij de regressielijn hoort en de determinatiecoefficient (r2). Je ziet r2= 0,4358, dat betekent dat de correlatie (r) √0,4358 = 0,66 is.
Beknopte handleiding Excel 2007 Statistiekkwartetspel Ben Baarda; 2010 © 2010 Noordhoff Uitgevers bv
Pagina 14
Figuur E.15 Het maken van een regressielijn, regressieformule en het berekenen van r2 in een spreidingsdiagram. Als het een steekproef is, moet je weer vaststellen wat de kans is om op basis van toeval bij een steekproefomvang van 390 studenten een correlatie van 0,66 te vinden. Wanneer je een “r to P calculator” van internet gebruikt, zul je ontdekken dat die kans kleiner dan 0.0001 is; het kan dus vrijwel geen toeval zijn.
Beknopte handleiding Excel 2007 Statistiekkwartetspel Ben Baarda; 2010 © 2010 Noordhoff Uitgevers bv
Pagina 15