Zomerschool Vakdidactisch Onderzoek Leuven, 8-10 september 2010 Sessie 8: Analyse van kwantitatieve data
An Carbonez Leuven Statistics Research Centre Katholieke Universiteit Leuven
Voorstelling van de case, mogelijke onderzoeksvragen
1 2 3
Voorstelling van de case .............................................................................................. 2 Soorten variabelen ....................................................................................................... 5 Overzicht van enkele statistische technieken .............................................................. 6 3.1 Univariate Analyse ............................................................................................... 6 3.2 Modellen met een responsvariabele ..................................................................... 8 3.3. Plaats juiste techniek bij elk van de onderzoeksvragen ........................................... 9 4 Statistische software .................................................................................................. 10 4.1. Betalende statistische software .............................................................................. 10 4.2. statistische software die gratis is ............................................................................ 10 4.3. Microsoft Excel heeft ook statistische tool ............................................................ 10 4.4. Voor en nadelen van de verschillende software (eigen interpretatie) .................... 12
1 Voorstelling van de case Stap 1: Invullen “Enquête zomerschool, 8-10 september 2010”
1. Ik kom van o West-Vlaanderen o Oost-Vlaanderen o Vlaams Brabant o Limburg o Antwerpen o Andere provincie 2. Leeftijd (in jaren) ………………………………………… …………………………………… 3. Je bent jarig in o Lente o Zomer o Herfst o Winter 4. Transport om naar de zomerschool te komen (slechts 1 transportmiddel aanduiden) o o o o o
Auto Fiets Bus Trein Te Voet
7. Aantal minuten dat je nodig hebt om van je woonplaats naar deze bijeenkomst te komen(in min uitdrukken) : ………………………………………….
8. Geslacht o vrouw o man
9. Haarkleur o bruin o blond o zwart o rood
10. Kleur van je ogen o o o o
bruin blauw grijs groen
11. Gemiddeld aantal pintjes dat je drinkt per week :………………………..
5.Schoenmaat ……………………. 6. Lengte (uitgedrukt in cm) ……………………………………….
……..
12. Gemiddeld budget dat je per maand spendeert aan kledij (in euro). :……………………………………..
Stap 2: Opstellen van codeboek
Hoofdstuk 1 : Voorstelling van de case
1.3
Stap 3: Invoeren van de gegevens: Data: student.xls
Stap 4: Herformuleren (in statistische termen) van de onderzoeksvragen Mogelijke onderzoeksvragen: - Is het zo dat vrouwen gemiddeld gezien, meer budget uitgeven aan kledij dan mannen? - Is het zo dat mannen gemiddeld gezien, meer pintjes drinken dan vrouwen? - Bestaat er een lineaire relatie tussen het kledingsbudget en de variabelen leeftijd en lengte? - Is er een associatie (verband ) tussen kleur van haar en kleur van ogen van een persoon?
Hoofdstuk 1 : Voorstelling van de case
1.4
2 Soorten variabelen Categorische variabelen : de waarden zijn categorieën. Ø Nominale variabelen : kwalitatief en niet-geordend. Vb.: § Geslacht (M, V) § Kleur haar, kleur ogen, .. § Provincie (...) § Seizoen waarin je jarig bent Ø Ordinale variabelen : kwalitatief en geordend. Vb.: § Examenresultaat (niet geslaagd, voldoening, onderscheiding, …) § Maat kleding (S, M, L, XL, XXL) § Arbeid (laag geschoold, medium, hoog geschoold) Continue variabelen : § Lengte § Budget kleding § Leeftijd § Opmerking: Men kan continue variabelen (leeftijd) ook categoriseren (leeftijdsklassen : <20, 21-40, 41-60, >60). Op die manier kunnen ze verwerkt worden als ordinale variabelen.
Hoofdstuk 1 : Voorstelling van de case
1.5
3 Overzicht van enkele statistische technieken 3.1 Univariate Analyse Ø Beschrijvende statistiek : Variabele
Beschrijvende grootheden Visualisatie
Continu
Gemiddelde Mediaan Variantie standaarddeviatie
Histogram Box plot Scatterplot( voor relatie tussen 2 continue variabelen)
Categorische
Modus Frequentietabel
Staafjesdiagram
Ø Verklarende statistiek : Hypothese testen : vergelijken van gemiddelden (eventueel opstellen van een betrouwbaarheidsinterval). (i) Voorbeeld van één-steekproef probleem: H 0 : µ = 165 vs H 1 : µ > 165 met µ de gemiddelde lengte van een vrouw die deelneemt aan de zomerschool. a=0.10 (ii) Voorbeeld van twee-steekproef probleem: H 0 : µ1 = µ2 vs H 1 : µ1 < µ2 met µ1 de gemiddelde lengte van een vrouw en µ2 de gemiddelde lengte van een man die deelneemt aan de zomerschool. a=0.10
Hoofdstuk 1 : Voorstelling van de case
1.6
t-test voor gelijk gemiddelde in 2 onafhankelijke groepen · bij gelijke varianties (F-test e.a. voor gelijke varianties; gelijke var. bij H0 is voldoende) · bij ongelijke varianties
2 onafhankelijke groepen
Hoofdstuk 1 : Voorstelling van de case
· Gepaarde t-test (t-test voor gelijk gemiddelde bij gepaarde data = t-test voor gemiddelde 0 op verschil D = Y–X)
2 gepaarde groepen (X,Y)
1 groep
t-tests voor een of twee gemiddelden (normale populaties of grote steekproeven) · t-test voor 1 gemiddelde
1.7
· Wilcoxon teken-rangtest voor symmetrische verdeling rond m0 (is dus test voor gemiddelde m0 als de populatie symmetrisch is ) · Tekentest voor mediaan m0 ( = binomiale test voor proportie met score >m0 is ½) · Wilcoxon teken-rangtest bij gepaarde data (als verschil symmetrische verdeling heeft onder H0) · Tekentest voor gelijke locatie bij gepaarde data · Mann-Whitney U-test (Wilcoxon rang-somtest) voor gelijke verdeling in twee onafhankelijke groepen
Niet-parametrische tests voor een locatie, vb. mediaan,... (continue data, ordinale data)
Toepassingen van hypothese testen
· Chikwadraattest voor homogeniteit van 2 (of meer) verdelingen bij onafhankelijke groepen (= test voor onafhankelijkheid in kruistabel Variabele´Groepindicator ) · Fisher exacte test
· Chikwadraattest voor onafhankelijkheid in een kruistabel (r´c tabel) · Fisher exacte test voor onafhankelijkheid in een 2´2 tabel
Chikwadraattests (e.a.) voor een celverdeling (categorische data, ook gegroepeerde continue data; Cochran voorwaarde) · Chikwadraattest voor een univariate celverdeling
3.2 Modellen met een responsvariabele Verklarende variabelen
Responsvariabele
Methode
Continu
Continu
Regressie
Categorisch
Continu
ANOVA
Continu
Dummy (ordinale )
Logistieke regressie
Categorisch
Categorisch
Categorische data-analyse
Voorbeelden: Ø Regressie Cholesterol = a+ b1 * leeftijd + b2* gewicht Ø Anova Invloed van rokersgedrag (niet-rokers, ex-rokers, rokers) op cholesterol. Ø Logistieke regressie Krijgen van een lening (ja of neen) in functie van (inkomen, leeftijd, …) Ø Categorische data analyse Verband tussen inkomensniveau (laag, gemiddeld of hoog inkomen) en tevredenheid op het werk (helemaal niet tevr, niet tevr, gematigd tevr, tevr, zeer tevreden).
Hoofdstuk 1 : Voorstelling van de case
1.8
3.3. Plaats juiste techniek bij elk van de onderzoeksvragen Mogelijke onderzoeksvragen: a) Is het zo dat vrouwen gemiddeld meer budget uitgeven aan kledij dan mannen? Univariate analyse / opstellen van een model? Variabele die je wenst te bestuderen / Response variabele : Techniek:
b) Is het zo dat mannen gemiddelde meer pintjes drinken dan vrouwen? Univariate analyse / opstellen van een model? Variabele die je wenst te bestuderen / Response variabele : Techniek:
c) Bestaat er een relatie tussen het kledingbudget en de variabelen leeftijd en lengte? Univariate analyse / opstellen van een model? Variabele die je wenst te bestuderen / Response variabele : Techniek:
d) Is er een associatie (verband ) tussen kleur van haar en kleur van ogen van een persoon? Univariate analyse / opstellen van een model? Variabele die je wenst te bestuderen / Response variabele : Techniek:
Hoofdstuk 1 : Voorstelling van de case
1.9
4 Statistische software 4.1. Betalende statistische software SAS, SPSS, Statistica, ... https://admin.kuleuven.be/icts/services/software
4.2. statistische software die gratis is R, meer informatie http://www.r-project.org/
4.3. Microsoft Excel heeft ook statistische tool Activeer de ‘Data Analysis tool ‘ in Excel: 8 File >Excel options > Add ins > Go Check Analysis Toolpak and Analysis Toolpak VBA
Je kunt steeds nagaan of de Data Analysis tool goed werd geactiveerd: Go to the Data > Data Analysis
Hoofdstuk 1 : Voorstelling van de case
1.10
Hoofdstuk 1 : Voorstelling van de case
1.11
Hoofdstuk 1 : Voorstelling van de case
Staafjesdiagram
Modus Frequentietabel, kruistabel
Categorische
Histogram, scatterplot
Box plot
Gemiddelde Mediaan Variantie standaarddeviatie
Continu
Visualisatie
Continu
Beschrijvende grootheden
Variabele
SAS, SPSS, Statistica, R, Excel
1.12
Excel
Minder sterk
sterk SAS, SPSS, Statistica, R, Excel
SAS, SPSS, Statistica, R,
software
Software
4.4. Voor en nadelen van de verschillende software (eigen interpretatie) UNIVARIATE statistiek Ø Beschrijvende statistiek
Two-sample t-test Nietparametrische alternatieven
Niet-parametrische alternatieven
Twee steekproeven
One sample t-test
Hoofdstuk 1 : Voorstelling van de case
Continu
Ø Verklarende statistiek Hypothese testen Variabele Eén steekproef Minder sterk Excel (nagaan onderstellingen van normaliteit) Excel (niet mogelijk)
sterk SAS, SPSS, Statistica, R, Excel SAS, SPSS, Statistica, R
1.13
software
Software
Continu
Continu
Dummy
Categorisch
Continu
Categorisch
Continu
Categorisch
Hoofdstuk 1 : Voorstelling van de case
Responsvariabele
Verklarende variabelen
Opstellen van modellen
Categorische dataanalyse
Logistieke regressie
ANOVA
Regressie
Methode
Excel (niet mogelijk)
1.14
SAS, SPSS, R, Excel (zwak), Statistica (weinig mogelijkheden)
SAS, SPSS, Statistica, R,
Excel (eenvoudige ANOVA kan wel )
Minder sterk Excel (eenvoudige regressie kan wel)
sterk SAS, SPSS, Statistica, R,
SAS, SPSS, Statistica, R,
software
Software
Hoofdstuk 1 : Voorstelling van de case
1.15
Uitwerken van enkele onderzoeksvragen
1
Is het zo dat vrouwen gemiddeld meer budget uitgeven aan kledij dan mannen? ........................................... 2 1.1 Formulering van de onderzoeksvraag ..................................................................................................... 2 1.2 Formulering van de hypothese: ............................................................................................................... 2 1.3 Uitvoeren in Excel .................................................................................................................................. 2 2 We vragen ons af in welke mate de lengte van een persoon te modelleren is als een lineaire functie van de schoenmaat en de leeftijd van deze persoon.. ......................................................................................................... 7 2.1 Formulering van de onderzoeksvraag ..................................................................................................... 7 2.2 Formulering van het regressiemodel ....................................................................................................... 7 2.3 Uitwerken in Excel ................................................................................................................................. 7 3 Is er een associatie (verband ) tussen kleur van haar en kleur van ogen van een persoon? ........................... 12 3.1 Formulering van de onderzoeksvraag ................................................................................................... 12 3.2 Formulering van het testprobleem......................................................................................................... 12 3.3 Verwerking met SASEguide ................................................................................................................. 13
Hoofdstuk 2: Uitwerken van enkele onderzoeksvragen
2.1
1
Is het zo dat vrouwen gemiddeld meer budget uitgeven aan kledij dan mannen?
1.1 Formulering van de onderzoeksvraag Univariate analyse / opstellen van een model? : Univariate analyse Variabele die je wenst te bestuderen / Response variabele : budget aan kleding Techniek: two-sample t-test want er zijn twee groepen te vergelijken
1.2
Formulering van de hypothese: H 0 : µ1 = µ2 vs H 1 : µ1 > µ2 met µ1 het gemiddelde budget aan kleding bij vrouwen en µ2 het gemiddelde budget aan kleding bij mannen . a=0.05
Onderstellingen bij two-sample t-test. 1. Indien de groepen groot genoeg zijn (beide > 25) dan kunnen we de Centrele Limietstelling gebruiken. Indien niet, moet normaliteit nagegaan worden van de gegevens in beide groepen. (hier onderstellen we even dat dit ok is, want is niet eenvoudig na te gaan in Excel) 2. Nagaan of er gelijke variantie is in beide groepen H 0 : s²1 = s²2 vs H 1 : s²1 ≠ s²2 met s²1 de variantie van budget bij vrouwen en s²2 de variantie van budget bij mannen. a=0.050
1.3 Uitvoeren in Excel (i) Beschrijvende statistieken Gebruik de Filter bij Excel om de budget gegevens van mannen en vrouwen op te splitsen: 8 Data > Filter > geslacht:1 (vrouwen) Copiëer de kleding gegevens van de vrouwen naar een afzonderlijke sheet. Doe dit ook voor de mannen.
Hoofdstuk 2: Uitwerken van enkele onderzoeksvragen
2.2
Visualisatie: (gebeurde met SASEguide) Merk de outlier op bij de vrouwen (geslacht=1)
Hoofdstuk 2: Uitwerken van enkele onderzoeksvragen
2.3
Ø Use the statistical Data Analysis tool in Excel 8 Data > Data Analysis > Descriptive Statistics
(ii) Ga normaliteit na in beide groepen Niet eenvoudig in Excel. Shapiro Wilk test is niet beschikbaar. QQ plot moet je zelf construeren. We gaan er hier van uit dat dit in orde is.
Hoofdstuk 2: Uitwerken van enkele onderzoeksvragen
2.4
(iii) Ga na of er homogeniteit is van de varianties Gelijke variantie in beide groepen H 0 : s²1 = s²2 vs H 1 : s²1 ≠ s²2 met s²1 de variantie van budget bij vrouwen en s²2 de variantie van budget bij mannen. a=0.050
8 Data> Data Analysis > F test two sample for variances
Excel geeft de éénzijdige p-waarde. Wij hebben de tweezijdige p-waarde nodig (=2*0.044=0.88). Deze p-waarde is groter dan 0.05, dus wordt H0 niet verworpen. Conclusie: er is homogeniteit van varianties.
Hoofdstuk 2: Uitwerken van enkele onderzoeksvragen
2.5
(iv) t-test : two sample assuming equal variances 8 Data > Data Analysis > t test two sample assuming equal variances
H 0 : µ1 = µ2 vs H 1 : µ1 > µ2
Eenzijdige p-waarde is 0.06 > 0.05 (significance level) Algemeen Besluit: Bijgevolg wordt de H0 niet verworpen. Op basis van deze steekproef (van studentengegevens) kunnen we dus niet zeggen dat vrouwen significant meer geld besteden aan kledij dan mannen.
Hoofdstuk 2: Uitwerken van enkele onderzoeksvragen
2.6
2
We vragen ons af in welke mate de lengte van een persoon te modelleren is als een lineaire functie van de schoenmaat en de leeftijd van deze persoon..
2.1 Formulering van de onderzoeksvraag Univariate analyse / opstellen van een model? : Opstellen van een model Variabele die je wenst te bestuderen / Response variabele : lengte persoon Techniek: Regressie analyse
2.2
Formulering van het regressiemodel lengte = a + b1 leeftijd + b2 schoenmaat + ε
Onderstellingen: 1. Er is een lineair verband tussen lengte en leeftijd en lengte en schoenmaat. 2. De residu’s (ε) hebben een normale verdeling (met ε ~N(0, σ²)). 2.3
Uitwerken in Excel
(Maak best een nieuw werkblad met drie variabelen: lengte, schoenmaat, leeftijd).
a. Verkennende datagrafieken Maak scatterplots in Excel 8 Data oplichten > Insert > scatter 8 Datapunten in de plot oplichten > (rechtermuis ) add trendline > linear
Hoofdstuk 2: Uitwerken van enkele onderzoeksvragen
2.7
b. Correlatie analyse (Pearson correlatie veronderstelt normaliteit van de gegevens). We zouden dus ook hier eerst normaliteit van de gegevens moeten nagaan (moeilijk in Excel). 8 Data Analysis > Correlation
De correlatie tussen lengte en schoenmaat is positief. De correlatie tussen lengte en leeftijd is zeer klein.
Hoofdstuk 2: Uitwerken van enkele onderzoeksvragen
2.8
c. Geschat lineair model lengte = a + b1 leeftijd + b2 schoenmaat
8 Data Analysis > Regression
Hoofdstuk 2: Uitwerken van enkele onderzoeksvragen
2.9
Vermits leeftijd niet significant is (p-waarde = 0.39 > 0.05) wordt deze variabele uit het model gehaald. d. Nieuw model lengte = a + b2 schoenmaat
Hoofdstuk 2: Uitwerken van enkele onderzoeksvragen
2.10
Lengte= 59.2 + 2.79 * schoenmaat Kwaliteit van de fit: R²=0.61 Dit is te interpreteren als: 61 % van de variabiliteit in lengte kan verklaard worden door dit lineaire model.
Hoofdstuk 2: Uitwerken van enkele onderzoeksvragen
2.11
3 3.1
Is er een associatie (verband ) tussen kleur van haar en kleur van ogen van een persoon? Formulering van de onderzoeksvraag
Univariate analyse / opstellen van een model? Model opstellen Variabele die je wenst te bestuderen / Response variabele : Is hier niet specifiek duidelijk Techniek: Analyse van categorische data
3.2
Formulering van het testprobleem
Testen van onafhankelijkheid : testen van geen associatie H0: er is geen associatie tussen kleur van haar en kleur van ogen Om dit na te gaan kunnen volgende grootheden worden gebruikt. · Chi-kwadraat grootheid · Likelihood ratio testgrootheid (indien er te weinig observaties zijn, kan het nodig zijn om exacte testen te gebruiken).
Hoofdstuk 2: Uitwerken van enkele onderzoeksvragen
2.12
3.3
Verwerking met SASEguide
Bestand: survey09_10
8 Tasks > Describe > Table Analysis... 8 In de DATA selecteer je zowel Kleur_ogen als Haarkleur als table variabels 8 In de tables panel, selecteer je haarkleur als kolomvariabele en kleur_ogen als rijvariabele
Hoofdstuk 2: Uitwerken van enkele onderzoeksvragen
2.13
8 In deAssociation panel kies je Chi-square test and Measures
8 Run...
Deze warning wijst erop dat we beter exacte testen kunnen gebruiken.
Hoofdstuk 2: Uitwerken van enkele onderzoeksvragen
2.14
Vermits de p-waarde (=0.045) < 0.05, verwerpen we de H0. Er is een significante associatie tussen kleur van haar en kleur van ogen. Een detail of de afwijkingen van de H0kan soms verheldering brengen.
We zien in de cel (kleur_ogen=3, haarkleur=4) een grote afwijking (cell chisquare =7.9). De combinatie (grijze ogen, rood haar ) komt blijkbaar veel vaker voor in deze (kleine ) groep dan kan verwacht worden onder de nullhypothese van onafhankelijkheid.
Hoofdstuk 2: Uitwerken van enkele onderzoeksvragen
2.15
Oefeningen Deze oefeningen kun je maken op het bestand “zomerschool”. De bedoeling is om te experimenteren met de verschillende software: Excel en SASEguide. Jullie mogen eigen onderzoeksvragen bedenken op deze gegevens of analoog werken aan de onderzoeksvragen die werden behandeld in vorig deel. Mogelijke onderzoeksvragen: 1. Is het zo dat vrouwen gemiddeld meer budget uitgeven aan kledij dan mannen? Univariate analyse / opstellen van een model? Variabele die je wenst te bestuderen / Response variabele : Techniek:
2. Is het zo dat mannen gemiddelde meer pintjes drinken dan vrouwen? Univariate analyse / opstellen van een model? Variabele die je wenst te bestuderen / Response variabele : Techniek:
3. We vragen ons af in welke mate de lengte van een persoon afhankelijk is van de schoenmaat en de leeftijd van deze persoon Univariate analyse / opstellen van een model? Variabele die je wenst te bestuderen / Response variabele : Techniek:
4. Is er een associatie (verband ) tussen kleur van haar en kleur van ogen van een persoon? Univariate analyse / opstellen van een model? Variabele die je wenst te bestuderen / Response variabele : Techniek:
1