Nominaal Nominaal -
Kwalitatief Laagste niveau Categorieën niet ordenen Geslacht
Ordinaal -
Kwalitatief Middelste niveau Categorieën wel ordenen Opleidingsniveau
Interval / ratio -
-
Kwantitatief Hoogste niveau Hebben van nature numerieke schaal Leeftijd/ inkomen/ IQ/ temp
Interval met interval:
Meer dan 2 nominale variabelen
Chi-square: H0 wil je niet verwerpen Kruistabel: alleen kwalitatieve kenmerken Cramer’s V: samenhangsmaat, hoe dichter bij 1 hoe sterker Wilcoxon: 2 groepen onafh: verdeelsteekproef aselect Kruskall-Wallis: > 2 groepen, verdelingsvrije toets (Chi2: 2 onafh variabelen) (Cramers V: samenhangsmaat) Nominaal kenmerk mag maar uit 2 categorieën bestaan: T-toets: 2 onaf groepen Variantie-analyse (ANOVA): > 2 onafhankelijke groepen
Ordinaal
Interval (ratio) Logistische regressie
R spearman: samenhangsmaat – hoe sterk is de relatie? Hoe dichter bij -1 of 1,hoe sterker. 0 = geen relatie
Kruskal-Wallis Wilcoxon paired R spearman (-1:1) samenhangsmaat Variantie-analyse ANOVA: >2 groepsgemiddelden die niets met elkaar te maken hebben (verschillen)
Kruskall-Wallis
R pearson (-1;1) Enkelvoudige lineaire regressie Multipele regressie: voorspellen Y dmv X1 en X2: hangen niet samen T-test paired
One sample T-test: voor 1 populatiegemiddelde T- test paired: 2 populatieverwachtingen vergelijken: geen logische volgorde X1 en X, geen afh kenmerken van Y. Dezelfde respondenten, 2 variabelen. T-test paired onafhankelijke steekproeven: gevolgtrekkingen over 2 verschillende parameters Chi2
Meer dan 2 ordinale variabelen
Friedman
Meer dan 3 interval variabelen
Multipele regressive / Variantieanalyse (Randomized Block Design)
T-toets 1) H0: μ1-μ2 = 0 (of: μ1=μ2) 2) Ha: μ1-μ2 = ongelijk aan 0 3) Kies verwerpingsgebied, α (0.01 of 0.05 of 0.10) 4) Procedure in SPSS: Analyze Compare Means Independent-Samples T Test Analyze Compare Means Paired-Samples T Test 5) Output: Group Statistics
KIJKTIJD
V86 geslacht 1 man 2 v rouw
N
Mean 145,1842 164,0474
290 434
Std. Dev iat ion 117,55533 105,77982
Std. Error Mean 6,90309 5,07759
Independent Samples Test Lev ene's Test f or Equality of Variances
F KI JKTIJD
Equal v ariances assumed Equal v ariances not assumed
2,095
Sig. ,148
t-t est f or Equality of Means
t
df
Sig. (2-tailed)
Mean Dif f erence
St d. Error Dif f erence
95% Conf idence Interv al of the Dif f erence Lower Upper
-2,248
722
,025
-18,8632
8,39175
-35,33831
-2,38802
-2,201
574,145
,028
-18,8632
8,56940
-35,69435
-2,03197
- Keuze voor equal of unequal hangt af van de F-toets. Als de SIG van de F-toets kleiner is dan α, kiezen we voor unequal.
-
Bij equal ga je ervanuit dat de σ (standaarddeviaties) aan elkaar gelijk zijn. Df = N1+N2 – 2 95% confidence interval: als het verschil van 0 NIET in het betrouwbaarheidsinterval ligt moet H0 verworpen worden Overschrijdingskans: bij eenzijdig toetsen SIG/2 Bij paired samples t-test geen verschil tussen equal of unequal
6) Conclusie: SIG > α, H0 aannemen SIG < α, H0 verwerpen. Variantie analyse Het tweezijdige verschil tussen twee gemiddelden toetsen Assumpties variantie analyse: - symmetrisch klokvormige verdelingen van de populatie - varianties moeten aan elkaar gelijk zijn 1) H0: μ1-μ2 = 0 (of: μ1=μ2) (de gemiddelden zijn gelijk) 2) Ha: μ1-μ2 = ongelijk aan 0 (ten minste één van de gemiddelden wijkt af) 3) Verwerpingsgebied α 4) Procedure in SPSS: Analyze Compare Means One-Way ANOVA
5) Output: Descriptives KI JKTIJD
N 1 man 2 v rouw Total
4 6 10
Mean 130,7143 162,8571 150,0000
St d. Dev iation 65,32493 161,01971 126,89382
St d. Error 32,66247 65,73602 40,12735
95% Conf idence Interv al f or Mean Lower Bound Upper Bound 26,7677 234,6608 -6,1227 331,8370 59,2256 240,7744
Minimum 77,14 60,00 60,00
Maximum 210,00 480,00 480,00
Test of Homogeneity of Variances kijkt ijd Lev ene St at ist ic 10,453
df 1 7
df 2 715
Sig. ,000
ANOVA KI JKTIJD
Between Groups Within Groups Total
Sum of Squares 2479,592 142438,8 144918,4
df 1 8 9
Mean Square 2479,592 17804,847
F ,139
Sig. ,719
- Test of homogeneity: de SIG moet groter zijn dan de α, dan zijn de varianties aan elkaar gelijk en dan mag de variantietest uitgevoerd worden. - Formules toetsingsgrootheid etc: zie aantekeningen college #2 6) Conclusie: F-toets SIG > α, H0 aannemen
SIG < α, H0 verwerpen. 7) Post hoc: Als de nulhypothese bij een variantie-analyse wordt verworpen, zouden we kunnen gaan bekijken tussen welke categorieën van de onafhankelijke variabele er verschillen zijn. Dit geschiedt met behulp van zogenaamde Post-Hoc tests. Twee procedures: - Tukey: Deze toets veronderstelt gelijke steekproefomvangen per categorie van de onafhankelijke variabele. (is meestal niet het geval) - Bonferroni/Scheffé: staan ongelijke steekproefomvangen toe SPSS aansturing: Analyze Compare Means One-Way ANOVA Options Descriptive Continue Post Hoc Continue OK. Output:
De cijfers waar een sterretje achter staat zijn de statistisch significante verschillen. Bonferroni is de meest gebruikte post-hoc toets, Scheffé is conservatief (bijna nooit statistisch significante uitkomsten).
Regressie analyse Voorspellen wat voor invloed bepaalde factoren op elkaar hebben 1) Algemene regressievergelijking: Yp= B0+B1X1+B2X2+B3X3 (etc, ligt eraan hoeveel predictoren)
2) SPSS procedure: Analyze Regression Linear. Breng de juiste variabelen naar het Dependent-hok en het Independent(s)-hok, door op de variabelen te klikken en tevens op de bijhorende . Klik tenslotte op OK 3) Output: Model Summary Std. Error Mod R Adjusted R of the el R Square Square Estimate a 1 ,214 ,046 ,043 ,83918 a. Predictors: (Constant), aantal jaren woonachtig in Nijmegen, waardering woonomgeving, Aantal kilometers naar werkplek - R square: verklaringskracht van het model. Hier: 4,6% van de spreiding van het model wordt verklaard. Als de R2 > 0.20, dan begint het wat voor te stellen ANOVAb Sum of Mean Model Squares df Square F Sig. 1 Regressio 33,501 3 11,167 15,857 ,000a n Residual 695,769 988 ,704 Total 729,270 991
ANOVAb Sum of Squares 33,501
Mean Square F 11,167 15,857
Model df Sig. 1 Regressio 3 ,000a n Residual 695,769 988 ,704 Total 729,270 991 a. Predictors: (Constant), aantal jaren woonachtig in Nijmegen, waardering woonomgeving, Aantal kilometers naar werkplek b. Dependent Variable: waardering nijmegen - Anova = bruikbaarheid van het model. Te zien aan de F-toets. H0: β1=β2=0 (dus het model is niet bruikbaar) Ha: ten minste één van de regressie coëfficiënten wijkt af van 0 SIG > α, H0 aannemen SIG < α, H0 verwerpen. Dus hier: H0 verwerpen dus het model is bruikbaar. Coefficientsa Standardiz ed Unstandardized Coefficient Coefficients s Model B Std. Error Beta t 1 (Constant) 6,565 ,157 41,804
Sig. ,000
Aantal kilometers 9,722E-5 ,000 naar werkplek waardering ,137 ,021 woonomgeving aantal jaren -,001 ,001 woonachtig in Nijmegen a. Dependent Variable: waardering nijmegen
,056
1,744
,082
,205
6,605
,000
-,034
-1,080
,280
- Aan de hand van deze tabel kan de regressievergelijking opgesteld worden. Yp= 6.565 + 9.722E-5X + 0.137X – 0.001X Ik voorspel dat als het aantal jaren dat de respondent in Nijmegen woont met één jaar toeneemt, de waardering met 0.001 daalt. Enz…. Voor de andere formules etc zie college # 3 en opdracht # 3.
Chi square Toetsen of twee properties van elkaar afwijken 1) H0: P1=P2 2) Ha: P1 is niet P2 LET OP: H0 verwerpen is hier niet het doel!! Dan is de steekproef representatief.
3) Verwerpingsgebied α 4) Procedure SPSS: Analyze Nonparametric tetst Legacy Dialogs Chi square 5) Output: V86 geslacht 1 man 2 v rouw Total
Observ ed N 290 440 730
Expected N 365,0 365,0
Residual -75,0 75,0
Test Statistics Chi-Square a df Asy mp. Sig.
V86 geslacht 30,822 1 ,000
a. 0 cells (,0%) hav e expected f requencies less than 5. The minimum expected cell f requency is 365,0.
Het doel is om de asymp. Sig 1 te laten zijn. 6) Conclusie: SIG > α, H0 aannemen SIG < α, H0 verwerpen.
Wilcoxon Toets op verschillen in rangnummers.
1) H0: de locaties van de 2 verdelingen zijn gelijk 2) Ha: locatie van de 2 verdelingen zijn ongelijk 3) SPSS procedure: Voor onafhankelijke steekproeven: Analyze Nonparametric Tests Legacy Dialogs 2 Independent Samples Define Groups OK Voor gepaarde (afhankelijke) waarnemingen: Analyze Nonparametric Tests Legacy Dialogs 2 Related samples OK 4) Output voor onafhankelijke steekproef: Test Statisticsb
Ranks V4 V3 Mat e v an agressiv iteit 1 oudste 2 jongste Total
N 3 3 6
Mean Rank 4,00 3,00
5) Output voor afhankelijke steekproeven
Sum of Ranks 12,00 9,00
V3 Mate v an agressiv iteit Mann-Whitney U 3,000 Wilcoxon W 9,000 Z -,655 Asy mp. Sig. (2-tailed) ,513 a Exact Sig. [2*(1-tailed ,700 Sig.)] a. Not corrected f or ties. b. Grouping Variable: V4
Ranks N V2 Mate v an agressiv iteit Negativ e Ranks jongste - V1 Mat e v an Positiv e Ranks agressiv iteit oudste Ties Total
3a 2b 1c 6
Mean Rank 3,17 2,75
Sum of Ranks 9,50 5,50
a. V2 Mate v an agressiv iteit jongst e < V1 Mate v an agressiv it eit oudste b. V2 Mate v an agressiv iteit jongst e > V1 Mate v an agressiv it eit oudste c. V2 Mate v an agressiv iteit jongst e = V1 Mate v an agressiv it eit oudste
Test Statisticsb
Z Asy mp. Sig. (2-tailed)
V2 Mate v an agressiv iteit jongste - V1 Mate v an agressiv iteit oudste -,542a ,588
a. Based on positiv e ranks. b. Wilcoxon Signed Ranks Test
6) Conclusie: SIG > α, H0 aannemen SIG < α, H0 verwerpen. Kruskall-Wallis Toets voor meer groepen: verschillen de gemiddelden van de rangnummers met elkaar?
1) H0: locaties van de meerdere verdelingen zijn gelijk 2) Ha: ten minste één van de locaties van de verdelingen wijkt af van de rest 3) SPSS procedure: Voor independent samples: Analyze Nonparametric Tests Legacy Dialogs K Independent Samples (Grouping Variable) Define Range. Type 1 in het minimum-hokje, N in het maximum-hok en klik dan Continue OK 4) Output: Test Statisticsa,b
Ranks V1 pijngrens
V2 haarkleur 1 lichtblond 2 donkerblond 3 lichtbruin 4 donkerbruin Total
N 5 5 4 5 19
- Chi square is hier de KW-waarde. 5) Conclusie: SIG > α, H0 aannemen SIG < α, H0 verwerpen.
Mean Rank 15,20 12,30 7,38 4,60
Chi-Square df Asy mp. Sig.
V1 pijngrens 10,589 3 ,014
a. Kruskal Wallis Test b. Grouping Variable: V2 haarkleur
Friedman Bestaat er een verschil in scores in het aantal verdelingen? H0 & Ha hetzelfde als bij de Kruskall Wallis. 1) SPSS procedure: Analyze Nonparametric Tests Legacy Dialogs K Related Samples. Breng ALLE variabelen naar het rechter hok (Test Variables) door ze één voor één aan te klikken en op de te klikken. Klik tenslotte op OK. 2) Output: Descriptive Statistics N lawy er polit icn phy sicn corppres collprof
15 15 15 15 15
Mean 3,40 4,73 1,60 3,40 1,87
St d. Dev iation 1,183 ,458 ,737 ,986 ,743
De Chi square is hier de Friedman waarde 3) Conclusie: SIG > α, H0 aannemen SIG < α, H0 verwerpen.
Ranks Minimum 1 4 1 2 1
Maximum 5 5 3 5 3
lawy er polit icn phy sicn corppres collprof
Mean Rank 3,40 4,73 1,60 3,40 1,87
Test Statisticsa N Chi-Square df Asy mp. Sig.
15 39,413 4 ,000
a. Friedman Test
Kruistabellen Twee variabelen (kwalitatieve kenmerken) met elkaar in verband brengen 1) H0: de kenmerken zijn statistisch onafhankelijk 2) Ha: de kenmerken zijn statistisch afhankelijk 3) SPSS procedure: Analyze descriptive statistics crosstabs 4) Output:
Chi-Square Tests
Pearson Chi-Square Likelihood Ratio Linear-by -Linear Association N of Valid Cases
Value 37,969a 38,305
9 9
Asy mp. Sig. (2-sided) ,000 ,000
1
,043
df
4,089 729
a. 4 cells (20,0%) hav e expected count less t han 5. The minimum expected count is 1,99.
A: Dit moet 0 zijn, anders mag het model niet gebruikt worden. Regel van cochran: als de cellen < 20%, dan mag de Chi square nog wel gebruikt worden. Symmetric Measures
Nominal by Nominal
Phi Cramer's V
N of Valid Cases
Value ,228 ,228 729
Approx. Sig. ,000 ,000
a. Not assuming the null hy pothesis. b. Using t he asy mptotic standard error assuming the null hy pothesis.
Samenhangsmaten: Cramer’s V Symmetric Measures
Nominal by Nominal
Phi Cramer's V
N of Valid Cases
Value ,228 ,228 729
Approx. Sig. ,000 ,000
a. Not assuming the null hy pothesis. b. Using t he asy mptotic standard error assuming the null hy pothesis.
Waarde loopt van 0 tot 1, met 0 geen samenhang en 1 veel samenhang. Als de V > 0.5, dan begint het wat voor te stellen. Procedure SPSS: ‘options’ bij crosstabs Spearman Rs Correlations codeurnu mmer rubriek
Spearman's codeurnum Correlation rho mer Coefficient Sig. (2-tailed) N rubriek Correlation Coefficient Sig. (2-tailed) N
,041
812 ,041
,267 738 1,000
.
,267 . 738
Waarde loopt van -1 tot 1. Pearson R Correlations
codeurnum Pearson mer Correlation Sig. (2-tailed) N rubriek Pearson Correlation Sig. (2-tailed) N
1,000
codeurnu mmer rubriek 1 ,018
812 ,018
,619 738 1
,619 738
738
738
Waarde loopt van -1 tot 1 Als de waarde > 0.3 en < -0.3, dan stelt de samenhang wat voor Procedure in SPSS: analyse correlate bivariate vink ‘pearson’ aan -
TENTAMENVRAGEN Vraag 1. Meetniveaus: Respondentnummernominaal Percentage van tijd besteed aan emaileninterval ‘Ik voel me vaak overbodig’ ordinaal Geboortejaarinterval Provincienominaal Vraag 2. De onderzoeker wil weten of het mogelijk is een voorspellingsmodel te berekenen op basis waarvan de houding met betrekking tot respect voor-, en vertrouwen in anderen kan worden voorspeld op basis van leeftijd en opleiding. (opl3cat) De variabelen omtrent houding betreffende respect en vertrouwen zijn de variabelen v50, 52, 53, en v55. Het is de bedoeling dat deze worden samengevoegd tot nieuwe variabelen. Opl3cat heeft niet het vereiste meetniveau, daar zult u wat aan moeten doen. Aanmaken variabelen ‘respect’ en ‘vertrouwen’ Compute ‘RESPVERTR’ = mean.3(v50,v52,v53,v55) Dummy maken voor de variabele opleiding: Compute opl1=0 If(opl3cat=1) opl1=1 Compute opl2=0 If(opl3cat=2) opl2=1 Compute opl3=0 If(opl3cat=3) opl3=1 If (missing(opl3cat)) opl1=9 If (missing(opl3cat)) opl2=9
If (missing(opl3cat)) opl3=9 Missing values opl1 tot opl3 (9) Execute. De 4 regels voor execute zijn scherpslijpers en niet in de beoordeling meegenomen. Voer de gevraagde statistische berekening uit en geef het berekende voorspellingsmodel plus de verklaringskracht van het voorspellingsmodel weer. Voorspellingsmodel: Ŷ=12.520 – 0.874x1+E Verklaringskracht: R² = 0.065 R² adjusted= 0.062 6.5% van de spreiding wordt verklaard door leeftijd en opleiding samen. De onderzoeker wil weten of het berekende voorspellingsmodel bruikbaar is. Welke toets, H0 en Ha. Toets op bruikbaarheid Variantie analayse Anovatabel F-toets. H0: β1= β2= β3=0 Ha: tenminste 1 β wijkt statistisch significant af van o. Conclusie: F=21.789, SIG=0.000 (α=0.01) H0 verwerpen, het model is bruikbaar.
De onderzoeker wil ook weten of de onafhankelijke variabele een statistisch significante bijdrage levert aan de voorspellingskracht van het model.
H0: β1=0 H0: β2=0 H0: β3=0 Conclusie: β1: sig= 0.046 Leeftijd significant bij alpha 0.05 β2: sig= 0.000 Opl1 significant bij alpha 0.05 β3: sig= 0.000 Opl2 significant bij alpha 0.05 De onderzoeker wil tenslotte weten of het wel gerechtvaardigd was (en is) om de statistische analysetechniek uit de eerdere onderdelen van vraag 2 te gebruiken. Hij voert hiertoe binnen dezelfde analysetechniek nog een specifieke analyse uit, die uitsluitsel kan geven. Heeft de onderzoeker statistisch correct gehandeld? Mag de onderzoeker wel gebruik maken van lineaire regressie analyse? Residu-analyse uitvoeren=analyse op het onverklaarde deel van de variantie op de variabele ‘CRIM’. Het histogram van de residuen is normaal verdeeld en de normal probability plot geeft een vrijwel rechte lijn weer, dus heeft de onderzoeker statistisch correct gehandeld. Vraag 3. De eerste groep richt zich op waardering voor het leven, variabelen v34, 35, 36, en v37. De tweede groep richt zich op vertrouwen in de politiek en economie, variabelen v49, 51, 54, en v56. Vermoeden: een hogere score op de eerste groep kenmerken. (Dus op waardering voor het leven) Maak twee nieuwe variabelen en kies een toets. Ga uit van normaal verdeelde scores op de twee door u aan te maken variabelen in de populatie. Hoe heeft U de nieuwe variabelen aangemaakt? Recode V35 V37 (1=5) (2=4) (3=3) (4=2) (5=1) Into r35 r37. Compute ‘WAARDLEV’ = mean.3(v34, r35, v36, r37) Compute ‘POLVERTR’ = mean.3(v49, v51, v54, v56)
Exe. Welke toets? H0&Ha in symbolen? T-toets matched pairs (normaal verdeeld) H0: μD=0 Ha: μD>0 Voer de door u gekozen toets uit bij alpha 0.025. T-toets, T=41.885 (hoogte toetsingsgrootheid) Dit kan afwijken van de wijze waarop de schalen zijn gemaakt. Statistische conclusie: H0 verwerpen, sig=0.000/2 (eenzijdig) < alpha 0.025. Inhoudelijke conclusie: het vermoeden van de onderzoeker wordt bevestigd, ‘waardering voor het leven’ wordt sterker ondersteund dan vertrouwen in politiek en economie. Vraag 4. Bestaat er een verschil in mate van interesse in provincie (v72), in NL (v37), in Europa (v74), en buiten Europa (v75)? Welke toets? H0 en Ha? Friedman R-toets, meetniveau variabelen ordinaal en waarnemingen afhankelijk van elkaar. H0: de 4 kansverdelingen zijn identiek de gemiddelde rangnummers zijn gelijk. Ha: de 4 kansverdelingen wijken van elkaar af tenminste 1 verdeling wijkt af van de rest. Voer de toets uit bij alpha 0.05 en trek conclusies. Toetsingsgrootheid: Fr= Chi² Waarde toetsingsgrootheid: Chi²=620.050 Statistische conclusie: H0 verwerpen, sig
Voer dezelfde toets uit bij gelijkblijvende alpha, maar nu opgesplitst naar opleidingsniveau. Split file by opl3cat. Toetsingsgrootheden per opleidingscategorie: Chi²= … Conclusies zijn hetzelfde als bij b. Vraag 5. De onderzoeker vermoedt, dat het gemiddelde aantal minuten dat per dag tv gekeken wordt in de Nederlandse bevolking nogal verschilt naar leeftijd in categorieën, en wil dat met behulp van de steekproefgegevens gaan toetsen.
Welke statistische toetsen zou de onderzoeker kunnen gebruiken?
Variantie-analyse → Parametrisch Kruskal Wallis → Non-parametrisch
Kies 1 toets en formuleer de achtergrondassumpties voor het mogen gebruiken van deze toets.
Variantie-analyse → assumpties: Uiteraard a-selecte steekproeftrekking, de varianties van de 7 populaties (7 leeftijdscategorieën) zijn aan elkaar gelijk en de populatieverdelingen zijn symmetrisch en klokvormig. Het kenmerk 'kijktijd' is van interval of ratio-meetniveau. Kruskal Wallis → assumpties: A-selecte steekproef.
Formuleer de nulhypothese en de alternatieve hypothese. (Hier gaat het dus om de toets mbt tot variantie analyse!)
H0 = De 7 populatiegemiddelden zijn aan elkaar gelijk. ( u1 = u2 = u3 = u4 = u5 = u6 = u7) Ha = Tenminste 1 van de populatiegemiddelden wijkt af. Geef de toetsingsgrootheid weer en hoe luidt de conclusie bij Alpha is 0,05. (Hier gaat het dus om de toets mbt tot variantie analyse!) Toetsingsgrootheid plus waarde noteren. F= Sig.= Sig < Alpha dus de hypothese mag verworpen worden. Inhoudelijk: Uit dit onderzoek blijkt, dat tenminste 1 van de 7 leeftijdscategorieën afwijkt van de andere 6 wat betreft gemiddelde kijktijd.
Formuleer de nulhypothese en de alternaieve hypothese. (Hier gaat het dus om de Kruskal Wallis toets!)
H0 = De 7 kansverdelingen van kijktijd zijn identiek of hebben dezelfde locatie. Ha = Tenminste 1 kansverdeling wijkt af van de overige 6. Geef de toetsingsgrootheid weer en hoe luidt de conclusie bij Alpha is 0,05. (Hier gaat het dus om de Kruskal Wallis toets!) Tenminste 1 kansverdeling van kijktijd-niveau wijkt af van de andere 6 kansverdelingen. Er is een locatieverschil. Vraag 6. De onderzoeker heeft het vermoeden, dat er in de populatie tussen mannen en vrouwen een verschil bestaat voor wat betreft het niveau van hoogst voltooide opleiding.
Formuleer de nulhypothese en de alternatieve hypothese.
H0 = Er is geen verschil tussen mannen en vrouwen voor wat betreft de locatie van de kansverdeling en op opleidingsniveau. Ha = Er bestaat een verschil in locatie van de kansverdelingen op opleidingsniveau tussen mannen en vrouwen.
Geef de toetsingsgrootheid
Z= (Wilcoxon toets! Non-parametrische toets voor 2 onafhankelijke steekproeven. Output → Mann Whitney geeft de Z waarde!) Wicoxon is in sbss hetzelfde als Mann Whitney) (Opleiding is van ordinaal meetniveau, dus een t-toets mag niet.)
Conclusie?
H0 verwerpen. Sig = 0,000 → Sig < Alpa
Inhoudelijke conclusie?
Op basis van dit steekproefonderzoek moet de 0 – hypothese worden verworpen. Tussen mannen en vrouwen is er een verschil gekeken naar hoogst voltooide opleiding. Beschrijvende, toetsende en verklarende statistiek, eigenlijk is het wel erg simpel? 1. Een onderwijssocioloog heeft het vermoeden, dat des te hoger iemands opleidingsniveau is des te geringer het aantal minuten zal zijn, dat iemand tv kijkt. Betreffende onderzoeker heeft materiaal ter beschikking om dit vermoeden te toetsen. Welke toetsen zijn eventueel geschikt, noem de voorwaarden waaronder deze toetsen mogen worden gebruikt, formuleer de bijbehorende hypothesen, verwerpingsgebied (α=.01) en formuleer de conclusies van de toetsen.
Waarden van x voorspellen aan de hand van y. toets is enkelvoudige regressie. H0: B1 = 0 Ha: B1 ≠ 0. Er is een afhankelijke en een onafhankelijke variabele.
2. Een theoloog met aanleg voor empirisch onderzoek wil weten of het al dan niet hebben van kinderen in statistische zin een relatie heeft met het al dan niet lid zijn van een kerk of religieuze organisatie. Hij kijkt naar het meetniveau van de kenmerken en kiest voor een specifieke statische analysetechniek. Welke techniek is dat? Formuleer de nulhypothese en de alternatieve hypothese, verwerpingsgebied (α=.05) en trek uw conclusie. Kruistabel + Chi kwadraat. Relatie onderzoeken tussen kinderen en kerklid. 3. Een communicatiewetenschapper vermoedt, dat er een verschil bestaat in het gemiddeld aantal minuten, dat mensen zonder kinderen en mensen met kinderen, televisie kijken en wil dat toetsen met de meest geschikte toets. De onderzoeker vermoedt, dat de verdeling over het kenmerk Kijktijd in de twee onderzoekspopulaties als normaal mag worden beschouwd. Welke toets zal hij kiezen? Formuleer de nulhypothese en de alternatieve hypothese, verwerpingsgebied (α=.05) en trek uw conclusie op basis van de toetskeuze. Independent samples t-test. Onderzoeken of de gemiddelden van twee groepen van elkaar afwijken. Wijkt het gemiddelde van de groep geen kinderen af van de groep wel kinderen. Testen door, t-waarde van test te vergelijken met t-waarde uit het boek (in dit geval voor 95%) of door sigma te vergelijken met alpha. 4. Een sociaalpsychologe is geïnteresseerd in de samenhang tussen twee variabelen betreffende steun uit het sociale netwerk. Welke samenhangsmaat is de meest geschikte en waarom? Zijn de samenhangen statistisch significant en ook relevant (α=.01)? Tevens wil betreffende onderzoekster weten of er een significant verschil bestaat voor wat betreft de populatiegemiddelden op deze kenmerken. Welke toets kan zij gebruiken (neem aan dat beide variabelen kwantitatief zijn) en hoe luidt haar conclusie bij een α van .01? Spearman’s Rho. Berekenen dmv correlatie. Je wil de samenhang tussen twee variabelen testen.
Deelvraag: paired samples t-test: Vergelijking van twee afhankelijke groepen kijken of er een significant verschil bestaat, om verschillen op te merken moet je vergelijken dus t-test. 5. Een socioloog doet een poging om met behulp van secundaire analyse de kijktijd van respondenten te voorspellen uit de leeftijd van de respondenten. Hij voert hiertoe een statistische analyse uit, die daarvoor geknipt is. Kies de meest geschikte statistische analysetechniek en kan de socioloog hier iets mee m.a.w. is het een statistisch significant en vervolgens relevant voorspellingsmodel (α=.05)? Vervolgens voert de socioloog een tweede kenmerk (hoogst voltooide opleiding) in in het model. Hij heeft daartoe wel de aanname moeten maken, dat opleiding een kwantitatief kenmerk is.? En levert het in statistische zin iets op? Enkelvoudige lineaire regressieanalyse: Onderzoeken of twee kwantitatieve variabelen verband met elkaar houden en kijken hoe sterk dit verband is. Heeft leeftijd verband met kijktijd? Multipele regressie analyse: één afhankelijke en méér dan één onafhankelijke variabelen de socioloog voert een tweede kenmerk in waardoor er dus een afhankelijke variabele is (kijktijd) en twee onafhankelijke variabelen: leeftijd en ….. 6. Een onderzoeker krijgt de beschikking over gegevens uit een onderzoek uit 2004, waarin onder meer de variabele kijktijd voorkomt. Hij vermoedt dat de gemiddelde kijktijd (gemiddeld aantal minuten tv kijken per dag) van de Nederlanders van 18 jaar en ouder in vergelijking met een hem bekend gemiddelde uit 1998, namelijk 150 minuten, significant is toegenomen. Formuleer de nulhypothese en de alternatieve hypothese, verwerpingingsgebied (α=.10) en trek uw conclusie op basis van de toetskeuze. One sample t-test: Onderzoeken of de waarde van een bepaald steekproefgemiddelde afwijkt van een van tevoren verwacht theoretisch gemiddelde (µ) onder de nulhypothese. De onderzoeker vermoedt een gemiddelde kijktijd. Nu moet die toetsen of deze kijktijd klopt of niet. H0: μ=150 of Ha: μ≠150. Toetsende en verklarende statistiek, een vijftal vragen. 1.
Een onderwijssocioloog heeft het vermoeden, dat er een verschil bestaat tussen het gemiddeld aantal minuten, dat mensen tv kijken, indien een opsplitsing plaatsvindt naar opleidingsniveau. Betreffende onderzoeker heeft materiaal ter beschikking om dit vermoeden te toetsen. Welke toetsen zijn eventueel geschikt, noem de voorwaarden waaronder deze toetsen mogen worden gebruikt en formuleer de bijbehorende hypothesen. Gemiddeld minuten interval Opleidingsniveau ordinaal Toets: variantie analyse: compare means, anova. Wanneer geen symmetrisch klokvormige verdeling kruskall wallis. 2. Een theoloog met aanleg voor empirisch onderzoek wil weten of het al dan niet hebben van kinderen in statistische zin een relatie heeft met het al dan niet lid zijn van een kerk of religieuze organisatie. Hij kijkt naar het meetniveau van de kenmerken en kiest voor een specifieke statische analysetechniek. Welke techniek is dat? Formuleer de nulhypothese en de alternatieve hypothese. 2 kenmerken statistisch afhankelijk Nominaal – Nominaal Correlate, bivariate. Pearson. 3. Een communicatiewetenschapper vermoedt, dat er een verschil bestaat in het gemiddeld aantal minuten, dat mensen zonder kinderen en mensen met kinderen, televisie kijken en wil dat toetsen met de meest geschikte toets. De onderzoeker vermoedt, dat de verdeling over het kenmerk Kijktijd in de twee onderzoekspopulaties als normaal mag worden beschouwd. Welke toets zal hij kiezen? Formuleer de nulhypothese en de alternatieve hypothese. Interval – Nominaal Parametrische toets hier t-toets
4. Een sociaalpsychologe is geïnteresseerd in de samenhang tussen twee variabelen betreffende steun uit het sociale netwerk. Betreffende variabelen luiden in vraagvorm als volgt:
1. ‘Ik kan altijd met mijn problemen bij iemand terecht’ 2. ‘Ik heb genoeg mensen om me heen, die me kunnen helpen De antwoordmogelijkheden op deze variabelen zijn; 1. altijd, 2. vaak, 3 soms, 4 bijna nooit, 5 nooit. Welke samenhangsmaat is de meest geschikte en waarom? Tevens wil betreffende onderzoekster weten of er een significant verschil bestaat voor wat betreft de verdelingen op deze kenmerken. Welke toets kan zij gebruiken? Gradatie, rangorde. 2 ordinale kenmerken samenhang correlate Spearman. 5. Een socioloog doet een poging om met behulp van secundaire analyse de kijktijd van respondenten te voorspellen uit de leeftijd van de respondenten. Hij voert hiertoe een statistische analyse uit, die daarvoor geknipt is. Vervolgens voert de socioloog een tweede kenmerk (geslacht) in in het model. Dit mag niet zo maar. Hij heeft daartoe wel dit kenmerk geslacht moeten transformeren van een kwalitatief kenmerk naar een kwantitatief kenmerk.
Voorspelling: Regressie-analyse. Deel 2: Recode, compute, dummy Kenmerk geslacht meevoeren. Verklaringskracht hetzelfde. Compute variabele: compute, function Group, All, Mean Mean( v… , v… , v… )
Belangrijke dingen T-test One-Sample test: toets voor één populatiegemiddelde o Hypothese kan zijn: de gemiddelde kijktijd van Nederlanders (18+) in 2004 is toegenomen in vergelijking met de gemiddelde kijktijd van Nederlanders (18+) in 1998. - H0: µ = 0 - HA: µ ≠ 0 (als je tweezijdig toetst) - HA: µ > of < 0 (als je eenzijdig toetst, hangt van de richting van de hypothese af) Independent Sample test: toetsen voor het verschil van twee populatiegemiddelden o Er is een verschil in gemiddelde kijktijd tussen mensen zonder, en mensen met kinderen. - H0: µ1 - µ2 = 0 - HA: µ1 - µ2 ≠ 0 - HA: µ1 - µ2 < of > 0 Paired Samples test: toetsen voor gepaarde waarnemingen o Er is samenhang tussen de variabelen: ‘ik kan altijd bij iemand terecht met problemen’ en ‘ik heb genoeg mensen om me heen die me kunnen helpen’. - H0: µD = 0 - HA: µD ≠ < of> 0 - Zie volgende kopje ‘samenhang’ voor keuze samenhangsmaat. Samenhang Correlatie-analyse: - Pearson Correlation: bij interval op ratio - H0: R van Pearson = 0 - HA: R van Pearson ≠ < of > 0 - Spearman’s correlation: bij ordinale kenmerken - - H0: R van Spearman = 0 - - HA: R van Spearman ≠ < of > 0 - Cramer’s V: bij nominale kenmerken
Regressie Enkelvoudige regressie-analyse: o Voorspelling van kijktijd uit leeftijd - H0: β1 = 0 - HA: β ≠ 0 Multipele regressie-analyse: bruikbaarheid van het model, toevoeging van een 2e kenmerk o Voorspellen van kijktijd uit leeftijd (β1) én opleidingsniveau (2e kenmerk β2) - H0: β1 = β2 = 0 (model onbruikbaar) - HA: tenminste één β wijkt af van 0 - Β1 is het ene kenmerk, β2 is het andere kenmerk - Het kenmerk dat significant is heeft invloed. Verklaringsmodel: regressievergelijking - Y = b –/+ ax = bij de tabel ‘coefficients’ y = B(constant bovenste) + B(onderste) x -> voorspellingsmodel. Je toetst hierbij de onderste t-waarde. De bovenste t-waarde is niet relevant omdat die constant is. - R2 = 0.000 -> verklaringskracht. Pas als R2 boven de 0.2 komt is het relevant. R2 geeft aan hoeveel procent van de afhankelijke variabele (bv. tv-kijktijd) wordt voorspelt door de onafhankelijke variabele (bv. leeftijd) Kruistabellen Analyse van kruistabellen (crosstabs) - Chi-kwadraat toets: toetsen op statistische onafhankelijkheid - H0: χ2 = 0 - HA: χ2 ≠ < of > 0 - Cramer’s V: toetsen op statistische samenhang bij nominale kenmerken - H0: Cramer’s V = 0 (geen samenhang) - HA: Cramer’s V ≠ 0 (wel samenhang)