Regressie analyse • Zowel correlatie als regressie meten statistische samenhang • Correlatie: – geen oorzakelijk verband verondersteld: • X↔Y
• Regressie: – wel een oorzakelijk verband verondersteld: • X →Y
• Voorbeeld – Verkeerskundige test effect alcohol op rijvaardigheid, 5 groepen proefpersonen, elke groep respectievelijk 0, 1, 2, 3, 4 borrels, vervolgens worden aantal fouten op rijvaardigheidstest gemeten – Hangen deze twee variabelen samen? En zo ja, hoe kan rijvaardigheid voorspeld worden uit aantal gedronken borrels – X = onafhankelijke variabele ofwel verklarende variabele = aantal borrels – Y = afhankelijke variabele ofwel te verklaren variabele = uitslag test
• X→Y 1
regressie analyse
Regressie analyse opbrengst per hoofd (Euro’s) Y
Y = βX + c
aantal verkoopppunten per 100.0000 inwoners X
• Bekijk bovenstaand voorbeeld: – Aantal distributiepunten per 100.000 inwoners en de opbrengst per hoofd vd bevolking, gemeten in vijf districten – Dit leidt tot 5 waarnemingen – Nu willen we de regressie lijn schatten. De wiskundige vergelijking is dan: – Y = βX + c, waarbij – β = regressiecoefficient – deze methode wordt de methode van de kleinste kwadraten genoemd: een lijn waarbij de afstand van de waarnemingen tot die lijn zo klein mogelijk zijn. (Dat wordt bereikt door de som van de kwadratische afwijkingen te minimaliseren). 2
regressie analyse
Regressie analyse • Uitrekenen van regressievergelijking van dit voorbeeld (formule+berekening even achterwege gelaten) leidt tot: – Y = βX + c, – in dit geval: Y = 0,21X + 0,65 – Er van uitgaande dat dit een goede gekwantificeerde weergave is dan: – Indien de distributie met 1 verkooppunt per 100.000 inwoners wordt verhoogd, dan zal de opbrengst per hoofd van de bevolking met 21 eurocent toenemen. – Let op: – Deze analyse veronderstelt een rechtlijnig verband – Voorzichtig met voorspellingen die te ver in de toekomst liggen
3
regressie analyse
Regressie analyse meervoudig • Er kunnen ook meerdere verklarende variabelen opgenomen worden: Y = β1X1 + β2X2 + βnXn + c,
– – – –
in dit geval: Y = opbrengst per hoofd X1 = prijs X2 = aantal distributiepunten X3 = reclame inspanningen
Uitkomst zou kunnen zijn:
Y = -0,3*X1 + 0,2*X2 + 0,4*X3 + 4,5 Let op: – Waarde van de regressiecoefficienten wordt bepaald door de meeteenheden (vb: als reclame in tonnen ipv in euro’s gemeten wordt dan zal de plaats van de komma verschuiven)
4
regressie analyse
Regressie analyse meervoudig • Hoe weet je wat de verklarende kracht is van het regressie model? • Meervoudige correlatie coefficient:R2 – Deze meet de hoeveelheid variantie van de te verklaren variabele die door de verklarende variabelen verklaard wordt – R2 ligt altijd tussen 0 en 1 – Bij R2 = 1 : 100% van de variantie wordt door het model verklaard
• Meest voorkomend probleem: – multicollineariteit – er is een redelijk tot hoge mate van onderling verband tussen de verklarende variabelen (tussen X1, X2 etc) – Oplossing: als - 0,5 <= r <= 0,5 – dus de correlatie tussen de variabelen groter is dan 0,5 (of kleiner dan -0,5) dan een van de variabelen buiten het model laten
5
regressie analyse
Regressie analyse meervoudig •
Wat is een goed model? 1. 2. 3. 4.
•
Wat is een voldoende aantal waarnemingen? – – –
6
Het moet logisch interpreteerbaar zijn Geen (of beperkte) multicollineariteit Geen wezenlijke verklarende factoren zijn buiten het model gelaten Gebaseerd op een voldoende aantal waarnemingen
Vuistregel: n = 100 Werkt soms ook bij kleiner aantal waarnemingen: let op de waarde van R2 Andere vuistregel: minstens vijfmaal zoveel waarnemingen als variabelen
regressie analyse
Regressie analyse meervoudig Overige voorwaarden voor een goed model: 5.
Variabelen zijn ten minste interval geschaald •
6.
Geen uitschieters •
7.
Duidt op het verschijnsel dat er als het ware twee puntenwolken zijn die beter ieder afzonderlijk door een regressie geschat kunnen worden
Praktisch: –
–
7
Deze hebben een te grote invloed op de berekeningen
Geen homoscedasticiteit •
•
Stellingen in onderzoek worden verondersteld interval geschaald te zijn
In onderzoek werkt regressie het best wanneer de onafhankelijke variabelen op dezelfde schaal gemeten zijn, bijv. op een “eens/oneens” vijfpuntschaal Waarom regressie, waarom niet alleen correlatie analyse? → een goede regressie analyse kijkt ook naar de invloed van verklarende variabelen onderling
regressie analyse
Regressie in spss, stap 1 • •
Voorbeeld: studenttevredenheid Meervoudige regressie: – Te verklaren variabele: cijfer voor opleiding (rapportcijfer) – Verklarende variabelen (5 punt schaal): • • • • • • • •
•
8
Interactie docenten/studenten Begeleiding door docenten Docenten stimuleren studenten Docenten motiveren verdieping Vakkennis docenten Omgaan met kritiek Bereikbaarheid docenten Beantwoorden email
Stap 1: staan missing values goed? Geen rare waarnemingen (outliers)?
regressie analyse
Frequentie uitdraai 1 De interactie tussen docenten en studenten is goed. Cumulative Frequency Percent Valid Percent Percent Valid Helemaal mee oneens 19 8,3 8,3 8,3 Enigszins mee oneens 43 18,8 18,9 27,2 Noch mee oneens/ 22 9,6 9,6 36,8 noch mee eens Enigszins mee eens 93 40,6 40,8 77,6 Helemaal mee eens 47 20,5 20,6 98,2 Weet niet/ niet van 4 1,7 1,8 100,0 toepassing Total 228 99,6 100,0 Missing 9999 1 ,4 Total 229 100,0
Missings staan niet goed: waarde 6 = weet niet wordt wel meegenomen in berekeningen (=fout) Oplossing: in variable view “weet niet” op missing zetten
9
regressie analyse
Missing values goed zetten
Missings staan niet goed: waarde 6 = weet niet wordt wel meegenomen in berekeningen (=fout) Oplossing: in variable view “weet niet” op missing zetten
10
regressie analyse
Frequentie uitdraai 2 De interactie tussen docenten en studenten is goed. Cumulative Frequency Percent Valid Percent Percent Valid Helemaal mee oneens 19 8,3 8,5 8,5 Enigszins mee oneens 43 18,8 19,2 27,7 Noch mee oneens/ 22 9,6 9,8 37,5 noch mee eens Enigszins mee eens 93 40,6 41,5 79,0 Helemaal mee eens 47 20,5 21,0 100,0 Total 224 97,8 100,0 Missing Weet niet/ niet van 4 1,7 toepassing 9999 1 ,4 Total 5 2,2 Total 229 100,0
Missings staan nu wel goed: waarde 6 = weet niet wordt niet meegenomen in berekeningen (=goed). Check ook het aantal waarnemingen: U heeft er minimaal 100 nodig. Soms werkt de techniek ook met minder waarnemingen (30 is absoluut minimum). In dit geval zijn er 224 valide waarnemingen. 11
regressie analyse
Stap 2: check normale verdeling • Doe dit door onder frequencies, charts het histogram met normale verdeling te kiezen
12
regressie analyse
Uitkomst check normale verdeling Geef een rapportcijfer voor je opleiding (tussen 1 en 10). 100
80
80
60
60
40
20
Std. Dev = 13,08 Mean = 66,2
Frequency
40
Frequency
• Conclusie: alles redelijk normaal verdeeld behalve deze variabele (interactie). Doen we nu nog even niets mee.
De interactie tussen docenten en studenten is goed. 100
20
Std. Dev = 1,25 Mean = 3,5 N = 224,00
0
N = 226,00
0 10,0
30,0 20,0
50,0 40,0
70,0 60,0
1,0
90,0 80,0
2,0
3,0
4,0
5,0
De interactie tussen docenten en studenten is goed.
100,0
Geef een rapportcijfer voor je opleiding (tussen 1 en 10).
De begeleiding door docenten is goed.
Docenten stimuleren studenten op de juiste manier.
120
100
100 80
80 60
60 40
20
Frequency
Frequency
40
Std. Dev = 1,10 Mean = 3,4
20
Std. Dev = ,99 Mean = 3,2 N = 224,00
0
N = 224,00
0 1,0
2,0
3,0
4,0
1,0
2,0
3,0
4,0
5,0
5,0
Docenten stimuleren studenten op de juiste manier.
De begeleiding door docenten is goed.
De vakkennis van docenten is voldoende. 120 De docenten motiveren mij om mij verder in het vak te verdiepen. 80
100
60
80
60 40
Std. Dev = 1,05 Mean = 3,1 N = 223,00
0 1,0
2,0
3,0
4,0
Frequency
Frequency
40 20
20
Std. Dev = 1,05 Mean = 3,7 N = 221,00
0
5,0
1,0
De docenten motiveren mij om mij verder in het vak te verdiepen.
2,0
3,0
4,0
5,0
De vakkennis van docenten is voldoende.
Docenten zijn goed bereikbaar. Docenten kunnen goed omgaan met kritiek.
70
70
60 60
50 50
40 40
30 30
Frequency
Std. Dev = 1,13
10
Mean = 3,1 N = 215,00
0 1,0
2,0
3,0
4,0
Frequency
20 20
Std. Dev = 1,25
10
Mean = 3,2 N = 220,00
0 1,0
2,0
3,0
5,0
Docenten zijn goed bereikbaar. Docenten kunnen goed omgaan met kritiek.
13
regressie analyse
4,0
5,0
Normale verdeling: “klok” vorm
Stap 3: check correlaties • Hoge correlatie tussen verklarende variabelen leidt tot multicollineariteit!
Correlations
De interactie tussen docenten en studenten is goed. De begeleiding door docenten is goed. Docenten stimuleren studenten op de juiste manier.
Pearson Correlation Sig. (2-tailed) N Pearson Correlation Sig. (2-tailed) N Pearson Correlation Sig. (2-tailed) N
De interactie De Docenten tussen begeleiding stimuleren docenten en door studenten studenten is docenten is op de juiste goed. goed. m anier. 1 ,602** ,458** , ,000 ,000 224 224 224 ,602** 1 ,564** ,000 , ,000 224 224 224 ,458** ,564** 1 ,000 ,000 ,
De docenten motiveren Pearson Correlation mij om mij verder in het Sig. (2-tailed) vak te verdiepen. N De vakkennis van Pearson Correlation docenten is voldoende. Sig. (2-tailed) N Docenten kunnen goed Pearson Correlation omgaan met kritiek. Sig. (2-tailed) N Docenten zijn goed Pearson Correlation bereikbaar. Sig. (2-tailed) N Docenten Pearson Correlation beantwoorden hun Sig. (2-tailed) ontvangen email snel. N
224
224
224
,510** ,000 223 ,317** ,000 221 ,356** ,000 215 ,421** ,000 219 ,379** ,000 219
,408** ,000 223 ,322** ,000 221 ,310** ,000 215 ,422** ,000 219 ,450** ,000 219
,510** ,000 223 ,260** ,000 221 ,371** ,000 215 ,263** ,000 219 ,281** ,000 219
14**. Correlation is significant at the 0.01 level (2-tailed). regressie analyse *. Correlation is significant at the 0.05 level (2-tailed).
De docenten motiveren mi om mij verde in het vak te verdiepen.
Correlatie analyse • Uit correlatie analyse blijken hoge correlaties tussen: – interactie/begeleiding (0,60) – begeleiding/stimulering (0,56) – stimuleren/motiveren (0,51)
• Conclusies: – interactie was niet goed normaal verdeeld: nemen we niet mee, wel nemen we begeleiding mee • waarschijnlijk is zijn de meningen sterk gepolariseerd t.a.v. interactie
– stimuleren/motiveren meten vrijwel hetzelfde – voor regressie: keuzes maken: • “interactie” wordt niet opgenomen, wordt gemeten door “begeleiding” • “stimuleren” wordt niet opgenomen, wordt gemeten door “motiveren” 15
regressie analyse
Regressie in spss
• Kies regressie, lineair • Om vervolgens alle verklarende variabelen in het model op te nemen: kies method enter • Bij dependent: de te verklaren variabele • Bij independent: de verklarende variabelen
16
regressie analyse
Stap 4: output interpreteren Model Summary
Model 1
R R Square ,563 a ,317
Adjusted R Square ,297
Std. Error of the Estimate 10,878
a. Predictors: (Constant), Docenten beantwoorden hun ontvangen email snel., De vakkennis van docenten is voldoende., Docenten kunnen goed omgaan met kritiek., De docenten motiveren mij om mij verder in het vak te verdiepen., De begeleiding door docenten is goed., Docenten zijn goed bereikbaar.
• R2 van 0,32 dwz dat 32% van de variantie in het algemeen oordeel door dit model verklaard word
17
regressie analyse
SPSS output interpreteren Coefficientsa
Model 1 (Constant) De begeleiding door docenten is goed. De docenten motiveren mij om mij verder in het vak te verdiepen. De vakkennis van docenten is voldoende. Docenten kunnen goed omgaan met kritiek. Docenten zijn goed bereikbaar. Docenten beantwoorden hun ontvangen email snel.
Standardi zed Coefficien Unstandardized ts Coefficients B Std. Error Beta 41,099 3,459
t 11,883
Sig. ,000
4,895
,832
,419
5,885
,000
3,152
,875
,252
3,602
,000
-,912
,820
-,074
-1,112
,267
1,005
,766
,088
1,311
,191
-,191
,775
-,019
-,246
,806
-,160
,812
-,015
-,197
,844
a. Dependent Variable: Geef een rapportcijfer voor je opleiding (tussen 1 en 10).
• Kijk naar gestandaardiseerde beta’s en significantie niveau. Als Sig. < 0,05 dan is de beta signifikant • Er staan nog een aantal niet signifikante beta’s in dit model 18
regressie analyse
Stap 5:meerdere regressie modellen opstellen • Kies regressie, lineair • Om vervolgens alleen signifikante verklarende variabelen in het model op te nemen: kies method backward • Bij dependent: de te verklaren variabele • Bij independent: de verklarende variabelen
19
regressie analyse
Backwards regression Model Summary
Model 1 2 3 4 5
R R Square ,563 a ,317 ,563 b ,317 ,563 c ,316 ,559 d ,312 ,555 e ,308
Adjusted R Square ,297 ,300 ,303 ,302 ,302
Std. Error of the Estimate 10,878 10,851 10,828 10,834 10,839
• Er komen nu 5 verschillende modellen uit met ieder een andere R2. • Bij alle 5 de modellen is R2 plusminus 31% • Welk model te kiezen? – Kies het model waarin alle variabelen significant zijn
20
regressie analyse
Analyse output Coefficientsa
Model 41
5
omgaan met kritiek. (Constant) (Constant) De begeleiding door docenten is goed. De docenten motiveren mij om mij verder in het vak te verdiepen. Docenten kunnen goed omgaan met kritiek. (Constant) De begeleiding door docenten is goed. De docenten motiveren mij om mij verder in het vak te verdiepen.
Unstandardized Coefficients B Std. Error 40,562 3,749 39,067 2,973
Standardi zed Coefficien ts Beta
t 10,820 13,140
Sig. ,000
4,616
,751
,396
6,143
,000
2,859
,831
,228
3,442
,001
,794
,728
,070
1,090
,277
40,209
2,784
14,442
,000
4,757
,741
,408
6,422
,000
3,125
,795
,250
3,932
,000
a. Dependent Variable: Geef een rapportcijfer voor je opleiding (tussen 1 en 10).
• Model 4: 1 variabele niet signifikant, model 5 alle variabelen signifikant • Conclusie: wat is het belangrijkste aan een docent, als we kijken uit de student: – – – –
21
goede begeleiding (β=0,41) studenten motiveren (β=0,25) begeleiding belangrijkst (β grootst) Uit de correlatie analyse weten we verder dat goede begeleiding vooral betekent: studenten stimuleren regressie analyse