Vraag 1. Welk design bevat geen random assignment: a) Een design gebaseerd op ‘matching’ b) Een design gebaseerd op ‘blocking’ c) Een ‘factorial’ design d) Elk van de hierboven genoemde designs ch14 p.375
Oefententamen II, Methoden van Onderzoek en Basis Statistiek
Vraag 2. In een experiment met 3 between-‐subject factoren heb ik de volgende situatie: Factor A heeft 4 niveaus, Factor B heeft 2 niveaus en factor C heeft 3 niveaus. Hoeveel condities zijn er (ga er vanuit dat het design ‘fully crossed’ is)? a) 3 b) 9 ch14 c) 11 p.372 - 374 d) 24
Oefententamen II, Methoden van Onderzoek en Basis Statistiek
Vraag 3. De Bonferroni correctie op het significantie niveau (α) is gegeven door de volgende formule:
α* =
α
aantal toetsen
Waarvoor wordt een Bonferroni correctie gebruikt? a) Bij het gebruik van meerdere statistische toetsen vergroot de variantie van α. b) Bij het gebruik van meerdere statistische toetsen verkleint de variantie van α. c) Bij het gebruik van meerdere statistische toetsen vergroot de kans op een Type I fout. d) Bij het gebruik van meerdere statistische toetsen verkleint de kans op een Type I fout. interleaf 9
Oefententamen II, Methoden van Onderzoek en Basis Statistiek
Vraag 4. Bekijk de volgende definitie: ‘Het verschil tussen het ware effect en het gemiddelde effect zoals dat is gepubliceerd in de literatuur’. Welk begrip wordt hier bedoeld? a) ‘Confounding’ b) ‘Observer bias’ interleaf 10 c) ‘Publication bias’ d) ‘Experimental artifacts’
Oefententamen II, Methoden van Onderzoek en Basis Statistiek
Vraag 5. Bij een groep proefpersonen manipuleert een onderzoekster 2 variabelen. Variabele A krijgt 3 niveaus, variabele B krijgt 6 niveaus. Ze wil de invloed van haar manipulaties onderzoeken in een ‘between-‐subject design’ dat ‘fully crossed’ is. Hoeveel condities moet de onderzoekster gebruiken? a) 2 condities b) 4 condities ch14 c) 9 condities d) 18 condities
Oefententamen II, Methoden van Onderzoek en Basis Statistiek
Vraag 6. Wanneer is er sprake van een ‘balanced design’? a) Wanneer de varianties binnen de condities van het experiment gelijk zijn. b) Wanneer elke factor in het design evenveel niveaus heeft. c) Wanneer er evenveel meetwaarden in elke conditie van het experiment zitten. d) Wanneer het design 2 factoren heeft (in plaats van 1). ch14 §4
Oefententamen II, Methoden van Onderzoek en Basis Statistiek
Vraag 7. In het boek wordt het gebruik van ‘data dredging’ besproken. Dit houdt in dat er meerdere statistische tests worden uitgevoerd in de hoop dat er tenminste één een significant resultaat oplevert. Wat is het gevolg van ‘data dredging’? a) Door meerdere toetsen uit te proberen wordt de aanname van normaliteit geschonden. b) Door meerdere toetsen uit te proberen vergroot de kans op een Type I fout. c) Door meerdere toetsen uit te proberen is er sprake van pseudoreplicatie. d) Door meerdere toetsen uit te proberen wordt de steekproefgrootte kunstmatig verhoogd. De daadwerkelijke steekproef is kleiner. interleaf 8
Oefententamen II, Methoden van Onderzoek en Basis Statistiek
Vraag 8. Waar wordt een ‘funnel plot’ voor gebruikt? a) Om een indicatie te krijgen van de groepsverschillen op een gegeven afhankelijke variabele. b) Om een indicatie te krijgen van de mate waarin er sprake is van publication bias. c) Om een indicatie te krijgen van de spreiding binnen één individu op een herhaalde meting. d) Om een indicatie te krijgen van de precisie van een bepaalde schatter.
interleaf 9
Oefententamen II, Methoden van Onderzoek en Basis Statistiek
Vraag 9 Lichaamstemperatuur van gezonde mensen is normaalverdeeld met gemiddelde van 36.8 °C en een standaarddeviatie van 0.35 °C. Wat is de kans op een lichaamstemperatuur die lager is dan 36.0 °C? a) P < 0.01 b) 0.01 < P < 0.02 ch10 c) 0.02 < P < 0.05 d) P > 0.05 gevraagd wordt een kans uit de verdeling van ‘lichaamstemperatuur’ P = normalcdf(-‐e9,36,36.8,0.35) = 0.0111
Oefententamen II, Methoden van Onderzoek en Basis Statistiek
Vraag 10 Geboortegewicht is normaalverdeeld met gemiddelde 3339 gram en standaardafwijking 573 gram. Een baby moet uit voorzorg in de couveuse als ze tot de 1% lichtste baby’s behoort. Onder welk grensgewicht moet een baby in de couveuse? a) Minder dan 1.7 kg. b) Minder dan 1.8 kg. ch10 c) Minder dan 1.9 kg. d) Minder dan 2.0 kg. gevraagd wordt een waarde uit de verdeling van ‘geboortegewicht’ invNorm(0.01,3339,573) = 2006 g
Oefententamen II, Methoden van Onderzoek en Basis Statistiek
Vraag 11 IQ is normaal verdeeld met gemiddelde 100 en standaarddeviatie 15. Welk deel van de populatie zal een IQ hebben van 119 of hoger? a) Ongeveer 5 procent b) Ongeveer 10 procent ch10 c) Ongeveer 15 procent d) Ongeveer 20 procent gevraagd wordt een fractie=oppervlak=kans uit de verdeling van ‘IQ’ fractie = normalcdf(119,e9,100,15) = 0.103 10%
Oefententamen II, Methoden van Onderzoek en Basis Statistiek
Vraag 12 De lengte van kinderen bij de geboorte is normaalverdeeld met een gemiddelde van 52 cm en een variantie van 1.5 cm2. Hoe groot is de kans dat de gemiddelde lengte van (een willekeurig samengestelde groep van) 6 pasgeboren baby’s ligt tussen de 51 en 53 cm? a) 0.4950 b) 0.5858 ch10 §5 c) 0.8975 d) 0.9545 gevraagd wordt een kans uit de verdeling van ‘gemiddelde lengte’ P = normalcdf(51,53,52,√1.5/√6) = 0.9545
Oefententamen II, Methoden van Onderzoek en Basis Statistiek
Vraag 13 Een onderzoeker wil testen of de lengte van vrouwen uit België afwijkt van de lengte van vrouwen uit Nederland. De gemiddelde lengte van vrouwen uit Nederland is 169.6 cm. De onderzoeker bepaalt de lengte van 100 (aselect gekozen) Belgische vrouwen en vindt een gemiddelde lengte van 168.9 cm met een standaardafwijking van 3.4 cm. Lichaamslengte is een normaalverdeelde variabele. Wat is de juiste conclusie op grond van deze van deze steekproef? a) P=0.021; de nulhypothese dat Belgische vrouwen dezelfde lengte hebben als Nederlandse vrouwen wordt verworpen (P < 0.05). b) P=0.042; de nulhypothese dat Belgische vrouwen dezelfde lengte hebben als Nederlandse vrouwen wordt verworpen (P < 0.05). c) P=0.42; de nulhypothese dat Belgische vrouwen dezelfde lengte hebben als Nederlandse vrouwen wordt niet verworpen (P > 0.05). d) P=0.84; de nulhypothese dat Belgische vrouwen dezelfde lengte hebben als Nederlandse vrouwen wordt niet verworpen (P > 0.05). ch11 §1 one-‐sample t-‐test H0: µ=169.6, HA: µ≠169.6 TG = (168.9-‐169.6) / (3.4/√100) = -‐2.06; P = 2*tcdf(-‐e9,-‐2.06 ,99)=0.042
Oefententamen II, Methoden van Onderzoek en Basis Statistiek
Vraag 14 Beschouw de volgende twee beweringen: I. De Student’s t-‐verdeling gaat bij een toenemend aantal vrijheidsgraden steeds meer lijken op de standaardnormale verdeling. II. Bij een klein aantal vrijheidsgraden is de Student’s t-‐verdeling asymmetrisch. Welke beweringen zijn waar? a) Alleen bewering I is waar. b) Alleen bewering II is waar. c) Bewering I en II zijn beide waar. d) Bewering I en II zijn beide NIET waar. ch11 bew. 1: p. 260 bew. 2: p. 261
Oefententamen II, Methoden van Onderzoek en Basis Statistiek
Vraag 15 Staartlengte van zwarte ratten (Rattus rattus) is normaal verdeeld. Een onderzoeker bepaalt bij een steekproef van 9 ratten de staartlengte en vindt een gemiddelde van 15.20 cm met een standdaardeviatie van 2.19 cm. Wat is op grond van deze data het 99% betrouwbaarheidsinterval voor het populatiegemiddelde µ? a) 9.56 < µ < 20.84 ch11 b) 12.75 < µ < 17.65 p.265 c) 12.83 < µ < 17.57 d) 13.32 < µ < 17.08 besef dat 15.20 het steekproefgemiddelde is en 2.19 de steekproefstandaardafwijking gebruik de formule voor een betr. intv. zoals op p.265 of op de formulekaart; t lees je af in Table C bij df=8 en α(2)=0.01 en dat is 3.36, of je vindt t mbv invT(0.005,8) = -‐3.36
Oefententamen II, Methoden van Onderzoek en Basis Statistiek
Vraag 16 Wat is de juiste interpretatie van het betrouwbaarheidsinterval bij de voorgaande vraag? a) Er is 99% kans dat het populatiegemiddelde tussen beide grenswaarden ligt. b) In 99% van de steekproeven zal het gevonden betrouwbaarheidsinterval het populatiegemiddelde bevatten. c) Er is 99% kans om een steekproefgemiddelde tussen beide grenswaarden te vinden. d) Geen van bovengenoemde interpretaties is juist. ch11 p.264
Oefententamen II, Methoden van Onderzoek en Basis Statistiek
Vraag 17 Het enzym lactaatdehydrogenase (LDG) komt voor in spiercellen, bloedcellen en huidcellen en zet koolhydraten om in melkzuur (lactaat). Hieronder staan de resultaten van een studie naar de LDG-‐ concentratie in de rode bloedcellen van mannen en vrouwen (met Y: ‘lactaatdehydrogenase-‐concentratie’). Mannen Vrouwen n 270 264 Y-‐streep 60 57 S 11 10 Met een t-‐toets kun je nagaan of er verschil is tussen de LDG-‐ concentratie van mannen en vrouwen. Als je die toets uitvoert, wat is dan de waarde van de toetsingsgrootheid (TG-‐waarde) en wat is de conclusie? a) TG=3.30; er is geen reden om aan te nemen dat de LDG-‐ concentratie van mannen en vrouwen verschilt. b) TG=3.30; het lijkt erop dat de LDG-‐concentratie van mannen en vrouwen verschilt. c) TG=10.70; er is geen reden om aan te nemen dat de LDG-‐ concentratie van mannen en vrouwen verschilt. d) TG=10.70; het lijkt erop dat de LDG-‐concentratie ch12 p.291 van mannen en vrouwen verschilt. Oefententamen II, Methoden van Onderzoek en Basis Statistiek
2 sample t-‐test omdat s(man) ≈ s(vrouw) is het zeer waarschijnlijk dat de populatievarianties gelijk zijn (als je het niet gelooft, moet je maar even een F-‐tetst doen), dus kunnen we verder met Student’s t test S2pooled is (269*112+263*102)/(269+263)= 110.62 SE= √110.62*((1/269)+(1/263))= 0.91205 TG=(60-‐57)/0.91205=3.289 dit is een waarde uit een t532 verdeling P=2*tcdf(3.289,E9,532)=0.0011 dus P<0.05, dus H0 (LDG concentratie van mannen en vrouwen is gelijk) kan verworpen
Oefententamen II, Methoden van Onderzoek en Basis Statistiek
Vraag 18 Wat stelt de ‘pooled variance’ voor? a) Het gemiddelde van de steekproefvarianties. b) De variantie van de steekproefgemiddeldes. c) Het gewogen gemiddelde van de steekproefvarianties. d) De gewogen variantie van de steekproefgemiddeldes. ch12 p.289
Oefententamen II, Methoden van Onderzoek en Basis Statistiek
Vraag 19 Op een groep van 25 proefpersonen wordt een nieuw medicijn getest. Een controlegroep van 19 proefpersonen krijgt een placebo. Een onderzoeker vermoedt dat het medicijn de spreiding van een bepaalde bloedwaarde beïnvloedt. dus tweezijdig toetsen De variantie van deze bloedwaarde is 0.9 in de groep die het medicijn slikt en 1.8 in de groep die de placebo slikt. De onderzoeker voert een F-‐test uit voor gelijke varianties. Welk van onderstaande kansen correspondeert met de P-‐waarde? a) P = P(F(24,18) ≤ 0.5) ch12 b) P = P(F(24,18) ≥ 2) p.300 c) P = 2 * P(F(18,24) ≤ 0.5) d) P = 2 * P(F(18,24) ≥ 2) F-‐test voor twee varianties groep ‘medicijn’: n=25, s2=0.9 groep ‘placebo’: n=19, s2=1.8 de P-‐waarde kan op twee manieren berekend manier 1: TG = 1.8/0.9 = 2 dan is P = 2* Fcdf(2,e9,18,24) = 0.1131 manier 2: TG = 0.9/1.8 = 0.5 dan is P = 2* Fcdf(0,0.5,24,18) = 0.1131 alleen manier 1 is terug te vinden bij de antwoorden
Oefententamen II, Methoden van Onderzoek en Basis Statistiek
Vraag 20 Iemand wil de nulhypothese H0: σA2= σB2 toetsen tegen de alternatieve hypothese HA: σA2≠ σB2 A en B zijn normaalverdeelde variabelen. Zowel uit A als uit B wordt een steekproef getrokken. Voor de steekproef uit A geldt: A-‐streep is 14.949, SA is 4.995 en nA is 10. Voor de steekproef uit B geldt: B-‐streep is 14.146, SB is 6.26 en nB is 12. Bereken de waarde die de bij deze nulhypothese te gebruiken toetsingsgrootheid (TG) aanneemt, en bepaal de bijbehorende P-‐ waarde. a) P = 0.2535 ch12 §7 b) P = 0.3733 c) P = 0.5071 d) P = 0.7465 F-‐test voor twee varianties groep A: n=10, s2=4.9952 groep B: n=12, s2=6.262 tweezijdige toets
TG = 4.9952/6.262 = 0.637, P = 2*Fcdf(0,0.636,9,11) = 0.5071 of
TG = 6.262/4.9952 = 1.57, P = 2*Fcdf(1.57,e9,11,9) = 0.5071
Oefententamen II, Methoden van Onderzoek en Basis Statistiek
Vraag 21 Beschouw de volgende twee uitspraken: I. De power van een non-‐parameterische toets is over het algemeen lager dan de power van een vergelijkbare parametrische toets II. Bij gepaarde data waarbij de verschillen tussen de meetwaardes niet normaal verdeeld zijn kan een tekentoets (sign test) toegepast worden Welke uitspraken zijn waar? a) Alleen bewering I is waar. b) Alleen bewering II is waar. c) Bewering I en II zijn beide waar. d) Bewering I en II zijn beide NIET waar.
ch13 bew. 1 p. 343 bew. 2 p. 333
Oefententamen II, Methoden van Onderzoek en Basis Statistiek
Vraag 22 Bij de Mann-‐Whitney U-‐test krijgt elke variabele uit de steekproeven een rang toegewezen. Per steekproef worden de rangen vervolgens opgeteld tot rangsom R. Hieronder staan de samenstellingen van twee steekproeven. A: 11 19 10 5 11 12 B: 18 5 11 3 18 10 Welke rangsom verwacht je theoretisch voor steekproef A als de steekproeven uit populaties komen met dezelfde mediaan? a) RA = 24 ch13 §5 b) RA = 39 c) RA = 42 d) RA = RB , meer kun je er niet over zeggen als beide populaties dezelfde mediaan hebben en de steekproeven uit deze populaties even groot zijn, dan verwacht je in theorie dat de rangsommen ook even groot zijn het uitrekenen van wat RA in dit geval is heeft dus geen zin, het gaat om wat je theoretisch verwacht als er in totaal 12 rangen te vergeven zijn, is de totale rangsom dus 1+2+3+…+11+12 = 78, dus verwacht je RA=RB=78/2=39 (in werkelijkheid zul je meestal vinden RA≠RB, zoals ook hier) Oefententamen II, Methoden van Onderzoek en Basis Statistiek
Vraag 23 Aan vier groepen van elk 15 personen wordt variabele Y gemeten. Het blijkt dat Y in de vier groepen niet normaalverdeeld is, maar √ Y wel. Welke toets heeft de voorkeur als je wilt nagaan of de ligging van deze vier groepen gelijk is? Neem aan dat er aan de voorwaarde voor gelijke variantie (ANOVA) of gelijke verdelingsvorm (Kruskall-‐Wallis) is voldaan, zowel voor Y als voor √ Y. a) ANOVA op de getransformeerde metingen. b) ANOVA op de oorspronkelijke metingen. c) Kruskall-‐Wallis op de getransformeerde metingen. d) Kruskall-‐Wallis op de oorspronkelijke metingen. ch13 een parametrische toets heeft altijd de voorkeur (zelfs als de data daarvoor getransformeerd moeten) omdat de power van een parametrische toets groter is dan van een non-‐parametrische toets (die immers de absolute metingen omzet in rangen waardoor je informatie verliest)
Oefententamen II, Methoden van Onderzoek en Basis Statistiek
Vraag 24 Drie groepen muizen worden elk onder een verschillende stressvolle situatie geplaatst. Van elk muis wordt daarna het cortisol-‐gehalte in het bloed bepaald (cortisol is een stress-‐hormoon). Elke groep bestaat uit 5 muizen. De nulhypothese dat de groepen niet verschillen in het gemiddelde cortisolgehalte wordt met een ANOVA getoetst. Daarbij blijkt SSerror = 10 en SSgroups = 7. In welk interval valt de P-‐waarde? a) P < 0.025 b) 0.025 < P < 0.050 ch15 c) 0.050 < P < 0.100 p. 399 d) 0.100 < P bepaal de df’s van beide SS-‐en en bereken dan beide MS-‐en MSgroups/MSerror is de TG en volgt een F(dfgroups,dferror)-‐verdeling de P-‐waarde bereken je dan met een Fcdf (bij een anova nooit *2)
Oefententamen II, Methoden van Onderzoek en Basis Statistiek
Vraag 25 In een onderzoek naar het effect van elektromagnetische velden op de menselijke gezondheid, werden 7 groepen mensen elk gedurende een week blootgesteld aan een elektromagnetisch veld van een andere sterkte. Elke groep bestond uit 45 personen. Na afloop werd bij elk groepslid de serumconcentratie adrenaline vastgesteld. De metingen werden met een één-‐factor model variantieanalyse geanalyseerd. Welke verdeling volgde de toetsingsgrootheid? a) F(6,314) b) F(6,308) ch15 p. 399 c) F(6,44) d) F(6,38) df1 = dfgroups = k-‐1 = 7-‐1 = 6 df2 = dferror = N-‐k = (7*45)-‐7 = 308
Oefententamen II, Methoden van Onderzoek en Basis Statistiek
Vraag 26 Uit populatie X1 wordt de volgende steekproef getrokken: 3.8 5.2 5.1 5.1 3.4 Uit populatie X2 wordt de volgende steekproef getrokken: 6.1 7.4 9.0 6.7 6.8 Beide populaties zijn normaalverdeeld en hebben dezelfde variantie. Wat is de zuiverste schatter van deze (populatie)variantie? a) MSgroups b) MSerror ch15 c) SSerror d) S2X1 + S2X2 alleen MS-‐en zijn variantieschattingen, SS-‐en niet MSerror is de zuiverste van de genoemde MS-‐en, omdat MSerror een soort van gewogen gemiddelde steekproefvariantie is en dus een directe schatter van de populatievariantie MSgroups geeft een onjuist beeld van de populatievariantie wanneer de populaties een verschillende ligging hebben (maw als de behandelingen effect hebben) antw. d) zou goed zijn als de som nog gedeeld werd door 2 Oefententamen II, Methoden van Onderzoek en Basis Statistiek
Vraag 27 In een onderzoek naar het effect van suikerconsumptie (factor A) op bloedsuikergehalte (variabele Y) worden 40 personen in 2 even grote groepen ingedeeld. Elke groep krijgt een andere hoeveelheid suiker te consumeren. Van elke groep wordt vervolgens het gemiddelde bloedsuikergehalte bepaald. Om de nulhypothese te toetsen dat suikerconsumptie geen effect heeft op bloedsuikergehalte, wordt een één-‐factor model variantieanalyse uitgevoerd. De resultaten daarvan zijn: SSerror = 100.0 SSgroups = 6.5 In welk interval ligt de waarde die de toetsingsgrootheid aanneemt? a) 0.00 tot <1.00 ch15 b) 1.00 tot <2.00 c) 2.00 tot <2.50 d) 2.50 tot <3.00 bepaal dferror en dfgroups en bereken MSgroups/MSerror als toetsingsgrootheid
Oefententamen II, Methoden van Onderzoek en Basis Statistiek
Vraag 28 Een onderzoeker bepaalt in een experimentele proef of er bij papegaaien samenhang bestaat tussen omgevingstemperatuur en de hoeveelheid dagelijks genuttigd voedsel. Hij vindt een lineaire correlatiecoëfficiënt tussen de variabelen ter grootte r = –0.36 op basis van 60 waarnemingen. Welke conclusie kan hieruit worden getrokken? a) Het lijkt erop dat papagaaien minder eten als ze zich in een warmere omgeving bevinden (P<0.05). b) Het lijkt erop dat papagaaien meer eten als ze zich in een warmere omgeving bevinden (P<0.05). c) Er lijkt bij papegaaien geen samenhang te zijn tussen omgevingstemperatuur en de hoeveelheid dagelijks genuttigd voedsel (P>0.05). d) De spreiding in de hoeveelheid voedsel die papegaaien dagelijks eten is voor 36% te verklaren uit de samenhang die er bestaat met de omgevingstemperatuur. toetsing van H0: ρ=0 ch16 TG = r/SEr en is tn-‐2 verdeeld p. 439, 440 SEr = √(1-‐r2 / n-‐2) zie formulekaart je vindt een P>0.05 dat a) wel goed is en b) niet ,volgt uit het feit dat de gevonden r<0 Oefententamen II, Methoden van Onderzoek en Basis Statistiek
Vraag 29 Hoe moet de correlatiecoëfficiënt van een eindige populatie (omvang n) worden berekend?
a) b) c) d)
(X − µ ∑ ρ=
X
(X − µ ∑ ρ=
X
)(Y − µY )
(n − 1) ⋅ s X ⋅ sY
)(Y − µY )
(n − 1) ⋅ σ X ⋅ σ Y
(X − µ ∑ ρ=
X
)(Y − µY )
n ⋅ s X ⋅ sY
(X − µ ∑ ρ=
X
ch16
)(Y − µY )
n ⋅σ X ⋅σY
het is dezelfde formule als voor r maar dan met enkel populatieparameters erin (en geen vrijheidsgraden)
Oefententamen II, Methoden van Onderzoek en Basis Statistiek
Vraag 30 Als je hasj rookt, komen er allerlei stofjes (cannabinoïden) in je lichaam die het zenuwstelsel beïnvloeden. Het is niet ondenkbaar dat hierdoor bepaalde hersenfuncties worden aangetast en dat dit uiteindelijk kan leiden tot verlaging van het IQ. Hieronder staan van 6 personen de gegevens omtrent langdurig dagelijks hasj gebruik en IQ.
persoon hasj gebruik (g/dag) IQ
A
B
C
D
E
F
0.2
0.4
0.8
1.4
1.8
2.6
116
108
102
110
95
93
Wat is de lineaire correlatiecoëfficiënt voor hasj gebruik en IQ in deze steekproef? rekenhulp: ∑X=7.2; ∑X2=12.8; SX=0.912 (X: ‘hasj gebruik’) ∑Y=624; ∑Y2=65298; SY=8.967 (Y: ‘IQ’)
∑XY=714.8
ch16 a) r = 0.69 p. 449 e.v. b) r = –0.76 formulekaart c) r = –0.83 d) r = –0.90 bereken de r zoals op de formulekaart staat (en gebruik de ‘rekenhulp’) Oefententamen II, Methoden van Onderzoek en Basis Statistiek
Vraag 31 Bij lineaire regressie van Y op X is het een voorwaarde dat de populatievariantie van Y hetzelfde is voor elke waarde van X. Welke mean square is een schatter van deze populatievariantie? a) MSresidual b) MSregression ch17 p. 470 e.v. c) MStotal d) MSerror MSresidual is de gemiddelde kwadratische verticale afwijking van de punten tot de regressielijn en daarmee een schatting van de populatievariantie zie college over ch17 slide 45
Oefententamen II, Methoden van Onderzoek en Basis Statistiek
Vraag 32 Hieronder staat een scatter plot uit het boek (hoofdstuk 17). Het betreft gegevens van leeuwen. Op de horizontale (X) as staat de proportie zwarte pigment op de neus van de leeuw, op de verticale (Y) as staat de leeftijd van de leeuw. Zowel de lijn Y = Y als de regressielijn zijn aangegeven. ^ Y=0.88+10.65X Y=Y Wanneer de nulhypothese H0: β=0 getoetst wordt tegen HA: β ≠0 vindt men een P-‐waarde van P=0.0000. Wat kun je daaruit opmaken over de regressie van leeftijd (Y) op proportie pigment (X) in werkelijkheid? a) In werkelijkheid is er geen regressie (β =0). ch17 b) In werkelijkheid is er regressie met β >0. p. 477 c) In werkelijkheid is er regressie met β =0.88. d) In werkelijkheid is er regressie met β =10.65. Oefententamen II, Methoden van Onderzoek en Basis Statistiek
je toetst tweezijdig maar je conclusie is eenzijdig omdat je in je steekproef ziet dat het verband blijkbaar positief is d is onjuist omdat je nooit de waarde van β kunt weten
Oefententamen II, Methoden van Onderzoek en Basis Statistiek
Vraag 33 Bij lineaire regressie van Y op X gelden onder andere de volgende voorwaarden (boek, §17.5, p. 482): • At each value of X, the distribution of possible Y-values is normal. • The variance of Y-values is the same for all values of X.
Om normaliteit en gelijkheid van varianties te onderzoeken, is het gebruikelijk om een residual plot te maken. Hieronder staat zo’n plot. dit is geen optimaal plaatje, want of er sprake is van normaliteit is discutabel, zie daarom de vernieuwde versie hierna
X Bewering I. De oriëntatie van de punten in het residual plot laat zien dat er waarschijnlijk geen sprake is van normaliteit zoals bedoeld in de voorwaarden. Bewering II. De orientatie van de punten in het residual plot laat zien dat er waarschijnlijk geen sprake is van gelijke varianties zoals bedoeld in de voorwaarden. Welke bewering is waar? Oefententamen II, Methoden van Onderzoek en Basis Statistiek
a) b) c) d)
Alleen bewering I. Alleen bewering II. Bewering I en II zijn beide waar. Bewering I en II zijn beide NIET waar.
Oefententamen II, Methoden van Onderzoek en Basis Statistiek
Vraag 33 (met betere figuur) Bij lineaire regressie van Y op X gelden onder andere de volgende voorwaarden (boek, §17.5, p. 482): • At each value of X, the distribution of possible Y-values is normal. • The variance of Y-values is the same for all values of X.
Om normaliteit en gelijkheid van varianties te onderzoeken, is het gebruikelijk om een residual plot te maken. Hieronder staat zo’n plot.
X Bewering I. De oriëntatie van de punten in het residual plot laat zien dat er waarschijnlijk geen sprake is van normaliteit zoals bedoeld in de voorwaarden. Bewering II. De orientatie van de punten in het residual plot laat zien dat er waarschijnlijk geen sprake is van gelijke varianties zoals bedoeld in de voorwaarden. Oefententamen II, Methoden van Onderzoek en Basis Statistiek
Welke bewering is waar? a) Alleen bewering I. b) Alleen bewering II. c) Bewering I en II zijn beide waar. d) Bewering I en II zijn beide NIET waar. zie boek p. 484 hoe je normaliteit en (on)gelijkheid van varianties kunt afleiden uit een residual plot; zie ook college over ch17 slides 64 en 66
Oefententamen II, Methoden van Onderzoek en Basis Statistiek
ongelijke varianties wel normaal verdeeld
Oefententamen II, Methoden van Onderzoek en Basis Statistiek
zaal C0.110 (hier) vragen stellen over alles zaal C1.112 aftekenen ch 17
Oefententamen II, Methoden van Onderzoek en Basis Statistiek
zaal C0.110 (hier) + B0.201 vragen stellen over alles zaal C1.112 aftekenen ch 17 zaal B0.201 is nu ook open
Oefententamen II, Methoden van Onderzoek en Basis Statistiek
zaal C0.110 (hier) vragen stellen over alles zaal C1.112 + B0.201 aftekenen ch 17 zaal B0.201 is nu ook open
Oefententamen II, Methoden van Onderzoek en Basis Statistiek