STATISTIEK 2 – VERSIE A
MAT15403 – 1308 - 1
WAGENINGEN UNIVERSITEIT LEERSTOELGROEP MAT Tentamen Statistiek 2 (MAT-15403) Maandag 5 augustus 2013, 11.00-13.00 uur DEZE PAGINA NIET vóór 11.00 uur OMSLAAN!
START MET INVULLEN VAN NAAM, REGISTRATIENUMMER, ETC. OP HET ANTWOORDFORMULIER. CONTROLEER OF JE DE JUISTE VERSIE VAN HET ANTWOORDFORMULIER, DUS VERSIE A HEBT. Aanwijzingen: -
Het tentamen bestaat uit 25 meerkeuzevragen. Bij alle meerkeuzevragen is één van de vier gegeven antwoorden correct. Vul de antwoorden in met potlood. Elke vraag met géén of meer dan één zwart rondje wordt geheel fout gerekend.
-
Op je tafel mag je uitsluitend de volgende zaken hebben liggen: Boek, studiewijzer, rekenmachine, zelfgemaakte handgeschreven samenvatting (één A4tje) en collegekaart. Mobiele telefoon is niet toegestaan!
-
Overhandig na afloop van het tentamen het antwoordformulier aan de surveillant.
-
Elke vraag weegt even zwaar mee voor het cijfer. De score wordt gecorrigeerd voor de gokkans. Het aantal goed beantwoorde vragen voor een voldoende wordt na het tentamen door de examinatoren vastgesteld. De eventueel behaalde 0.5-punt voor de eindopdracht van het practicum wordt bij het cijfer van het tentamen opgeteld (maximaal een 10).
-
De antwoorden van dit tentamen staan binnenkort op Blackboard (http://edu6.wur.nl bij MAT15403) Inzage Zodra de uitslag van het tentamen bekend is gemaakt, wordt op Blackboard aangegeven wanneer en waar het tentamen kan worden ingezien.
STATISTIEK 2 – VERSIE A
MAT15403 – 1308 - 2
MAT15403 – 1308 - 3
STATISTIEK 2 – VERSIE A
Opgave 1 Van 20 twee-eiige tweelingen worden de geboortegewichten van de oudste en de jongste bepaald. Welke toets is het meest geschikt om na te gaan of er een verschil in verwacht geboortegewicht is tussen oudste en jongste? Je mag aannemen dat aan de nodige normaliteitsveronderstellingen is voldaan. A B C D
t-toets voor één steekproef en één variabele t-toets voor twee onafhankelijke steekproeven gepaarde t-toets t-toets voor lineaire regressie
Opgave 2 Veronderstel dat we geïnteresseerd zijn in het verwachte gewicht van volwassen mannen in Georgia (USA). Van een aselecte steekproef van 30 mannen, uit een populatie van 1.000.000 mannen, wordt het gemiddelde gewicht en de standaardafwijking bepaald. Het gemiddelde is gelijk aan 180 pond met een standaardafwijking van 30 pond. Bereken, aangenomen dat het gewicht normaal verdeeld is, het 0.90-betrouwbaarheidsinterval voor het verwachte gewicht. A B C D
(178.4, 181.6) (173.0, 187.0) (168.8, 191.2) (170.7, 189.3)
Opgave 3 Als bij toetsing van een nulhypothese H0 tegen een alternatieve hypothese Ha, H0 juist is, dan is de kans op een juiste beslissing: A B C D
P(fout 1e soort) 1 – P(fout 1e soort) P(fout 2e soort) 1 – P(fout 2e soort)
Opgave 4 Het eiwitgehalte (%) van tarwe is een belangrijke kwaliteitsparameter voor de geschiktheid van tarwe voor het bakken van brood. Met behulp van een steekproef wil men nagaan of het verwachte eiwitgehalte hoger is dan 11% . Het eiwitgehalte van 10 aselect getrokken monsters tarwe wordt bepaald. Het gemiddelde ( y ) en de standaardafwijking s van de 10 monsters zijn gelijk aan 12.4 en 1.2. Voor de analyse wordt een t - toets gebruikt. De toetsingsgrootheid van deze toets is: A
y
B
y 12.4 s 10
C
y 11 s 10
D
y 11 s 10
Opgave 5 Een machine die zakjes vult is opnieuw ingesteld. Men wenst nu het gemiddeld gewicht () van de gevulde zakjes te schatten en neemt daarom een enkelvoudige aselecte steekproef van 100 zakjes en bepaalt het gemiddelde gewicht. Aangenomen mag worden dat het gewicht van een zakje normaal verdeeld is met onbekende verwachting en bekende standaardafwijking = 2.5 gram. Op basis van een gevonden steekproefgemiddelde van 124.5 gram wordt gesteld dat μ tussen 124.1 en 124.9 gram zal liggen. De betrouwbaarheid van deze uitspraak ligt het dichtst bij: A B C D
0.50 0.80 0.90 0.99
STATISTIEK 2 – VERSIE A
MAT15403 – 1308 - 4
Opgave 6 Van een aselecte steekproef van 30 basisschoolleerlingen uit groep 8 in Nederland werd het gemiddelde en de standaardafwijking van het aantal punten van de Cito-toets berekend. Het steekproefgemiddelde was 525.3 punten en de steekproefstandaardafwijking was 10.5 punten. Je mag ervan uit gaan dat het aantal punten van de Cito-toets normaal verdeeld is. Welke van de volgende beweringen over een 0.95-betrouwbaarheidsinterval voor het verwachte aantal punten van de Cito-toets is juist? A B C D
De verwachte waarde van het aantal punten van de Cito-toets ligt in het midden van het 0.95betrouwbaarheidsinterval. Wanneer elk jaar zo’n betrouwbaarheidsinterval geconstrueerd wordt, zal over een groot aantal jaren, 5% van de intervallen niet de verwachte waarde van het aantal punten van de Cito-toets bevatten. Wanneer de betrouwbaarheidscoëfficiënt verhoogd wordt van 0.95 naar 0.99, wordt het betrouwbaarheidsinterval smaller. Geen van de beweringen in A, B en C zijn juist.
Opgave 7 Welke van onderstaande beweringen is van belang voor de geldigheid van de modelaannames van een t – toets voor twee onafhankelijke steekproeven? A B C D
De waarnemingen zijn verkregen bij een experimenteel onderzoek. De waarnemingen zijn verkregen bij een observationeel onderzoek. De waarnemingen kunnen worden beschouwd als trekkingen uit één normale verdeling. Geen van de beweringen A, B of C is van belang.
Informatie bij opgaven 8 t/m 11 Zestig, aselect gekozen, te zware personen (BMI 25-35; BMI = body mass index, een maat voor overgewicht) volgen een gewichtsreducerend dieet. Dertig van deze personen, aangewezen door loting, moeten tevens een aerobics programma volgen. BMI wordt gemeten aan het begin en aan het eind van de experimentele periode. De data zijn op verschillende manieren in SPSS ingevoerd en er zijn 4 analyses gedaan. De bijbehorende uitvoer (Uitvoer A t/m D en Q-Q Plots (1) t/m (4)) staan op de volgende twee pagina’s. Een deel van deze uitvoer kan gebruikt worden bij het beantwoorden van de vragen, waarbij je aan mag nemen dat aan de nodige normaliteitsveronderstellingen is voldaan (NB. niet alle uitvoer is ook zinnig in de beschreven situatie). De groep van dertig personen die het dieet krijgen maar geen aerobics programma volgen, wordt in de SPSS uitvoer aangeduid met ‘behandeling = dieet’, de groep van dertig personen die het dieet krijgen en tevens een aerobics programma volgen, wordt aangeduid met ‘behandeling = dieet + aerobics’. UITVOER A
MAT15403 – 1308 - 5
STATISTIEK 2 – VERSIE A UITVOER B Paired Samples Statisticsa
Pair 1
BMI begin experiment BMI einde experiment
Mean 28.760 27.980
N 30 30
Std. Deviation 3.4191 2.9642
Std. Error Mean .6242 .5412
a. behandeling = Dieet
In uitvoer C en D en Q-Q plots (3) en (4) hieronder is BMI afname = BMI begin experiment – BMI einde experiment. UITVOER C Group Statistics
BMI afname
UITVOER D
behandeling Dieet Dieet+Aerobics
N 30 30
Mean .7800 2.1900
Std. Deviation 2.20929 1.83234
Std. Error Mean .40336 .33454
MAT15403 – 1308 - 6
STATISTIEK 2 – VERSIE A Q-Q Plots 1 t/m 4 (1)
(2)
Normal Q-Q Plot of BMI begin experiment
Normal Q-Q Plot of BMI einde experiment
behandeling: Dieet
behandeling: Dieet 35
Expected Normal Value
Expected Normal Value
35.0
32.5
30.0
27.5
30
25
25.0
22.5
20 20
22.5
25.0
27.5
30.0
32.5
35.0
24
26
28
30
32
34
Observed Value
Observed Value
(3)
22
(4)
Opgave 8 Welke Q-Q plot(s) is (zijn) voor uitvoer B het meest relevant? A B C D
Q-Q plot (3) Q-Q plots (1) en (2) Q-Q plots (1), (2) en (3) Q-Q plots (3) en (4)
Opgave 9 In uitvoer A wordt in de tweede tabel in de kolom Sig.(2-tailed) op de bovenste regel het getal 0.349 berekend met een: A B C D
N(0, 1) verdeling t-verdeling met 29 vrijheidsgraden t-verdeling met 58 vrijheidsgraden t-verdeling met 59 vrijheidsgraden
STATISTIEK 2 – VERSIE A
MAT15403 – 1308 - 7
Opgave 10 Als eerste wil men onderzoeken of, voor personen die alleen het dieet volgen, de verwachte BMI aan het einde van de experimentele periode lager is dan aan het begin. De toets wordt uitgevoerd bij een significantieniveau α = 0.05. Eén van de volgende uitspraken over bovenstaande toets is correct. Welke? A B C D
Er is niet aangetoond dat de verwachte BMI aan het einde van de experimentele periode lager is dan aan het begin omdat 0.349 > 0.05. Er is niet aangetoond dat de verwachte BMI aan het einde van de experimentele periode lager is dan aan het begin omdat 0.1745 > 0.05. Er is niet aangetoond dat de verwachte BMI aan het einde van de experimentele periode lager is dan aan het begin omdat 0.063 > 0.05. Er is aangetoond dat de verwachte BMI aan het einde van de experimentele periode lager is dan aan het begin omdat 0.0315 < 0.05.
Opgave 11 Ten tweede vermoedt men dat een dieet + aerobics programma tot grotere BMI-afname leidt dan dieet alleen. De geschikte SPSS uitvoer met nulhypothese en alternatieve hypothese is: A
Uitvoer C,
B
Uitvoer C,
C
Uitvoer D,
D
Uitvoer D,
H0: μBMI afname bij dieet – μ BMI afname bij dieet+ aerobics = 0 Ha: μBMI afname bij dieet – μ BMI afname bij dieet+ aerobics < 0 H0: μBMI afname bij dieet – μ BMI afname bij dieet+ aerobics = 0 Ha: μBMI afname bij dieet – μ BMI afname bij dieet+ aerobics ≠ 0 H0: μd = 0 Ha: μd < 0 waarbij d = BMI afname bij behandeling‘dieet’ – BMI afname bij behandeling ‘dieet + aerobics’ H0: μd = 0 Ha: μd ≠ 0 waarbij d = BMI afname bij behandeling‘dieet’ – BMI afname bij behandeling ‘dieet + aerobics’
Opgave 12 Een instantie die toezicht houdt op de mate van luchtverontreiniging doet regelmatig metingen op diverse plaatsen in het land. De gemeten verontreiniging wordt uitgedrukt in een bepaalde index (hogere waarde duidt op meer verontreiniging). Een aantal jaren geleden werden enkele nieuwe richtlijnen voor de industrie afgekondigd met als doel het niveau van de luchtverontreiniging te verlagen. Om het effect van deze maatregel te bestuderen werden van 20 aselect gekozen plaatsen, de metingen voor en na de nieuwe richtlijnen vergeleken. Je mag er van uitgaan dat aan de nodige modelveronderstellingen voor een t – toets zijn voldaan.
Bereken de waarde die in de tweede tabel van de uitvoer op de stippeltjes in de kolom ‘Lower’ moet staan:
STATISTIEK 2 – VERSIE A A B C D
MAT15403 – 1308 - 8
-0.026 -0.297 -0.453 -8.971
Opgave 13 De hoeveelheid volt geproduceerd door een batterij is vaak iets afwijkend van de aangegeven waarde (bijvoorbeeld 12 volt) op de batterij. Van een aselecte steekproef van tien 12-Volt batterijen wordt de geproduceerde hoeveelheid volt bepaald. Welke toets is geschikt om na te gaan of er een (systematisch) verschil is in de hoeveelheid volt ten opzichte van de aangegeven waarde op de batterij? Je mag aannemen dat aan de nodige normaliteitsveronderstellingen is voldaan. A B C D
t-toets voor één steekproef en één variabele t-toets voor twee onafhankelijke steekproeven gepaarde t-toets t-toets voor lineaire regressie
Opgave 14 Het is niet eenvoudig om de hoogte van een boom te meten. Men wil nagaan of de diameter van de stam van een boom op 1.30 meter hoogte aantoonbaar verband houdt met de hoogte van die boom. Daartoe worden van 985 aselect gekozen bomen de hoogte en diameter bepaald. Welke toets is geschikt om de onderzoeksvraag te beantwoorden? Je mag aannemen dat aan de nodige normaliteitsveronderstellingen is voldaan. A B C D
t – toets voor één steekproef en één variabele gepaarde t – toets t – toets voor twee onafhankelijke steekproeven t – toets voor lineaire regressie
Opgave 15 Op basis van lange ervaring weet een vertegenwoordiger dat zijn auto bij een dagelijkse rit een benzineverbruik per 100 km heeft dat Normaal verdeeld is met verwachting 7.5 liter en een standaardafwijking van 0.6 liter. De vertegenwoordiger moet volgende week van maandag tot en met vrijdag weer zijn dagelijkse ritten maken. Deze 5 ritten zijn nagenoeg even lang. Het benzineverbruik in deze 5 ritten mag onafhankelijk verondersteld worden. Bereken de kans dat het gemiddeld benzineverbruik onder de 7.9 liter per 100 km ligt. A B C D
0.068 0.252 0.748 0.932
Informatie bij opgaven 16 t/m 20 In een studie naar brandganzen, die overwinteren in de Waddenzee en nestelen in het Arctische gebied, worden gewichten (y, in grammen) van 52 nestelende ganzen gemeten. Tevens wordt de nesteltijd (x, in dagen) bepaald op het moment dat het gewicht wordt vastgesteld. Men verwacht dat de ganzen in de periode dat ze op hun nest zitten in gewicht afnemen, omdat ze tijdens het nestelen minder lijken te eten. Om het verloop van het gewicht van de ganzen gedurende het nestelen te bestuderen, wordt een lineair regressiemodel verondersteld: y = β0 + β1x + ε.
MAT15403 – 1308 - 9
STATISTIEK 2 – VERSIE A
Van de waargenomen gewichten wordt verondersteld dat ze beschouwd mogen worden als onafhankelijke trekkingen, dat ze alle Normaal verdeeld zijn met een verwachting µy= β0 + β1x en een standaardafwijking σ, die voor alle waarnemingen gelijk is. Voor het beantwoorden van (sommige van) de volgende vragen kan de SPSS – uitvoer gebruikt worden. (1)
(2)
(3)
STATISTIEK 2 – VERSIE A
MAT15403 – 1308 - 10
Opgave 16 De correlatiecoëfficiënt tussen gewicht en nesteltijd is: A 0.621 B -0.621 C 0.385 D -0.385 Opgave 17 Men vermoedt dat voor de ganzen, in de periode dat ze op hun nest zitten, de verwachte afname in gewicht per dag meer is dan 10 gram. In termen van de parameters komt dit neer op het vermoeden dat β1 < -10 is. Op basis van bovenstaande gegevens wordt dit vermoeden met een t – toets getoetst bij een significantieniveau α = 0.05. Welke van de volgende beweringen is juist? A B C D
De uitkomst van de toetsingsgrootheid is t = -9.536 De uitkomst van de toetsingsgrootheid is t = -5.598 De uitkomst van de toetsingsgrootheid is t = -1.659 De uitkomst van de toetsingsgrootheid is t = 43.477
Opgave 18 Een 0.95-betrouwbaarheidsinterval voor het verwacht gewicht van een gans bij aanvang van de nestelperiode is: A B C D
(1718.20, 1853.33) (1716.93, 1854.63) (1705.26, 1866.27) (1703.25, 1868.28)
Opgave 19 De gemiddelde nesteltijd is 25 dagen. Als x = 25 is de verwachtingswaarde van y gelijk aan y = β0 + 25β1. De betekenis van 25β1 hierin is: A B C D
de verwachte verandering in gewicht van een gans na 25 dagen nestelen het verwacht gewicht van een gans na 25 dagen nestelen de verwachte verandering in gewicht van een gans per dag nesteltijd. geen van bovenstaande antwoorden is goed.
Opgave 20 De aanname dat de standaardafwijking σ voor alle waarnemingen hetzelfde is, kan met een plaatje gecontroleerd worden. Welk plaatje is hier het meest geschikt voor en wat is de juiste conclusie? A B C D
Plaatje 2 ( Q-Q plot): aanname redelijk omdat de punten netjes op een rechte lijn liggen. Plaatje 2 ( Q-Q plot): aanname niet redelijk omdat de punten een patroon vertonen. Plaatje 3 (predicted values tegen residuen): aanname niet redelijk omdat punten niet op een rechte lijn liggen. Plaatje 3 (predicted values tegen residuen): aanname redelijk omdat er geen patroon in de punten te herkennen is.
Opgave 21 In een spreidingsdiagram worden de lengte en breedte van bladeren van twee plantensoorten (A en B) geplot, 10 waarnemingen per plantensoort. De correlatie tussen lengte en breedte gebaseerd op de 20 waarnemingen (A en B gezamenlijk) levert een correlatie op van -0.67. Welke van de volgende uitspraken is juist?
MAT15403 – 1308 - 11
STATISTIEK 2 – VERSIE A A B C D
Uit de berekende negatieve correlatie volgt dat ook plantensoorten A en B afzonderlijk een negatieve correlatie hebben tussen lengte en breedte van de bladeren. De fractie verklaarde variantie van een lineair regressiemodel om de breedte van de bladeren te verklaren uit de lengte van de bladeren (A en B gezamenlijk) is gelijk aan 0.82. Wanneer we de plaatsing van lengte en breedte langs de assen van het spreidingsdiagram verwisselen/omdraaien krijgen we een correlatie (A en B gezamenlijk) van 0.67. Geen van de antwoorden A, B of C is juist.
Informatie bij opgaven 22 en 23 Dierwetenschappers in Mali onderzoeken hoe de groei van koeien gerelateerd is aan de kwaliteit van het voer. Die kwaliteit wordt uitgedrukt in VOS (verteerbare organische stof, uitgedrukt in gram per kg metabolisch gewicht). Met 16 aselect gekozen koeien wordt een experiment met 8 kwaliteitsniveaus gedaan. De niveaus worden verloot over de koeien, steeds 2 koeien per niveau. Na de benodigde gewentijd van 2 weken waarin het voer van de juiste kwaliteit aan elk dier wordt gegeven, wordt het gewicht van elke koe gemeten. Dat voer wordt daarna nog 2 weken lang gegeven, waarna het gewicht nogmaals wordt gemeten, en de groei (=gewichtstoename in kg/dag) wordt berekend. De onderzoekers hanteren een lineair regressiemodel voor het verband tussen de groei (y) van koeien en de kwaliteit (x) van het voer: y = β0 + β1x+ ε. Bij het beantwoorden van de vragen mag je ervan uitgaan dat aan de gebruikelijke veronderstellingen over de gegevens, is voldaan.
Model Summaryb Model 1
R .858a
R Square .736
Adjusted R Square .717
Std. Error of the Estimate .53023
a. Predictors: (Constant), kwaliteit b. Dependent Variable: groei ANOVAb Model 1
Regression Residual Total
Sum of Squares 10.962 3.936 14.898
a. Predictors: (Constant), kwaliteit b. Dependent Variable: groei
df 1 14 15
Mean Square 10.962 .281
F 38.991
Sig. .000a
MAT15403 – 1308 - 12
STATISTIEK 2 – VERSIE A
Coefficientsa
Model 1
(Constant) kwaliteit
Unstandardized Coefficients B Std. Error -5.34625 1.02107 .18063 .02893
Standardized Coefficients Beta .858
t -5.23592 6.24425
Sig. .000 .000
95% Confidence Interval for B Lower Bound Upper Bound -7.53623 -3.15627 .11858 .24267
a. Dependent Variable: groei
Opgave 22 Het vermoeden bestaat dat de verwachte groei met meer dan 0.1 toeneemt als het kwaliteitsniveau van het voer met 1 toeneemt. Welke conclusie is juist (significantieniveau = 0.05)? A B C D
Vermoeden is aangetoond, uitkomst toetsingsgrootheid t = -5.23592, P-waarde = 0.000 Vermoeden is aangetoond, uitkomst toetsingsgrootheid t = 6.24425, P-waarde = 0.000 Vermoeden is aangetoond, uitkomst toetsingsgrootheid t = 2.787, 0.005 < P-waarde < 0.01 Geen van de bovenstaande antwoorden
Opgave 23 Het 95%-betrouwbaarheidsinterval voor de verwachte groei (kg/dag) van een willekeurige koe die voer krijgt met een VOS-waarde van 34 is gelijk aan: A B C D
(0.504, 1.086) (-0.342, 1.933) (0.556, 1.034) (0.759, 1.341)
Opgave 24 Welke van de volgende beweringen over een t-toets is juist: A B C D
Het kritieke gebied bevat alle uitkomsten van de toetsingsgrootheid van een t-toets waarvoor je een nulhypothese niet verwerpt. Het kritieke gebied bevat alle uitkomsten van de toetsingsgrootheid van een t-toets waarvoor je een nulhypothese verwerpt. Een betrouwbaarheidsinterval bevat alle uitkomsten van de toetsingsgrootheid van een t-toets waarvoor je een nulhypothese verwerpt. Een betrouwbaarheidsinterval bevat alle uitkomsten van de toetsingsgrootheid van een t-toets waarvoor je een nulhypothese niet verwerpt.
Opgave 25 Welke van de volgende uitspraken is niet juist voor een t – verdeling? A B C D
Naarmate het aantal vrijheidsgraden afneemt, benadert de t – verdeling meer en meer de normale verdeling. een t – verdeling heeft meer oppervlak in de staarten dan een normale verdeling. een t – verdeling is symmetrisch rond 0. een t – verdeling is een continue verdeling.