Toetsen van hypothesen
1
HOOFDSTUK 5 TOETSEN VAN HYPOTHESEN 1. Inleiding .....................................................................................................................2 2. Beslissingsregels ........................................................................................................5 2.1. Beslissen op grond van kritische grenzen............................................................5 2.1.1. Het α-risico ...................................................................................................6 2.1.2. Het β-risico....................................................................................................7 2.2. Beslissen op grond van betrouwbaarheidsintervallen .........................................9 2.3. Beslissen op grond van overschrijdingskansen .................................................10 2.4. Beslissen op grond van andere beslissingsregels .............................................12 3. Toetsen omtrent µ via kritische grenzen..........................................................15 3.1. Eenzijdig alternatief 1........................................................................................15 3.2. Eenzijdig alternatief 2........................................................................................16 3.3. Tweezijdig alternatief ........................................................................................17 3.4. Uitbreidingen .....................................................................................................19 3.4.1. Steekproef uit een andere verdeling.........................................................19 3.4.2. Ongekende variantie ................................................................................19 4. Toetsen omtrent µ via betrouwbaarheidsintervallen................................................20 4.1. Eenzijdig alternatief 1........................................................................................20 4.2. Eenzijdig alternatief 2........................................................................................20 4.3. Tweezijdig alternatief ........................................................................................21 4.4. Opmerkingen .....................................................................................................21 5. Toetsen omtrent µ via overschrijdingskansen ........................................................22 5.1. Eenzijdig alternatief 1........................................................................................22 5.2. Eenzijdig alternatief 2........................................................................................22 5.3. Tweezijdig alternatief ........................................................................................23 5.4. Opmerkingen .....................................................................................................24 5.5. Slotopmerkingen................................................................................................25 6. Oefeningen...............................................................................................................26 7.1. Toetsen i.v.m. proporties ...................................................................................27 7.2. Toetsen i.v.m. varianties en/of standaardafwijkingen .......................................29 7.3. Verschil tussen gemiddelden en quotiënt varianties..........................................31 7.4. Toetsen i.v.m. correlatiecoëfficiënt ...................................................................35 7. Oefeningen..............................................................................................................37
Toetsen van hypothesen
2
1. Inleiding In de vorige hoofdstukken gebruikten we schatters om (de) parameter(s) van een verdeling te benaderen. Via betrouwbaarheidsintervallen kregen we een idee van de gemaakte benaderingsfout. In dit hoofdstuk gebruiken we schatters en betrouwbaarheidsintervallen om uitspraken omtrent parameters te toetsen. We zullen tevens uitspraken en beweringen aangaande verdelingen toetsen. Beweringen over een parameter of een verdeling “aanvaarden” of “verwerpen” gebeurt meestal op basis van een steekproef en gaan bijgevolg steeds gepaard met een zeker risico. Dit risico wordt o.m. gemeten door de kans op een verkeerde beslissing. We vertrekken van de volgende voorbeelden.
Voorbeeld 1 Een bakker en een molenaar komen overeen dat de molenaar zakken bloem zal leveren met een verwacht gewicht µ van tenminste 50 kg. Omdat technische (of andere) volmaaktheid niet bestaat zullen er afwijkingen voorkomen in het gewicht van de zakken bloem. We veronderstellen dat het gewicht van de zakken toevallig varieert en in dit voorbeeld gaan we ervan uit dat het gewicht normaal verdeeld is met verwacht gewicht µ en standaardafwijking σ = 0.5 kg, dit betekent: X ~ N(µ, σ² = 0.25). Bij elke levering wil de bakker nagaan of de molenaar de overeenkomst naleeft. De bakker wenst m.a.w. na te gaan of de molenaar werkte met µ ≥ 50 of werkte met µ < 50. De uitspraak die de bakker wenst te controleren noemen we de nulhypothese H0. De niet gewenste uitkomst (µ < 50) noemen we het alternatief Ha. De bakker moet nu kiezen tussen: H0: µ ≥ µ0 = 50
Ha: µ < µ0 = 50
Bij het nemen van een beslissing moet de bakker rekening houden met twee soorten risico. We bekijken daartoe het volgende schema. Op basis van een beslissingsregel van de bakker komen we terecht in één van de vier vakjes van het schema.
Toetsen van hypothesen
3
SCHEMA de producent heeft gelijk en
de producent heeft ongelijk en de
de nulhypothese H0 is
alternatieve hypothese geldt Ha
correct
(H0 is vals)
de consument
foutieve beslissing
correcte beslissing
verwerpt H0
type I fout (α)
de consument
correcte beslissing
mogelijkheden
verwerpt H0 niet
foutieve beslissing type II fout (β)
Het is enerzijds mogelijk dat de bakker de levering ten onrechte verwerpt: op basis van empirische evidentie meent de bakker dat Ha geldt, maar in feite is H0 correct. Deze foutieve beslissing noemen we een fout van de eerste soort. Nu wordt de beslissing meestal genomen op basis van een steekproef en deze hangt af van toevallige omstandigheden. De kans op een fout van de eerste soort noteren we met α en noemen we het α-risico of het producentenrisico: α = P(H0 verwerpen | H0 juist) De kans dat een dergelijke fout niet gemaakt wordt is 1 – α en noemt men soms de betrouwbaarheid van de toets: 1 – α = P(H0 niet verwerpen | H0 correct) Het is anderzijds ook mogelijk dat de bakker de levering ten onrechte aanvaardt: de bakker denkt dat H0 geldt en dat hij de molenaar kan vertrouwen, maar in feite is de molenaar een bedrieger die goederen levert met µ < 50. In realiteit is Ha correct. Deze foutieve beslissing noemen we een fout van de tweede soort. De kans op een dergelijke fout noteren we met β en noemen we het β-risico of het consumentenrisico. We noteren: β = P(H0 niet verwerpen ⏐ H0 vals) De kans dat een dergelijke fout niet gemaakt wordt is 1 – β en noemt men het onderscheidingsvermogen van de beslissingsregel. De kans om het bedrog te doorzien is dus gelijk aan: 1 – β = P(H0 verwerpen | H0 vals) Als de molenaar “zwaar” liegt en zakken bloem levert met een gemiddeld gewicht gelijk aan µ = 45, dan zullen we dit makkelijker ontdekken dan in het geval waarin de molenaar een “kleine” leugenaar is en bloem levert in zakken van gemiddeld µ = 49.9.
Toetsen van hypothesen
4
Het is m.a.w. gemakkelijker om een onderscheid te maken tussen 50 en 45 dan tussen 50 en 49.9. Afhankelijk van de beslissingsregel die de bakker hanteert en afhankelijk van het (goed of slecht) karakter van de molenaar, zullen α en β andere waarden aannemen. Beide partijen hebben er alle belang bij dat deze kansen zo klein mogelijk zijn. Hoe kunnen we nu een “goede” beslissingsregel opstellen en formuleren?
Voorbeeld 2 Een machine maakt spijkers waarvan de normlengte gelijk is aan 10 cm. Zowel té kleine als té grote spijkers zijn onbruikbaar. Op regelmatige tijdstippen zal men de productie van spijkers controleren om te kunnen kiezen tussen H0: µ = µ0 = 10
en
Ha: µ ≠ µ0 = 10
Vanzelfsprekend geven beslissingsregels opnieuw aanleiding tot beide types van fouten. In vergelijking met voorbeeld 1 gaat het hier om een tweezijdig alternatief: afwijkingen aan beide zijden van de normlengte van 10 cm worden niet toegelaten. In voorbeeld 1 gaat het om een éénzijdig alternatief: de bakker zal niet boos zijn indien de zakken bloem méér dan het gemiddelde gewicht van 50 kg bevatten.
Voorbeeld 3 Een wagenproducent beweert dat zijn wagens niet meer verbruiken dan 5 liter per 100 km. Om dit te controleren nemen we een steekproef en kiezen vervolgens tussen H0: µ ≤ µ0 = 10
en
Ha: µ > µ0 = 10
In dit voorbeeld gaat het terug om een éénzijdig alternatief: een té groot verbruik zal voor de consumenten niet aanvaardbaar zijn.
Toetsen van hypothesen
5
2. Beslissingsregels Er zijn verschillende manieren om beslissingsregels te formuleren. We bekijken hier enkele beslissingsregels in de context van voorbeeld 1 over de bakker en de molenaar. Hier staan twee hypothesen tegenover elkaar: "De molenaar is eerlijk" (de nulhypothese) en "De door de molenaar gevulde zakken zijn lichter dan aangekondigd" (een alternatieve hypothese). De bakker wil op grond van gegevens beslissen of hij de nulhypothese zal verwerpen ten voordele van het alternatief. In het dagelijks leven worden de meeste beslissingen dikwijls impulsief en op subjectieve basis genomen worden. In statistiek zijn de meeste beslissingsregel gebaseerd op de resultaten van een steekproeftrekking. Via de steekproef bepaalt men een karakteristiek die vervolgens gebruikt wordt om te beslissen. De karakteristiek op basis van dewelke men zijn besluit neemt en fundeert noemt men meestal de toetsingsgrootheid. We illustreren verschillende beslissingsregels voor het voorbeeld van de bakker en de molenaar.
2.1. Beslissen op grond van kritische grenzen Een voorbeeld van een beslissingsregel is de volgende: uit elke lading neemt de bakker een staal van n = 16 zakken en hij bepaalt het steekproefgemiddelde X van deze 16 gevonden gewichten. Hij beslist nu als volgt:
Hij kiest een kritische (of kritieke) grens K en beslist: als X < K, dan verwerpt hij H0 (en dus de lading) als X ≥ K, dan verwerpt hij H0 (en dus de lading) niet
De toetsingsgrootheid is hier het steekproefgemiddelde X en de beslissingsregel is gebaseerd op de kritische grens K. Stel bijvoorbeeld K = 49.75. Als we in een concrete steekproef vinden dat X gelijk is aan 49.65, dan verwerpen we de lading; als X = 49.87 verwerpen we de lading niet. Bij de kritische grens K = 49.50 laat de bakker een afwijking toe van 0.50 kg. In dit geval zal de lading zowel bij X = 49.65 als bij X = 49.87 aangenomen worden. Vanzelfsprekend zal de keuze van de steekproefgrootte en de keuze van K het consumentenrisico en het producentenrisico beïnvloeden.
Toetsen van hypothesen
6
2.1.1. Het α-risico We bepalen het α-risico voor deze beslissingsregel. We vinden α = P(H0 verwerpen | H0 juist) = P( X < K | µ = µ0 = 50) Uit de gegevens weten we dat X ∼ N(µ, σ² = 0.25) en bijgevolg dat X ∼ N(µ, σ² / n) Indien µ = µ0 = 50 vinden we X ∼ N(µ0, σ² / n) en na standardiseren dus dat α = P( X < K | µ = µ0 = 50) = P(Z < Voor K = 49.8 vinden we α = P( Z <
K − µ0
σ/ n
)
49.80 − 50 ) = P( Z < - 1.6) = 0.054 0. 5 / 4
alfarisico bij K = 49.8 3,5 3 2,5 2 1,5
alfa
1 0,5 0 49,4
49,6
49,8
Voor K = 49.5 vinden we α = P( Z <
50
50,2
50,4
50,6
49.50 − 50 ) = P( Z < - 4) = 0.00003 0. 5 / 4
Voor andere kritische grenzen vinden we de volgende tabel en grafiek:
K standardiseren 50 0 49,95 -0,4 49,9 -0,8 49,85 -1,2 49,8 -1,6 49,75 -2 49,7 -2,4 49,65 -2,8 49,6 -3,2 49,55 -3,6 49,5 -4
alfa 0,5 0,344578 0,211855 0,11507 0,054799 0,02275 0,008198 0,002555 0,000687 0,000159 3,17E-05
Toetsen van hypothesen
7
alfa-risico in functie van K 0,6 0,5
alfa
0,4 0,3 0,2 0,1 0 49,4
49,5
49,6
49,7
49,8
49,9
50
50,1
K
Wanneer we vooraf een bepaald risico α vastleggen, dan kunnen we de bijhorende kritische grens bepalen via de vergelijking α = P(Z <
K − µ0
σ/ n
)
In de notatie die we in het vorig hoofdstuk gebruikten vinden we dat K − µ0
σ/ n
= − zα
of
K = µ0 − zα σ/√n
2.1.2. Het β-risico We bepalen nu eveneens het beta-risico bij deze beslissingsregel. We vinden β = P(H0 niet verwerpen ⏐ H0 vals) = P( X ≥ K | µ < µ0) Indien µ = µa < µ0 dan vinden we X ∼ N(µa, σ² / n) en na standaardiseren dat β = P( X ≥ K | µ = µa < µ0) = P( Z ≥ Bij K = 49.75 en µa = 49 vinden we grafisch:
K − µa
σ/ n
)
Toetsen van hypothesen
8
0 ,9 0 ,8 0 ,7 0 ,6 0 ,5 0 ,4 0 ,3 0 ,2 0 ,1 0 4 7 ,4 4 7 ,7 4 7 ,9 4 8 ,2 4 8 ,4 4 8 ,7 4 8 ,9 4 9 ,2 4 9 ,4 4 9 ,7 4 9 ,9 5 0 ,2 5 0 ,4 5 0 ,7 5 0 ,9 5 1 ,2 5 1 ,4 5 1 ,7 5 1 ,9 5 2 ,2 5 2 ,4
Voor K = 49.75 en verschillende waarden van µa vinden we de volgende tabel en grafiek: K= 49,75 µ(a) stand. beta 1 - beta 49,5 2 0,02275 0,97725 49,55 1,6 0,054799 0,945201 49,6 1,2 0,11507 0,88493 49,65 0,8 0,211855 0,788145 49,7 0,4 0,344578 0,655422 49,75 1,14E-13 0,5 0,5 49,8 -0,4 0,655422 0,344578 49,85 -0,8 0,788145 0,211855 49,9 -1,2 0,88493 0,11507 49,95 -1,6 0,945201 0,054799 50 -2 0,97725 0,02275
beta-risico in functie van µ(a) voor K = 49.75 1
beta
0,8 0,6 0,4 0,2 0 49,4
49,5
49,6
49,7
49,8
49,9
50
µ(a)
Naarmate de molenaar “meer” liegt daalt het beta-risico en stijgt het onderscheidend vermogen: er is een kleinere kans dat we de leugen niet ontdekken. Voor µa < µ0 = 50
Toetsen van hypothesen
9
maar in de omgeving van µ0 = 50 vinden we dat β ongeveer gelijk is aan 0.02275. Dit is precies gelijk aan het alfa-risico van de beslissingsregel gebaseerd op K = 49.75. Voor elke andere kritische grens K kunnen we een dergelijke tabel en grafiek maken. De relatie tussen β, K en µa wordt gegeven door zβ =
K − µa
σ/ n
of
K = µa + zβ σ /√n
Opmerking Bemerk dat voor elke beslissingsregel met een vooraf gegeven α, het β-risico kan variëren tussen 0 % en (1 − α)%. Het is dus met dit soort beslissingsregels niét mogelijk om tegelijkertijd zowel α als β klein te houden. Wat men wél kan doen is het volgende: voor een vooraf gegeven α, β en µa, kunnen we de vereiste steekproefgrootte bepalen! Uit
K = µ0 - zα σ/√n
en
K = µa + zβ σ /√n
volgt immers dat µ0 - zα σ/√n = µa + zβ σ /√n zodat (µ0 - µa) = (zα + zβ )σ /√n en dus √n = (zα + zβ )σ /(µ0 - µa)
2.2. Beslissen op grond van betrouwbaarheidsintervallen Een tweede beslissingsregel is gebaseerd op betrouwbare uitspraken. Uit elke lading neemt de bakker n = 16 zakken en hij bepaalt het steekproefgemiddelde X . De beslissingsregel luidt nu als volgt: Kies een gewenste betrouwbaarheid 1 – α en construeer een (1 – α)% b.b. voor µ als µ0 > b.b., dan verwerpen we H0 (en dus de lading) als µ0 ≤ b.b., dan verwerpen we H0 (en dus de lading) niet In ons voorbeeld is X ~ N(µ, 0.25). Wanneer we kiezen voor een 95% b.b., dan vinden we voor µ de volgende b.b.: µ ≤ X + z5% σ/√n = X + 1.645*0.5/4 = X + 0.206 We vinden dus dat X + 0.206 groter is dan of gelijk aan de echte waarde van µ met een kans of betrouwbaarheid van 95 %. Stel nu dat we in een concrete steekproef de waarde X = 49.7 vinden. In dit geval vinden we als b.b. µ ≤ 49.7 + 0.206 = 49.906. We merken dat de vooropgestelde waarde van µ0 = 50 een onbetrouwbare waarde is! In dit geval verwerpen we bijgevolg de nulhypothese H0.
Toetsen van hypothesen
10
Als we anderzijds in een concrete steekproef de waarde X = 49.9 vinden, dan vinden we als 95% b.b. voor µ de grens µ ≤ 49.9 + 0.206 = 51.106 In dit geval is de waarde die we vooropstellen in de nulhypothese (µ0 = 50) wel een betrouwbare waarde en verwerpen we H0 niet.
Opmerking: verband met kritische grens. Bij deze beslissingsregel beslissen we om H0 te verwerpen van zodra µ0 > b.b. ↔ µ0 > X + zασ/√n ↔ X < µ0 – zασ/√n Deze tweede beslissingsregel is dus equivalent met de beslissing om H0 te verwerpen op grond van de kritische grens K = µ0 – zασ/√n Deze kritische grens K = µ0 – zασ/√n noemen we daarom de 95% betrouwbare kritische grens. Het bepalen van α- en β-risico verloopt nu verder zoals in §2.1.
2.3. Beslissen op grond van overschrijdingskansen Bij deze aanpak verwerpt de bakker de lading als de steekproefresultaten niet voldoen aan zijn verwachtingen. Uit elke lading neemt de bakker n = 16 zakken en hij bepaalt de waarde van het steekproefgemiddelde X voor deze 16 gevonden gewichten. Indien X = 51.2 ≥ 50, dan zal de bakker tevreden zijn en is het vrij evident dat hij niet zal twijfelen aan de goede trouw van molenaar. Als echter X = 49.9 < 50, dan zal de bakker misschien twijfelen aan de goede trouw van de molenaar. Als X = 49.6 < 50, dan zal de bakker grotere twijfels hebben: als de zakken echt gemiddeld µ = 50kg wegen, dan is een dergelijk steekproefresultaat niet geloofwaardig. De molenaar kan zich verweren en toevalsfactoren inroepen als verklaring voor de lage waarde van het steekproefgemiddelde: de molenaar beweert dat dit steekproefresultaat niet de regel, maar een uitzondering is. Om dit na te gaan veronderstelt de bakker dat de nulhypothese geldt en bepaalt de bakker de kans op een steekproefresultaat met een gemiddelde waarde X kleiner dan of gelijk aan 49.6. Deze kans noemen we de overschrijdingskans van het steekproefresultaat. De bakker beslist dan als volgt: Hij kiest een toegelaten overschrijdingskans α en beslist als de overschrijdingskans < α, dan verwerpt hij H0 en dus de lading als de overschrijdingskans ≥ α, dan verwerpt hij H0 niet
Toetsen van hypothesen
11
Als in een concrete situatie de berekende OK (= overschrijdingskans) te klein is, dan is het gevonden concrete steekproefresultaat – in het licht van de nulhypothese - onwaarschijnlijk. In dit geval zal de bakker de bewering (en dus de lading) van de molenaar verwerpen. We bepalen nu deze OK bij twee voorbeelden. (a )Veronderstel dat X = 49.9 < 50. We weten dat X ~ N(µ, 0.25) waaruit volgt dat X ~ N(µ, 0.25/16) Indien H0 correct is, dan is µ0 ≥ 50. In het slechtste geval is µ0 = 50 en dan vinden we X ~ N(50, 0.25/16). De OK van ons steekproefresultaat bedraagt (via standaardiseren) P( X ≤ 49.9) = P(Z ≤ (49.9 – 50)/0.5/4) = P(Z ≤ - 0.8) = 0.2219 Indien µ = 50, dan krijgen we in ongeveer 22% van de gevallen een steekproefresultaat waarbij X ≤ 49.9. Het is dus helemaal niet uitzonderlijk dat we een steekproefresultaat vinden waarbij X = 49.9. (b) Veronderstel nu dat X = 49.6 < 50. Als H0 correct is dan is X ~ N(50, 0.25/16). De OK van ons steekproefresultaat is nu: P( X ≤ 49.6) = P(Z ≤ (49.6 – 50)/0.5/4) = P(Z ≤ - 3.2) = 0.000687 Indien µ = 50, dan is het heel onwaarschijnlijk dat we bij een steekproef van omvang n = 16 een steekproefresultaat vinden waarbij X ≤ 49.6. De lading wordt bijgevolg verworpen. Afhankelijk van de keuze van α en ook van de steekproefomvang, zal de genomen beslissing bij deze beslissingsregel variëren.
Opmerkingen. (1) De getallen “-3.2” resp. “-0.8” die we berekenden noemen we de z-waarde van de gevonden steekproefresultaten X = 49.6 resp. 49.9. Wanneer µ = µ0 en X = x dan is de z-waarde gedefinieerd als z = z( x ) =
x − µ0
σ/ n
De gekozen toegelaten overschrijdingskans α noemt men soms het significantieniveau van de beslissingsregel.
Toetsen van hypothesen
12
(2) Verband met de vorige beslissingsregels De OK van x is gelijk aan OK = P(Z ≤ z-waarde | H0 is correct). Bemerk nu dat
H0 wordt verworpen ↔ P(Z ≤ z-waarde | H0 is correct) ≤ α ↔ z-waarde ≤ -zα ↔
X − µ0
σ/ n
≤ -zα ↔
X ≤ µ0 – zα σ/√n ↔ X + zα σ/√n ≤ µ0 De beslissing om H0 te verwerpen als de overschrijdingskans α overschreden wordt is dus equivalent met de beslissing om H0 te verwerpen als de waarde van het steekproefgemiddelde onder de kritische grens K = µ0 – zα σ/√n ligt, en dus ook equivalent met de beslissing om H0 te verwerpen als µ0 boven de de (1 - α)% b.b. X − zα σ/√n ligt.
2.4. Beslissen op grond van andere beslissingsregels De bovenstaande beslissingsregels (BR) waren telkens gebaseerd op het rekenkundig gemiddelde. We kunnen BR echter ook baseren op andere steekproefkarakteristieken zoals het maximum, de mediaan, bepaalde steekproefproporties, de empirische verdelingsfunctie. Een andere BR bestaat erin om getrapte beslissingen te nemen.
Voorbeeld 1 Uit elke lading neemt de bakker een steekproef van grootte n = 50 en hij verdeelt de zakken in twee klassen: als het gewicht van een zak kleiner is dan 50, dan is dit een mislukking, zoniet is het een succes. Een beslissing wordt nu genomen op basis van het aantal successen (#S), en wel op de volgende manier
Toetsen van hypothesen
13
De bakker (beslisser) legt een kritische grens K vast en als #S < K, dan verwerpt hij H0 (en dus de lading) als #S ≥ K dan verwerpt hij H0 (en dus de lading)niet.
Cijfervoorbeeld. Stel dat we de kritische grens K = 15 kiezen. Wanneer we in een concrete steekproef vinden dat #S = 17, dan verwerpen we H0 niet. Als we in een concrete steekproef vinden dat #S = 12, dan verwerpen we H0 wel. Ter illustratie bepalen we hier ook het α-risico van deze BR. Indien H0 correct is, dan is de kans op een succes p = P(X > 50) = 0.5. Bij een steekproef van omvang 50 is het aantal successen dus binomiaal verdeeld: #S ∼ BIN(n = 50, p = 0.5) Omdat n voldoende groot is benaderen we #S ≈ N(25, 12.5). We vinden nu (met CC) α = P(#S < K | H0 correct) = P(#S < 15 | µ = 50)= P(#S ≤ 14.5 | µ = 50) Via de CLS vinden we dat α ≈ P(Z ≤ (14.5 – 25)/√12.5) = P(Z ≤ -2.97) = 0.0015. Varianten van beslissing volgens deze BR krijgen we door n anders te kiezen of door de kritieke grens K anders te kiezen.
Voorbeeld 2 Uit elke lading neemt de bakker een steekproef van omvang n = 25 en bepaalt de empirische verdelingsfunctie EVF(x). Als EVF té veel afwijkt van de theoretische verdelingsfunctie TVF (dit is de verdelingsfunctie van de t.v. X ~ N(µ0 = 50, 0.25)), dan wordt de nulhypothese verworpen. We berekenen vervolgens D = max ⏐EVF(x) – TVF(x)⏐ en een mogelijke BR luidt als volgt: De bakker (beslisser) legt een kritische grens K vast en beslist als D > K, dan verwerpt hij H0 (en dus de lading) als D ≤ K, dan verwerpt hij H0 (en dus de lading)niet.
Voorbeeld 3 Een voorbeeld van een getrapte beslissingsregel is de volgende. We nemen een steekproef van n = 10 stuks en bepalen X Als X ≥ 49.85 dan verwerpt de bakker de lading niet
Toetsen van hypothesen
14
Als X < 49.85, dan neemt hij een tweede steekproef van grootte n = 9 als voor deze tweede steekproef X ≥ 50, dan wordt de lading niet verworpen als voor deze tweede steekproef X < 50, dan wordt de lading verworpen Voorbeeld 4 We nemen geregeld steekproeven van omvang n = 10. Wanneer we in een dergelijke steekproef 4 keer na elkaar een gewicht vinden dat lager is dan 50, dan verwerpen we de lading.
Toetsen van hypothesen
3.
15
Toetsen omtrent µ via kritische grenzen
We veralgemenen nu de situatie van het vorige voorbeeld.
3.1. Eenzijdig alternatief 1 Stel dat X ~ N(µ, σ²) en dat we willen kiezen tussen twee hypothesen van de vorm: H0: µ ≥ µ0
en
Ha: µ < µ0
waarbij µ0 een gegeven getal is. Als BR hanteren we:
we nemen een steekproef van omvang n en bepalen X we kiezen een kritische grens K als X ≤ K, dan wordt H0 verworpen als X > K, dan wordt H0 niet verworpen De relatie tussen K en het α-risico wordt gegeven door de volgende relatie: K = µ0 − zα σ / √n Bij een gegeven α-risico luidt de BR via kritische grenzen als volgt: als X ≤ K = µ0 − zα σ / √n, dan wordt H0 verworpen als X > K = µ0 − zα σ / √n, dan wordt H0 niet verworpen Bij een gegeven kritische grens K bepalen we het β-risico als volgt: indien Ha correct is en µ = µa < µ0, dan is X ~ N(µa, σ² / n) en β = P( X > K | µ = µa) = P(Z <
K − µa
σ/ n
)
We vinden ook de relatie tussen β, K en µa: zβ =
K − µa
σ/ n
of
K = µa + zβ σ /√n
Toetsen van hypothesen
16
3.2. Eenzijdig alternatief 2 Stel dat X ~ N(µ, σ²) en dat we willen kiezen tussen twee hypothesen van de vorm: H0: µ ≤ µ0
en
Ha: µ > µ0
waarbij µ0 een gegeven getal is. Als BR hanteren we:
we nemen een steekproef van omvang n en bepalen X we kiezen een kritische grens K als X ≥ K, dan wordt H0 verworpen als X < K, dan wordt H0 niet verworpen De relatie tussen K en het α-risico wordt gegeven door de volgende relatie: K = µ0 + zα σ / √n Bij een gegeven α-risico luidt de BR via kritische grenzen als volgt: als X ≥ K = µ0 + zα σ / √n, dan wordt H0 verworpen als X < K = µ0 + zα σ / √n, dan wordt H0 niet verworpen Bij een gegeven kritische grens K bepalen we het β-risico als volgt. Indien Ha correct is en µ = µa < µ0, dan is X ~ N(µa, σ² / n) en vinden we β = P( X < K | µ = µa) = P(Z <
K − µa
σ/ n
)
We vinden ook de relatie tussen β, K en µa: – zβ =
K − µa
σ/ n
of
K = µa – zβ σ /√n
Toetsen van hypothesen
17
3.3. Tweezijdig alternatief Stel dat X ~ N(µ, σ²) en dat we willen kiezen tussen twee hypothesen van de vorm: H0 : µ = µ0
en
Ha : µ ≠ µ0
waarbij µ0 een gegeven getal is. Als BR hanteren we:
we nemen een steekproef van omvang n en bepalen X we kiezen twee kritische grenzen K en L als L ≤ X ≤ K, dan wordt H0 niet verworpen als X > K of als X < L, dan wordt H0 verworpen Omdat de normale verdeling symmetrisch is rond het gemiddelde µ, is het gebruikelijk om ook de kritische grenzen symmetrisch te kiezen. Men kiest gewoonlijk voor de kritische grenzen K, L = µ0 ± zα/2 σ / √n Deze grenzen zijn gemakkelijk te onthouden en ze geven ook de relatie weer tussen het de grenzen K, L en het α-risico. Bij een gegeven α-risico luidt de BR via kritische grenzen dan als volgt:
als µ0 − zα/2 σ / √n ≤ X ≤ µ0 + zα/2 σ / √n, dan wordt H0 niet verworpen als X > µ0 + zα/2 σ / √n of X < µ0 − zα/2 σ / √n, dan wordt H0 niet verworpen Bij gegeven kritische grenzen K en L bepalen we het β-risico als volgt: indien Ha correct is en µ = µa < µ0, dan is X ~ N(µa, σ² / n) en β = P(L ≤ X ≤ K | µ = µa) = P(
L − µa
σ/ n
≤Z≤
K − µa
σ/ n
)
Wanneer K, L = µ0 ± zα/2 σ / √n, dan vinden we β = P(
µ0 − µ a
σ/ n
− zα / 2 ≤ Z ≤
µ0 − µ a
σ/ n
+ zα / 2 )
Cijfervoorbeeld Flesjes parfum worden gevuld met een hoeveelheid X ∼ N(µ, σ² = 0.36). Het is van belang dat de inhoud van een flesje gemiddeld precies gelijk is aan 100 ml. We wensen daarom de volgende hypothesen te toetsen: H0: µ = 100
Ha: µ ≠ 100
Toetsen van hypothesen
18
We nemen daartoe geregeld een steekproef van omvang n = 25 en berekenen X . De BR met een α-risico van 5% leidt tot de volgende kritische grenzen: K, L = µ0 ± zα/2 σ / √n = 100 ± 1.96*0.6/5 = 100 ± 0.2352 We beslissen dus: Als 99.7648 ≤ X ≤ 100.2352, dan wordt H0 niet verworpen als X > 100.2352 of X < 99.7648, dan wordt H0 niet verworpen We berekenen nu β en 1 − β voor verschillende alternatieven: β
= P( = P(
µ0 − µ a
σ/ n
− zα / 2 ≤ Z ≤
µ0 − µ a
σ/ n
+ zα / 2 )
100 − µa 100 − µa − 1.96 ≤ Z ≤ + 1.96 ) 0.6 / 5 0.6 / 5
In functie van µa vinden we de volgende tabel en grafiek: µ(a) 99,4 99,45 99,5 99,55 99,6 99,65 99,7 99,75 99,8 99,85 99,9 99,95 100 100,05 100,1 100,15 100,2 100,25 100,3 100,35 100,4 100,45 100,5
beta 0,001183 0,004354 0,013669 0,036727 0,084824 0,169367 0,294594 0,450895 0,615223 0,760484 0,86745 0,92989 0,950004 0,92989 0,86745 0,760484 0,615223 0,450895 0,294594 0,169367 0,084824 0,036727 0,013669
1-beta 0,998817 0,995646 0,986331 0,963273 0,915176 0,830633 0,705406 0,549105 0,384777 0,239516 0,13255 0,07011 0,049996 0,07011 0,13255 0,239516 0,384777 0,549105 0,705406 0,830633 0,915176 0,963273 0,986331
Toetsen van hypothesen
19
onderscheidingsvermogen 1 0 ,9 0 ,8 0 ,7 0 ,6 0 ,5 0 ,4 0 ,3 0 ,2 0 ,1 0 9 9 ,4
9 9 ,5
9 9 ,6
9 9 ,7
9 9 ,8
9 9 ,9
100
1 0 0 ,1
1 0 0 ,2
1 0 0 ,3
1 0 0 ,4
1 0 0 ,5
1 0 0 ,6
µ (a)
3.4. Uitbreidingen 3.4.1. Steekproef uit een andere verdeling Als de steekproef niet uit een normale maar uit een niet gepreciseerde verdeling komt, dan gelden de bovenstaande formules nog steeds op voorwaarde dat de steekproefomvang n voldoende groot is. Dank zij de CLS kunnen we de verdeling van X immers benaderen door een geschikte normale verdeling.
3.4.2. Ongekende variantie Als de variantie niet bekend is, dan vervangen we in de bovenstaande formules de onbekende variantie σ² door s2. - Bij kleine steekproeven uit een normale verdeling vervangen we de zα- of zα/2-waarde door een geschikte tn-1 -waarde. De kritieke grenzen zijn dan K = µ0 − tn-1,α s / √n K = µ0 + tn-1,α s / √n K = µ0 ± tn-1,α/2 s / √n - Bij grote steekproeven uit een arbitraire verdeling blijven de formules ongewijzigd: K = µ0 − zα s / √n K = µ0 + zα s / √n K = µ0 ± zα/2 s / √n
Toetsen van hypothesen
20
4. Toetsen omtrent µ via betrouwbaarheidsintervallen 4.1. Eenzijdig alternatief 1 Stel dat X ~ N(µ, σ²) en dat we willen kiezen tussen twee hypothesen van de vorm: H0: µ ≥ µ0
en
Ha: µ < µ0
waarbij µ0 een gegeven getal is. Als BR hanteren we: we nemen een steekproef van omvang n en bepalen X we kiezen een gewenste betrouwbaarheid 1 −α en constureren de b.b. µ ≤ X + zα σ/√n als µ0 ≤ X + zα σ/√n, dan wordt H0 niet verworpen als µ0 > X + zα σ/√n, dan wordt H0 verworpen We merken dat H0 wordt verworpen enkel en alleen als µ0 > X + zα σ/√n en deze formule geldt enkel en alleen als X < µ0 - zα σ/√n. Deze grens is precies de kritische grens die we vonden in de vorige paragraaf!
4.2. Eenzijdig alternatief 2 Stel dat X ~ N(µ, σ²) en dat we willen kiezen tussen twee hypothesen van de vorm: H0: µ ≤ µ0
en
Ha: µ > µ0
waarbij µ0 een gegeven getal is. Als BR hanteren we: we nemen een steekproef van omvang n en bepalen X we kiezen een gewenste betrouwbaarheid 1 −α en construeren de b.o. µ ≥ X − zα σ/√n als µ0 ≥ X − zα σ/√n, dan wordt H0 niet verworpen als µ0 < X − zα σ/√n, dan wordt H0 verworpen We merken dat H0 wordt verworpen enkel en alleen als µ0 < X − zα σ/√n en deze formule geldt enkel en alleen als X > µ0 + zα σ/√n Deze grens is precies de kritische grens die we vonden in de vorige paragraaf!
Toetsen van hypothesen
21
4.3. Tweezijdig alternatief Stel dat X ~ N(µ, σ²) en dat we willen kiezen tussen twee hypothesen van de vorm: H0: µ = µ0
en
Ha: µ ≠ µ0
waarbij µ0 een gegeven getal is. Als BR hanteren we: we nemen een steekproef van omvang n en bepalen X we kiezen een gewenste betrouwbaarheid 1 −α en constureren het b.i. µ = X ± zα σ/√n als µ0 ∈ b.i, dan wordt H0 niet verworpen als µ0 ∉ b.i., dan wordt H0 verworpen Deze beslissingsregel kunnen we eveneens herformuleren als volgt: we verwerpen H0 niet enkel en alleen als X − zα σ/√n ≤ µ0 ≤ X + zα σ/√n enkel en alleen als µ0 − zα σ/√n ≤ X ≤ µ0 + zα σ/√n Dit zijn de kritische grenzen die we in de vorige paragraaf vonden.
4.4. Opmerkingen - Het is duidelijk dat beide (kritieke grens – b.i.) methodes volledig equivalent zijn! - Als hulpmiddel voor het onthouden van het soort betrouwbaarheidsinterval we nodig hebben kunnen we gebruik maken van het volgende: •
bij een tweezijdig alternatief (µ ≠ µ0) bepalen we een b.i. voor µ
•
bij een eenzijdig alternatief van de vorm µ > µ0, bepalen we een b.o. voor µ
•
bij een eenzijdig alternatief van de vorm µ < µ0, bepalen we een b.b. voor µ
- Wanneer we de variantie niet kennen, werken we met s en voor - kleine steekproeven uit een normale verdeling - met een geschikte t-waarde.
Toetsen van hypothesen
22
5. Toetsen omtrent µ via overschrijdingskansen 5.1. Eenzijdig alternatief 1 Stel dat X ~ N(µ, σ²) en dat we willen kiezen tussen twee hypothesen van de vorm: H0: µ ≥ µ0
en
Ha: µ < µ0
waarbij µ0 een gegeven getal is. Als BR hanteren we: We nemen een steekproef van omvang n en bepalen X We kiezen een maximaal toegelaten overschrijdingskans α Bij een concreet steekproefresultaat x berekenen we de z-waarde ervan
z = z( x ) =
x − µ0
σ/ n
en de overschrijdingskans ervan: OK = P(Z < z) als OK ≥ α, dan wordt H0 niet verworpen als OK < α, dan wordt H0 verworpen De overschrijdingskans OK van z noemt men soms ook de P-waarde of Probability value van z.
5.2. Eenzijdig alternatief 2 Stel dat X ~ N(µ, σ²) en dat we willen kiezen tussen twee hypothesen van de vorm: H0: µ ≤ µ0
en
Ha: µ > µ0
waarbij µ0 een gegeven getal is. We beslissen zoals in de vorige paragraaf: We nemen een steekproef van omvang n en bepalen X We kiezen een maximaal toegelaten overschrijdingskans α Bij een concreet steekproefresultaat x berekenen we de z-waarde ervan
z = z( x ) =
x − µ0
σ/ n
en de overschrijdingskans ervan: OK = P(Z > z) als OK ≥ α, dan wordt H0 niet verworpen als OK < α, dan wordt H0 verworpen
Toetsen van hypothesen
23
5.3. Tweezijdig alternatief Stel dat X ~ N(µ, σ²) en dat we willen kiezen tussen twee hypothesen van de vorm: H0: µ = µ0
Ha: µ ≠ µ0
en
waarbij µ0 een gegeven getal is. Als BR hanteren we:
We nemen een steekproef van omvang n en bepalen X We kiezen een maximaal toegelaten overschrijdingskans α Bij een concreet steekproefresultaat x berekenen we de z-waarde ervan z = z( x ) =
x − µ0
σ/ n
en de overschrijdingskans ervan: OK = P(|Z |> |z|) als OK ≥ α, dan wordt H0 niet verworpen als OK < α, dan wordt H0 verworpen Indien z > 0, dan kunnen we OK vereenvoudigen tot OK = 2*P(Z > z); indien z < 0, dan vinden we OK = 2*P(Z > -z)
Voorbeeld Een firma van autobanden beweert dat hun product een levensduur heeft van gemiddeld minstens 50 000 km met σ = 1 300 km. Bij een onderzoek van n = 100 banden vinden we X = 49 410 km. Is de bewering van de fabrikant houdbaar? Wij moeten hier onderzoeken of er een betekenisvolle afwijking is tussen de bewering van de fabrikant en ons vermoeden dat de levensduur gemiddeld lager is dan wat de fabrikant beweert. Wij toetsen H0: µ ≥ µ0 = 50 000 vs Ha: µ < 50 000 (In H0 plaatsten we de bewering van de fabrikant) a) via kritische grenzen. Wanneer α = 5 % vinden we K = µ0 - zα σ/√n = 50 000 – 1.64*1300 /10 = 49 786.8 Daar ons steekproefresultaat X = 49 410 km < K, verwerpen we H0. Ons steekproefresultaat wijst er op dat H0 niet houdbaar is. Opmerking. In het geval dat X = 49 804 km verwerpen we H0 niet. b) via betrouwbare uitspraken. Wanneer α = 5 % vinden we als 95% b.b. de grens
Toetsen van hypothesen
24
µ ≤ X + zα σ / √n = 49 410 + 1.64*1300/10 = 49 623.2 Daar µ = µ0 = 50 000 niet in dit betrouwbaar gebied ligt verwerpen we H0. De waarde µ = 50 000 is immers onbetrouwbaar. Opmerking. Bij H0: µ ≥ µ0 = 49 600 en Ha: µ < 49 600 is µ0 = 49 600 wél een betrouwbare waarde en hebben we onvoldoende reden om H0 te verwerpen. c) via overschrijdingskansen. We vonden in onze steekproef van omvang n = 100 het steekproefgemiddelde 49 410. We vinden als z-waarde z = (49 410 – 50 000)/(1300/10) = - 4.54 De OK is dus OK = P(Z < - 4.54) = 0.00001. Deze zeer kleine overschrijdingskans wijst erop dat H0 heel onwaarschijnlijk is.
5.4. Opmerkingen 1) Als de steekproef niet uit een normale verdeling komt, maar wel voldoende groot is, dan kunnen we dank zij de CLS dezelfde formules gebruiken. 2) Als de variantie niet gekend is, dan kan deze worden geschat door s2. In plaats van de z-waarde berekenen we nu de t-waarde: t = t( x ) =
x − µ0 s/ n
Bij grote steekproeven is t( X ) ≈ N(0,1) en berekenen we via de standaardnormale verdeling de OK van de berekende t-waarde. We beslissen dan om H0 al dan niet te verwerpen. Bij kleine steekproeven uit een normale verdeling berekenen we de OK door gebruik te maken van t( X ) ≈ tn-1 en de tn-1-verdeling. 3) De P-waarde van een steekproefresultaat is gelijk aan P( t ( x) < t n −1 ) .
Voorbeeld De diameter van een knikker is normaal verdeeld en men beweert dat de gemiddelde diameter gelijk is aan µ = 4.4. Via een steekproef van omvang n = 10 vonden we X = 4.38 mm en s = 0.06 mm. We toetsen
H0: µ = 4.4
vs
Ha: µ < 4.4
* De 95% kritische grens is gelijk aan K = µ0 – tn-1,5% s/√n = 4.4 – 2.26*0.06/√10 = 4.4 – 0.04 = 4.36 Omdat X = 4.38 > K verwerpen we H0 niet.
Toetsen van hypothesen
25
* Een 95% b.b. voor µ wordt gegeven door µ ≤ X + tn-1,5% s/√n = 4.38 + 0.04 = 4.42 Omdat µ0 = 4.4 een betrouwbare waarde is verwerpen we H0 niet. * De t-waarde van ons steekproefresultaat is t=
x − µ0 s/ n
= (4.38 – 4.4)/0.06/√10 = -1.05
Via de t9-verdeling vinden we OK = P(t9 < -1.05) = 16% en we verwerpen H0 niet.
5.5. Slotopmerkingen 1) De drie werkwijzen leiden bij een gegeven steekproefgemiddelde X , α en µ0 steeds tot hetzelfde besluit. Alleen is de aanpak, de filosofie telkens lichtjes verschillend. - Bij de werkwijze gebaseerd op kritische grenzen bepalen we kritieke grenzen m.b.v. van µ0 en α. Pas op het laatste moment komt het steekproefresultaat X aan bod om een beslissing te nemen. Alle steekproefresultaten die een X geven die binnen de normen valt leiden tot het niet verwerpen van H0. - Bij de werkwijze gebaseerd op b.i. bepalen we betrouwbare grenzen op basis van het steekproefresultaat X en α. Pas op het laatste ogenblik komt de waarde µ0 aan bod. Alle nulhypothesen van de vorm H0: µ = µ0 waarbij µ0 ∈ b.i. zijn hypothesen die niet verworpen worden. Een betrouwbaarheidsinterval is m.a.w. de set van alle aanvaardbare nulhypothesen. - Bij de werkwijze gebaseerd op OK bepalen we de OK op basis van X en µ0. Pas op het laatst ogenblik komt het significantieniveau α aan bod. Dit zorgt voor een zekere flexibiliteit: we zien precies voor welke α de nulhypothese wordt verworpen en voor welke α de nulhypothese niet wordt verworpen. 2) In de praktijk worden de drie aanpakken door elkaar gebruikt. Alleen kunnen we vaststellen dat voor de ene parameter veelal gewerkt wordt met OK en bij de andere parameters de voorkeur gaat naar b.i. of kritieke grenzen. In econometrie bijvoorbeeld is het gebruikelijk te werken met z- en t-waarden en de bijhorende OK of P-waarden.
Toetsen van hypothesen
26
6. Oefeningen 1. We onderzochten de uitgaven van klanten in een fastfoodrestaurant. In een steekproef van omvang n = 120 klanten vonden we X = € 9.7 en s = € 3. Toets H0: µ = 10 vs Ha: µ < 10 voor a) α = 1%, b) α = 5% en c) α = 10%. Maak ook telkens een grafiek van β in functie van µ < 10. 2. Formuleer de BR gebaseerd op een steekproef van omvang 64 en op 99% kritieke grenzen bij de keuze tussen H0: µ = 300 en Ha: µ > 300. Bepaal ook het risico van type II indien eigenlijk µ = 310. (K = 307; β = 15.87%) 3. (Controlekaarten) Onder normale omstandigheden produceert een machine bollen met een diameter ∼ N(µ = 5.75mm, σ = 0.08mm). Om te controleren of de machine moet bijgesteld worden neemt men elke uur een steekproef van omvang n = 6 en berekent men het rekenkundig gemiddelde X van de gevonden diameters. a) Bepaal grenzen tussen dewelke X moet liggen met een betrouwbaarheid van 99%. De gevonden grenzen noemt men controlegrenzen. b) Wat is uw besluit indien we de volgende steekproefresultaten vinden: X = 5.74 , X = 5.81, X = 5.62, X = 5.87 4. Op de verpakking van koekjesdozen staat dat het gewicht gemiddeld gelijk is aan µ = 1000 gram. Bij de controle van n = 20 dozen vonden we X = 995 gram en s = 25 gram. Klopt dat wat er op de verpakking staat? (α = 5%) 5. Bij een steekproef van omvang n = 72 arbeiders een bepaalde sector vond men een gemiddeld nettoloon van € 1885 met s = € 158. Mag men beweren dat de lonen in deze sector minstens € 1900 bedragen (α = 5% en α = 10%)? Bepaal het onderscheidend vermogen van de toets indien µ = 1895, µ = 1890, µ = 1885.
Toetsen van hypothesen
27
7. Toetsen i.v.m. andere parameters Wanneer we hypothesen toetsen omtrent parameters die geschat worden via een toetsingsgrootheid of schatter waarvan de verdeling gerelateerd is aan een N-verdeling, dan kunnen we steeds gebruik maken van een van de drie klassieke beslissingsregels (betrouwbare uitspraken, kritische grenzen, OK). Parameters in deze categorie zijn o.a. * proportie p en verschil tussen proporties (ongepaard) * verschil tussen gemiddelden (gepaard of ongepaard) * correlatiecoëfficiënten (via Fisher-eigenschap) * variantie (bij grote steekproeven) Bij het toetsen van hypothesen omtrent andere parameters (o.a. varianties, correlaties, quotiënt van varianties bij ongepaarde steekproeven) zullen we meestal gebruik maken van de methode gebaseerd op betrouwbaarheidsintervallen of van z-waarden, t-waarden en hun overschrijdingskansen. We illustreren verschillende mogelijkheden via een aantal goed gekozen cijfervoorbeelden.
7.1. Toetsen i.v.m. proporties Voorbeeld 1 In 1999 had één gezin op twee een kleurenprinter thuis. Uit nieuw onderzoek blijkt dat 33 van de 50 onderzochte gezinnen een kleurenprinter hebben. Is dit een betekenisvolle vooruitgang? Dit is een voorbeeld van een toets op proporties: H0: p = p0 = 50 % (géén)
vs
Ha: p > p0 = 50 % (wél vooruitgang)
Bij een steekproef van omvang n = 50 vinden we pˆ = 66% a) Via b.o. We kiezen (bijvoorbeeld) α = 5% en construeren en 95% b.o. voor p. Met de benaderende formule vinden we p ≥ 0.66 − 1.64*√(0.66*0.34) / √50 = 0.66 − 0.11 = 0.55 Omdat p = p0 = 50% geen betrouwbare waarde is besluiten we (met een risico van α = 5%) dat er vooruitgang is! Voor een 99% b.o. vinden we p ≥ 0.66 − 2.33*√(0.66*0.34) / √50 = 0.504. Opnieuw besluiten we dat er vooruitgang is (met een risico van α = 1%)
Toetsen van hypothesen
28
b) Via OK Aangezien de steekproef voldoende groot is berekenen we hier de t-waarde/z-waarde van het steekproefresultaat. We vinden t=z=
pˆ − p 0 p 0 (1 − p 0 ) / n
= 0.16/√1/200 = 2.26
We berekenen de OK (en mogen met de standaardnormale verdeling werken) en vinden OK = P(Z > 2.26) = 0.012 Bij α = 5% vinden we OK < α en verwerpen we H0. Bij α = 1% vinden we OK > α en verwerpen H0 niet.
Opmerking We komen tot verschillende besluiten omdat we bij het opstellen van de betrouwbare uitspraak de benadering pˆ ≈ N ( p, pˆ (1 − pˆ ) / n) gebruikten. Bij het berekenen van de OK maken we deze benadering niet. De methode via OK verdient dus de voorkeur.
Voorbeeld 2 Bij de vorige verkiezingen behaalde partij K 19.5 % van de stemmen. Uit een enquête bij 1018 personen vinden we dat 17.4 % de intentie hebben om voor partij K te stemmen. Is dit een betekenisvolle achteruitgang? (α = 5%). We toetsen hier H0: p = 19.5 % (geen achteruitgang) vs Ha: p < 19.5 % (wel achteruitgang) Hier is de z-waarde gelijk aan z = (0.174 - 0.195)/√(0.195*(1 - 0.195)/1018) = -1.69 met OK = P(Z < 1.69) = 4.5% Bij α = 5% verwerpen we H0 terwijl we bij α = 2.5% H0 niet verwerpen. Oefeningen 1. Bij n = 100 worpen met een muntstuk vonden we 53 keer de beeldzijde. a) Mogen we ervan uitgaan dat het muntstuk onvervalst is? Kies tussen H0: p = 0.5 en Ha: p > 0.5 voor bijvoorbeeld α = 5%. b) Bepaal β indien eigenlijk p = 0.51. c) Bepaal de steekproefgrootte om een onderscheid te kunnen maken tussen p = 0.50 en p = 0.55 indien we wensen dat α = β ≤ 5%.
Toetsen van hypothesen
29
2. Via een steekproef van 150 lampen vonden we dat bij 110 lampen de levensduur meer bedroeg dan 1400 u. Mogen we ervan uitgaan dat minstens 80% van de lampen deze eigenschap hebben? (α = 5% en ook OK) 3. Om een helderziende te controleren wordt het volgende experiment opgezet. In een kamer kiest een proefpersoon kaarten uit een kaartenboek. De helderziende is in een andere kamer en zegt telkens het kleur (rood of zwart) van de gekozen kaart. Bij 50 kaarten was de helderziende 32 keer correct. Is dit een betekenisvol resultaat? Toets H0: p = 0.50 (gokken) vs Ha: p > 0.50 (béter dan gokken) en kies α = 1%, α = 5%.
7.2. Toetsen i.v.m. varianties en/of standaardafwijkingen De toetsen die in deze paragraaf aan bod komen kunnen we enkel uitvoeren voor steekproeven uit een normale verdeling. Voorbeeld 1 Flesjes parfum worden door een machine gevuld met een hoeveelheid X ~ N(100, σ2). Bij het productieproces is het van belang dat de variantie niet groter is dan 0.36. Om dit te controleren nemen we geregeld een steekproef en bekijken we de berekende steekproefvariantie s². Bij elke controle wensen we te kiezen tussen H0: σ2 = 0.36 vs
Ha: σ2 > 0.36
In deze oefening werken we met een alfa-risico gelijk aan α= 5% en bekijken we de werkwijze voor een kleine steekproef en voor een grote steekproef. A. Uit een steekproef van omvang n = 21 vonden we s2 = 0.64. Kritieke grenzen. Bij toetsen van hypothesen over varianties is het niet gebruikelijk om kritieke grenzen te bepalen. Betrouwbare uitspraken. We bepalen een 95% b.o. via de chikwadraat-verdeling met parameter 20. Omdat P((n – 1)s²/σ² ≤ χ²95% , 20 ) = 95% en χ²95% , 20 = 31.41 vinden we als 95% b.o. de grens σ² ≥ (n – 1)s²/31.41 = 20*0.64/31.41 = 0.41 We besluiten H0 te verwerpen. Overschrijdingskansen. Omdat (n – 1)s²/σ² ∼ χ²n-1 vinden we P(s² > 0.64) = P(χ²20 > 20*0.64/0.36) = P(χ²20 > 35.5) = 0.017 vinden we: bij α = 5% verwerpen we H0 en bij α = 1% verwerpen we H0 niet.
Toetsen van hypothesen
30
Opmerking Het getal χ²(s²) = (n – 1)s²/σ0² noemen we de chikwadraatwaarde van het steekproefresultaat s². B. Uit een steekproef van omvang n = 121 vonden we s2 = 0.40. Overschrijdingskansen. Voor grote steekproeven vonden we vroeger dat s² ≈ N(σ² , 2σ4/n). We berekenen de z-waarde van ons steekproefresultaat en vinden z = (0.40 – 0.36)/ 2 * 0.36² / 121 = 0.86 De bijhorende OK is gelijk aan OK = P(Z > 0.86) = 19.5% We verwerpen H0 niet.
Voorbeeld 2 Een bestaand productieproces produceert lampen met een gemiddelde levensduur die normaal verdeeld is met µ = 1200 uren met standaardafwijking σ = 300. We onderzoeken een nieuw proces dat door de technische diensten als beter bestempeld wordt. Bij een steekproef van n = 100 lampen vond men X = 1265 en s = 310. a) Is de gemiddelde levensduur inderdaad hoger ? (α = 5%) b) Is de standaardafwijking betekenisvol groter? (α = 5%) We gaan ervan uit dat het nieuwe procédé ook normaal verdeelde levensduren geeft. Hier moeten we twee hypothesen toetsen a)
H0 : µ ≤ 1200 (nieuwe procédé niet beter) Ha : µ > 1200 (nieuwe procédé beter)
b)
H0 : σ ≤ 300 (nieuwe procédé niet slechter) Ha : σ > 300 (nieuwe procédé slechter)
a) Uit de steekproefresultaten (grote steekproef!) vinden we t/z-waarde en OK t = z = (1265 - 1200)/(310/10) = 2.10 OK (via N(0, 1)-verdeling) = 0.0179 Besluit: we verwerpen H0: het nieuwe procédé is betekenisvol beter! b) We herleiden het vraagstuk naar een vraagstuk over varianties. Via de steekproefresultaten bepalen we de OK van s² = 310². We vinden z = (310² - 300²)/ 2 * 300 4 / 100 = 0.48 en OK = P(Z > 0.48) = 31.5% We verwerpen H0 niet.
Toetsen van hypothesen
31
Voorbeeld 3 (Oefening) Een betonnen constructie moet kunnen weerstaan aan een (normaal verdeelde) druk van gemiddeld minstens 600 kg/cm2 met een standaardafwijking van maximaal 30. Bij een steekproef van omvang n = 60 vond men X = 500 en s = 40. a) Is de afwijking t.o.v. het normgemiddelde betekenisvol? ( α = 1%) (Toets H0: µ = 600 (voldoende) vs Ha: µ < 600 (te laag)) b) Is de afwijking t.o.v. de normstandaardafwijking betekenisvol? (α = 5%) (Toets H0: σ = 30 (norm) vs Ha: σ > 30 (te hoog)) c) Werk ook telkens met OK.
Voorbeeld 4 (Oefening) Op het etiket van naaigaren staat dat elk klosje gemiddeld 200 meter garen bevat met een standaardafwijking van 1.5 meter. We namen de proef op de som en maten de lengte van n = 200 klosjes. We vonden rekenkundig gemiddelde 195 en s = 3.7. Is de informatie op het etiket een correcte weergave van de realiteit (α = 5%)? (U mag ervan uitgaan dat de lengte normaal verdeeld is)
7.3. Verschil tussen gemiddelden en quotiënt varianties (varianties: enkel voor ongepaarde steekproeven uit normale verdelingen) Voorbeeld 1 Bij een onderzoek van een normaal verdeeld kenmerk bij twee onafhankelijke populaties vonden we: populatie 1: n = 50, X = 17 en s1 = 1.18 populatie 2: m = 41, Y = 19 en s2 = 1.64 a) Toets H0: µ1 = µ2 vs Ha: µ1 < µ2
(α = 5%)
b) Toets H0: σ1 = σ2 vs Ha: σ1 ≠ σ2
(α = 10%)
a) Dit is een voorbeeld van een toets omtrent het verschil tussen gemiddelden. We toetsen hier H0: µv = 0 vs Ha: µv < 0 waarbij µv = µ1 - µ2 en we hanteren een α-risico van α = 5%. Omdat X − Y ≈ N(µv, σ²1/n + σ²2/m) kunnen we deze toets zonder probleem uitvoeren. We illustreren de drie werkwijzen.
Toetsen van hypothesen
32
* Kritische grenzen De 95% kritische grens is hier K = 0 − z5%
σ ²1 n
+
σ ²2 m
De varianties schatten we met de s2-waarden en we vinden (n, m groot!)
1.18² 1.64² + = – 1.64*0.3057 = – 0.50 50 41
K = – 1.64*
Besluit: omdat het verschil X − Y tussen de twee rekenkunidge gemiddelden gelijk is aan 17 – 19 = –2 < K, verwerpen we H0. * Betrouwbare bovengrens voor µv Als 95% b.b. vinden we µv ≤ X − Y + z5%
σ ²1 n
+
σ ²2 m
Met de geschatte varianties vinden we µv ≤ – 2 + 0.50 = –1.50. Besluit: omdat µv = 0 en onbetrouwbare waarde is verwerpen we H0. * Overschrijdingskans De z-waarde van ons steekproefresultaat X − Y = – 2 is gelijk aan z = (– 2 – 0) /
σ ²1 n
+
σ ²2 m
Na het schatten van de varianties vinden we z = – 2/0.3057 = – 6.54. De OK is gelijk aan P(Z < – 6.54) is gelijk aan 0% < 5% en we verwerpen H0.
Opmerking De z-waarde van het steekproefresultaat is gelijk aan z = z( x, y ) =
x − y − ( µ1 − µ2 ) 0
σ ²1 n
+
σ ²2 m
Bij onbekende varianties werken we met de t-waarde: t = t( x, y ) =
x − y − ( µ1 − µ2 ) 0 s ²1 s ² 2 + n m
Bij grote steekproeven berekenen we de OK met de standaardnormale verdeling. Bij kleine steekproeven berekenen we OK via ofwel de tn-1-verdeling ofwel de tm-1verdeling. We gebruiken de t-verdeling die overeenstemt met de kleinste waarde van n of m. Bij deze waarde maken we immers de grootste benaderingsfout bij het benaderen van de variantie.
Toetsen van hypothesen
33
b) Dit is een toets i.v.m. het vergelijken van (ongepaarde) varianties. * Via betrouwbaarheidsintervallen Een 90% b.i. voor σ12/σ22 vinden we via s12/s22 en de F(49,40)-verdeling. Voor X ∼ F(49, 40) vinden we via de F(49, 40)- verdeling (met EXCEL) dat P(0.61 ≤ X ≤ 1.66) = 90% Omdat s12/s22 / σ12/σ22 ∼ F(49, 40) vinden we achtereenvolgens 0.61 ≤ s12/s22 / σ12/σ22 ≤ 1.66 en
s12/s22 / 1.66 ≤ σ12/σ22 ≤ s12/s22 /0.61
of
0.61* s12/s22 ≤ σ12/σ22 ≤ 1.64* s12/s22
Invullen van de s²-waarden geeft het volgende 90% b.i.: 0.32 ≤ σ12/σ22 ≤ 0.85 Daar het quotiënt “1” onbetrouwbaar is, verwerpen we H0. * Via overschrijdingskansen We berekenen de F-waarde van het steekproefresultaat: F = F(s²1, s²2) = s12/s22 /σ12/σ22 We herinneren dat F(s²1, s²2) ∼ F(n-1, m-1) = F(49, 40) In ons voorbeeld vinden we: indien H0 correct is, dan zijn de varianties gelijk en is de Fwaarde gelijk aan F = s12/s22 = (1.18)²/(1.64)² = 0.518 Met X ∼ F(49, 40) berekenen we P(X < 0.518) en vinden P(X < 0.518) = 0.0144. Omdat deze OK kleiner is dan 10% verwerpen we H0.
Voorbeeld 2 (Oefening) Een consumentenorganisatie onderzocht de levensduur van twee types batterijen: type 1: n = 100, X = 1180 en s1 = 140 type 2: m = 110, Y = 1160 en s2 = 134 a) Toets H0: µ1 = µ2 vs Ha: µ1 ≠ µ2
(α = 10%)
b) Toets H0: σ1 = σ2 vs Ha: σ1 ≠ σ2
(α = 5%)
(Antwoord: a) H0; b) H0)
Voorbeeld 3 Bij een bepaalde nieuwe behendigheidstest voerde men het volgende experiment uit. Een groep van 200 personen werd in twee deelgroepen (A en B) verdeeld van 100 personen. In groep A gaf men een tip en in groep B gaf men géén tip. Men telde dan het aantal mensen die de test konden uitvoeren binnen de voorziene tijd.
Toetsen van hypothesen
34
In groep A slaagden 64 mensen er in de test uit te voeren binnen de tijd en in groep B waren er 49 mensen die daarin slaagden. Mogen we stellen dat het geven van een tip ervoor zorgt dat een grotere proportie personen slagen in de test? (α = 5%) Hier toetsen we H0: pA = pB (géén verschil) vs Ha: pA > pB (verbetering) Dit is een toets over het verschil tussen proporties bij ongepaarde steekproeven: H0: pA − pB = 0
vs Ha: pA − pB > 0
Wij gebruiken hier (bijvoorbeeld) de toets gebaseerd op z/t-waarde en OK. We vinden t=
0.64 − 0.49 − 0 0.64 * 0.36 0.49 * 0.51 + 100 100
= 0.15/0.069 = 2.16
OK = P(Z > 2.16) = 1.5% < α = 5% We verwerpen H0. Voorbeeld 4
In de provincies West-Vlaanderen werden 300 kiesgerechtigden en in de provincie OostVlaanderen werden 200 kiesgerechtigden gepeild naar hun opninie t.o.v. een nieuw wetsvoorstel. In W-Wl waren 56 % pro en in O-Vl waren er 48 % pro. a) Kunnen we stellen dat er een betekenisvol (α = 5%) verschil is? We toetsen H0: pW – pO = 0 vs Ha: pW – p0 ≠ 0 We vinden de z-waarde z = 1.75 met OK = 2P(Z > 1.75) = 8% en verwerpen H0 niet. b) Kunnen we stellen dat er in W-Vl betekenisvol (α = 5%) méér voorstanders zijn? We toetsen H0: pW – pO = 0 vs Ha: pW – p0 > 0 We vinden (opnieuw!) z = 1.75 met OK = P(Z > 1.75) = 4% < 5%. We verwerpen H0. Voorbeeld 5
Om het effect van een nieuw medicijn te bepalen selecteert men 200 mensen met dezelfde ziekte en men verdeelt lukraak de 200 mensen in 2 groepen van elk 100. De mensen van groep A krijgen het medicijn. Afgezien hiervan worden de twee groepen op dezelfde manier behandeld. Later vinden we dat er bij groep A 75 mensen genezen zijn en dat bij groep B er 65 genezen zijn. Zorgde het medicijn voor een betekenisvolle verbetering? (α = 1%, 5% en 10%)
Toetsen van hypothesen
35
7.4. Toetsen i.v.m. correlatiecoëfficiënt Voorbeeld 1 (F-toets)
We onderzochten de relatie tussen de uitslagen (X, Y) voor twee vakken. Bij een steekproef van omvang n = 75 vonden we een steekproefcorrelatiecoëfficiënt r = 0.35. We wensen de volgende toets uit te voeren (α = 5%): H0: ρ = 0.30 vs Ha: ρ > 0.30 Omdat de Fishertranformatie stijgend is is deze toets volledig equivalent met H0: F(ρ) = F(0.30) vs Ha: F(ρ) > F(0.30) We voeren de toets uit op twee manieren * Via betrouwbare uitspraken. We vinden het 95% b.o. zoals vroeger: F(ρ)
≥ F(0.35) − z5% (1/(n-3))1/2 ≥ 0.3654 − 1.64*0.1178 = 0.3654 – 0.1933 = 0.1721
Omdat F(0.30) = 0.3095 een betrouwbare waarde is, verwerpen we H0 niet. * We berekenen de OK van de z-waarde. We vinden z = (F(0.35) - F(0.30))/(1/n-3))1/2 = 0.47 OK = P(Z > 0.47) = 31.92% Deze grote OK leidt tot het niet verwerpen van H0. Voorbeeld 2 (t-toets)
Bij een steekproef van 100 pasgehuwde koppels noteerden we de leeftijd van de partners en vonden r = 0.15. Wijst dit steekproefresultaat op een betekenisvolle positieve correlatie (α = 5%)? We toetsen hier H0: ρ = 0 vs Ha: ρ > 0. * We vinden een 95% ondergrens zoals vroeger: F(ρ)
≥ F(0.15) − z5% (1/(n-3))1/2 ≥ 0.1511 − 1.64*0.1015 = − 0.0154
Omdat ρ = 0 een betrouwbare waarde is verwerpen we H0 niet. * We berekenen de OK via de t-waarde (indien H0 geldt is ρ = 0 en werken we immers met de t-transformatie!). We vinden t(r) = 1.502 met OK = P(t98 > 1.502) = 6.7%. Met α = 5% verwerpen we H0 niet. Met α = 10% verwerpen we H0 wel. Voorbeeld 3
In atletiek is men geïnteresseerd in het verband tussen de startplaats (1 t.e.m. 8) en de plaats (1 t.e.m. 8) bij de uitslag. Bij 75 rennen vond men r = 0.31. Is dit resultaat betekenisvol groter dan 0? (α = 1%, 5%, 10%)
Toetsen van hypothesen
36
Voorbeeld 4 (verschil tussen correlatiecoëfficiënten, ongepaard)
In twee scholen onderzocht men de correlatie tussen de uitslag voor wiskunde en de uitslag voor het vak Frans. school 1:
n = 128
r1 = 0.50
school 2:
m = 78
r2 = 0.35
Is de correlatiecoëfficiënt in school 2 betekenisvol kleiner dan deze in school 1? (α = 5%). Hier toetsen we H0: ρ1 − ρ2 = 0 vs Ha: ρ1 − ρ2 > 0. We maken gebruik van de Fisher-transformatie F(r1) ∼ N(F(ρ1), 1/(n – 3)) en F(r2) ∼ N(F(ρ2), 1/(m – 3)) en vinden dan: F(r1) − F(r2) ∼ N(F(ρ1) − F(ρ2), 1/(n – 3) + 1/(m – 3)). Onder H0 geldt F(ρ1) = F(ρ2) en vinden we F(r1) − F(r2) ∼ N(0, 1/(n – 3) + 1/(m – 3)) = N(0, 0.021333) De z-waarde van de steekproefresultaten leidt tot z = (F(0.50) – F(0.35))/0.1461 = (0.5493 – 0.3654)/0.1461 = 1.25 We vinden nu OK = P(Z > 1.25) = 10,4%. Omdat 10.4% < 5% verwerpen we H0 niet.
Toetsen van hypothesen
37
7. Oefeningen 1. Uit een steekproef van omvang n = 9 uit N(µ, 9) vonden we X = 18.2. a) Toets H0: µ = 20 vs Ha: µ < 20 (α = 5%) b) Toets H0: µ = 20 vs Ha: µ ≠ 20 (α = 5%) (a) Kritische grens K = 18.36; OK = 3.59 % < 5% ; b.b. µ ≤ 19.84 dus Ha) (b) Kritische grenzen zijn 18.04 en 21.96, dus H0) 2. De leeftijd waarop mannen in het huwelijk treden varieert van land tot land. land A: 160 mannen (steekproef-) gemiddelde = 21.76 en s1 = 2.9 land B: 120 mannen rek.gem. = 22.83 en s2 = 2.4 Mogen we besluiten dat de gemiddelden betekenisvol verschillen? (α = 5%) (we toetsen H0: µA − µB = 0 vs Ha: µA − µB ≠ 0. We vinden z = −3.34 en OK = 2*P(Z < −3.34) < α zodat we H0 verwerpen) 3. Bij een steekproef van 100 pasgehuwde noteerden we de leeftijd van de partners en vonden r = 0.15. Wijst dit steekproefresultaat op een betekenisvolle positieve correlatie? (Bij H0: ρ = 0 vs Ha: ρ > 0, α = 5% vinden we t(r) = 1.50 en OK = P( t(r) > 1.5) = 6.8%) 4. Men ondervraagt 200 mensen en daarvan zijn er 115 sterk gekant tegen abortus. Toets H0: p = 0.6 vs Ha: p < 0.6 ( α = 5%) waarbij p de echte proportie tegenstanders is. (De steekproefproportie is 115/200 = 0.575 en we vinden OK = 21 %) (Bij α = 5% is de kritische grens K = 0.53. Omdat K < 0.575 wordt H0 niet verworpen) 5. Bij een bepaalde nieuwe behendigheidstest bekeek men de tijd vereist om de test succcesvol uit te voeren. Men voerde de volgende twee experimenten uit. a) Een groep van 200 personen werd in twee deelgroepen (groepen A en B) van omvang 100 verdeeld. In groep A gaf men een tip, in groep B gaf men geen tip. De resultaten hier waren de volgende: (in minuten) X = 3 en s1 = 1.18 groep A: n = 100, groep B: m = 100, Y = 3.9 en s2 = 1.64 a1) Is dit een ongepaarde steekproef? a2) Mag men stellen dat de gemiddelde tijden dezelfde zijn? (α = 5%) a3) Mag men stellen dat de varianties dezelfde zijn? (α = 5%) b) Een groep van 100 personen kreeg eerst een bestaand behendigheidsspel en daarna kregen de deelnemers het nieuwe spel. Van alle personen werden 2 tijden genoteerd. nieuw oud ]0, 1] ]1, 2] ]2, 3] ]3, 4]
]0, 1]
]1, 2]
]2, 3]
]3, 4]
1 0 0 0
5 10 0 0
5 15 20 0
0 25 10 9
b1) Bepaal de gemiddelde tijden, de steekproefstandaardafwijkingen en de steekproefcorrelatiecoëfficiënt r. Om dit te doen mag u met de klassemiddens werken! b2) Toets H0: µv = µoud − µnieuw= 0 vs Ha: µv > 0
Toetsen van hypothesen
38
Opmerking. Om b2) uit te voeren moeten we effectief verschillen gaan bepalen tussen de resultaten bij het oude en het nieuwe spel. We vinden de volgende aantallen: tijd oud spel tijd nieuw spel aantal tijdsverschil 0.5 0.5 1 0 0.5 1.5 5 -1 0.5 2.5 5 -2 1.5 1.5 10 0 1.5 2.5 15 -1 1.5 3.5 25 -2 2.5 2.5 20 0 2.5 3.5 10 -1 3.5 3.5 9 0
V(erschil) 0 −1 −2 Aantal 40 30 30 Het rekenkundig gemiddelde verschil = − 0.9 en s²v = 0.6969
We vinden dus
6. Meneer A en meneer B zijn instructeurs in een rijschool. Van 60 leerlingen bij A zijn er 40 die na één keer slagen in hun rijexamen. Bij B zijn er van de 70 leerlingen 43 die na één keer slagen. Toets H0: pA = pB vs Ha: pA ≠ pB (α = 5%) (B.i pA − pB is [−0.113, 0.217] en H0 wordt niet verworpen) 7. Bij de productie van nagels is de dikte een van groot belang. De twee machines die gebruikt worden, worden regelmatig onderzocht. Van beide machines wordt verondersteld dat ze nagels produceren met een N-verdeelde dikte. X = 998 en s1 = 6 Machine A: n = 30, Machine B: m = 30, Y = 1001 en s2 = 9 a) Toets H0: µA = 1000 vs Ha: µA < 1000 b) Toets H0: µB = 1000 vs Ha: µB > 1000 c) Toets H0: µA = µB vs Ha: µA < µB d) Toets H0: σ1 = 5 vs Ha: σ1 > 5 e) Toets H0: σ2 = 5 vs Ha: σ2 > 5 f) Toets H0: σ1 = σ2 vs Ha: σ1 < σ2 Kies telkens α = 10 % 8. Bij een steekproef van n = 400 schroeven vonden we een gemiddelde lengte van 5.008 mm en s = 0.072. a) Bepaal een 95 % b.i. voor de echte gemiddelde lengte µ. b) Mogen we stellen dat de machine schroeven produceert die betekenisvol afwijken van de normlengte van µ = 5 mm? (α = 5%) (a) b.i. : µ = 5.008 +/- 0.0071; b) µ = 5 is een (5%) onbetrouwbare waarde) 9. Men werpt 200 maal met een muntstuk en men bekomt 116 keer H (hoofd). Mag men stellen dat het muntstuk vervalst is in het voordeel van H? (α = 5%) (Hier is H0: p = 0.5 vs Ha: p > 0.5; OK < α en dus Ha)
Toetsen van hypothesen
39
10. Van 1000 Brusselaars namen 650 hun vakantie in het buitenland; bij 600 Antwerpenaars waren dit er 450. a) Geef een 95 % b.i. voor pA − pB b) Mag men stellen dat pA − pB = 8% of moet men stellen dat pA − pB ≠ 8%? (het 95% b.i. [0.054,0.146] bevat 0.08) 11. In een bedrijf staan 2 machines en men heeft de indruk dat machine 2 minder precies werkt dan machine 1. Om dit te onderzoeken neemt men uit de productie van machine 1 een steekproef van omvang 13 en men vindt s12 = 5.29. Uit een staal van 10 examplaren van machine 2 vond men s22 = 7.84. Toets H0: σ1 = σ2 vs Ha: σ1 < σ2 (α = 5%) (Wanneer H0 correct is volgt dat s22/s12 ~ F(9, 12). De OK van de F-waarde F = s22/s12 = 7.84/5.29 = 1.28 bedraagt 33% en bijgevolg verwerpen we H0 niet. 12. In België en Nederland werd een onderzoek uitgevoerd aangaande de woonomstandigheden van de inwoners. Hiertoe bestudeerde men o.a. het aantal slaapkamers per huis. Uit het eindrapport vernamen we de volgende informatie. * België (n = 40) x 1 2 3 4 5 # slaapkamers 5 13 11 7 4 * In Nederland onderzocht men 25 huizen en men vond Y = 2.9 en sn = 2 * Bij het globaal totaal van 65 huizen was de steekproefcorrelatie tussen het aantal slaapkamers en het aantal gezinsleden = r = 0.67 * We veronderstellen voor België en Nederland nu gemakshalve X ∼ N(µb, σ²b) en Y ∼ N(µn, σ²n) waarbij X en Y het aantal slaapkamers is. Geef een a) 95 % b.i. voor µb b) 95% b.o. voor µn c) 95% b.o. voor σ²b d) 95 % b.i. voor σn e) 90 % b.i. voor σ²b/σ²n . Mag men stellen (α = 10%) dat de varianties gelijk zijn? f) 95 % b.b. voor µn - µb g) 95% b.b. voor ρ h) 95% b.i. voor de proportie huizen in België met 3 of meer slaapkamers? i) 95 % b.b. voor 2µb + 3µn 13. In een lampenfabriek onderzoeken we de levensduur van de geproduceerde lampen (normaal verdeeld) en we nemen een steekproef uit de twee afdelingen A en B. We vinden: A: n = 100; rek.gem. = 254u, sA = 40; 25 lampen hadden een levensduur ≤ 150 B: m = 75; rek.gem. = 233u, sB = 30; 15 lampen hadden een levensduur ≤ 150 a) Bepaal een 95 % b.o. voor µA b) Bepaal een 95 % b.i. voor variantie van de levensduur van A-lampen. c) Bepaal een 95 % b.i. voor µA − µB. Mogen we stellen dat beide gelijk zijn? d) Stel pd en pn de proportie lampen met levensduur ≤ 150. Mogen we stellen dat deze proporties gelijk zijn? e) We combineren nu beide steekproefresultaten tot één steekproef van 175 lampen. * Bepaal een 95 % b.i. voor de totale proportie lampen met een levensduur ≤ 150 * Bepaal een 95 % b.i. voor de gemiddelde levensduur van alle lampen
Toetsen van hypothesen
40
14. In een autobanden onderzoeken we de levensduur van de geproduceerde banden en we nemen een steekproef uit de dagproductie en uit de nachtproductie. We vinden: dag: n = 100; rek.gem. = 25430 km, sd = 4 000; 25 banden hadden een levensduur ≤ 15 000 nacht: m = 75; rek.gem. = 23310km, sn = 3 000; 15 banden hadden een levensduur ≤ 15 000 a) Bepaal een 95 % b.o. voor de levensduur van banden geproduceerd tijdens de dag. b) Bepaal een 95 % b.i. voor variantie van de levensduur van dag-banden. Mogen we stellen dat de echte variantie gelijk is aan 3 500? c) Bepaal een 95 % b.i. voor het verschil tussen de echte gemiddelde levensduur van dag-en nacht-banden. Mogen we stellen dat beide gelijk zijn? d) Bepaal een 90 % b.i. voor het quotiënt van de varianties van de dag- en de nachtploeg. Mogen we stellen dat deze varianties gelijk zijn? e) Stel pd en pn de proportie banden met levensduur ≤ 15 000. Mogen we stellen dat deze proporties gelijk zijn? f) We combineren nu beide steekproefresultaten tot één steekproef van 175 autobanden. * Bepaal een 95 % b.i. voor de totale proportie banden met een levensduur ≤ 15 000 * Bepaal een 95 % b.i. voor de gemiddelde levensduur van alle autobanden 15. Een molenaar gebruikt twee vulmachines om zakjes te vullen met bloem. Gedurende een tijd werden de gewichten genoteerd: machine 1 machine 2 totaal rek.gem. 998 1001 ? s 6 9.5 ? aantal 80 120 200 a) Toets H0: µ1 = 1000 vs Ha: µ1 < 1000 b) Toets H0: µ2 = 1000 vs Ha: µ2 > 1000 c) Toets H0: σ2 = 11 vs Ha: σ2 < 11 d) Vul de ontbrekende getallen in en toets dan of voor het totaal het gemiddelde µ al dan niet gelijk is aan 1000 en of de standaardafwijking al dan niet gelijk is aan 10. 16. Een consumentenorganisatie onderzocht de levensduur van twee types batterijen: type 1: n = 100, X = 1180, sX = 140 type 2: m = 110 Y = 1160 , sY = 134 a) Toets H0: µX = µY vs Ha : µX ≠ µY (α = 5%) b) Toets H0: σX = σY versus Ha : σX ≠ σY (α = 10%)
Toetsen van hypothesen
41
17. (MARGARINE) De margarinefabriek CEBEL produceert pakjes margarine en vermeldt op de verpakking dat de pakjes 250 g netto wegen. We veronderstellen dat het gewicht (in gram) van een pakje normaal verdeeld is met gemiddelde µ en variantie 16. De voedingsketen LIDA is een goede klant en bestelt dagelijks een grote hoeveelheid pakjes CEBEL. LIDA heeft er geen bezwaar tegen dat de pakjes meer dan 250 g wegen. Zij heeft meer interesse voor de vraag of het echte gemiddelde µ van de geleverde pakjes minstens 250 g bedraagt! Om dit te toetsen neemt LIDA dagelijks een steekproef van 25 pakjes uit de daglevering en berekent het gemiddeld gewicht van de 25 pakjes. a) LIDA beslist van een dagpartij te verwerpen wanneer het steekproefgemiddelde kleiner is dan 249 g. Bereken het alfa-risico van deze toets. b) CEBEL en LIDA komen overeen dat ze een toets zullen gebruiken met significantieniveau 5 %. b1) Bereken de kritische grens b2) Het rek. gem. voor dag 1 bedraagt 249.5 gr, voor dag 2 is het 251 gr en voor dag 3 is het 248.5 gr. Wat gebeurt er met de partij margarine op dag 1, dag 2, dag 3? b3) Bepaal de OK van de steekproefresultaten uit b2). b4) Bereken het β-risico van deze voor µ = 248, 248.5, 249, 249.5, 250 en schets de grafiek van het onderscheidingsvermogen van de toets. 18. (LAMPEN) Een traditioneel productieproces produceerde miljoenen lampen met een gemiddelde levensduur van 1200 uren en een standaardafwijking van 300 uren. Uit een partij lampen, geproduceerd volgens een nieuw proces, door de technische dienst als beter bestempeld, neemt men een steekproef van 100 lampen. De gemiddelde levensduur bedraagt 1265 uren. a) Toets het effectief beter zijn van dit nieuwe proces (α = 5 %) (H0 verwerpen) b) Bepaal de 95% kritische grens (H0 verwerpen als de gemiddelde duur > K= 1249 u) c) Onderzoek de β−fout als µ =1240, µ = 1280, µ = 1320 uren. d) Toets H0: µ = 1240 vs Ha: µ < 1240 (α = 1%) 19. (METALEN STAAFJES) De dikte van metalen staafjes die door een bepaalde machine worden geproduceerd is normaal verdeeld met σ = 0.2 mm. De gemiddelde dikte kan worden ingesteld en heeft als normwaarde 2.0 mm. Er kunnen storingen optreden waardoor het gemiddelde gaat afwijken zonder dat de spreiding verandert. Ter controle berekent men regelmatig de gemiddelde dikte in steekproeven van 5 staafjes. Eventueel wordt de machine bijgesteld, waarbij men 5 % risico wil lopen dit ten onrechte te doen. Een steekproef levert een gemiddelde dikte van 1.9 mm. a) Gaat men de machine bijregelen? (neen) b) Bereken de overschrijdingskans van het steekproefresultaat. (0.2416) 20. (KABELBELASTING) De breukbelasting van kabels is normaal verdeeld. Een industrieel beweert kabels te vervaardigen met een minimale breukbelasting van 8000 kg. Een steekproef van 6 kabels geeft een gemiddelde breukbelasting van 7750 kg en een standaardafwijking van 135 kg. a) Is de afwijking beduidend of niet? (5 % significantieniveau)? (ja) b) Bereken de overschrijdingskans. (0.0036)
Toetsen van hypothesen
42
21. (VERKOOPPRIJZEN) De door de regering vastgestelde maximumprijs voor een bepaald product is € 45. In een steekproef in 50 verkoopspunten vond men als gemiddelde prijs € 46 BEF met een standaardafwijking van € 2.5. Kan men op significantieniveau van 1 % stellen dat de regeringsprijs gevolgd wordt? 22. (INTERSCHOLEN) Een interscolaire wedstrijd geeft een algemeen gemiddelde uitslag van 74.5 % met een standaardafwijking van 10 %. In een bepaalde school met 200 studenten bedroeg het gemiddelde 75.9 % met s = 7%. Is deze school beduidend beter dan de overige? (α = 1%, 5%) 23. (SEED) (uit Wonnacott & Wonnacott) A certain type of seed has always grown to a mean height of 8.5 inches, with a standard deviation of 1 inch. A sample of 100 seeds is grown under new enriched conditions to see whether the mean height might be improved. a) At the 5%-level (α-risico), calculate the cut-off value (kritische grens) K above which H0 should be rejected. (8.6645) b) If the sample of 100 seeds actually turns out to have mean height 8.8 inches, do you reject H0? (ja) c) What would be the approximate chance of failing to detect a mean height improvement, if the sample of 100 seeds were to come from a population whose mean was 8.65 inches, 8.80 inches, 9 inches? (0.5576,0.0877,0.0005) d) Roughly graph the power function (onderscheidingsvermogen) for this test. 24. (BANDEN) De levensduur van een bepaald merk autobanden is normaal verdeeld met verwachte waarde µ en σ = 5000 km. De producent beweert dat de banden vanaf nu volgens een nieuw procédé worden gefabriceerd waarbij de gemiddelde levensduur rond de 55000 km zal liggen. Om de bewering te testen worden de volgende hypothesen gesteld: H0: µ = 50000 km vs Ha: µ > 50000 km. We zullen n banden testen en H0 verwerpen als het steekproefgemiddelde groter is dan de kritische waarde K. Bepaal n en K zodanig dat het alfa-risico gelijk is aan 1% en het onderscheidingsvermogen voor µ = 55000 km gelijk is aan 0.98. (20, 52605 km) 25. (MUNTSTUK) Men werpt 500 maal met een muntstuk en men ziet 235 maal kruis. Toets of het geldstuk eerlijk is of niet? (α= 5 %, 1 %)? 26. (FARMASECTOR) Een farmaceutische firma beweert een geneesmiddel geproduceerd te hebben dat in 24 uur een kwaal geneest in 90 % van de gevallen. Men test het middel bij 200 patiënten waarvan er 160 genezen binnen de 24 uur. Ga na of de bewering van de firma gerechtvaardigd is op het 1 % niveau. Hoeveel bedraagt de kritische proportie (kritische grens)? (0.85) 27. In land B behaalde een partij 26.3% van de stemmen bij de verkiezingen in 2003. In Januari 2009 beloot de partij een enquête te organiseren om de stand van zaken te bepalen. a) In een steekproef van omvang n = 234 vond men dat 70 mensen zouden stemmen voor de partij. Construeer een 95% b.o. voor de echte proportie. b) Toets H0: p = 0.263 vs Ha: p > 0.263 (alfa = 5%) c) De partijtop wil via een enquête een 95% b.i. voor p met een foutenmarge van hoogstens 2%. Hoe groot moet de steekproef zijn om dit te bewerkstelligen?
Toetsen van hypothesen
43
28. In de volgende tabellen vergelijken we het eetgedrag van mensen in 2000 met de resultaten van 1970. We bestudeerden de dagelijkse hoeveelheid vleesconsumptie (in gram) en vonden de volgende resultaten. 1970 rek.gemidd. st.afw. (s) 100 mannen 203 25 80 vrouwen 191 33 Er waren 50 mensen (p^1970 = 50/180) die dagelijks hoogstens 100 gr. vlees eten. De st.pr. corr. r1970 tussen vleesconsumptie en gewicht bedraagt 32% 2000 rek.gemidd. st.afw. (s) 100 mannen 282 45 100 vrouwen 276 31 Er waren 68 mensen (p^2000= 68/200) die dagelijks hoogstens 100 gr. vlees eten. De st.pr. corr. r2000 tussen vleesconsumptie en gewicht bedraagt 39% a) Ga na welke situaties gepaard zijn en welke ongepaard. b) Gebruik de data van het jaar 2000 * Test H0: µman = 300 vs Ha: µman < 300 * Test H0: σman = 50 vs Ha: σman ≠ 50 * Test H0: µman − µvrouw = 10 vs Ha: µman − µvrouw < 10 * Test H0: ρ1970 = 0.39 vs Ha: ρ1970 < 0.39 c) Gebruik nu de data van 1970 en van 2000 en gebruik telkens α = 5%. Gebruik verschillende werkwijzen door elkaar. * Test H0: µman,2000 - µman,1970 = 100 vs Ha: µman,2000 - µman,1970 < 100 * Test H0: p2000 = p1970 vs Ha: p2000 > p1970 * Test H0: σman,2000 = 2*σman,1970 vs Ha: σman,2000 < 2*σman,1970 * Test H0: ρ2000 = ρ1970 vs Ha: ρ2000 > ρ1970 29. Veronderstel dat X een normale verdeling volgt met variantie σ² = 1. We willen de volgende hypothesetest uitvoeren: H0: µ = 10 vs Ha: µ > 10. Om te kiezen worden 2 steekproeven van telkens omvang 16 genomen en berekenen we het rekenkundig gemiddeld X , Y . We gebruiken de volgende beslissingsregel: - als de beide gemiddelden kleiner zijn dan 10.3, dan verwerpen we H0 niet - anders verwerpen we H0 wel a) Wat is het alfa-risico van deze beslissingsregel? b) Wat is het beta-risico indien in feite µ = 10.1?