ALGEMENE STATISTIEK A.W. van der Vaart en anderen
VOORWOORD Dit collegedictaat omvat de stof van het college Algemene Statistiek, zowel de versie voor Econometrie en Wiskunde studenten, als de versie voor BWI studenten. Niet alle delen van het dictaat behoren tot de tentamenstof van de twee colleges. Welke delen tot welk tentamen behoren wordt op de colleges en via de webpagina’s bekend gemaakt. De nadruk ligt op de fundamentele begrippen en methoden van de statistiek: schatten, toetsen en betrouwbaarheidsintervallen. Basis begrippen en methoden staan centraal en worden ge¨ıllustreerd aan de eenvoudigste statistische modellen. Het dictaat begint met enige data-analyse en besluit met enige optimaliteitstheorie. Het doel van de voorbeelden is niet een compendium van statistische technieken te geven (zie hiervoor een statistisch handboek), maar om bij te dragen aan een goed begrip van de basis stof. Paragrafen, definities, etc. gemerkt met een “*” behoren niet tot de tentamenstof, tenzij de docent anders besluit tijdens het semester. De wiskundige stijl is informeler dan dat van een tweedejaars wiskunde college. Stellingen en lemma’s worden niet (of onvolledig) bewezen, en/of op een informele manier geformuleerd. Een gedeelte van deze resultaten komt uitvoeriger aan de orde in de colleges Mathematische Statistiek en Grondslagen Waarschijnlijkheidsrekening. De stof van een eerstejaars college kansrekening wordt bekend verondersteld. Hoewel in het dictaat een aantal voorbeelden is opgenomen, is oefening aan de hand van vraagstukken onontbeerlijk om een goed inzicht in de stof te verkrijgen. In de vraagstukkencollectie zijn ook meer praktisch gerichte opgaven opgenomen. Bovendien behoren bij het college voor BWI studenten enkele computeropgaven. Voor uitvoerige praktische oefening met echte data verwijzen we echter naar, bijvoorbeeld, de colleges Statistische Data Analyse en Statistische Modellen. Bij dit collegedictaat zijn enkele tabellen gevoegd. Deze zijn bedoeld voor gebruik thuis of tijdens de praktika. In het “echt” worden deze tabellen niet meer gebruikt: de computer is sneller, nauwkeuriger en gemakkelijker in het gebruik. Het statistisch pakket R bevat bijvoorbeeld standaard functies voor de verdelingsfunctie, de dichtheidsfunctie en de kwantielfunctie van alle standaard verdelingen. Amsterdam, januari 2008
LITERATUUR [1] Freedman, D., (2005). Statistical Models: theory and applications. Cambridge University Press, Cambridge. [2] van der Vaart, A.W., (1998). Asymptotic Statistics, 1–496. Cambridge University Press, Cambridge.
INHOUD 1. Inleiding . . . . . . . . . . . . . . . . . . . 1.1. Wat is statistiek? . . . . . . . . . . . . . 1.2. Beschrijvende versus Mathematische Statistiek 1.3. Indeling van het boek . . . . . . . . . . . 2. Statistische Modellen . . . . . . . . . . . . . 2.1. Introductie . . . . . . . . . . . . . . . . 2.2. Enkele voorbeelden . . . . . . . . . . . . Opgaven . . . . . . . . . . . . . . . . . Cox regressie . . . . . . . . . . . . . . . . . 3. Verdelingsonderzoek . . . . . . . . . . . . . . 3.1. Introductie . . . . . . . . . . . . . . . . 3.2. Univariate Steekproeven . . . . . . . . . . 3.3. Samenhang . . . . . . . . . . . . . . . . Opgaven . . . . . . . . . . . . . . . . . De Wet van Benford . . . . . . . . . . . . . 4. Schatters . . . . . . . . . . . . . . . . . . 4.1. Introductie . . . . . . . . . . . . . . . . 4.2. Mean Square Error . . . . . . . . . . . . 4.3. Maximum Likelihood-Schatters . . . . . . . 4.4. Momentenschatters . . . . . . . . . . . . 4.5. Bayes-schatters . . . . . . . . . . . . . . 4.6. M-Schatters . . . . . . . . . . . . . . . Opgaven . . . . . . . . . . . . . . . . . Erfelijkheidsonderzoek . . . . . . . . . . . . . 5. Toetsen . . . . . . . . . . . . . . . . . . . 5.1. Nulhypothese en Alternatieve Hypothese . . . 5.2. Toetsingsgrootheid en Kritiek Gebied . . . . 5.3. Statistische Significantie . . . . . . . . . . 5.4. Overschrijdingskansen . . . . . . . . . . . 5.5. Enkele Standaard Toetsen . . . . . . . . . 5.6. Likelihood-Ratiotoetsen . . . . . . . . . . 5.7. Score- en Wald-Toetsen . . . . . . . . . . 5.8. Meervoudig Toetsen . . . . . . . . . . . . Opgaven . . . . . . . . . . . . . . . . . Aandelen volgens Black-Scholes . . . . . . . . . 6. Betrouwbaarheidsgebieden . . . . . . . . . . . 6.1. Introductie . . . . . . . . . . . . . . . . 6.2. Pivots en Bijna-Pivots . . . . . . . . . . . 6.3. Maximum Likelihood-Schatters als Bijna-Pivots 6.4. Betrouwbaarheidsgebieden en Toetsen . . . . 6.5. Likelihood-Ratiogebieden . . . . . . . . . 6.6. Bayesiaanse Betrouwbaarheidsgebieden . . . Opgaven . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
.2 .2 .3 .3 .5 .5 .6 19 21 22 22 22 32 38 40 45 45 46 54 78 81 93 95 102 107 107 110 125 126 131 148 155 159 162 170 176 176 179 184 194 196 200 202
Het Salk Vaccin . . . . . . . . . . . . . . . 7. Optimaliteitstheorie . . . . . . . . . . . . . 7.1. Voldoende Statistieken . . . . . . . . . . 7.2. Schattingstheorie . . . . . . . . . . . . 7.3. Toetsingstheorie . . . . . . . . . . . . Opgaven . . . . . . . . . . . . . . . . Hoogwater in Limburg . . . . . . . . . . . . 8. Regressiemodellen . . . . . . . . . . . . . . 8.1. Lineaire Regressie . . . . . . . . . . . . 8.2. Variantie-Analyse . . . . . . . . . . . . 8.3. Niet-lineaire en niet-parametrische regressie 8.4. Classificatie . . . . . . . . . . . . . . 8.5. Cox-regressiemodel . . . . . . . . . . . Opgaven . . . . . . . . . . . . . . . . Regressiemodellen en Causaliteit . . . . . . . 9. Appendix A: Elementen uit de Kansrekening . . 9.1. Verdelingen . . . . . . . . . . . . . . 9.2. Verwachting en variantie . . . . . . . . . 9.3. Standaard verdelingen . . . . . . . . . . 9.4. Multivariate en marginale verdelingen . . . 9.5. Onafhankelijkheid en conditionering . . . . 9.6. Limietstellingen en de normale benadering . Opgaven . . . . . . . . . . . . . . . . 10. Appendix B: Multivariaat-Normale Verdeling . . 10.1. Covariantiematrices . . . . . . . . . . . 10.2. Definitie en Basis Eigenschappen . . . . . 10.3. Voorwaardelijke Verdelingen . . . . . . . 10.4. Multivariate Centrale Limietstelling . . . . 10.5. Afgeleide Verdelingen . . . . . . . . . . 11. Appendix C: Tabellen . . . . . . . . . . . . 11.1. Normale Verdeling . . . . . . . . . . . 11.2. t-Verdeling . . . . . . . . . . . . . . . 11.3. Chikwadraat-Verdeling . . . . . . . . . 11.4. Binomiale Verdeling (n = 10) . . . . . . . 12. Index . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
206 210 210 217 228 241 246 256 258 274 282 285 290 296 299 305 305 308 309 314 315 317 320 322 322 323 326 327 328 330 331 332 333 335 337
1 Inleiding
1.1
Wat is statistiek?
Statistiek is de kunst van het modelleren van situaties waarin toeval een rol speelt, en van het trekken van conclusies op basis van data waargenomen in dergelijke situaties. Enkele typerende vragen die met behulp van statistiek kunnen worden beantwoord zijn: (i) Wat is de kans dat de Maas komend jaar buiten zijn oevers treedt? (ii) Is de nieuwe medische behandeling significant beter dan de oude? (iii) Wat is de onzekerheidsmarge in de voorspelling van het aantal zetels voor politieke partij A? Het beantwoorden van dergelijke vragen is verre van eenvoudig. De mathematische statistiek levert een algemeen kader waarmee de onderzoeksvraag beantwoord kan worden op basis van een opgesteld statistisch model. Binnen dit kader geeft het ook een oordeel over de kwaliteit van een gegeven antwoord. Om een geschikt statistisch model voor beschikbare data op te stellen, moet inzicht verkregen worden in de manier waarop de data verzameld zijn. Wanneer er nog geen data beschikbaar zijn, zullen die moeten worden verzameld. Het verkrijgen van relevante data vereist een goede, doordachte opzet. Zo zal bij een onderzoeksvraag die een bepaalde populatie betreft (bijvoorbeeld de populatie van pati¨enten met een hoge bloeddruk, stemgerechtigden, of eindprodukten van een productieproces), data verzameld moeten worden van een groep “mensen” die representatief is voor de gehele populatie. Ten slotte moet dan een geschikt statistisch model worden opgesteld voor de data.
1.2: Beschrijvende versus Mathematische Statistiek
3
De vragen (i)–(ii)–(iii) corresponderen met de drie basis concepten in de statistiek: schatten, toetsen en betrouwbaarheidsgebieden, welke uitgebreid aan de orde komen in dit boek. De nadruk ligt in dit boek op de mathematische statistiek; het verzamelen van data, het vervolgens modelleren van de data, en beschrijvende statistiek komen slechts summier aan bod.
1.2
Beschrijvende versus Mathematische Statistiek
Waarnemingen, meestal rijen getallen, kan men middelen, tabelleren, grafisch weergeven, of anderszins bewerken. De beschrijvende statistiek houdt zich bezig met het verzamelen en op inzichtelijke wijze samenvatten van data. Zulke beschrijvende statistiek, op grote schaal beoefend door bijvoorbeeld het Centraal Bureau voor de Statistiek, is van groot belang en kan heel interessant zijn. Beschrijvende statistiek wordt ook veel gebruikt bij het opstellen van statistische modellen (zie Hoofdstuk 2) en het controleren van modelaannames (zie Hoofdstuk 3). In dit boek komt zij echter nauwelijks aan de orde. De mathematische statistiek ontwikkelt en bestudeert methoden voor het analyseren van waarnemingen, die gebaseerd zijn op kansmodellen. Waarneming x wordt opgevat als een realisatie van een stochastische grootheid of vector X. In de waarschijnlijkheidsrekening wordt een precieze definitie gegeven van stochastische vectoren. Voor de statistiek is vooral van belang dat een stochastische vector een kansverdeling bezit. Deze kan worden vastgelegd door een verdelingsfunctie of kansdichtheid. In de statistiek willen we op grond van de realisatie x de “ware” kansverdeling van X bepalen. Op grond van kennis van die ware kansverdeling kunnen we vervolgens nieuwe uitkomsten voorspellen, of oude uitkomsten verklaren.
1.3
Indeling van het boek
De drie kernpunten van de mathematische statistiek zijn schatten, toetsen en het construeren van betrouwbaarheidsgebieden. Deze onderwerpen komen achtereenvolgens aan de orde in de Hoofdstukken 4, 5 en 6. Deze concepten maken gebruik van een statistisch model voor de data, waarvan in Hoofdstuk 2 de definitie en een aantal voorbeelden worden gegeven. Enkele technieken uit de beschrijvende statistiek die hulp kunnen bieden bij het opstellen en valideren van statistische modellen worden besproken in Hoofdstuk 3. Hoofdstuk 7 geeft een theoretische verdieping, waarin met name de vraag aan de orde komt onder welke omstandigheden en in welke
4
1: Inleiding
zin bepaalde statistische methoden wiskundig optimaal zijn. In Hoofdstuk 8 worden enkele regressiemodellen die in de praktijk veel gebruikt worden beschreven. De theorie uit de voorgaande hoofdstukken wordt hierin toegepast om onbekende modelparameters te schatten, te toetsen en betrouwbaarheidsintervallen voor deze parameters op te stellen. Het boek heeft drie appendices. In Appendix 9 wordt een aantal elementen uit de kansrekening behandeld die van belang zijn voor het begrip van de stof in het boek. In Appendix 10 worden eigenschappen van de meerdimensionaal normale verdeling besproken. Deze appendix ondersteunt het begrip van een aantal paragrafen waarin deze verdeling wordt gebruikt. Appendix 11 bevat tabellen met waarden van de verdelings- en kwantielfuncties van enkele verdelingen waarnaar verwezen wordt in de tekst. Deze tabellen kunnen worden gebruikt als er geen computer voor handen is. Met een statistisch pakket als R kunnen de waarden met een veel grotere nauwkeurigheid worden verkregen.
2 Statistische Modellen
2.1
Introductie
In zekere zin is de richting van de statistiek precies de omgekeerde van die van de waarschijnlijkheidsrekening: de uitslagen van een experiment zijn waargenomen, maar het onderliggende kansmodel is (deels) onbekend en dient uit de uitslagen te worden afgeleid. Uiteraard is de experimentele situatie niet geheel onbekend. Alle bekende informatie wordt gebruikt om een zo goed mogelijk statistisch model te construeren. Een formele definitie van een “statistisch model” is als volgt.
Definitie 2.1. Een statistisch model is een collectie van kansverdelingen op een gegeven uitkomstenruimte.
De interpretatie van een statistisch model is: de collectie van alle mogelijk geachte kansverdelingen voor de waarneming X. Hierin is X het geheel van de waarnemingen. Meestal is deze totale waarneming opgebouwd uit “deelwaarnemingen” en is X = (X1 , . . ., Xn ) een stochastische vector. Wanneer de variabelen X1 , . . ., Xn corresponderen met onderling onafhankelijke replicaties van hetzelfde experiment, dan spreken we van een steekproef. De variabelen X1 , . . ., Xn zijn dan onderling onafhankelijk en identiek verdeeld en hun simultane verdeling wordt volledig bepaald door de marginale verdeling, die voor alle Xi ’s gelijk is. In dat geval kan het statistische model voor X = (X1 , . . ., Xn ) worden beschreven door een collectie van (marginale) kansverdelingen voor de deelwaarnemingen X1 , . . ., Xn .
6
2: Statistische Modellen
2.2
Enkele voorbeelden
Het begrip “statistisch model” wordt pas echt duidelijk door voorbeelden. Zo eenvoudig als het wiskundige begrip “statistisch model” is uitgedrukt in de voorgaande definitie, zo ingewikkeld is het proces van statistisch modelleren van een gegeven praktijksituatie. Het resultaat van een statistisch onderzoek staat of valt echter met het construeren van een goed model. Voorbeeld 2.2 (Steekproef ). Van een grote populatie bestaande uit N personen heeft een onbekende fractie p een bepaalde eigenschap A; deze fractie p willen we “schatten”. Het wordt als te veel moeite beschouwd om alle personen uit de populatie op eigenschap A te onderzoeken. In plaats daarvan kiest men aselect n personen uit de populatie, met teruglegging. Men neemt (een realisatie van) de stochastische grootheden X1 , . . ., Xn waar, waarbij 0 als de ie persoon A niet heeft, Xi = 1 als de ie persoon A wel heeft. Vanwege de manier waarop het experiment is ingericht (trekken met teruglegging) weten we a priori dat X1 , . . ., Xn onderling onafhankelijk en alternatief verdeeld zijn. Dat laatste wil zeggen dat P(Xi = 1) = 1 − P(Xi = 0) = p voor i = 1, . . ., n. Over de parameter p is geen a priori kennis beschikbaar, anders dan dat 0 ≤ p ≤ 1. De totale waarneming is hier de vector X = (X1 , . . ., Xn ). Het statistische model voor X bestaat uit alle mogelijk geachte (simultane) kansverdelingen van X waarvan de co¨ ordinaten, X1 , . . ., Xn , onderling onafhankelijk en alternatief verdeeld zijn. Voor iedere mogelijke waarde van p bevat het statistische model precies ´e´en kansverdeling voor X. Het ligt voor de hand de onbekende p te “schatten” P met de fractie van het aantal personen met eigenschap A; dus met n−1 ni=1 xi waarbij xi gelijk is aan 1 of 0 al naar gelang de persoon eigenschap A wel of niet heeft. In Hoofdstuk 4 geven we een precieze betekenis aan “schatten”. In Hoofdstuk 6 gebruiken we het zojuist beschreven model om te kwantificeren hoever deze schatter van p zal afwijken, met behulp van een “betrouwbaarheidsinterval”. Bijna nooit zullen de populatie- en steekproeffractie immers precies gelijk zijn. Een betrouwbaarheidsinterval geeft een precieze betekenis aan de “foutenmarge” die vaak bij de uitslag van een opiniepeiling wordt vermeld. We zullen ook berekenen hoe groot die marge is wanneer we bijvoorbeeld 1000 personen uit de populatie onderzoeken, een gebruikelijk aantal bij een opiniepeiling onder de Nederlandse bevolking. Voorbeeld 2.3 (Trekken zonder teruglegging). Veronderstel dat in het voorgaande voorbeeld de n personen aselect uit de populatie worden
2.2: Enkele voorbeelden
7
gekozen zonder terugleggen. Dan zijn X1 , . . ., Xn niet onafhankelijk waardoor het statistische model voor X = (X1 , . . ., Xn ) niet vastligt met een keuze voor een model voor de deelwaarnemingen X1 , . . ., Xn ; de afhankelijkheid tussen de deelwaarnemingen moet ook gemodelleerd worden. Om de onbekende fractie p te “schatten” is het voldoende om de waarP neming X = (X1 , . . ., Xn ) te reduceren tot de som Z = ni=1 Xi ; het totaal aantal personen met eigenschap A in de trekking (dit wordt besproken in Paragraaf 7.1). Het is a priori bekend dat Z een hypergeometrische verdeling bezit met parameters (N, pN, n). We veronderstellen dat n vooraf bekend is. Het statistische model voor waarneming Z bestaat dan uit alle hypergeometrische verdelingen met parameters (N, pN, n) met N ≥ n, n vast en 0 ≤ p ≤ 1. Het is mogelijk dat ook N vooraf bekend is. Dan verkleinen we het model tot alle hypergeometrische verdelingen met parameters (N, pN, n) met N en n vast en 0 ≤ p ≤ 1. Voorbeeld 2.4 (Meetfouten). Als een fysicus middels een experiment herhaaldelijk de waarde van een constante µ bepaalt, vindt hij niet steeds dezelfde waarde. Zie bijvoorbeeld Figuur 2.1, waarin de 23 bepalingen van de lichtsnelheid door Michelson in 1882 zijn weergegeven. De vraag is hoe de onbekende constante µ op grond van de waarnemingen, een rij getallen x1 , . . ., xn , “geschat” kan worden. Voor de waarnemingen in Figuur 2.1 zal deze schatting in de range 700–900 liggen, maar de vraag is waar. Een statistisch model verleent houvast bij het beantwoorden van deze vraag. Kansmodellen zijn in deze context voor het eerst toegepast aan het eind van de 18e eeuw, en de normale verdeling werd door Gauss rond 1810 “ontdekt” precies met het doel inzicht te geven in deze situatie.
600
700
800
900
1000
Figuur 2.1. Grafische weergave van de resultaten van de 23 metingen van de lichtsnelheid door Michelson in 1882. De schaal op de horizontale as geeft de gemeten lichtsnelheid (in km per seconde) min 299000 km/sec.
Als de metingen steeds onder dezelfde omstandigheden worden ver-
8
2: Statistische Modellen
richt, steeds onafhankelijk van het verleden, dan is het redelijk in het model op te nemen dat deze getallen realisaties zijn van onderling onafhankelijke en identiek verdeelde stochastische variabelen X1 , . . ., Xn . De meetfouten ei = Xi − µ zijn dan eveneens stochastische variabelen. Een gebruikelijke aanname is dat de verwachte meetfout gelijk is aan 0, met andere woorden Eei = 0, en dus is EXi = E(ei + µ) = µ. Aangezien wordt aangenomen dat X1 , . . ., Xn onafhankelijke stochastische variabelen zijn en dezelfde kansverdeling hebben, ligt het model voor X = (X1 , . . ., Xn ) vast als we een statistisch model voor Xi kiezen. Voor Xi postuleren we het model: alle kansverdelingen met eindige verwachting µ. Het statistische model voor X is dan: alle mogelijke kansverdelingen van X = (X1 , . . ., Xn ) zodanig dat de co¨ ordinaten X1 , . . ., Xn onderling onafhankelijk en identiek verdeeld zijn met verwachting µ. Fysici menen vaak meer a priori informatie te bezitten, en doen dan meer modelaannames. Ze veronderstellen bijvoorbeeld dat de meetfouten normaal verdeeld zijn met verwachting 0 en variantie σ 2 , ofwel dat de waarnemingen X1 , . . ., Xn normaal verdeeld zijn met verwachting µ en variantie σ 2 . Het statistische model is dan gelijk aan: alle kansverdelingen van X = (X1 , . . ., Xn ) zodanig dat de co¨ ordinaten onderling onafhankelijk en N (µ, σ 2 )-verdeeld zijn. Het uiteindelijke doel is iets te zeggen over µ. Bij het tweede model is meer bekend, dus moet het mogelijk zijn met meer “zekerheid” iets over µ te zeggen. Anderzijds is er natuurlijk meer “kans” dat het tweede model onjuist is, in welk geval de winst aan zekerheid slechts een schijnzekerheid is. In de praktijk blijken meetfouten vaak, maar niet altijd, bij benadering normaal verdeeld te zijn. Dergelijke normaliteit is te motiveren met behulp van de Centrale Limietstelling (zie Stelling 9.28) indien een meetfout kan worden opgevat als de som van een groot aantal onafhankelijke kleine meetfouten (met eindige varianties), maar kan niet op theoretische gronden worden bewezen. In Hoofdstuk 3 bespreken we technieken om normaliteit aan de data zelf te onderzoeken. Het belang van een precies omschreven model is onder andere dat het mogelijk maakt te bepalen wat een zinvolle manier is om µ uit de waarnemingen te “schatten”. Het middelen van x1 , . . ., xn ligt voor de hand. In Hoofdstuk 7 zullen we zien dat dit het beste is (volgens een bepaald criterium) als de meetfouten inderdaad een normale verdeling volgen met verwachting 0. Zouden de meetfouten echter Cauchy-verdeeld zijn, dan is middelen desastreus. Dit P blijkt uit Figuur 2.2. Deze toont voor n = 1, 2, . . ., 1000 n het gemiddelde n−1 i=1 xi van de eerste n realisaties x1 , . . ., x1000 van een steekproef uit een standaard Cauchy-verdeling. De gemiddelden gedragen zich chaotisch en komen niet steeds dichter bij 0. Dit kan worden verklaard Pn uit het opmerkelijke theoretische resultaat dat het gemiddelde n−1 i=1 Xi van onderling onafhankelijke standaard Cauchy-verdeelde stochastische grootheden X1 , . . ., Xn zelf ook standaard Cauchy-verdeeld is. Middelen doet hier niets!
2.2: Enkele voorbeelden
9
2
1
0
-1
-2
-100
100
300
500
700
900
1100
Figuur 2.2. Cumulatieve gemiddelden (verticale as) van n = 1, 2, . . ., 1000 (horizontale as) realisaties uit de standaard Cauchy-verdeling.
Voorbeeld 2.5 (Gepaarde en ongepaarde waarnemingen). De laatste jaren is het aantal verschillende di¨eten op de markt sterk toegenomen. Om de effectiviteit van di¨eten A en B met elkaar te vergelijken wordt een aselecte groep zwaarlijvige mensen geheel willekeurig in twee groepen ter grootte n en m verdeeld. De mensen in de eerste groep volgen dieet A en de mensen in de tweede groep dieet B. Na een halfjaar tijd wordt genoteerd hoeveel elke deelnemer is afgevallen. Voor de groep mensen die dieet A volgden, geeft dat de waarnemingen x1 , . . ., xn , waarbij xi de gewichtsafname van de ie persoon in de eerste groep voorstelt. Voor de tweede groep worden de gewichtsafnames genoteerd met y1 , . . ., ym . De waarden x1 , . . ., xn kunnen worden gezien als de realisaties van n onderling onafhankelijke en identiek verdeelde stochastische grootheden X1 , . . ., Xn . Als statistisch model van Xi nemen we alle mogelijke continue kansverdelingen op R. Daarmee sluiten we bij voorbaat een eventuele toename in gewicht niet uit. Het statistische model voor X = (X1 , . . ., Xn ) ligt nu vast. Eveneens kunnen y1 , . . ., ym worden gezien als realisaties van stochastische variabelen Y1 , . . ., Ym welke onderling onafhankelijk en gelijk verdeeld zijn. Het statistische model voor Y = (Y1 , . . ., Ym ) nemen we analoog aan het model voor X. Om de twee di¨eten met elkaar te vergelijken kunnen de gemiddelde gewichtsafnames in de twee groepen met elkaar worden vergeleken. Met deze opzet van het onderzoek worden twee datasets die op geen enkele manier afhankelijk van elkaar zijn vergeleken; immers de groep zwaarlijvigen was aselect getrokken en geheel willekeurig in twee groepen verdeeld. Soms heeft het zin om de data opzettelijk afhankelijk van elkaar te maken, bijvoorbeeld door mensen te paren. Een reden om waarnemingen te paren kan zijn dat er meer factoren zijn die mogelijk invloed hebben op de uitkomst, gewichtsafname in dit voorbeeld. Corrigeren voor het effect
10
2: Statistische Modellen
van deze factoren kan de onderzoeksresultaten betrouwbaarder maken. In dit voorbeeld hebben geslacht en begingewicht mogelijk invloed op de gewichtsafname. Om hier rekening mee te houden bij het vergelijken van de twee di¨eten, worden de personen in de steekproef in n groepjes van twee gedeeld; de mensen worden gepaard. De twee personen in elk paar zijn van hetzelfde geslacht en hebben ongeveer hetzelfde (begin)gewicht. Van elk groepje volgt ´e´en persoon dieet A en de andere persoon dieet B; wie welk dieet volgt, wordt geheel willekeurig bepaald. Na een halfjaar wordt gekeken hoeveel elke persoon is afgevallen; dit geeft de waarnemingsparen (x1 , y1 ), . . ., (xn , yn ) waarbij xi de gewichtsafname van de persoon in het ie paar is die dieet A volgde en yi de gewichtsafname van de persoon in hetzelfde paar die dieet B volgde. Omdat we ge¨ınteresseerd zijn in verschil in effectiviteit tussen de twee di¨eten, ligt het voor de hand om naar de verschillen z1 = x1 − y1 , . . ., zn = xn − yn te kijken en hier een statistisch model voor op te stellen in plaats van voor de gehele dataset. De verschillen z1 , . . ., zn worden weer gezien als realisaties van onafhankelijke en gelijk verdeelde stochastische grootheden Z1 , . . ., Zn . We nemen als (marginaal) statistisch model voor Zi alle mogelijke continue kansverdelingen op R. Omdat Z1 , . . ., Zn onderling onafhankelijk en identiek verdeeld zijn, ligt het statistische model van Z = (Z1 , . . ., Zn ) daarmee vast. Met deze tweede onderzoeksmethode worden personen gepaard op geslacht en begingewicht; we spreken dan van gepaarde waarnemingen. Bij de eerste methode was er geen sprake van paren en hadden we te maken met ongepaarde data. Een alternatief statistisch model dat ook rekening kan houden met het effect van geslacht en begingewicht is een zogenaamd regressiemodel. Een regressiemodel kan eenvoudig worden uitgebreid, zodat met nog meer factoren rekening kan worden gehouden. Het regressiemodel komt in Voorbeeld 2.7 en in Hoofdstuk 8 aan de orde. Voorbeeld 2.6 (Poisson-voorraden). Een bepaald artikel wordt verkocht in aantallen die wisselen per filiaal van een warenhuis, en fluctueren in de tijd. Om het totaal aantal benodigde artikelen te schatten houdt het centrale distributiecentrum gedurende een aantal weken het totaal aantal verkochte artikelen per week en filiaal bij. Men neemt waar x = (x1,1 , x1,2 , . . ., xI,J ), waarbij xi,j het aantal artikelen is dat verkocht werd in filiaal i in week j. De waarneming is dus een vector ter lengte van het product IJ van het aantal filialen en het aantal weken, met als co¨ ordinaten gehele getallen. De waarnemingen kunnen worden gezien als realisaties van de stochastische vector X = (X1,1 , X1,2 , . . ., XI,J ). Veel verschillende statistische modellen voor X zijn mogelijk en zinvol in gegeven situaties. Een veel gebruikt (want vaak redelijk passend) model postuleert: - iedere Xi,j is Poisson-verdeeld met onbekende parameter µi,j ; - de X1,1 , . . ., XI,J zijn onderling onafhankelijk. Dit legt de kansverdeling van X vast op de verwachtingen µi,j = EXi,j na.
2.2: Enkele voorbeelden
11
Het zijn deze verwachtingen waarin het distributiecentrum ge¨ınteresseerd P is. De totale verwachte vraag in week j is bijvoorbeeld i µi,j . P Met behulp van deze waarde en het Poisson-karakter van de echte vraag i Xi,j kan het distributiecentrum een voorraadgrootte kiezen zodanig dat met een bepaalde (grote) kans voldoende voorraad aanwezig is. Het doel van de statistische analyse is om de µi,j uit de data af te leiden. Tot zover hebben we de µi,j volledig “vrij” gelaten. Dat maakt het moeilijk om ze uit de data te schatten, omdat er immers slechts ´e´en waarneming, xi,j , per µi,j beschikbaar is. Het is niet onredelijk het statistische model te verkleinen door a priori veronderstellingen over µi,j in te bouwen. We zouden bijvoorbeeld kunnen postuleren dat µi,j = µi niet van j afhangt. Het verwachte aantal te verkopen artikelen hangt dan wel van het filiaal af, maar is constant in de tijd. Nu resteren nog slechts I onbekenden en deze zijn redelijk goed uit de data te “schatten” mits het aantal weken J niet te klein is. Flexibelere, alternatieve modellen zijn µi,j = µi + βi j en µi,j = µi +βµi j, met respectievelijk 2I en I +1 parameters. Beide modellen corresponderen met een lineaire afhankelijkheid van de verwachte vraag van de tijd. Voorbeeld 2.7 (Regressie). Lange ouders krijgen over het algemeen lange kinderen en korte ouders, korte kinderen. De lengte van de ouders hebben een grote voorspellende waarde voor de zogenaamde eindlengte van hun kinderen, de lengte als kinderen zijn uitgegroeid. Er zijn meer factoren die invloed hebben. Het geslacht van het kind speelt natuurlijk een belangrijke rol. Ook omgevingsfactoren als gezonde voeding en hygi¨ene zijn van belang. Door verbeterde voeding en een toegenomen hygi¨ene in de afgelopen 150 jaar hebben factoren die de lengtegroei belemmeren, als infectieziekten en ondervoeding, minder kans gekregen in de meeste Westerse landen. Hierdoor is de gemiddelde lichaamslengte toegenomen en worden kinderen elke generatie langer. De streeflengte (of “target height”) van een kind is de eindlengte die kan worden verwacht op basis van de lengte van de ouders, het geslacht van het kind en de toename van lichaamslengte over generaties. De vraag luidt op welke manier de streeflengte afhangt van deze factoren. Definieer Y als de eindlengte die een kind zal bereiken, x1 en x2 als de lengte van de biologische vader en moeder, en x3 als een indicator voor het geslacht (x3 = −1 voor een meisje en x3 = 1 voor een jongen). De streeflengte EY wordt gemodelleerd met een zogenaamd lineair regressiemodel EY = β0 + β1 x1 + β2 x2 + β3 x3 , waarbij β0 de toename van de gemiddelde lichaamslengte per generatie is, β1 en β2 de mate waarin de lengte van de ouders invloed hebben op de streeflengte van hun nageslacht en β3 is de afwijking van de streeflengte tot de gemiddelde volwassen lengte die wordt veroorzaakt door het geslacht
12
2: Statistische Modellen
van het kind. Aangezien mannen gemiddeld langer zijn dan vrouwen zal β3 positief zijn. Bovenstaand lineair model zegt niets over individuele lengtes, maar enkel over dat van het nageslacht van ouders met een bepaalde lengte. Zo hebben twee broers dezelfde streeflengte; ze hebben immers dezelfde biologische ouders, hetzelfde geslacht en zijn geboren in dezelfde generatie. De werkelijke eindlengte Y kan geschreven worden als Y = β0 + β1 x1 + β2 x2 + β3 x3 + e, waarbij e = Y − EY de afwijking is van de werkelijke eindlengte Y ten opzichte van de streeflengte EY . De waarneming Y wordt ook wel de afhankelijke variabele genoemd en de variabelen x1 , x2 en x3 de onafhankelijke of verklarende variabelen. Veelal wordt verondersteld dat e normaal verdeeld is met verwachting 0 en onbekende variantie σ 2 . De eindlengte Y heeft dan een normale verdeling met verwachting β0 + β1 x1 + β2 x2 + β3 x3 en variantie σ2 . In Nederland wordt periodiek de lengtegroei van de jeugd in kaart gebracht. In 1997 vond de Vierde Landelijke Groeistudie plaats. Een onderdeel van het onderzoek betrof de relatie tussen de eindlengte van kinderen en de lengte van hun ouders. Om deze relatie te bepalen waren gegevens verzameld van jongvolwassenen en hun ouders. Dit leverde de volgende waarnemingen: (y1 , x1,1 , x1,2 , x1,3 ), . . .(yn , xn,1 , xn,2 , xn,3 ) op, waar yi de lichaamslengte van de ie jongvolwassene is, xi,1 en xi,2 de lengte van de biologische ouders, en xi,3 een indicator voor het geslacht van de ie jongvolwassene. Veronderstel dat de waarnemingen onafhankelijke replicaties zijn uit bovenstaand lineair regressiemodel; dat wil zeggen dat gegeven xi,1 , xi,2 , en xi,3 , Yi verwachting β0 + β1 xi,1 + β2 xi,2 + β3 xi,3 en variantie σ 2 heeft. De parameters (β0 , β1 , β2 , β3 ) zijn onbekend en kunnen geschat worden op basis van de waarnemingen. Voor een eenvoudige interpretatie van het model is er voor gekozen om β1 = β2 = 1/2 te nemen, zodat de streeflengte gelijk is aan de gemiddelde ouderlengte gecorrigeerd voor het geslacht van het kind en de invloed van de tijd. De parameters β0 en β3 zijn gelijk aan de toename van de lichaamslengte in de afgelopen generatie en de helft van het gemiddelde lengteverschil tussen mannen en vrouwen. Deze parameters werden geschat met behulp van de kleinste kwadratenmethode (zie Voorbeeld 4.42). De parameter β0 is geschat met 4.5 centimeter en β3 met 6.5 centimeter. Het geschatte regressiemodel is dan gelijk aan 1 Y = 4.5 + (x1 + x2 ) + 6.5x3 + e. 2 In Figuur 2.3 is de lichaamslengte van 44 jongvolwassen mannen (links) en 67 jongvolwassen vrouwen (rechts) uitgezet tegen de gemiddelde lichaamslengte van hun ouders.† De lijn is gelijk aan de geschatte regressielijn
(2.1)
† Bron: De data zijn verzameld door de afdeling Biologische Psychologie van de Vrije Universiteit in het kader van een onderzoek naar gezondheid, levensstijl en persoonlijkheid.
13
170
160
175
165
180
170
185
175
190
180
195
185
200
2.2: Enkele voorbeelden
165
170
175
180
185
165
170
175
180
185
Figuur 2.3. Lengte van zonen (links) en dochters (rechts) uitgezet tegen de gemiddelde lichaamslengte van hun ouders. De lijn is de regressielijn gevonden in de Vierde Landelijke Groeistudie.
gevonden in de Vierde Landelijke Groeistudie. Het geschatte regressiemodel dat gevonden werd in de Vierde Landelijke Groeistudie, kunnen we gebruiken voor het voorspellen van de eindlengte van kinderen die nu geboren worden. We moeten dan wel veronderstellen dat de lengtetoename de komende generatie opnieuw 4.5 centimeter is en het gemiddelde lengteverschil tussen mannen en vrouwen gelijk aan 13 centimeter blijft. Op basis van het bovenstaande model zijn de streeflengten voor zonen en dochters van een man met een lengte van 180 centimeter en een vrouw van 172 centimeter gelijk aan 4.5 + (180 + 172)/2 + 6.5 = 187 centimeter en 4.5 + (180 + 172)/2 − 6.5 = 174 centimeter. In andere Europese landen worden andere modellen gebruikt. In Zwitserland, bijvoorbeeld, is de streeflengte gelijk aan EY = 51.1 + 0.718
x1 + x 2 + 6.5x3 . 2
Nu is de streeflengte van de zonen en dochters van ouders met dezelfde lengte als in het voorbeeld hiervoor gelijk aan 184 en 171 centimeter. In het voorgaande voorbeeld bestaat er een lineair verband tussen de respons Y en de onbekende parameters β0 , . . ., β3 . In dat geval spreken we van een lineair regressiemodel. Het meest eenvoudige lineaire regressiemodel is het model waarbij er slechts ´e´en verklarende variabele is: Y = β0 + β1 x + e; het enkelvoudige lineaire regressiemodel (in tegenstelling tot meervoudige lineaire regressie als er meerdere verklarende variabelen zijn).
14
2: Statistische Modellen
In het algemeen spreken we van een regressiemodel als er een specifieke samenhang bestaat tussen de respons Y en waarnemingen x1 , . . ., xp : Y = fθ (x1 , . . ., xp ) + e waarbij fθ de relatie tussen de waarnemingen x1 , . . ., xp en de respons Y beschrijft, en de stochastische variabele e een niet-waarneembare meetfout is met verwachting nul en onbekende variantie σ 2 . Indien de functie fθ bekend is op de eindig-dimensionale parameter θ na, dan spreken we van een parametrisch model. Het lineaire regressiemodel is hier een voorbeeld van; in dit model is θ = (β0 , . . ., βp ) ∈ Rp+1 en fθ (x1 , . . ., xp ) = β0 + β1 x1 + . . . + βp xp . Het regressiemodel ligt dan vast als waarden voor θ en σ 2 bekend zijn. De functie fθ kan echter ook onbekend zijn op de eindig dimensionale parameter θ en een oneindig dimensionale parameter na. We spreken dan van een semi-parametrisch model. Een voorbeeld van een semiparametrisch model is het Cox-regressiemodel. Dit model wordt beschreven aan het einde van dit hoofdstuk, na de opgaven. In Hoofdstuk 8 komen verschillende regressiemodellen, waaronder het lineaire regressiemodel en het Cox-regressiemodel, uitvoerig aan de orde. Voorbeeld 2.8 (Waterhoogten). In de 20e eeuw (tussen 1910 en 2000) werd 70 keer een periode met extreem hoge waterdoorvoer in de Maas te Borgharen gemeten. Hierbij wordt “extreem” door Rijkswaterstaat gedefinieerd als “meer dan 1250 m3 /sec.”. De maximum waterdoorvoeren gedurende deze 70 periodes zijn weergegeven in Figuur 2.4 in de volgorde waarin ze zijn opgetreden. Het probleem is de toekomst te voorspellen. Rijkswaterstaat is in het bijzonder ge¨ınteresseerd in de vraag hoe hoog de dijken moeten zijn om hooguit eens in de 10 000 jaar te overstromen. Door middel van een hydraulisch model is de waterhoogte te berekenen uit de waterdoorvoer. Omdat de maximum waterdoorvoeren x1 , . . ., x70 zijn gemeten in (meestal) verschillende jaren, en de waterstand in de Maas vooral afhangt van het weer in de Ardennen en verder stroomopwaarts, is het niet onredelijk deze getallen op te vatten als realisaties van onafhankelijke stochastische grootheden X1 , . . ., X70 . Op de aanname dat deze grootheden ook identiek verdeeld zijn is wel wat af te dingen, want de loop van de Maas (en ook het klimaat) is in de loop van de vorige eeuw geleidelijk aan veranderd, maar deze aanname wordt meestal toch gemaakt. We kunnen X1 , . . ., X70 dan opvatten als onafhankelijke kopie¨en van een variabele X en de gemeten waarden x1 , . . ., x70 gebruiken om de gestelde vraag te beantwoorden. Definieer E als de gebeurtenis dat een overstroming plaatsvindt in een (willekeurig) jaar. De kans op gebeurtenis E is bij benadering gelijk aan het verwachte aantal extreme periodes in een jaar EN , maal de kans dat er een overstroming plaatsvindt in een extreme periode, ofwel P(E) ≈ EN P(X > h) voor X een maximum waterdoorvoer in een periode met extreme waterdoorvoer, h de maximale waterdoorvoer opdat net
2.2: Enkele voorbeelden
15
0
500
1000
1500
2000
2500
3000
geen overstroming plaatsvindt en N het aantal malen extreem hoog water in een willekeurig jaar. Bij deze berekening is gebruikt dat de kans op een overstroming in een extreme periode P(X > h) klein is. De kansverdeling van N is onbekend, maar het is redelijk te veronderstellen dat de verwachting van N bij benadering gelijk is aan het gemiddeld aantal periodes met extreme waterdoorvoer per jaar over de afgelopen 90 jaar; dus EN ≈ 70/90. De vraag luidt nu: voor welk getal h geldt dat P(X > h) = 1/10000 90/70 = 0.00013?
Figuur 2.4. Maximum waterdoorvoeren in m3 /seconde (verticale as) in de Maas te Borgharen in de 20e eeuw in volgorde van optreden (horizontale as).
Die vraag is niet eenvoudig te beantwoorden. Hadden we waargenomen maxima voor een periode van 100 000 jaar (of meer) tot onze beschikking, dan zouden we h met een redelijke nauwkeurigheid kunnen bepalen, bijvoorbeeld als de waarde van de op de 10% na grootste gemeten waterstand (10%= 10 000/100 000). Helaas hebben we maar 70 waarnemingen tot onze beschikking en moeten we dus ver extrapoleren naar een (waarschijnlijk) veel extremere situatie dan ooit is gemeten. Als we een goed model voor de verdeling van X kunnen bepalen, dan is dit geen probleem. Als we bijvoorbeeld zouden weten dat X standaard exponentieel verdeeld is, dan zouden we h kunnen bepalen uit de vergelijking 0.00013 = P(X > h) = e−h . Dit is echter geen realistische aanname. Een alternatief wordt gegeven door een extreme-waardenverdeling aan de data te fitten. Dit zijn kansverdelingen die veel gebruikt worden voor de modellering van grootheden X die kunnen worden opgevat als een maximum X = max(Y1 , . . ., Ym ) van een groot aantal onafhankelijke grootheden Y1 , . . ., Ym . Gegeven de interpretatie van X als een maximum waterdoorvoer in een periode lijken dergelijke verdelingen redelijk. Van de drie typen extreme-waardenverdelingen blijkt ´e´en type redelijk bij de waargenomen waterdoorvoeren te passen. Dit is de Fr´echet-familie, waarvan de verde-
16
2: Statistische Modellen
lingsfunctie wordt gegeven door −((x−a)/b)−α F (x) = e 0
als x ≥ a, als x < a.
De Fr´echet-familie heeft drie parameters: a ∈ R, b > 0 en α > 0. Als we overtuigd zijn van de zinvolheid van het gebruik van het resulterende model, kunnen we deze parameters uit de 70 datapunten schatten, en vervolgens de gestelde vraag beantwoorden middels een eenvoudige berekening. In Hoofdstuk 4 bespreken we geschikte schattingsmethoden. Voorbeeld 2.9 (Levensduuranalyse). In de levensduuranalyse onderzoekt men de kansverdeling van tijdsduren. We kunnen hier denken aan de levensduur van een gloeilamp, maar ook aan de tijdsduur tot het optreden van de volgende bug in een computerprogramma (“reliability analysis”), en vooral ook aan de tijd tot overlijden of tot het optreden van een ziekte in de medische statistiek. Hieronder volgt een voorbeeld ter illustratie. Bij mensen met een lekkende hartklep wordt veelal de hartklep vervangen door een biologische of mechanische hartklep. Een nadeel van de biologische ten opzichte van de mechanische hartklep is zijn relatief korte levensduur (10 tot 15 jaar). Om de verdelingsfunctie F van de tijd dat een biologische hartklep meegaat te onderzoeken, worden n mensen met een dergelijke hartklep gevolgd vanaf hun operatie tot het moment dat de hartklep vervangen moet worden. Aan het einde van de studie hebben we dan voor elk van de n hartkleppen zijn levensduur t1 , . . ., tn waargenomen. We vatten deze getallen op als realisaties van onafhankelijke stochastische grootheden T1 , . . ., Tn met verdelingsfunctie F . De kans F (t) dat een biologische hartklep binnen t jaar vervangen moet worden kunnen we schatten met de fractie van hartkleppen in de steekproef die binnen t jaar vervangen is. Een speciaal aspect bij levensduuranalyse is dat vaak niet alle levensduren worden waargenomen. Op het moment dat we conclusies uit de data willen trekken, zijn nog niet alle hartkleppen aan vervanging toe of is de pati¨ent overleden met een nog goede hartklep. Van deze levensduren is slechts een ondergrens bekend; de tijd tot het einde van de studie of tot het overlijden van de pati¨ent. We weten immers dat de hartklep nog werkte toen de studie werd stopgezet of de pati¨ent overleed. Men spreekt dan van gecensureerde data. Langere levensduren zullen vaker gecensureerd zijn dan kortere, omdat de kans dat de pati¨ent in een lange periode komt te overlijden groter is dan in een korte periode (en evenzo voor het einde van de studie). Het is daarom verkeerd de gecensureerde data te negeren en de verdelingsfunctie F te schatten op basis van de niet-gecensureerde data. Dit zou leiden tot een overschatting van de verdelingsfunctie van de levensduur en een onderschatting van de verwachte levensduur, omdat relatief veel langere levensduren zouden worden genegeerd. Een correcte benadering is om een statistisch
2.2: Enkele voorbeelden
17
model voor alle waarnemingen, de gecensureerde en de niet-gecensureerde, te gebruiken. Een waarneming van een enkele pati¨ent (hartklep) wordt dan beschreven als een tweetal (S, ∆), waarin ∆ ∈ {0, 1} aangeeft of de levensduur waargenomen is (∆ = 1) of gecensureerd is (∆ = 0) en waarin S ofwel de levensduur T is, als deze is waargenomen, ofwel de ondergrens (het censureringstijdstip) als ∆ = 0. Het statistische model wordt nog ingewikkelder als men het vermoeden heeft dat er factoren zijn die invloed hebben op de levensduur van de hartklep; bijvoorbeeld de leeftijd, het gewicht en het geslacht van de pati¨ent. In een dergelijk geval kan levensduur gemodelleerd worden met bijvoorbeeld het Cox-regressiemodel. Dit model wordt bestudeerd aan het einde van dit hoofdstuk (na de opgaven) en in Hoofdstuk 8. Voorbeeld 2.10 (Selectievertekening). Om een onderzoeksvraag juist te beantwoorden is het van belang dat de manier waarop de data verzameld zijn (of worden) en het statistische model waarmee de data worden gemodelleerd in overeenstemming zijn met elkaar en corresponderen met de onderzoeksvraag. Indien de data bij aanvang van het onderzoek nog verzameld moeten worden, is het belangrijk stil te staan bij de keuze van de populatie waaruit de steekproef getrokken zal worden. Een van de aandachtspunten is of de populatie representatief is voor de onderzoeksvraag. Dit wordt ge¨ıllustreerd in het volgende voorbeeld. De Nederlandse Spoorwegen (NS) krijgen regelmatig klachten over drukte in de treinen tijdens de spits. Om te onderzoeken of deze klachten gegrond zijn, wordt een onderzoek ingesteld. Er worden twee onderzoeksvragen gesteld. De eerste vraag is welk percentage van de reizigers in de spits geen zitplek heeft, de tweede onderzoeksvraag is welk percentage van de spitstreinen te druk is. Merk op dat dit twee wezenlijk verschillende vragen zijn. De eerste vraag betreft mensen, een percentage van de reizigers, terwijl de tweede vraag over treinen gaat. De reiziger is waarschijnlijk slechts ge¨ınteresseerd in de eerste onderzoeksvraag, terwijl de NS ook belang hechten aan het antwoord op de tweede vraag. Zij moeten immers inventariseren bij welke diensten er problemen optreden en waar maatregelen nodig zijn. Om de eerste onderzoeksvraag te beantwoorden wordt een steekproef ter grootte 50 genomen uit zojuist gearriveerde treinreizigers. Gevraagd wordt of de persoon in de trein een zitplek had. We nemen dan de rij x1 , . . ., x50 waar, met xi gelijk aan 1 als de ie persoon geen zitplek had en xi gelijk aan 0 als de reiziger wel een zitplek had. Dan zijn x1 , . . ., x50 realisaties van onafhankelijke en alternatief verdeelde stochastische variabelen X1 , . . ., X50 , waarbij p = P(Xi = 1) de fractie is van reizigers die geen zitplek heeft. Net als in VoorbeeldP2.2 kan de fractie p worden geschat met 50 het steekproefgemiddelde 50−1 i=1 xi . Op deze manier wordt de onderzoeksvraag op een juiste manier beantwoord. Het beantwoorden van de tweede onderzoeksvraag is lastiger, omdat
18
2: Statistische Modellen
het geen mensen maar treinen betreft. Om dit onderzoek uit te voeren wordt tijdens de spits aselect aan 50 hoofdconducteurs gevraagd of de trein waarin ze zojuist dienst hadden, volgens hen, te vol was. We nemen dan de rij y1 , . . ., y50 waar, waar yi gelijk is aan 1 als de ie hoofdconducteur aangeeft dat zijn trein te vol was en yi gelijk aan 0 is als hij aangeeft dat dit niet het geval was. Dan kunnen y1 , . . ., y50 weer gezien worden als realisaties van Y1 , . . ., Y50 , welke onafhankelijk en alternatief verdeeld zijn met kans q = P(Yi = 1). Als we veronderstellen dat er in elke trein slechts ´e´en hoofdconducteur aanwezig is, is de kans q gelijk aan de fractie spitstreinen die te vol waren; Y1 , . . ., Y50 kunnen gezien worden als een steekproef uit de zojuist aangekomen treinen.PDe fractie q kan dan worden geschat met het 50 steekproefgemiddelde 50−1 i=1 yi . Het is echter eenvoudiger om de steekproef reizigers die we voor het beantwoorden van de eerste onderzoeksvraag verzameld hadden tevens te vragen of de trein waarin ze reisden te vol was. In dat geval nemen we een rij realisaties van de onafhankelijke en alternatief verdeelde variabelen Z1 , . . ., Z50 waar, met r = P(Zi = 1). Hierbij is Zi op analoge wijze gedefinieerd als Yi . Omdat een trein meerdere passagiers vervoert, zal niet iedere treinreiziger in de steekproef corresponderen met een unieke trein. Doordat in drukke treinen meer mensen aanwezig zijn dan in rustige treinen, zal in de populatie treinreizigers het percentage “mensen uit drukke treinen” veel hoger zijn dan het percentage “drukke treinen” in de populatie treinen. Ofwel, de fractie r zal groter zijn dan q. Een relatie tussen r en q is niet eenvoudig te geven zonder extra aannames te doen. Daarom is de tweede onderzoeksvraag op basis van de steekproef onder de reizigers niet eenvoudig te beantwoorden, terwijl dat wel het geval was voor de eerste onderzoeksvraag. In de meeste van de voorgaande voorbeelden is het statistische model geparametriseerd door een parameter, bijvoorbeeld p, (µ, σ 2 ), (β0 , β1 , β2 , β3 ) of (a, b, α). Veel statistische modellen zijn bekend op een parameter na. In dit boek noteren we die parameter vaak met θ (“theta”). Het statistische model kan dan worden genoteerd als {Pθ : θ ∈ Θ}, waarbij Pθ de kansverdeling van de waarneming X is en Θ de verzameling van mogelijke parameters. Het is een stilzwijgende aanname dat ´e´en parameterwaarde (of ´e´en element van het model) de “ware” verdeling van X geeft. Het doel van de statistiek is om te achterhalen welke parameterwaarde dat is. Wat statistiek moeilijk maakt, is dat dit nooit volledig lukt, en dat uitspraken over de ware parameterwaarde altijd een onzekerheidselement bevatten (noodzakelijkerwijze).
2: Opgaven
19
Opgaven 1. Veronderstel dat aselect n mensen uit een populatie worden gevraagd naar hun politieke voorkeur. Noteer het aantal personen in de steekproef met politieke voorkeur voor partij A met X. De fractie personen in de populatie met politieke voorkeur voor partij A is de onbekende kans p. Beschrijf een bijbehorend statistisch model. Bedenk een intu¨ıtief redelijke “schatting” voor p. 2. Veronderstel dat aselect m + n pati¨enten met een hoge bloeddruk worden gekozen en geheel willekeurig worden verdeeld in twee groepen ter grootte van m en n. De eerste groep, de “treatment group”, krijgt een bepaald bloeddrukverlagend medicijn toegediend; de tweede groep, de “control group”, ontvangt een placebo. De bloeddruk van iedere pati¨ent wordt ´e´en week na het toedienen van het medicijn of de placebo gemeten. Dit geeft waarnemingen x1 , . . ., xm en y1 , . . ., yn . (i) Formuleer een geschikt statistisch model. (ii) Geef een intu¨ıtief redelijke “schatting” voor het effect van het medicijn op de hoogte van de bloeddruk (meerdere antwoorden zijn mogelijk!). 3. Men wil het aantal vissen, zeg N stuks, in een vijver schatten. Daartoe gaat men als volgt te werk. Men vangt r vissen en voorziet die van een merkteken. Vervolgens laat men deze vissen weer zwemmen en na verloop van tijd vangt men n vissen (zonder terug te werpen). Hiervan blijken er X gemerkt. Beschouw r en n als zelf gekozen constanten en laat X de waarneming zijn. (i) Formuleer een geschikt statistisch model. (ii) Bedenk een intu¨ıtief redelijke “schatting” voor N op grond van de waarneming. (iii) Beantwoord bovenstaande vragen als ook bij de tweede vangst de vissen direct worden teruggeworpen (trekken met teruglegging). 4. Bij het keuren van een partij goederen gaat men door tot men 3 afgekeurde exemplaren heeft aangetroffen. (i) Formuleer een geschikt statistisch model. (ii) Het derde afgekeurde exemplaar blijkt het 50ste exemplaar te zijn dat men onderzoekt. Geef een schatting van het percentage defecte artikelen in de partij. Beargumenteer je keuze. 5. Het aantal klanten in het postkantoor lijkt af te hangen van de dag van de week (werkdag of zaterdag) en het dagdeel (ochtend of middag). Het postkantoor is op werkdagen ’s ochtends en ’s middags geopend en op zaterdag alleen in de ochtend. Om te bepalen hoeveel medewerkers nodig zijn om de klanten vlot te kunnen helpen, wordt het aantal klanten bijgehouden over een periode van tien weken. Dagelijks wordt genoteerd hoeveel klanten er ’s ochtends (op werkdagen en op zaterdagen) en ’s middags (alleen op werkdagen) in het postkantoor komen. (i) Formuleer een geschikt statistisch model. (ii) Geef een intu¨ıtief redelijke “schatting” van het aantal klanten op maandagmiddag. Beargumenteer je keuze. (iii) Het grootste verschil in klantenaantallen blijkt te liggen tussen de werkdagdelen (maandag tot en met vrijdag, ochtenden en middagen) en de zaterdagochtend. Daarom wordt besloten alleen met dit verschil rekening te houden in de planning van het personeel. Herformuleer het statistische model en geef een nieuwe schatting.
20
2: Statistische Modellen
6. De jaarlijkse vraag naar water in de Afrikaanse stad Masvingo is groter dan de hoeveelheid die gewonnen kan worden uit de neerslag van een jaar. Daarom voert men naar behoefte schoon water aan. De hoeveelheid aan te voeren water per jaar hangt af van de neerslag in dat jaar en van de grootte van de populatie in Masvingo. Bovendien blijkt dat rijke mensen meer water verbruiken dan arme mensen. Beschrijf een lineair regressiemodel met “aan te voeren hoeveelheid water” als afhankelijke variabele en “populatiegrootte”, “neerslag” en “gemiddeld inkomen” als onafhankelijke variabelen. Geef van elk van de parameters aan of de parameter positief danwel negatief is naar verwachting. 7. Het vermoeden bestaat dat er een lineair verband is tussen het inkomen van een persoon en zijn leeftijd en opleidingsniveau (laag, midden, hoog). (i) Beschrijf een lineair regressiemodel met “inkomen” als afhankelijke variabele en “leeftijd” en “opleiding” als onafhankelijke variabelen. Bedenk goed hoe je de variabele “opleiding” in het model opneemt. (ii) Men wil onderzoeken of het geslacht van een persoon invloed heeft op het inkomen. Pas het lineaire regressiemodel aan, zodat dit onderzocht kan worden. 8. Men wil een schatting maken van de gemiddelde lengte van wolvezels in een grote bak. Hiertoe wordt de bak eerst goed geschud, waarna met gesloten ogen een tevoren vastgesteld aantal vezels ´e´en voor ´e´en uit de bak wordt genomen. Men schat de gemiddelde lengte van de vezels in de bak met de gemiddelde lengte van de wolvezels in de steekproef. Is de geschatte lengte systematisch te groot, systematisch te klein of juist goed? 9. Bij een telefooncentrale wil men schatten hoe lang een klant gemiddeld moet wachten totdat hij geholpen wordt. Gedurende een dag wordt van iedere klant genoteerd hoe lang het duurt totdat hij wordt geholpen. Als een klant zijn geduld verliest en vroegtijdig ophangt, wordt zijn wachttijd tot het moment van ophangen genoteerd. Na afloop wordt de gemiddelde wachttijd berekend door de genoteerde wachttijden te middelen. Dit gemiddelde wordt gebruikt als schatting voor de wachttijd van een nieuwe klant. Wat vind je van deze methode?
2: Cox regressie
COX REGRESSIE
21
3 Verdelingsonderzoek
3.1
Introductie
Een statistisch model is een uitdrukking van onze a priori kennis van het kansexperiment waaruit de waargenomen data is voortgekomen. Het model postuleert dat de waarneming X is gegenereerd volgens ´e´en van de kansmaten in het model. Hoe vinden we een goed model? In sommige gevallen is het model duidelijk uit de manier waarop het kansexperiment is opgezet. Als bij een opininiepeiling de steekproef inderdaad aselect en zonder teruglegging uit een goed omschreven populatie wordt genomen, dan is de hypergeometrische verdeling onvermijdelijk. Betreffen de waarnemingen aantallen uitgezonden radio-actieve deeltjes, dan is de Poisson-verdeling de juiste keus vanwege de natuurkundige theorie van radioactiviteit. Het is ook mogelijk dat het uitgevoerde experiment sterk lijkt op eerdere experimenten, en dat een bepaald model wordt gesuggereerd door de ervaring in het verleden. Lang niet altijd is een bepaald statistisch model echter geheel onomstreden. Het is dan op z’n minst nodig om het gekozen model te valideren. Soms vinden controles plaats na het schatten van de parameters van het model. Een aantal eenvoudige controles kan ook vooraf worden uitgevoerd. In dit hoofdstuk bespreken we enkele grafische technieken om univariate en multivariate steekproeven te onderzoeken. Deze technieken worden, naast op de data zelf, ook veelvuldig toegepast op “residuen” na het fitten van, bijvoorbeeld, een regressiemodel.
3.2: Univariate Steekproeven
3.2
23
Univariate Steekproeven
Veronderstel dat de getallen x1 , . . ., xn de resultaten zijn van een herhaaldelijk uitgevoerd experiment. Uit de manier waarop de n experimenten zijn uitgevoerd (steeds vanuit dezelfde beginsituatie, zonder “herinnering” van de voorgaande experimenten) leiden we af dat het redelijk is de n getallen op te vatten als realisaties van onderling onafhankelijke, identiek verdeelde stochastische grootheden X1 , . . ., Xn . Dit legt het statistische model al voor een belangrijk deel vast. De overgebleven vraag is: welke (marginale) verdeling gebruiken we? 3.2.1
Histogrammen
Een kansverdeling beschrijft de “verdeling” van de totale kansmassa 1 over de verschillende mogelijke waarden x. We kunnen een kansverdeling vastleggen door zowel de bijbehorende verdelingsfunctie als de bijbehorende kansdichtheid. Een kansdichtheid is een ingewikkelder object dan de verdelingsfunctie, maar geeft een betere visuele indruk van de verdeling van kansen: de verdeling legt veel kansmassa in punten x waar de waarde van de kansdichtheid f (x) groot is, en weinig in x voor welke f (x) ≈ 0. Een eenvoudige techniek om een indruk te krijgen van een kansdichtheid waaruit data x1 , . . ., xn afkomstig zijn is het histogram. Voor een gegeven partitie a0 < a1 < · · · < am die het bereik van de data x1 , . . ., xn overdekt is dit de functie die op het interval (aj−1 , aj ] een waarde aanneemt die gelijk is aan het aantal datapunten xi die in het interval valt, gedeeld door de lengte van het interval. Als de lengten van alle intervallen (aj−1 , aj ] gelijk zijn, dan wordt het histogram ook wel gedefinieerd zonder door de intervallengten te delen. In dat geval zijn de hoogten van de staven van het histogram gelijk aan de totale aantallen waarnemingen in de verschillende intervallen. De keuze van de intervallen is een kwestie van smaak. Als de intervallen te smal gekozen worden, dan is het histogram over het algemeen te piekerig om kenmerken van de ware kansdicht op te merken. Als de intervallen te breed gekozen worden, gaat daarentegen elk detail verloren en is er nog maar weinig te zeggen over de ware kansdichtheid op basis van het histogram. Om een indruk te krijgen uit welke kansdichtheid data afkomstig zouden kunnen zijn, is het handig het histogram en mogelijke kansdichtheden in ´e´en plaatje weer te geven. Dit kan door het histogram te schalen met 1/n, waarbij n het totaal aantal datapunten is. De oppervlakte onder het histogram is dan gelijk aan 1, net zoals dat het geval is bij een kansdichtheid. In x ∈ (aj−1 , aj ] is het geschaalde histogram gelijk aan n X #(1 ≤ i ≤ n: xi ∈ (aj−1 , aj ] 1 = 1a <x ≤a , hn (x) = n(aj − aj−1 ) n(aj − aj−1 ) i=1 j−1 i j waarbij de indicatorfunctie 1aj−1 <xi ≤aj gelijk is aan 1 als aj−1 < xi ≤
24
3: Verdelingsonderzoek
aj en 0 als dit niet het geval is. Een alternatieve schrijfwijze voor deze indicatorfunctie is 1(aj−1 ,aj ] (xi ). Een histogram geeft een goede indruk van de dichtheid waaruit de data x1 , . . ., xn afkomstig zijn, mits de partitie a0 < a1 < · · · < am geschikt gekozen is en het aantal datapunten n niet te klein is. Om dit in te zien beschouwen we x1 , . . ., xn als realisaties van de stochastische variabelen met een dichtheid f en berekenen we de verwachte waarde van het geschaalde histogram hn in termen van X1 , . . ., Xn in een willekeurig punt x waar f (x) > 0. Veronderstel dat voor zekere 1 < j ≤ m geldt dat aj−1 < x ≤ aj dan is deze verwachte waarde gelijk aan n X 1 1 1a <X ≤a = E1aj−1 <X1 ≤aj n(aj − aj−1 ) i=1 j−1 i j aj − aj−1 R aj f (s) ds 1 a = P(aj−1 < X1 ≤ aj ) = j−1 . aj − aj−1 aj − aj−1
Ehn (x) = E
Als f niet te veel varieert over het interval (aj−1 , aj ], dan is de uitdrukking aan de rechterkant ongeveer gelijk aan de waarde van f in dit interval. De berekening leert dat de verwachte waarde van hn (x) bij benadering gelijk is aan f (x). Vanwege de Wet van de Grote Aantallen hebben we bovendien dat de waarde hn (x) in kans naar deze verwachte waarde convergeert. Een histogram geeft dus een indruk van de kansverdeling waaruit een steekproef is gegenereerd. Helaas wordt een goede indruk pas verkregen als een voldoend grote steekproef beschikbaar is (bijvoorbeeld n = 100 of nog liever n = 500). We mogen daarom niet meer dan een eerste indruk van een histogram verwachten. Andere, meer gecompliceerde technieken, kunnen betere resultaten geven. Voorbeeld 3.1. In Figuur 3.1 zijn histogrammen getekend van de lichaamslengte (in cm) van 100 mannen (links) en 110 vrouwen (rechts).‡ De histogrammen zijn zo geschaald dat de oppervlaktes onder de histogrammen gelijk aan 1 zijn. In beide figuren is eveneens de dichtheid van een normale verdeling getekend. De verwachting en variantie van deze normale verdelingen zijn gelijk aan het steekproefgemiddelde en de steekproefvariantie van de bijbehorende data (zie Hoofdstuk 4).
Voorbeeld 3.2 (Normale verdeling). Figuur 3.2 geeft de dichtheid van de standaard normale verdeling tezamen met vier realisaties van het histogram, gebaseerd op 30, 30, 100 en 100 waarnemingen, waarbij de partities gekozen werden door het statistische softwarepakket R. De figuren linksboven en rechtsonder vertonen duidelijke afwijkingen van symmetrie. ‡ Bron: De data zijn verzameld door de afdeling Biologische Psychologie van de Vrije Universiteit in het kader van een onderzoek naar gezondheid, levensstijl en persoonlijkheid.
25
0.00
0.00
0.02
0.02
0.04
0.04
0.06
0.06
3.2: Univariate Steekproeven
165
175
185
195
155
165
175
185
Figuur 3.1. Histogram van de lichaamslengte van 100 mannen (links) en 110 vrouwen (rechts), tezamen met de kansdichtheden van de normale verdeling met de verwachtingen gelijk aan de steekproefgemiddelden en de varianties gelijk aan de steekproefvarianties van de data.
Omdat de data uit de normale verdeling werden gegenereerd is dit slechts te wijten aan toevalsvariatie.
3.2.2
Boxplots
Een boxplot is een grafische weergave van de data die een indruk geeft van de locatie en de spreiding van de data, eventuele extreme waarden in de waarnemingen en de symmetrie van de verdeling waaruit de waarnemingen afkomstig zijn. In de boxplot staan de waarnemingen uitgezet langs de verticale as. De onderkant van de “box” staat getekend ter hoogte van het kleinste kwartiel, en de bovenkant ter hoogte van het grootste kwartiel van de data. Het kleinste (respectievelijk grootste) kwartiel van de data is die waarde x zodanig dat een kwart van de waargenomen data kleiner (respectievelijk groter) is dan x. De breedte van de box is willekeurig. In de box staat ter hoogte van de mediaan van de data een horizontale lijn. De mediaan is de middelste waarde in de rij gesorteerde waarnemingen. Aan de boven- en onderkant van de box staan zogeheten whiskers getekend. De whisker aan de bovenkant verbindt de box met de grootste waarneming die binnen 1.5 maal de interkwartiel afstand boven het grootste kwartiel ligt. De interkwartiel afstand is de afstand tussen het bovenste en het onderste kwartiel, ofwel de hoogte van de box. De whisker aan de onderkant wordt op analoge wijze getekend. Waarnemingen die buiten de whiskers vallen worden apart aangegeven, bijvoorbeeld met een sterretje, rondje of streepje.
26
0.4 0.3 0.2 0.1 0.0
0.0
0.1
0.2
0.3
0.4
3: Verdelingsonderzoek
-1
0
1
2
3
-3
-2
-1
0
1
2
3
-3
-2
-1
0
1
2
3
-3
-2
-1
0
1
2
3
0.3 0.2 0.1 0.0
0.0
0.1
0.2
0.3
0.4
-2
0.4
-3
Figuur 3.2. Histogrammen van steekproeven van 30, 30, 100 en 100 (boven, boven, onder, onder) waarnemingen uit de standaard normale dichtheid en de ware dichtheid.
Voorbeeld 3.3. In Figuur 3.3 staan boxplots getekend van steekproeven uit de exponenti¨ele verdeling met parameter 1, de standaard normale verdeling en de standaard Cauchy-verdeling. De steekproeven uit de exponenti¨ele en de Cauchy-verdeling bevatten extreme waarden, te zien aan de rondjes buiten de whiskers. De boxplot in het midden geeft aan dat de data uit de standaard normale verdeling aardig symmetrisch rond de mediaan liggen en geen extreme waarden bevatten.
3.2.3
Locatie-schaal familie en QQ-plots
Na het tekenen van het histogram en eventueel een boxplot kunnen we ons afvragen welke klasse verdelingen passend is als statistisch model. Bijvoorbeeld, is het een redelijke aanname dat de data uit een normale verdeling afkomstig zijn? De “normale verdeling” is niet een bepaalde verdeling, maar een familie verdelingen, genoteerd met N (µ, σ 2 ), waarbij µ en σ 2 de verwachting en variantie zijn. Als we eerst zouden kunnen besluiten dat een normale verdeling bij de data past, dan zouden we als tweede stap de best passende parameters µ en σ 2 kunnen vinden. Dit laatste is het “schattingsprobleem” dat in Hoofdstuk 4 aan de orde komt. De familie van normale kansverdelingen is een voorbeeld van een locatie-schaal familie. Als de stochastische grootheid X een verdelingsfunc-
27
−6
−4
−2
0
2
4
3.2: Univariate Steekproeven
exp(1)
N(0,1)
Cauchy
Figuur 3.3. Boxplots van steekproeven ter grootte 20 uit de standaard exponenti¨ ele verdeling (links), de standaard normale verdeling (midden) en de standaard Cauchy-verdeling (rechts).
tie F heeft, dan bezit Y = a + bX de verdelingsfunctie Fa,b gegeven door Fa,b (y) = P(a + bX ≤ y) = F
y − a b
,
b > 0.
De familie kansverdelingen {Fa,b : a ∈ R, b > 0} heet de locatie-schaal familie behorend bij F (of “van X”). Bezit F een kansdichtheid f , dan bezit Fa,b de kansdichtheid fa,b gegeven door fa,b (y) =
d y − a 1 y − a = f . F dy b b b
Als EX = 0 en var X = 1, dan zijn a en b2 precies de verwachting en variantie van Y en dus behorende bij de verdelingsfunctie Fa,b . Bij iedere (standaard) verdeling (normaal, Cauchy, exponentieel, etc.) hoort een locatie-schaal familie. Overigens is het niet altijd zo dat de leden uit dezelfde locatie-schaal familie ook allemaal dezelfde naam dragen: de leden uit de locatie-schaal familie van de standaard Cauchy-verdeling zijn niet allemaal Cauchy-verdelingen. Omgekeerd zijn verdelingen met gelijke naam niet altijd leden uit dezelfde locatie-schaal familie: bijvoorbeeld χ2 -verdelingen met verschillende aantallen vrijheidsgraden zitten niet in dezelfde locatie-schaal familie.
28
3: Verdelingsonderzoek
Voorbeeld 3.4 (Normale verdeling). Stel dat X een N (0, 1)-verdeelde stochastische grootheid is. Uit de kansrekening is bekend dat Y = a + bX, met b > 0 een N (a, b2 )-verdeling heeft. Dus, alle leden uit de locatie-schaal familie van de N (0, 1)-verdeling zijn normale verdelingen. Omgekeerd, als Y een N (a, b2 )-verdeling heeft, dan is Y identiek verdeeld als a + bX met X standaard normaal verdeeld, en dus is de N (a, b2 )-verdeling lid van de locatie-schaal familie van de standaard normale verdeling. Kortom, alle leden uit de locatie-schaal familie behorend bij de N (0, 1)-verdeling zijn weer normale verdelingen, en omgekeerd, alle normale verdelingen zitten in de locatie-schaal familie behorend bij de N (0, 1)-verdeling.
“QQ-plots” zijn een grafisch hulpmiddel om een geschikte locatieschaal familie bij een gegeven steekproef x1 , . . ., xn te vinden. Ze zijn gebaseerd op kwantielfuncties. Als voor gegeven α ∈ (0, 1) precies ´e´en getal xα ∈ R bestaat met F (xα ) = α, dan heet xα het α-kwantiel van F (ook wel α-punt), genoteerd met F −1 (α). Zoals de notatie al suggereert, is de functie α 7→ F −1 (α) de kwantielfunctie, de inverse functie van F , mits deze goed gedefinieerd is. Als F strikt stijgend en continu is, dan geldt F (F −1 (α)) = α voor alle α ∈ (0, 1) en F −1 (F (x)) = x voor alle x ∈ R. Voorbeeld 3.5 (Exponenti¨ ele verdeling). Stel dat X een exponenti¨ ele verdeling met parameter λ heeft. De verdelingsfunctie F van X wordt dan gegeven door F (x) = 1 − e−λx voor x ≥ 0 en de kwantielfunctie F −1 door F −1 (α) = − log(1 − α)/λ voor α ∈ (0, 1). Omdat een verdelingsfunctie zowel sprongen als constante stukken kan hebben, heeft de vergelijking F (x) = α voor gegeven α in zijn algemeenheid geen, precies ´e´en of oneindig veel oplossingen (zie Figuur 3.4). Om ook in het eerste en laatste geval over een α-kwantiel te kunnen spreken, defini¨eren we de kwantielfunctie van F in het algemeen door F −1 (α) = inf{x: F (x) ≥ α},
α ∈ (0, 1).
a
0.0
0.2
0.4
0.6
0.8
1.0
In woorden: F −1 (α) is het kleinste getal x met F (x) ≥ α.
b
F-1(b)
F-1(a)
Figuur 3.4. Een verdelingsfunctie en twee kwantielen.
3.2: Univariate Steekproeven
29
Er bestaat een lineair verband tussen kwantielfuncties van verdelingen binnen een gegeven locatie-schaal familie: −1 Fa,b (α) = a + b F −1 (α)
5 0 −5
kwantielen N(2,16)
10
−1 (zie Opgave 3.2). Met andere woorden: de punten {(F −1 (α), Fa,b (α)): α ∈ (0, 1)} liggen op de rechte lijn y = a + bx. Figuur 3.5 illustreert het feit dat twee normale verdelingen tot dezelfde locatie-schaal familie behoren.
−2
−1
0
1
2
kwantielen N(0,1)
Figuur 3.5. De kwantielen van de N (2, 42 ) (y-as) uitgezet tegen die van N (0, 1) (x-as).
Notatie 3.6. De ordestatistieken (Engels: order statistics) van een steekproef X1 , . . ., Xn wordt gegeven door de rij X(1) , . . ., X(n) waarin de grootheden staan geplaatst in stijgende volgorde, X(1) ≤ X(2) ≤ . . . ≤ X(n) . In het bijzonder zijn de eerste en laatste ordestatistiek gelijk aan X(1) = min Xi 1≤i≤n
en
X(n) = max Xi . 1≤i≤n
Voor de ie ordestatistiek X(i) van een gegeven steekproef X1 , . . ., Xn uit een verdeling F , geldt dat EF (X(i) ) = i/(n + 1) (zie Opgave 3.8). Het is daarom te verwachten dat de punten i/(n + 1), F (x(i) ) : i = 1, . . ., n in het x-y-vlak ongeveer op de lijn y = x zullen liggen. Hetzelfde moet dan gelden voor de punten i F −1 , x(i) : i = 1, . . ., n . n+1 Algemener geldt dat als x1 , . . ., xn uit een element Fa,b van de locatieschaal familie van F zijn gegenereerd, dan verwachten we dat bovenstaande punten op de lijn y = a + bx zullen liggen, immers dan geldt dat x(i) ≈ −1 Fa,b (i/(n+1)) = a+bF −1(i/(n+1)). Een QQ-plot is een plaatje van deze n
30
3: Verdelingsonderzoek
punten, en geeft een grafische methode om te controleren of een steekproef uit een bepaalde locatie-schaal familie afkomstig zou kunnen zijn. De Q staat voor “Quantile”; de Nederlandse naam zou “KK-plaatje” zijn.
6 4 2 −4
0
ordestatistieken
10 5 0
ordestatistieken
4 2 0
1.5
−1.5
−0.5
0.5
1.5
−1.5
0
1
2
−2
−1
0
1
kwantielen N(0,1)
0.5
1.5
2
10
ordestatistieken
4 0
ordestatistieken −1
kwantielen N(0,1)
−4
5 0 −5 −2
−0.5
kwantielen N(0,1)
8
10
kwantielen N(0,1)
5
0.5
0
−0.5
kwantielen N(0,1)
−5
ordestatistieken
−4 −2 −1.5
ordestatistieken
8
Voorbeeld 3.7 (Normale verdeling). Figuur 3.6 geeft QQ-plots van zes steekproeven, die met behulp van een random number generator uit een N (2, 42 )-verdeling gesimuleerd zijn, uitgezet tegen de N (0, 1)-verdeling. Omdat twee normale verdelingen in dezelfde locatie-schaal familie zitten, kunnen we verwachten dat de punten op een min of meer rechte lijn zullen liggen. De bovenste en onderste drie figuren bevatten data van steekproeven ter grootte van respectievelijk 10 en 50 waarnemingen. Te zien is dat de punten in de QQ-plots niet precies op een rechte lijn liggen, maar enigszins vari¨eren rond een rechte lijn. Bij de kleine steekproeven is deze variatie veel groter dan bij de grotere steekproeven.
−2
−1
0
1
2
kwantielen N(0,1)
Figuur 3.6. Zes QQ-plots van 10 (bovenste rij figuren) of 50 (onderste rij figuren) datapunten uit N (2, 42 ) uitgezet tegen N (0, 1).
Geeft een QQ-plot van een steekproef x1 , . . ., xn tegen de kwantielen van F ongeveer de rechte y = x te zien, dan is dat een aanwijzing dat de data uit de verdeling F afkomstig zijn. Afwijkingen van de rechte y = x geven een aanwijzing over de afwijking van de ware verdeling van de data ten opzichte van F . Het simpelste geval is dat de plot wel een rechte lijn te zien geeft, maar niet de lijn y = x. Dit geeft een aanwijzing dat de data uit een ander lid van de locatie-schaal familie van F afkomstig zijn, zoals in Voorbeeld 3.7.
3.2: Univariate Steekproeven
31
2 1 0
normaal
-1 -2
-2
-1
0
normaal
1
2
De waarden voor a en b kunnen in dat geval ruwweg afgelezen worden door de lijn y = a+bx aan de QQ-plot te passen. In Hoofdstuk 4 zullen we andere methoden zien om parameters te schatten. Ingewikkelder is de beoordeling van gebogen krommen. Deze geven vooral een aanwijzing over de relatieve zwaarte van de staarten van de verdeling van de data ten opzichte van F . Om een indruk van de mogelijke soorten afwijkingen van lineariteit te geven, zijn in Figuur 3.7 een aantal QQ-plots van “ware” kwantielfuncties getekend. Dit zijn plots van de punten {(F −1 (α), G−1 (α)): α ∈ (0, 1)} voor verschillende verdelingsfuncties F en G.
homogeen 0.2
0.4
2
4
0.6
logistiek 0.8
1.0
-4
0
2
4
10 8 6
-2
2
4
chikwadraat_4
1 normaal
-1
0
-2
12
2
0.0
6
exponentieel
0
lognormaal 0
8
10
0
1
2
3
4
Figuur 3.7. Plots van paren kwantielfuncties: homogeen-normaal, logistiek-normaal, lognormaal-normaal, exponentieel-χ24 .
Voorbeeld 3.8. Op basis van de vorm van de histogrammen in Figuur 3.1 is het aannemelijk dat de data van de lichaamslengte afkomstig zijn uit een normale verdeling. Om dit verder te onderzoeken zijn in Figuur 3.8 QQplots getekend van de lichaamslengten van de mannen (links) en de vrouwen (rechts) tegen de kwantielen van de standaard normale verdeling. Om te onderzoeken of de punten goed op een rechte lijn liggen, is in beide figuren een passende lijn y = a+bx getekend. Voor de data van de mannen is dat de lijn y = 184.9+6.6x en voor de vrouwen is dat y = 171.3+5.9x. Deze lijnen zijn gevonden door a en b2 te schatten met de maximum likelihood-schatters voor de verwachting en variantie (zie Voorbeeld 3.4 en Hoofdstuk 4). Aangezien de data de lijnen vrij nauwkeurig volgen, kunnen we concluderen dat de locatie-schaal familie van de standaard normale verdeling goed past bij deze twee datasets. Omdat deze familie alleen normale verdelingen be-
32
3: Verdelingsonderzoek
160
165
170
175
180
185
170 175 180 185 190 195 200
vat, wordt het vermoeden dat de twee datasets uit normale verdelingen afkomstig zijn, ondersteund.
−2
−1
0
1
2
−2
−1
0
1
2
Figuur 3.8. QQ-plots van de lichaamslengten van 100 mannen (links) en 110 vrouwen (rechts) tegen de kwantielen van de standaard normale verdeling.
3.3
Samenhang
In veel gevallen zijn de waarnemingen xi geen getallen, maar vectoren xi = (xi,1 , . . ., xi,d ). We zijn dan vaak ge¨ınteresseerd in de relatie tussen de verschillende co¨ ordinaten. We zullen ons in deze paragraaf beperken tot vectoren met twee co¨ ordinaten en noteren deze met (xi , yi ) (in plaats van (xi,1 , xi,2 )). Een scatterplot van een steekproef van tweedimensionale data (x1 , y1 ), . . ., (xn , yn ) is een plot van deze punten in het platte vlak. Is er een duidelijk verband tussen de x- en y-co¨ ordinaten van de data, dan is dit op het oog onmiddellijk zichtbaar. De variabelen in het rechterplaatje van Figuur 3.9 vertonen bijvoorbeeld een duidelijk lineair verband, terwijl in het linkerplaatje geen samenhang is te ontdekken. Het lineaire verband in het rechterplaatje van Figuur 3.9 is onmiskenbaar, maar niet perfect. De punten liggen niet exact op een rechte lijn, maar vari¨eren rond een (denkbeeldige) rechte.
33
-1.5
-1
-1.0
-0.5
0
0.0
1
0.5
1.0
3.3: Samenhang
-3
-2
-1
0
1
2
3
-3
-2
-1
0
1
2
3
Figuur 3.9. Scatterplots van twee steekproeven van 50 punten. Links met onafhankelijke co¨ ordinaten (rx,y = −0.05), rechts met co¨ ordinaten die een lineair verband vertonen (r x,y = 0.87).
Notatie 3.9. Het steekproefgemiddelde van een steekproef X1 , . . ., Xn is de stochastische grootheid n 1X Xi . X= n i=1
De steekproefvariantie van een steekproef X1 , . . ., Xn is de stochastische grootheid n 1 X 2 SX = (Xi − X)2 . n − 1 i=1 De steekproefcorrelatieco¨effici¨ent van een steekproef van paren (X 1 , Y1 ), . . ., (Xn , Yn ) is Pn (Xi − X)(Yi − Y ) p p rX,Y = i=1 . 2 (n − 1) SX SY2
De steekproefcorrelatieco¨effici¨ent rx,y van de waargenomen paren (x1 , y1 ), . . ., (xn , yn ) is een getalsmaat voor de kracht van het lineaire verband en ligt tussen −1 en 1. De waarde kan als volgt worden ge¨ınterpreteerd: (i) Als rx,y = 1, dan liggen de n punten in de scatterplot precies op de lijn y = y + (sy /sx ) (x − x) (perfect positief verband). (ii) Als rx,y = −1, dan liggen de n punten in de scatterplot precies op de lijn y = y − (sy /sx ) (x − x) (perfect negatief verband). (iii) Zijn X1 , . . ., Xn en Y1 , . . ., Yn onafhankelijke steekproeven, dan zal de gerealiseerde rx,y waarden dicht bij 0 aannemen. De eerste twee beweringen en dat |rx,y | ≤ 1 zijn een gevolg van de ongelijkheid van Cauchy-Schwarz uit de lineaire algebra.[ De derde bewe[ Het inwendig product van vectoren a en b in Rn voldoet aan |ha, bi| ≤ kak kbk voor k · k de Euclidische norm.
34
3: Verdelingsonderzoek
ring is een gevolg van het feit dat onafhankelijke stochastische grootheden ongecorreleerd zijn, gecombineerd met het intu¨ıtief aannemelijke feit dat de steekproefcorrelatieco¨effici¨ent de populatiecorrelatieco¨effici¨ent ρ= √
cov(X, Y ) E(X − EX)(Y − EY ) p √ =p var X var Y E(X − EX)2 E(Y − EY )2
0
-2
2
-1
0
4
1
6
2
8
3
zal benaderen voor n groot. Omdat cov(X, Y ) = E(X − EX)(Y − EY ) = E(XY ) − EXEY is ρ gelijk aan 0 voor onafhankelijk stochastische grootheden X en Y : onafhankelijke stochastische grootheden zijn ongecorreleerd. Een verdere interpretatie van de steekproefcorrelatieco¨effici¨ent wordt gegeven bij de behandeling van het lineaire regressiemodel in Hoofdstuk 8. We mogen bewering (iii) niet omdraaien in de zin dat een correlatie dicht bij 0 zou impliceren dat de twee co¨ ordinaten onafhankelijk zijn. Dit wordt ge¨ıllustreerd in Figuur 3.10. In het linkerplaatje is een duidelijk lineair verband waarneembaar, corresponderend met een correlatieco¨effici¨ent van 0.98. Het rechterplaatje is een scatterplot van de punten (xi , yi2 ) voor de punten (xi , yi ) uit het linkerplaatje. Het kwadratische verband is duidelijk zichtbaar. De “sterkte van het verband” tussen de twee co¨ ordinaten in het rechterplaatje doet niet onder voor de sterkte in het linkerplaatje. De steekproefcorrelatieco¨effici¨ent voor de punten in het rechterplaatje is echter gelijk aan −0.05. Blijkbaar is deze getalsmaat blind voor het aanwezige kwadratische verband.
-2
-1
0
1
2
3
-2
-1
0
1
2
3
Figuur 3.10. Scatterplots van twee steekproeven van 50 punten, met steekproefcorrelatieco¨ effici¨ enten, respectievelijk, 0.98 en -0.05. Het rechterplaatje geeft de punten (x i , yi2 ) voor de punten (xi , yi ) uit het linkerplaatje.
Voorbeeld 3.10 (Tweelingdata). Lichaamslengte wordt in grote mate erfelijk bepaald. Dit hebben we al gezien in Voorbeeld 2.7 waar de relatie tussen de lichaamslengte van de ouders en hun kinderen werd gemodelleerd. Ook bij tweelingonderzoek wordt dit duidelijk. Omdat eeneiige tweelingen
35
3.3: Samenhang
165
155
170
160
175
165
180
170
185
190
175
195
180
genetisch gezien geheel identiek zijn en twee-eiige tweelingen gemiddeld genomen 50% van hun erfelijk materiaal delen, zal de correlatie tussen de lichaamslengtes van eeneiige tweelingen groter zijn dan tussen die van tweeeiige tweelingen (van hetzelfde geslacht). In Figuur 3.11 zijn de lichaamslengtes van eeneiige tweelingen (mannen links, vrouwen rechts) tegen elkaar uitgezet. In beide scatterplots is een sterke correlatie waar te nemen. De steekproefcorrelatie van de 92 mannelijke eeneiige tweelingen is gelijk aan 0.87. Voor de 140 vrouwelijke eeneiige tweelingen is deze maar liefst 0.96. Voor twee-eiige tweelingen van gelijk geslacht kunnen we hetzelfde doen, zie de scatterplots in Figuur 3.12 (mannen links, vrouwen rechts). Uit deze figuur blijkt duidelijk dat de correlatie kleiner is bij twee-eiige tweelingen. De steekproefcorrelatie tussen de lichaamslengte van 58 mannelijke tweeeiige tweelingen is gelijk aan 0.55 en voor de 112 vrouwelijke twee-eiige tweelingen is deze gelijk aan 0.50. In de toepassing na de opgaven in Hoofdstuk 4 komen we uitgebreid terug op erfelijkheidsonderzoek op basis van tweelingengegevens.]
170
180
190
155
160
165
170
175
180
Figuur 3.11. Scatterplots van de lichaamslengte van 92 mannelijke (links) en 140 vrouwelijke (rechts) eeneiige tweelingen.
3.3.1
Auto-correlaties
Scatterplots kunnen ook gebruikt worden om de vaak gemaakte aanname dat een steekproef x1 , . . ., xn realisaties van onafhankelijke grootheden zijn ] Bron: De data die gebruikt zijn in dit voorbeeld zijn verzameld door de afdeling Biologische Psychologie van de Vrije Universiteit in het kader van een onderzoek naar gezondheid, levensstijl en persoonlijkheid.
36
155
170
175
165
180
185
175
190
185
195
3: Verdelingsonderzoek
170
175
180
185
190
195
160
165
170
175
180
185
Figuur 3.12. Scatterplots van de lichaamslengte van 58 mannelijke (links) en 112 vrouwelijke (rechts) twee-eiige tweelingen.
te controleren. We kunnen bijvoorbeeld de punten (x2i−1 , x2i ) voor i = 1, . . ., bn/2c of de punten (xi , xi+1 ) voor i = 1, . . ., n − 1 plotten. Als de aanname juist is, dan zouden we in deze scatterplots niet veel structuur moeten kunnen ontdekken. De steekproef auto-correlatieco¨effici¨ent van orde h ∈ N van een waargenomen steekproef x1 , . . ., xn defini¨eren we door rx (h) =
Pn−h i=1
(xi+h − x)(xi − x) . (n − h)s2x
Dan is de steekproefcorrelatieco¨effici¨ent die met de punten (xi , xi+1 ) voor i = 1, . . ., n − 1 correspondeert, (in essentie) de steekproef autocorrelatieco¨effici¨ent van orde 1. Deze co¨effici¨enten zijn vooral interessant als de index i van de data xi correspondeert met een tijdsparameter en, de indruk bestaat dat, een tijdseffect in de data aanwezig zou kunnen zijn. We meten dan het verband tussen de variabelen Xi en Xi−h van h tijdstippen eerder. Voorbeeld 3.11 (Beurskoersen). In het bovenste plaatje van Figuur 5.13 staat de waarde van het aandeel Hewlett Packard op de beurs van New York uitgezet tegen de tijd, in de periode 1984–1991. Uitgezet zijn de beurswaarden ai van het aandeel op de sluitingstijd van opeenvolgende beursdagen (i = 1, 2, . . ., 2000); in de grafiek zijn deze waarden lineair ge¨ınterpoleerd. Omdat beurswaarden meestal een exponentieel stijgende (of dalende) rij vormen, is het gebruikelijk om in plaats van de beurswaarden zelf de “log
3.3: Samenhang
37
returns” te analyseren, gedefini¨eerd door ai . xi = log ai−1 Deze waarden staan uitgezet in het onderste plaatje van Figuur 5.13. Omdat de index i van xi correspondeert met de ie beursdag, zou het niet verbazend zijn als x1 , . . ., x2000 niet goed gemodelleerd kunnen worden als realisaties van onafhankelijke variabelen X1 , . . ., X2000 . Een grote verandering op dag i zou immers invloed kunnen hebben op de verandering op dag i + 1. Toch was de omgekeerde hypothese van onafhankelijkheid, de “random walk hypothese”, lange tijd aanvaard in de econometrie. Een eerste aanzet om deze hypothese te controleren is het berekenen van de steekproef auto-correlaties van de rij x1 , . . ., x2000 . Deze worden grafisch weergegeven in het linkerplaatje van Figuur 3.13, waarin op de horizontale as de waarden h = 0, 1, 2, . . ., 30 zijn uitgezet, en de hoogten van de lijnstukken de bijbehorende steekproef auto-correlatieco¨effici¨enten van orde h geven (de steekproef auto-correlatie van de orde 0 is natuurlijk gelijk aan 1). Bijna alle steekproef auto-correlatieco¨effici¨enten zijn klein, wat de conclusie rechtvaardigt, dat de log returns weinig lineair verband vertonen. Het rechterplaatje geeft de steekproef auto-correlatieco¨effici¨enten van de kwadraten x21 , . . ., x22000 van de log returns. Hoewel ook deze co¨effici¨enten laag zijn, is de conclusie dat de kwadratische log returns weinig verband hebben aanvechtbaar: te veel co¨effici¨enten verschillen te veel van 0. Als de kwadraten niet onafhankelijk zijn, dan zijn de log returns zelf natuurlijk ook niet onafhankelijk. Het is daarom geen goede aanname om x1 , . . ., x2000 als realisaties van onafhankelijke variabelen te modelleren: met een tijdseffect moet rekening worden gehouden. Beurskoersen vormen geen random walk. In het voorgaande vonden we de co¨effici¨enten in het linkerplaatje van Figuur 3.13 “klein”, terwijl we ze in het rechterplaatje “van nul” vonden “verschillen”. Deze meningen zijn objectief te onderbouwen met behulp van statistische toetsen, zoals die behandeld worden in Hoofdstuk 5. De horizontale stippellijnen in de twee figuren geven kritieke waarden voor de steekproef auto-correlaties als toetsingsgrootheden voor de nulhypothese dat x1 , . . ., x2000 kunnen worden opgevat als een steekproef van onafhankelijke variabelen (bij een onbetrouwbaarheid van 5 %). Co¨effici¨enten die niet tussen de twee stippellijnen vallen geven aanleiding deze nulhypothese te verwerpen. Hierbij moeten we rekening houden met het feit dat, wanneer we uitgaan van de nulhypothese, op grond van “toevallige variaties” er ongeveer 1 op de 20 co¨effici¨enten buiten de banden zal vallen vanwege de onbetrouwbaarheid van 5 % (zie Hoofdstuk 5). In het rechterplaatje vallen te veel waarden buiten de banden.
38
3: Verdelingsonderzoek Series : hp^2
ACF 0.0
0.0
0.2
0.2
0.4
0.4
ACF
0.6
0.6
0.8
0.8
1.0
1.0
Series : hp
0.0
0.02
0.04
0.06 Lag
0.08
0.10
0.12
0.0
0.02
0.04
0.06 Lag
0.08
0.10
0.12
Figuur 3.13. Steekproef auto-correlatiefunctie van de log returns van HP-aandelen in de periode 1984–1991 (links) √ en van de kwadraten van de log returns (rechts). De hoogte van de stippellijnen is ±1.96/ 2000 (zie Voorbeeld 5.35).
Opgaven 1. Veronderstel dat hn het geschaalde histogram van een steekproef X1 , . . ., Xn uit een dichtheid f is. De partitie van het histogram wordt gegeven door a0 < a1 < . . .R < am . Bewijs dat voor aj−1 < x ≤ aj geldt dat hn (x) → (aj − a aj−1 )−1 a j f (s) ds met kans 1, als n → ∞. j−1
2. Veronderstel dat de stochastische grootheid X verdelingsfunctie F en kwantielfunctie Q bezit. Definieer xα als het α-kwantiel van F en yα als het α-kwantiel van de verdeling van Y = a + bX. (i) Stel F is strikt stijgend en continu, zodat de inverse van F bestaat en −1 gelijk is aan Q. Toon aan dat tussen xα = F −1 (α) en yα = Fa,b (α) een lineair verband bestaat, door gebruik te maken van de inverteerbaarheid van F . (ii) Toon aan dat hetzelfde lineaire verband bestaat tussen xα en yα voor een algemene verdelingsfunctie F . Gebruik hiervoor de algemene definitie van het α-kwantiel.
3. De standaard exponenti¨ele verdeling bezit verdelingsfunctie x 7→ 1 − e−x op [0, ∞). (i) Behoort de exponenti¨ele verdeling met parameter λ tot de locatie-schaal familie van de standaard exponenti¨ele verdeling? (ii) Druk de parameters a en b in de locatie-schaal familie Fa,b van de standaard exponenti¨ele verdeling uit in de verwachting en variantie van een stochastische variabele met verdeling Fa,b . 4. Zij X een stochastische grootheid, homogeen verdeeld op [−3, 2]. (i) Bepaal de verdelingsfunctie F van X. (ii) Bepaal de kwantielfunctie F −1 van X. 5. Zij X een stochastische grootheid met kansdichtheid f (x) =
2 x1[0,θ] (x) θ2
3: Opgaven
39
waar θ > 0 een constante is. (i) Bepaal de verdelingsfunctie F van X. (ii) Bepaal de kwantielfunctie F −1 van X. 6. Welke lijn is uitgezet in Figuur 3.5? 7. Zij X1 , . . ., Xn een steekproef uit een continue verdeling met verdelingsfunctie F en dichtheid f . Laat zien dat de kansdichtheid van de k e ordestatistiek X(k) gelijk is aan f(k) (x) =
n! F (x)k−1 (1 − F (x))n−k f (x) (k − 1)!(n − k)!
door eerst de verdelingsfuctie van X(k) te bepalen. (Hint: X(k) ≤ x dan en slechts dan als ten minste k waarnemingen Xi kleiner zijn dan of gelijk zijn aan x. Het aantal Xi dat kleiner is dan of gelijk is aan x is binomiaal verdeeld met parameters n en P(Xi ≤ x).) 8. Zij X1 , . . ., Xn een steekproef uit een continue verdeling met verdelingsfunctie F . We willen in deze opgave aantonen dat EF (X(k) ) = k/(n + 1). Definieer Ui = F (Xi ) voor i = 1, . . ., n. (i) Toon aan dat de stochastische grootheden U1 , . . ., Un een steekproef vormen uit de homogene verdeling op [0, 1]. (ii) Toon aan dat de verdelingsfunctie F(k) van U(k) wordt gegeven door F(k) (x) =
n X n j=k
j
xj (1 − x)n−j .
(iii) Toon aan dat de dichtheid f(k) van U(k) wordt gegeven door f(k) (x) =
n! xk−1 (1 − x)n−k . (k − 1)!(n − k)!
(iv) Toon aan dat EU(k) = k/(n + 1). 9. Maak een grafiek van de kwantielen van de N (2, 22 )-verdeling tegen de kwantielen van de N (0, 32 )-verdeling. Welke lijn is dit? 10. Zij X een standaard normaal verdeelde stochastische grootheid. Bereken de correlatieco¨effici¨ent tussen de stochastische grootheden X en Y = X 2 . 11. Leg uit dat het aannemelijk is dat de steekproefcorrelatie rX,Y bij benadering gelijk is aan de correlatieco¨effici¨ent, ρ, voor grote waarden van n. 12. Veronderstel dat X en Y onderling onafhankelijk zijn en beide standaard normaal verdeeld. Bereken de correlatieco¨effici¨ent tussen X en Z waar Z = X +Y .
DE WET VAN BENFORD
0.0
0.1
0.2
0.3
0.4
0.5
In 1938 publiceerde de fysicus Benford een wetenschappelijk artikel waarin hij claimt dat in een dataset de frequentie van het begincijfer van de getallen hoger is naarmate het begincijfer lager is; ofwel dat in een dataset meer getallen met een 1 beginnen dan met een 2, dat meer getallen met een 2 beginnen dan met een 3, enzovoort. Dit patroon komt niet overeen met het algemene gevoel dat alle begincijfers, 1 tot en met 9, ongeveer evenveel voorkomen. Benford stelt zelfs in zijn artikel dat de kans dat een willekeurig getal uit een dataset met het cijfer d begint, gelijk is aan log10 (1 + 1/d) voor d ∈ {1, . . ., 9} (waarbij log10 de logaritme met grondtal 10 betekent). De kans dat het willekeurige getal met een 1 begint is volgens Benford dus ongeveer gelijk aan 0.30 en voor begincijfer 9 is deze kans gedaald tot onder de 0.05. In Figuur 3.14 staan de kansen uitgezet. Bovenstaande bewering is later de “Wet van Benford” gaan heten.
0
2
4
6
8
10
Figuur 3.14. De kansen op de verschillende begincijfers volgens de Wet van Benford.
Benford was niet de eerste die bovenstaande wetmatigheid ontdekte. Ruim vijftig jaar eerder, in 1881, publiceerde de Amerikaanse astronoom Newcomb een wetenschappelijk artikel met dezelfde bevindingen. Newcomb merkte dat de eerste bladzijden van de boeken met logaritmetabellen vuiler en meer versleten waren dan de verdere pagina’s. Aangezien in het begin van de boeken de getallen met lage begincijfers stonden, en aan het einde die met hoge begincijfers, concludeerde Newcomb dat logaritmen van getallen met lage begincijfers vaker opgezocht werden dan getallen met hoge begincijfers. We nemen de proef op de som en stellen een dataset samen met inwoneraantallen van alle landen in de wereld. In Figuur 3.15 staat een histogram (met oppervlakte 1) van de begincijfers van de inwoneraantallen tezamen met de Benford frequenties. De frequenties van begincijfers lijken aardig aan de “Wet van Benford” te voldoen.
41
0.00
0.05
0.10
0.15
0.20
0.25
0.30
3: De Wet van Benford
2
4
6
8
10
Figuur 3.15. Histogram van de begincijfers 1 tot en met 9 in de dataset met de populatiegroottes van alle landen in de wereld. De stapfunctie in de figuur geeft de verwachte frequenties op basis van de Wet van Benford weer.
Veel datasets zijn onderzocht op de geldigheid van de Wet van Benford; van in het laboratorium gemeten fysische grootheden tot geografische informatie (als lengte van rivieren en inwoneraantallen van hoofdsteden), en van bedrijfsboekhouding tot omrekenfactoren van munteenheden. In bijna alle gevallen wordt bij benadering aan de wet voldaan. Natuurlijk voldoet niet iedere dataset. Getallen die op basis van pure toeval gevonden worden (bijvoorbeeld dobbelsteenworpen), of getallen die aan beperkingen zijn onderworpen, als de leeftijden van de Nederlanders en de telefoonnummers in het telefoonboek, voldoen niet. De getallen die voorkomen in financi¨ele overzichten, bijvoorbeeld de boekhouding van redelijk grote bedrijven, voldoen veelal bij benadering aan de Wet van Benford. Benfords Wet kan daarom worden gebruikt bij het controleren van de boekhoudingen en bij het opsporen van fraude en onjuistheden. Een werknemer die fraude pleegt en dit probeert te maskeren, zal veelal verzonnen of gemanipuleerde geldbedragen zo kiezen dat de begincijfers van de bedragen in gelijke mate voorkomen. Als de werknemer relatief vaak geldbedragen manipuleert of verzint, zullen zijn handelingen de verdeling van begincijfers veranderen en zal deze afwijken van de verdeling die de Wet van Benford voorspelt. Als bijvoorbeeld 9% van de geldbedragen in de boekhouding met een 9 begint, zal de boekhouding vrijwel zeker nader onderzocht worden, omdat, volgens Benford, slechts 4.6% van de geldbedragen met een 9 zou moeten beginnen. Echter, een afwijking van de Wet van Benford hoeft niet te betekenen dat er gefraudeerd is. In sommige gevallen heeft men een voorkeur voor getallen die met een 9 beginnen; zo verkoopt
42
3: Verdelingsonderzoek
0.00
0.05
0.10
0.15
0.20
0.25
0.30
een product beter als het 99 en niet 100 euro kost. Alleen structurele fraude kan met de Wet van Benford opgespoord worden. Indien ´e´enmaal een groot bedrag naar een priv´erekening wordt overgemaakt, dan zal dat niet worden opgemerkt als men slechts kijkt naar afwijkingen van de Wet van Benford. In Figuur 3.16 is een histogram (met oppervlakte 1) getekend van de begincijfers van bijna 1,5 miljoen bedragen in een kasboek van een groot bedrijf, tezamen met de frequenties die je zou verwachten op basis van de Wet van Benford. De bedragen in de boekhouding lijken de Wet van Benford aardig te volgen.
2
4
6
8
10
Figuur 3.16. Histogram van de begincijfers 1 tot en met 9 van de bedragen in de boekhouding. De trapfunctie in de histogram geeft de verwachte frequenties op basis van de Wet van Benford weer.
Ondanks dat er al veel onderzoek gedaan is naar de Wet van Benford, is het nog steeds niet volledig duidelijk waarom de ene dataset wel en de andere niet aan deze wet voldoet. Een voorbeeld waarin er aan voldaan is, is wanneer er sprake is van exponenti¨ele groei. We bestuderen dit geval nader. Aangezien we slechts ge¨ınteresseerd zijn in het begincijfer van een getal, schrijven we een getal z in de vorm z = x × 10n met 1 ≤ x < 10 en n ∈ Z. Deze notatie is mogelijk voor alle positieve getallen. In het vervolg noemen we x de genormeerde waarneming behorende bij z = x×10n . Het begincijfer van z is gelijk aan het begincijfer van x. Definieer D als de stochast die het begincijfer van een willekeurig (stochastisch) getal Z = X × 10 n uit een dataset aangeeft. Veronderstel dat X verdeeld is als a bY met a, b > 0 en Y
3: De Wet van Benford
43
homogeen verdeeld op het interval [0, 1/ log10 b], dan geldt P(D = k) = P(k ≤ X < k + 1)
= P(k ≤ a bY < k + 1)
= P(log10 (k/a) ≤ Y log10 b < log10 ((k + 1)/a)) = log10 (k + 1) − log10 a − (log10 k − log10 a) = log10 (1 + 1/k),
0.0
0.2
0.4
0.6
0.8
1.0
waarbij de vierde gelijkheid volgt uit de verdeling van Y log10 b; de homogene verdeling op het interval [0, 1]. De kans dat het begincijfer D gelijk aan k is, is dus precies de kans op dit begincijfer volgens de Wet van Benford. Als b = 10, dan is log10 b = 1 en is de aanname dat Y homogeen verdeeld is op [0, 1]. In Figuur 3.17 is een QQ-plot getekend van de ordestatistieken van log10 van de genormeerde populatiegroottes uit Figuur 3.15 tegen de kwantielen van de homogene verdeling op [0, 1]. Voor deze dataset is ogenschijnlijk aan bovenstaande aanname voldaan.
0.0
0.2
0.4
0.6
0.8
1.0
Figuur 3.17. QQ-plot van log 10 van de genormeerde populatiegroottes tegen de kwantielen van de homogene verdeling op [0, 1]. De lijn in de figuur is de lijn y = x.
De aanname dat X verdeeld is als a bY met a, b > 0 en Y homogeen verdeeld op het interval [0, 1/ log10 b], is weinig inzichtelijk en lijkt daardoor onrealistisch. Onderstaand voorbeeld laat echter het tegendeel zien. Veronderstel dat een onderneming een marktwaarde van d miljoen euro heeft en dat de marktwaarde per jaar met x% groeit. Na t jaar is de marktwaarde van het bedrijf gestegen tot d(1 + x/100)t miljoen euro. Na t = 1/ log10 (1 + x/100) jaar is (1 + x/100)t = 10 en is het beginbedrag
44
3: Verdelingsonderzoek
vertienvoudigd. Het begincijfer is dan weer gelijk aan het begincijfer op tijdstip t = 0. Omdat deze tijdsduur niet afhangt van het beginbedrag d, het tijdstip 0 willekeurig gekozen kan worden, en we alleen ge¨ınteresseerd zijn in het begincijfer, volstaat het om alleen naar waarden t in het interval [0, 1/ log10 (1 + x/100)] te kijken. Definieer T als een stochastische variabele welke homogeen verdeeld is op het interval [0, 1/ log10 (1 + x/100)]. Voor een willekeurig bedrijf met marktwaarde d geldt dat de waarde op tijdstip T gelijk is aan Z = d(1 + x/100)T = (d/10n )(1 + x/100)T 10n met n ∈ N zodanig dat (d/10n )(1 + x/100)T ∈ [1, 10) met kans 1. We zijn nu terug in het vorige voorbeeld met Y = T , b = 1 + x/100 en a = d/10n . De kans dat een bedrijf met marktwaarde d op tijdstip 0, op tijdstip T een marktwaarde heeft met begincijfer k is gelijk aan de Benford kans log 10 (1 + 1/k). Een andere redenering welke tot hetzelfde antwoord leidt is gebaseerd op de aanname dat de kans dat een willekeurig bedrijf een marktwaarde heeft die begint met het cijfer k, recht evenredig is met de tijdsduur dat het bedrijf een marktwaarde heeft die begint met cijfer k. Definieer tk als de tijdsduur (in jaren) waarin de marktwaarde stijgt van k naar k+1 (miljoen) euro, dan geldt dat k(1+x)tk = k+1 ofwel dat tk = log10 (1+1/k)/ log10 (1+x/100). De tijdsduur om van begincijfer k (k miljoen euro) over te gaan naar begincijfer k + 1 (k + 1 miljoen euro) is dus proportioneel aan log10 (1 + 1/k); de kans op begincijfer k volgens de wet van Benford. Dit is natuurlijk onafhankelijk van de gekozen eenheid “miljoenen euro’s”. Onder bovenstaande aanname kunnen we nu opnieuw concluderen dat van alle ondernemingen ongeveer een fractie log10 (1 + 1/k) een marktwaarde heeft die begint met het cijfer k; precies zoals de wet van Benford dat voorspelt.
4 Schatters
4.1
Introductie
Een statistisch model bestaat uit alle kansverdelingen welke a priori mogelijk worden geacht voor de gegeven data. Gegeven een correct opgesteld model gaan we ervan uit dat de data volgens ´e´en van de kansverdelingen in het model is gegenereerd. Na het opstellen van een geschikt statistisch model is de volgende stap het bepalen welke kansverdeling binnen het model het best aansluit bij de gegevens. Als het model wordt gegeven door een parameter, dan is dit equivalent met het bepalen van de best passende parameterwaarde, vaak aangeduid als de “ware” parameter. In de statistiek heet dit proces “schatten”. Andere namen zijn “fitten” en “leren”. Veronderstel dat de kansverdeling van X afhangt van een onbekende parameter θ, zodat het statistische model de vorm {Pθ : θ ∈ Θ} heeft, voor Pθ de kansverdeling van X als θ de “ware” parameterwaarde is. Op grond van een waarneming x willen we de ware waarde van θ schatten, of wellicht de waarde van een functie g(θ) van θ, bijvoorbeeld de eerste co¨ ordinaat θ 1 als θ = (θ1 , θ2 ). “Schatten” betekent hier het doen van een uitspraak over θ of g(θ) van de vorm: “ik denk dat g(θ) bij benadering gelijk is aan T (x)”, voor zekere waarde T (x) die van de waargenomen waarde x afhangt. Definitie 4.1. Een schatter (Engels: estimator) of statistiek (Engels: statistic) is een stochastische vector T (X) die alleen van de waarneming X afhangt. De bijbehorende schatting (Engels: estimate), bij gerealiseerde waarneming x, is T (x). Volgens deze definitie zijn heel veel objecten schatters. Waar het om gaat is dat T (X) een functie van X is die niet van de parameter θ mag
46
4: Schatters
afhangen: we moeten T (x) kunnen uitrekenen op grond van de data x. Na verrichting van de waarneming krijgt T een gerealiseerde waarde t = T (x), waarmee we θ (of g(θ)) schatten. We korten T (X) heel vaak af tot T . Het (Vlaamse) woord “statistiek” heeft wiskundig precies dezelfde definitie als “schatter”, maar wordt in een andere context gebruikt. ˆ Zowel schatters als schattingen van θ worden vaak aangegeven met θ. ˆ Het dakje geeft aan dat θ een functie van de waarneming is, maar deze notatie maakt geen verschil tussen de stochastische vector of zijn realisatie: ˆ ˆ θˆ kan zowel θ(X) als θ(x) betekenen. Er zijn veel schattingsmethoden. In dit hoofdstuk bespreken we een aantal algemene principes, zoals de maximum likelihood-methode, de momentenmethode en de Bayes-methode. We beginnen echter met het opzetten van een kader om schatters onderling te kunnen vergelijken in hun prestatie.
4.2
Mean Square Error
Hoewel iedere functie van de waarneming een schatter is, is niet iedere schatter een goede schatter. Een goede schatter voor g(θ) is een functie T van de waarneming zodanig dat
T “dichtbij” de te schatten waarde g(θ) ligt. Nu is de afstand T −g(θ) een onbevredigende maat om twee redenen: - deze maat hangt af van de onbekende waarde θ; - deze maat is stochastisch en niet uit te rekenen alvorens het experiment is uitgevoerd. Om aan de tweede moeilijkheid te ontkomen, beschouwen we de kansverdeling van T − g(θ) onder de aanname dat θ de ware waarde is. De mooiste situatie zou zijn dat deze kansverdeling
gedegeneerd is in 0, d.w.z. als θ de ware waarde is, dan is T − g(θ) met kans 1 gelijk aan 0. Dit zou betekenen dat we geen schattingsfout maken, de schatting T (x) zou met zekerheid gelijk zijn aan de te schatten waarde. In de praktijk is dit helaas onmogelijk, en moeten we ons tevreden stellen met (gemiddeld) een zo klein mogelijke fout. We zoeken dan een schatter waarvan de verdeling onder de ware waarde θ zoveel mogelijk geconcentreerd is rond g(θ); of equivalent
waarvoor de verdeling van T − g(θ) zo veel mogelijk geconcentreerd is in een omgeving van 0. Voorbeeld 4.2 (Homogene verdeling). Veronderstel dat X1 , . . ., Xn onderling onafhankelijk hom[0, θ]-verdeeld zijn. De waarneming is de vector X = (X1 , . . ., Xn ), en we willen de onbekende θ schatten. Omdat Eθ Xi = 12 θ is het niet onredelijk om 21 θ te schatten met het steekproefgemiddelde X, en θ met 2X; immers volgens de wet van de grote aantallen convergeert het steekproefgemiddelde (in kans) naar Eθ Xi = 21 θ. Veronderstel eens dat
4.2: Mean Square Error
47
40 30 20 10 0
0
10
20
30
40
n = 10 en dat de data de volgende waarden hebben: 3.03, 2.70, 7.00, 1.59, 5.04, 5.92, 9.82, 1.11, 4.26, 6.96, zodat 2x = 9.49. Deze schatting is met zekerheid te klein! Immers ´e´en van de waarnemingen is 9.82, zodat in elk geval θ ≥ 9.82. Is er een betere schatter te verzinnen? We kunnen het zojuist gesignaleerde probleem ontlopen door het maximum X(n) van de waarnemingen te nemen. Ook het maximum is echter met zekerheid een onderschatting van de echte waarde. Alle waarnemingen xi zullen immers binnen het interval [0, θ] liggen. Een kleine correctie naar boven ligt voor de hand. We zouden bijvoorbeeld (n + 2)/(n + 1) X(n) als schatter kunnen gebruiken. Er zijn dus meerdere gegadigden. Welke schatter is nu de beste? Om inzicht in deze vraag te verkrijgen, voerden we het volgende simulatieexperiment uit. We kozen n = 50 en simuleerden 1000 onafhankelijke steekproeven ter grootte van 50 uit de homogene verdeling op [0, 1]. Voor iedere steekproef berekenden we de schatters 2X en (n+2)/(n+1)X(n) . Figuur 4.1 toont histogrammen van de twee verzamelingen van 1000 schattingen van de parameter θ, links gebruikmakend van de schatter (n + 2)/(n + 1)X(n) en rechts van 2X. Deze histogrammen kunnen worden opgevat als benaderingen van de kansdichtheden van de schatters. De kansdichtheid in de figuur links is meer geconcentreerd rond de ware waarde θ = 1, dan de kansdichtheid rechts. We geven daarom de voorkeur aan de schatter (n+2)/(n+1)X(n): “gemiddeld” ligt deze dichter bij de ware waarde. (Opmerkelijk is ook het verschil in vorm van de twee histogrammen: het linker lijkt wel wat op een (omgekeerde) exponenti¨ele dichtheid, terwijl het rechter histogram een normale dichtheid benadert. Dat is theoretisch heel goed te verklaren. Hoe?)
0.7
0.8
0.9
1.0
1.1
1.2
1.3
0.7
0.8
0.9
1.0
1.1
1.2
1.3
Figuur 4.1. Histogrammen van 1000 realisaties van de schatters (n + 2)/(n + 1)X (n) en 2X voor de parameter 1 van een homogene verdeling ieder gebaseerd op n = 50 waarnemingen.
Overigens is het niet zo, dat de schatter (n+2)/(n+1)X(n) op ieder van
48
4: Schatters
-0.2
-0.1
0.0
de 1000 steekproeven de beste schatting gaf. Dit is zichtbaar in Figuur 4.2, waarin op de verticale as het verschil |(n + 2)/(n + 1)x(n) − 1| − |2x − 1| is uitgezet. Meestal was dit verschil negatief, maar soms was het positief in welk geval de schatter 2X een waarde gaf die dichter bij de ware waarde θ = 1 ligt. Omdat we in de praktijk de ware waarde niet kennen, is het niet mogelijk om hier de “best of both worlds” te kiezen. We zullen de schatter gebruiken die gemiddeld het beste is.
0
200
400
600
800
1000
Figuur 4.2. Verschillen |(n + 2)/(n + 1)x(n) − 1| − |2x − 1| van de absolute afstanden van de schattingen (n + 2)/(n + 1)x(n) en 2x tot de te schatten waarde 1 in Figuur 4.1.
Ons simulatie-experiment geeft alleen aan dat (n + 2)/(n + 1)X(n) de betere schatter is als de ware waarde van θ gelijk is aan 1. Om te bepalen welke schatter beter is als θ een andere waarde bezit, zouden we het simulatie-experiment moeten herhalen met gesimuleerde steekproeven uit de homogene verdeling op [0, θ], voor iedere θ. Dit gaat natuurlijk niet, en dat is ´e´en reden om een wiskundige studie van het schattingsprobleem te maken. Een andere reden is dat we in plaats van paren schatters te ordenen, liever de absoluut beste schatter zouden willen bepalen. Omdat een kansverdeling een ingewikkeld object is, is het vergelijken van “concentratie” niet eenduidig bepaald. Het is daarom handig om concentratie in een getalswaarde uit te drukken, zodat we vervolgens alleen getallen hoeven te vergelijken. Dit kan op veel manieren. Een concentratiemaat die wiskundig relatief eenvoudig is te hanteren is de verwachte kwadratische fout (Engels: mean square error of MSE). Voor een schatter T voor de waarde g(θ) wordt deze gedefinieerd als
2 MSE(θ; T ) = Eθ T − g(θ) .
Het subscript θ in Eθ is essentieel: de MSE is de verwachte kwadratische afstand van T tot g(θ) aangenomen dat θ de ware waarde van de para-
4.2: Mean Square Error
49
meter is (twee keer dezelfde θ in deze zin). We beschouwen de verwachte kwadratische fout als de functie θ 7→ MSE(θ; T ) voor een gegeven statistiek T . Een volledigere notatie zou zijn MSE(θ; T, g), maar omdat g vast ligt in de context van het probleem, laten we g weg in de notatie. De eerste moeilijkheid – dat de kwaliteitsmaat afhangt van θ – is nog niet opgelost: de verwachte kwadratische fout is een functie van θ. In principe is het genoeg als MSE(θ; T ) zo klein mogelijk is in de “ware waarde” van θ. Aangezien we deze niet kennen, streven we ernaar dat de verwachte kwadratische fout (relatief) klein is voor alle waarden van θ tegelijk. Afspraak 4.3. We geven de voorkeur aan een schatter met een kleine verwachte kwadratische fout (MSE) voor alle parameterwaarden van θ tegelijk. Als voor twee schatters T1 en T2 geldt dat
2
2 Eθ T1 − g(θ) ≤ Eθ T2 − g(θ) ,
voor alle θ ∈ Θ,
met stricte ongelijkheid voor ten minste ´e´en waarde van θ, dan geven we de voorkeur aan T1 . De schatter T2 heet dan niet-toelaatbaar (Engels: inadmissible). Het kan echter voorkomen dat deze ongelijkheid voor sommige θ correct is, maar voor andere θ strikt omgekeerd moet worden. Dan is het niet direct duidelijk aan welke van de twee schatters we de voorkeur moeten geven. Omdat de ware waarde van θ, zeg θ0 , onbekend is, weten we dan immers niet welke van MSE(θ0 ; T1 ) en MSE(θ0 ; T2 ) de kleinste is. In Paragraaf 7.2 bespreken we optimaliteitscriteria voor schatters en hoe optimale schatters te vinden zijn. In het huidige hoofdstuk bespreken we een aantal methoden om schatters te vinden waarvan intu¨ıtief duidelijk is dat ze redelijk zijn, en vergelijken we verwachte kwadratische fouten. De verwachte kwadratische fout van een re¨eelwaardige schatter T kan worden ontbonden in twee termen: 2 MSE(θ; T ) = varθ T + Eθ T − g(θ) (ga na). Beide termen in deze decompositie zijn niet-negatief. Dus de verwachte kwadratische fout kan alleen klein zijn als beide termen klein zijn. Als de tweede term gelijk aan 0 is, dan heet de schatter zuiver. Definitie 4.4. Een schatter T heet zuiver (Engels: unbiased) voor het schatten van g(θ) als Eθ T = g(θ) voor alle θ ∈ Θ. De onzuiverheid (Engels: bias) is gedefinieerd als Eθ T − g(θ). De tweede term in de ontbinding van MSE(θ; T ) is dus het kwadraat van de onzuiverheid. Voor een zuivere schatter is deze term identiek nul. Dit lijkt zeer wenselijk, maar is het lang niet altijd. De eis dat een schatter zuiver is kan namelijk veroorzaken dat de variantie juist heel groot is, zodat
50
4: Schatters
we ruimschoots verliezen in de eerste term wat we bij de tweede gewonnen zouden hebben. In het algemeen leidt een kleine variantie tot een grotere onzuiverheid, en een kleine onzuiverheid tot een grote variantie. We moeten de twee termen dus tegen elkaar afwegen. √ De standaarddeviatie σθ (T ) = varθ T van een schatter noemt men wel de standaardfout (Engels: standard error, of s.e.). Deze moet niet verward worden met de standaarddeviatie van de waarnemingen. De standaardfout σθ (T ) hangt in principe af van de onbekende parameter θ en is dus zelf ook een onbekende. Omdat de onzuiverheid van redelijke schatters vaak klein is, geeft de standaardfout vaak een indruk van de kwaliteit van een schatter. Een schatting van de standaardfout wordt vaak gerapporteerd samen met de schatting zelf. Bij de bespreking van betrouwbaarheidsgebieden in Hoofdstuk 6 komen we hierop terug. We zoeken dus schatters met een kleine standaardfout en een kleine onzuiverheid. Voorbeeld 4.5 (Homogene verdeling). Veronderstel dat X1 , . . ., Xn onderling onafhankelijk en hom[0, θ]-verdeeld zijn. De schatter 2X is zuiver, want, voor alle θ > 0, n
Eθ (2X) =
n
2 Xθ 2X = θ. E θ Xi = n i=1 n i=1 2
De verwachte kwadratische fout van deze schatter is: MSE(θ; 2X) = 4 varθ X =
n 4X θ2 varθ Xi = . 2 n i=1 3n
De schatter X(n) is niet zuiver, want, voor alle θ > 0, Eθ X(n) =
Z
θ 0
xnxn−1
n 1 dx = θ θn n+1
(zie Opgave 9.10 voor de verdeling van X(n) ). Toch geven we (voor niet te kleine n) de voorkeur aan X(n) boven 2X, want deze schatter heeft een kleinere verwachte kwadratische fout: 2 MSE(θ; X(n) ) = varθ X(n) + Eθ X(n) − θ 2 n n = θ2 + θ2 −1 2 (n + 2)(n + 1) n+1 2 2θ = . (n + 2)(n + 1) We kunnen de onzuiverheid in X(n) opheffen door met een constante te vermenigvuldigen: de schatter (n + 1)/n X(n) is zuiver voor θ. De onzuivere
4.2: Mean Square Error
51
0.00
0.05
0.10
0.15
0.20
schatter (n + 2)/(n + 1) X(n) is echter beter dan alle tot nu toe genoemde schatters, want n+2 θ2 MSE θ; X(n) = . n+1 (n + 1)2 Figuur 4.3 toont de verwachte kwadratische fout van deze laatste schatter tezamen met de verwachte kwadratische fouten van X(n) en 2X als een functie van θ voor n = 50. Voor waarden van θ dicht bij 0, is het verschil tussen de verwachte kwadratische fout van 2X en de andere twee schatters gering, maar het loopt snel op bij toenemende waarden van θ. Bij nadere beschouwing blijkt voor niet te kleine waarden van n het verschil in verwachte kwadratische fout tussen (n + 2)/(n + 1)X(n) en X(n) klein te zijn. De grotere precisie van (n + 2)/(n + 1)X(n) ten opzichte van 2X is echter wel snel zichtbaar bij toenemende n, omdat de verwachte kwadratische fout van de eerste een factor n kleiner is. We merkten al op (zie Figuur 4.2) dat de schatter (n + 2)/(n + 1) X(n) niet op iedere steekproef een beter resultaat geeft dan de schatter 2X. Het feit dat MSE 1; (n + 2)/(n + 1) X(n) < MSE(1; 2X) sluit dit zeker niet uit, omdat de verwachte kwadratische fout een verwachting is, en kan worden ge¨ınterpreteerd als een gemiddelde waarde over een groot aantal realisaties. Een gemiddelde kan negatief zijn zonder dat alle termen negatief zijn. Gemiddeld is (n + 2)/(n + 1) X(n) (veel) beter.
0
1
2
3
4
5
6
Figuur 4.3. De verwachte kwadratische fouten als functie van θ van de schatters 2X (doorgetrokken lijn), X(n) (gestippelde lijn) en (n + 2)/(n + 1)X(n) (gestreepte lijn) voor de parameter in hom[0,θ] voor n = 50.
Voorbeeld 4.6 (Steekproefgemiddelde en -variantie). Veronderstel dat X1 , . . ., Xn onderling onafhankelijk en identiek verdeeld zijn, en een onbekende marginale kansverdeling bezitten. We willen verwachting µ en variantie σ 2 van de waarnemingen schatten. Formeel kunnen we θ gelijk nemen aan de onbekende kansverdeling, het zogenaamde “niet-parametrische model”, dat de onderliggende kansverdeling niet nader specificeert. De “parameters” µ en σ 2 zijn functies van deze onderliggende kansverdeling.
52
4: Schatters
2 Het steekproefgemiddelde X en de steekproefvariantie SX zijn gelijk aan (zie Notatie 3.9) n
X=
1X Xi , n i=1
2 SX =
n 1 X (Xi − X)2 . n − 1 i=1
Het steekproefgemiddelde is een zuivere schatter voor µ, aangezien n
Eθ X =
1X Eθ Xi = µ. n i=1
De verwachte kwadratische fout van deze schatter wordt gegeven door MSE(θ; X) = varθ X =
n σ2 1X varθ Xi = . 2 n i=1 n
De verwachte kwadratische fout van X is dus een factor n kleiner dan de verwachte kwadratische fout van de schatter Xi gebaseerd op ´e´en waarneming, MSE(θ, Xi ) = varθ Xi = σ 2 . Aangezien de verwachte kwadratische fout een verwachte kwadratische afstand is, concluderen we dat de kwaliteit van de √ schatter X met n toeneemt. Dus voor een twee keer zo goede schatter zijn vier keer zoveel waarnemingen nodig. De steekproefvariantie is een zuivere schatter voor σ 2 , want 2 E θ SX = Eθ
= Eθ =
n 1 X ((Xi − µ) + (µ − X))2 n − 1 i=1
n i 1 Xh (Xi − µ)2 + (µ − X)2 + 2(µ − X)(Xi − µ) n − 1 i=1
n 1 X n Eθ (Xi − µ)2 − Eθ (X − µ)2 = σ 2 , n − 1 i=1 n−1
waarbij de laatste gelijkheid volgt uit Eθ (Xi − µ)2 = varθ Xi = σ 2 en 2 Eθ (X − µ)2 = varθ X = σ 2 /n. De verwachte kwadratische fout van SX kan met enig rekenwerk worden uitgedrukt in het vierde steekproefmoment van de waarnemingen, maar dit laten we achterwege. Stel dat we op zoek zijn naar een zuivere schatter voor µ2 . Omdat X 2 een zuivere schatter voor µ is, nemen we in eerste instantie X als schatter voor µ2 . Deze schatter is echter niet zuiver: Eθ (X)2 = varθ X + (Eθ X)2 = 2
σ2 + µ2 . n
Hieruit volgt direct dat Eθ (X −σ 2 /n) = µ2 , maar omdat σ 2 een onbekende 2 parameter is, is X − σ 2 /n geen schatter. Als we σ 2 vervangen door zijn 2 2 2 zuivere schatter SX , dan vinden we dat X − SX /n een zuivere schatter is 2 voor µ .
4.2: Mean Square Error
53
* Voorbeeld 4.7 (Steekproeftheorie). Veronderstel dat een fractie p van een populatie een bepaalde eigenschap A bezit. We zullen drie methoden vergelijken om p te schatten, gebaseerd op een steekproef met teruglegging, een steekproef zonder teruglegging, en een gestratificeerde steekproef. Bij de eerste methode nemen we een steekproef ter grootte van n uit de populatie met teruglegging, en schatten p met de fractie X/n, waar X het aantal personen met eigenschap A in de steekproef is. Dan is X bin(n, p)-verdeeld en heeft verwachting np en variantie np(1 − p). Aangezien Ep (X/n) = p voor alle p is X/n een zuivere schatter. De verwachte kwadratische fout is X p(1 − p) X MSE p; = varp = . n n n Hieruit volgt, onder andere, dat de schatter beter is als p ≈ 0 of p ≈ 1, en het slechtste als p = 21 . De verwachte kwadratische fout hangt niet af van de grootte van de populatie. Door n voldoende groot te kiezen, bijvoorbeeld n ≥ 1000, kunnen we een schatter krijgen met een verwachte kwadratische fout van maximaal (1/4)/1000=1/4000, onafhankelijk van het feit of de populatie uit 800 of een triljoen personen bestaat. Bij de tweede methode nemen we een steekproef ter grootte van n uit de populatie zonder teruglegging, en schatten p met de fractie Y /n, waar Y het aantal personen met eigenschap A in de steekproef is. Dan is Y hyp(N, pN, n)-verdeeld en heeft verwachting np en variantie np(1 − p)(N − n)/(N − 1). Dus de schatter Y /n is eveneens zuiver; de verwachte kwadratische fout is Y Y p(1 − p) N − n MSE p; = varp = . n n n N −1 Dit is kleiner dan MSE(p; X/n), hoewel het verschil te verwaarlozen is als n N . Dit is niet verbazend: het is niet handig al onderzochte personen eventueel nog eens te onderzoeken, maar als n N is de kans dat dit gebeurt te verwaarlozen. Bij de derde methode verdelen we de populatie eerst in een aantal subpopulaties, zogenaamde strata. Dit kan een indeling zijn naar regio, sekse, leeftijd, inkomen, beroep, of naar een andere achtergrondvariabele. Veronderstel dat de gehele populatie en de subpopulaties groottes N en N1 , . . ., Nm bezitten. We trekken nu, voor het gemak van de volgende berekeningen met teruglegging, (Nj /N )n personen uit de j e populatie, een gestratificeerde steekproef, en schatten p met Z/n voor Z het totaal aantal getrokken personen met eigenschap A. Dus Z = Z1 + · · · + Zm voor Zj het aantal getrokken personen met eigenschap A uit de j e populatie. Nu zijn Z1 , . . ., Zm onderling onafhankelijk en bin (Nj /N )n, pj )-verdeeld, met
54
4: Schatters
pj de fractie personen met eigenschap A in de j e populatie. Dan is Ep
Z n
=
m m m 1X 1 X Nj 1 X Ep Zj = Nj pj = p, npj = n j=1 n j=1 N N j=1
m m Z Z 1X 1 X Nj n = varp = 2 MSE p; pj (1 − pj ) varp Zj = 2 n n n j=1 n j=1 N m
=
p(1 − p) 1 X Nj − (pj − p)2 . n n j=1 N
De schatter Z/n is dus ook zuiver, en zijn verwachte kwadratische fout is kleiner of gelijk aan de verwachte kwadratische fout van X/n. Het verschil is vooral de moeite waard als de pj sterk verschillen. Gestratificeerde steekproeftrekking verdient dus als regel de voorkeur, hoewel het in de praktijk meer moeite kan betekenen. Soortgelijke resultaten gelden ook bij trekking zonder teruglegging, mits de strata- en steekproefgroottes aan bepaalde voorwaarden voldoen. Het is echter niet waar dat stratificatie in dit geval altijd tot grotere precisie leidt.
4.3
Maximum Likelihood-Schatters
De “methode van de maximum likelihood-schatters” (Nederlands: methode van de meest aannemelijke schatters) is de meest gebruikte methode om schatters voor een onbekende parameter te vinden. Voordat deze methode in het algemeen wordt gepresenteerd, wordt voor het (eenvoudige) geval van de binomiale verdeling de maximum likelihood-schatter afgeleid in het volgende voorbeeld. Voorbeeld 4.8 (Binomiale verdeling). Veronderstel dat we 10 keer met een onzuivere munt gooien. De kans p op “kop” is bij deze munt niet noodzakelijkerwijze 1/2. Definieer X als het aantal malen “kop” in de 10 worpen. De stochastische variabele X heeft dan een binomiale verdeling met parameters 10 en onbekende p ∈ [0, 1]. Stel dat we 3 maal “kop” werpen. De kans op deze uitkomst is gelijk aan 10 3 Pp (X = 3) = p (1 − p)7 . 3 De kans p is onbekend en moet geschat worden. Welke waarde voor p is nu meest waarschijnlijk?
55
0.00
0.05
0.10
0.15
0.20
0.25
4.3: Maximum Likelihood-Schatters
0.0
0.2
0.4
0.6
0.8
1.0
p Figuur 4.4. De kans Pp (X = 3) als functie van p waar de stochast X binomiaal verdeeld is met parameters 10 en p.
In Figuur 4.4 is de kans Pp (X = 3) getekend als functie van p. We zien dat er precies ´e´en waarde voor p is die deze kans maximaliseert, namelijk de waarde 0.3. Deze waarde voor p kent de grootste kans toe aan de waarneming “3 maal kop”. De schatting pˆ = 0.3 blijkt in deze situatie de maximum likelihood-schatting te zijn. De maximum likelihood-methode vereist de specificatie van de likelihoodfunctie, welke wordt afgeleid uit de kansdichtheid van de waarneming. Hierbij verstaan we onder een kansdichtheid pθ van een stochastische vector X de functie x 7→ Pθ (X =R x) als X discreet verdeeld is en de functie pθ zodanig dat Pθ (X ∈ B) = B pθ (x) dx als X continu verdeeld is.
Definitie 4.9. Zij X een stochastische vector met een kansdichtheid pθ die van een parameter θ ∈ Θ afhangt. De functie θ 7→ L(θ; x): = pθ (x) opgevat als functie van θ ∈ Θ voor vaste x heet de likelihood-functie (Nederlands: aannemelijkheidsfunctie).
Vaak is X = (X1 , . . ., Xn ) een vector met onderling onafhankelijke identiek verdeelde co¨ ordinatenQXi . Dan is de dichtheid van X in n (x1 , . . ., xn ) gelijk aan het product i=1 pθ (xi ) van marginale dichtheden
56
4: Schatters
van de X1 , . . ., Xn . Voor waargenomen waarden (x1 , . . ., xn ) is de likelihoodfunctie gelijk aan θ 7→ L(θ; x1 , . . ., xn ) =
n Y
pθ (xi ),
i=1
waarin nu pθ de (marginale) dichtheid van een enkele Xi weergeeft. De algemene definitie van maximum likelihood-schatters is echter geldig voor een waarnemingsvector van willekeurige vorm, en we geven er daarom de voorkeur aan de waarneming als x te schrijven, in plaats van (x1 , . . ., xn ), en de likelihood-functie als L(θ; x) ≡ pθ (x) . Definitie 4.10. De maximum likelihood-schatting voor θ is die waarde T (x) ∈ Θ die de functie θ 7→ L(θ; x) maximaliseert. De maximum likelihoodschatter (Nederlands: meest aannemelijke schatter) is de bijbehorende schatter T (X). In het geval van een discrete kansverdeling kan de maximum likelihoodschatting worden omschreven als: die waarde van de parameter die de grootste waarschijnlijkheid toekent aan de waargenomen waarde x. We maximaliseren in dat geval immers de kansdichtheid pθ (x) = Pθ (X = x) naar θ voor vaste x (zie Voorbeeld 4.8). Dit is een intu¨ıtief redelijk schattingsprincipe en verklaart de naam. Dit principe moet echter alleen beschouwd worden als een schattingsmethode: maximum likelihood-schatters zijn niet noodzakelijkerwijze de beste schatters, ondanks de mooie naam. Onder een “beste” schatter verstaan we een schatter met een zo klein mogelijke verwachte kwadratische fout. Voorbeeld 4.11 (Homogene verdeling). Zij x1 , . . ., xn een waargenomen steekproef uit de homogene verdeling op het interval [0, θ] waarbij θ > 0 onbekend is. De parameter θ willen we schatten met de maximum likelihoodschatter. Omdat de waargenomen x1 , . . ., xn in het interval [0, θ] liggen, moet gelden dat θ ≥ xi voor i = 1, . . ., n. Hieruit volgt direct dat θ ≥ x(n) , waar x(n) de grootste waargenomen ordestatistiek is. De likelihood-functie voor de waargenomen x1 , . . ., xn is gelijk aan de simultane dichtheid van X1 , . . ., Xn in x1 , . . ., xn , opgevat als functie van θ. Omdat X1 , . . ., Xn onafhankelijk en gelijk verdeeld zijn, is de simultane dichtheid gelijk aan het product van de marginale dichtheden, welke gelijk zijn aan 1/θ op het interval [0, θ] en 0 daarbuiten. De likelihood-functie is daarom gelijk aan θ 7→ L(θ; x1 , . . ., xn ) =
n 1 n Y 1 10≤xi ≤θ = 1x(1) ≥0 1x(n) ≤θ . θ θ i=1
Deze functie van θ is gelijk aan 0 voor θ < x(n) aangezien de indicatorfunctie 1x(n) ≤θ dan gelijk is aan 0. Voor θ ≥ x(n) is de likelihood-functie gelijk aan
4.3: Maximum Likelihood-Schatters
57
de dalende functie θ → 1/θ n . Figuur 4.5 illustreert het verloop van de likelihood-functie (als functie van θ). De likelihood-functie is discontinu in het punt θ = x(n) . In x(n) is de likelihood-functie rechts-continu en tevens maximaal; de maximum likelihood-schatting voor θ is derhalve gelijk aan x(n) en de bijbehorende maximum likelihood-schatter is X(n) .
0
2
4
6
8
10
Figuur 4.5. Realisatie van de likelihood-functie voor een steekproef ter grootte 8 uit de homogene verdeling op [0, 5]. De maximum likelihood-schatting x (n) (de locatie van de piek) is 4.73.
Als g: Θ → H een 1 − 1-duidige functie is met een verzameling H als bereik, dan zouden we het model ook door de parameter η = g(θ) ∈ H kunnen parametriseren in plaats van door θ ∈ Θ. Het volgt direct uit de ˆ de maximum likelihood-schatter voor η is, als θˆ de maxidefinitie dat g(θ) mum likelihood-schatter voor θ is. In overeenstemming hiermee defini¨eren we voor iedere willekeurige functie g de maximum likelihood-schatter voor ˆ g(θ) simpelweg als g(θ). Bij een gegeven model is het uitrekenen van de maximum likelihoodschatter een kwestie van calculus. Vaak geschiedt dit door de likelihoodfunctie te differenti¨eren en de afgeleiden gelijk aan nul te stellen. (Het geval van de homogene verdeling in Voorbeeld 4.11 is hier echter een uitzondering op.) Een trucje dat het rekenwerk beperkt (vooral bij onafhankelijke waarnemingen) is om eerst de logaritme van de likelihood te nemen. Omdat de logaritme een monotone functie is, geldt dat de waarde θˆ de functie θ 7→ L(θ; x) maximaliseert dan en slechts dan als deze waarde de functie θ 7→ log L(θ, x) maximaliseert. (Het gaat om de plaats waar het maximum
58
4: Schatters
wordt aangenomen, niet de grootte van het maximum!) Voor vaste x wordt de log likelihood-functie gegeven door θ 7→ log L(θ; x) = log pθ (x). Als L differentieerbaar is in θ ∈ Θ ⊂ Rk en zijn maximum in een inwendig punt van Θ aanneemt, dan geldt ∂ log L(θ; x)|θ=θˆ = 0, ∂θj
j = 1, . . ., k.
Dit stelsel van likelihood-vergelijkingen is lang niet altijd expliciet oplosbaar. Zonodig gebruikt men iteratietechnieken om stapsgewijs een steeds betere benadering van de oplossing te verkrijgen, uitgaande van een geschikte startwaarde. De vector van parti¨ele afgeleiden (gradi¨ent) van θ 7→ log L(θ; x) wordt de score-functie van het statistische model genoemd. Als de waarneming X = (X1 , . . ., Xn ) is opgebouwd uit onafhankelijke, identiek verdeelde deelwaarnemingen Xi , dan bezitQde likelihood L(θ; x) voor waargenomen x de productstructuur L(θ; x) = i pθ (xi ). De log likelihood is dan θ 7→ log L(θ; x1 , . . ., xn ) = log
n Y
pθ (xi ) =
i=1
n X
log pθ (xi ),
i=1
waarin pθ de (marginale) dichtheid van een enkele Xi weergeeft. De afgeleide van log L, de score-functie, is de som van de score-functies voor de individuele waarnemingen. De likelihood-vergelijkingen hebben dan de vorm n X i=1
met
`˙θ (xi )|θ=θˆ = 0,
`˙θ (xi ) = ∇θ `θ (xi )
en
`θ (xi ) = log pθ (xi ).
De gradi¨ent `˙θ is de “score-functie voor ´e´en waarneming”. In verschillende voorbeelden wordt het maximum van de likelihoodfunctie niet in het inwendige van de parameterverzameling aangenomen. Dan is de maximum likelihood-schatter θˆ meestal niet een stationair punt van de afgeleide van de likelihood-functie maar een randmaximum, en gelden de voorgaande vergelijkingen niet. In weer andere voorbeelden is de likelihood-functie niet overal differentieerbaar (of zelfs continu), en voldoet de maximum likelihood-schatter evenmin aan de likelihood-vergelijkingen. In Voorbeeld 4.11 is deze situatie al ge¨ıllustreerd. Voorts is het mogelijk dat de likelihood-functie meerdere (locale) maxima en ook minima bezit. Dan kunnen de likelihood-vergelijkingen meer dan ´e´en oplossing bezitten. De maximum likelihood-schatter is per definitie het globale maximum van de likelihood-functie.
4.3: Maximum Likelihood-Schatters
59
In Definitie 4.10 wordt de maximum likelihood-schatter gebaseerd op de maximum likelihood-schatting. In de praktijk schrijft men echter vaak direct de (log) likelihood-functie in termen van de stochastische grootheid X in plaats van de realisatie x en leidt op die manier direct de schatter af door deze functie te maximaliseren naar θ. Deze verkorte notatie wordt gehanteerd in de volgende voorbeelden van toepassingen van de maximum likelihood-methode. Voorbeelden waarin de methode wordt toegepast op regressiemodellen zijn te vinden in Hoofdstuk 8. Voorbeeld 4.12 (Alternatieve verdeling). De kansdichtheid van de alternatieve verdeling alt(p) kan worden geschreven als x 7→ px (1 − p)1−x ; voor x = 0 staat hier 1 − p en voor x = 1 staat er p. Voor een steekproef X1 , . . ., Xn uit de alt(p)-verdeling is de log likelihood-functie derhalve p 7→ log L(p; X1 , . . ., Xn ) = log =
n X i=1
n Y
i=1
pXi (1 − p)1−Xi
n X Xi log(1 − p). Xi log p + n − i=1
0
2*10^-6
6*10^-6
10^-5
Neem de parameterverzameling gelijk aan het interval [0, 1]. Als 0 < P n i=1 Xi < n, dan geldt log L(p; X) → −∞ als p ↓ 0 of p ↑ 1, zodat L(p; X) zijn maximum aanneemt op (0, 1). Nulstellen van de afgeleide P naar p geeft ´e´en oplossing; de maximum likelihood-schatter pˆ = X. Als ni=1 Xi gelijk is aan 0 of n, dan heeft L(p; X) een randmaximum in 0 of 1. Ook in deze gevallen kan de maximum likelihood-schatter worden geschreven als pˆ = X.
0.0
0.2
0.4
0.6
0.8
1.0
Figuur 4.6. Een realisatie van de likelihood-functie als functie van p voor een steekproef uit de alternatieve verdeling. De waargenomen waarde is Σn i=1 xi = 5 voor n = 20, en de maximum likelihood-schatting is pˆ = 0.25.
60
4: Schatters
Voorbeeld 4.13 (Binomiale verdeling). Veronderstel dat X binomiaal verdeeld is met bekende parameter n en onbekende parameter p. De log likelihood-functie voor X is gelijk aan n pX (1 − p)n−X p 7→ log L(p; X) = log X n = log + X log p + (n − X) log(1 − p). X De maximum likelihood-schatter voor p is de waarde in [0, 1] die deze functie maximaliseert. Termen die niet van p afhangen hebben wel invloed op de grootte van het maximum, maar niet op de locatie van het maximum. Deze termen mogen we daarom weglaten bij het bepalen van de maximum likelihood-schatter. Het is dus voldoende de functie p 7→ X log p + (n − X) log(1 − p) te maximaliseren naar p ∈ [0, 1]. DezePfunctie is gelijk aan de log likelihoodfunctie P in Voorbeeld 4.12 voor X = ni=1 Xi . Dit is niet merkwaardig aann gezien i=1 Xi bin(n, p)-verdeeld is als X1 , . . ., Xn onderling onafhankelijk en alternatief verdeeld zijn met parameter p. Maximalisatie van de log likelihood-functie naar p gaat dus analoog aan de maximalisatie in Voorbeeld 4.12. De maximum likelihood-schatter voor p is pˆ = X/n. Dit komt in het geval van de onzuivere munt in Voorbeeld 4.8 overeen met pˆ = 0.3. Voorbeeld 4.14 (Exponenti¨ ele verdeling). Veronderstel dat X1 , . . ., Xn een steekproef is uit de exponenti¨ele verdeling met onbekende parameter λ > 0. Dan is de log likelihood-functie voor X1 , . . ., Xn gelijk aan λ 7→ log
n Y
i=1
λe−λXi = n log λ − λ
n X
Xi .
i=1
De parameterruimte voor λ is (0, ∞). Nulstellen van de afgeleide van de log likelihood-functie naar λ en de gevonden vergelijking oplossen naar λ geeft ˆ = 1/X. De tweede afgeleide van de log likelihood-functie naar λ is negatief λ ˆ heeft de likelihood-functie ook daadwerkelijk een voor alle λ > 0, dus in λ maximum. De maximum likelihood-schatter van Eθ Xi kunnen we hieruit afleiden. Definieer de functie g als g(λ) = 1/λ voor λ > 0. Dan geldt EXi = g(λ). De maximum likelihood-schatter voor EXi = 1/λ = g(λ) is daarom gelijk ˆ = 1/λ ˆ = X. aan g(λ) Voorbeeld 4.15 (Verschoven exponenti¨ ele verdeling). De kansdichtheid van een stochastische variabele X met een verschoven exponenti¨ele verdeling is gelijk aan fα,λ (x) = λe−λ(x−α)
voor x ≥ α,
4.3: Maximum Likelihood-Schatters
61
en 0 voor x < α. Hierin is α de verschuivingsparameter en λ de intensiteitsparameter als in de niet verschoven exponenti¨ele verdeling. Veronderstel dat X1 , . . ., Xn een steekproef is uit de verschoven exponenti¨ele verdeling met onbekende parameters α en λ. De likelihood-functie voor deze steekproef is gelijk aan (α, λ) 7→ L(α, λ; X1 , . . ., Xn ) =
n Y
i=1
λe−λ(Xi −α) 1Xi ≥α
= λn e−λ
Pn
i=1
(Xi −α)
1X(1) ≥α .
De likelihood is gelijk aan 0 voor α > X(1) , omdat dan de indicatorfunctie 1X(1) ≥α gelijk aan 0 is. Voor α ≤ X(1) en voor vaste λ > 0 is de likelihoodfunctie stijgend als functie van α en dus maximaal in α = X(1) . De maximum likelihood-schatter voor α is daarom gelijk aan α ˆ = X(1) . Substitueren we deze waarde in de likelihood, en maximaliseren we naar λ op dezelfde manier als in Voorbeeld 4.14, dan vinden we dat de maximum likelihoodˆ = n/Pn (Xi − X(1) ). In dit geval kunnen schatter voor λ gelijk is aan λ i=1 de maximum likelihood-schatters voor de parameters dus in twee stappen ˆ Dat dit inderdaad het globale maworden gevonden, eerst α ˆ en daarna λ. ximum van de likelihood oplevert, wordt ook ge¨ıllustreerd in Figuur 4.7.
l
0.2
0.3 0.4
L
1.2 1.4 1.6 a Figuur 4.7. Een realisatie van de likelihood-functie voor een steekproef uit een verschoven exponenti¨ ele verdeling ter grootte n = 20. De waargenomen waarden zijn x = 5 en x (1) = 1.5. ˆ = 1/3.5. De maximum likelihood-schattingen zijn α ˆ = 1.5 en λ
Voorbeeld 4.16 (Normale verdeling). De log likelihood-functie voor een steekproef X1 , . . ., Xn uit de N (µ, σ 2 )-verdeling wordt gegeven door 2
(µ, σ ) 7→ log
n Y
i=1
√
1 2πσ 2
1
e− 2 (Xi −µ)
2
/σ 2
= − 21 n log 2π − 21 n log σ 2 −
n 1 X (Xi − µ)2 . 2σ 2 i=1
62
4: Schatters
We nemen de natuurlijke parameterruimte voor de parameter θ = (µ, σ 2 ): Θ = R × (0, ∞). De parti¨ele afgeleiden van de log likelihood naar µ en σ 2 zijn n 1X ∂ log L(µ, σ 2 ; X) = 2 (Xi − µ) ∂µ σ i=1 n n 1 X ∂ 2 (Xi − µ)2 . log L(µ, σ ; X) = − + ∂σ 2 2σ 2 2σ 4 i=1
Nulstellen van de eerste vergelijking geeft ´e´en oplossing: µ ˆ = X. In deze waarde voor µ heeft de log likelihood inderdaad een globaal maximum voor iedere σ 2 > 0 aangezien de waarde van de log likelihood naar −∞ gaat voor µ → ±∞. Vervolgens substitueren we µ = µ ˆ in de tweede parti¨ele afgeleide, stellen deze gelijk aan 0 en lossen de likelihood-vergelijking vervolgens op P naar σ 2 . Dit geeft opnieuw ´e´en oplossing: σ ˆ 2 = n−1 ni=1 (Xi − X)2 . Om gelijke reden als hiervoor heeft de log likelihood functie in deze waarde inderdaad een maximum. (Overigens levert het maximaliseren van de log likelihood-functie naar σ in plaats van σ 2 de wortel uit σ ˆ 2 als maximum likelihood-schatter voor σ op.) Om te controleren of de (differentieerbare) log likelihood-functie een maximum heeft in de gevonden oplossing van de likelihood-vergelijkingen, kan ook de Hessiaan-matrix van de log likelihoodfunctie in het punt (ˆ µ, σ ˆ 2 ) berekend worden, welke hier gelijk is aan 1 −nˆ σ2 0 . 0 −n/2 σ ˆ4 Beide eigenwaarden van deze matrix zijn negatief en daarmee heeft de log likelihood een maximum in het punt (ˆ µ, σ ˆ 2 ). De gevonden maximum likelihood-schatter voor (µ, σ 2 ) is gelijk aan
n−1 1X 2 SX (Xi − X)2 = X, n i=1 n n
X,
met 2 SX
n 1 X (Xi − X)2 . = n − 1 i=1
Het steekproefgemiddelde is zuiver voor µ, maar de maximum likelihoodschatter σ ˆ 2 heeft een lichte onzuiverheid (zie Voorbeeld 4.6). Vanwege de kleine onzuiverheid wordt vaak de voorkeur gegeven aan de steekproefvari2 2 antie SX = (n/(n − 1))ˆ σ 2 . De verwachte kwadratische fout van SX is echter 2 2 groter dan die van σ ˆ , en beide verliezen het van (n − 1)/(n + 1) SX in † termen van de verwachte kwadratische fout. Omdat het verschil klein is † Het vereist enig rekenwerk om deze bewering te staven. Stelling 5.25 kan worden gebruikt om dit rekenwerk te vergemakkelijken. Zie Opgave 5.25 in Hoofdstuk 5.
4.3: Maximum Likelihood-Schatters
63
voor grote aantallen waarnemingen, maakt het meestal niet veel uit welke van deze schatters wordt gebruikt. Een ander model wordt verkregen als we µ bekend veronderstellen. Dan is de parameter θ = σ 2 en de parameterverzameling (0, ∞). P We vinden dan n dat de maximum likelihood-schatter van σ 2 gelijk is aan n−1 i=1 (Xi −µ)2 . Merk op dat dit alleen een schatter is als µ bekend mag worden verondersteld! Voorbeeld 4.17 (Normale verdeling met restrictie). Veronderstel dat de waarnemingen X1 , . . ., Xn onafhankelijk en normaal verdeeld zijn met verwachting µ en variantie 1, waarbij bekend is dat µ ≥ 0. Voor x1 , . . ., xn een realisatie van X1 , . . ., Xn , neemt de likelihood-functie op R een absoluut maximum aan in x. Omdat x negatief kan zijn en bekend is dat µ ≥ 0, is x niet de maximum likelihood-schatting. In het geval dat x ≤ 0, neemt de likelihood-functie op de parameterverzameling [0, ∞) een randmaximum aan in 0. De maximum likelihood-schatting is x als deze niet-negatief is en anders 0. De bijbehorende maximum likelihood-schatter is dan X1X≥0 ; X als X ≥ 0 en 0 anders. Een statistisch model en de maximum likelihood-schatter worden bepaald door zowel de vorm van de dichtheid van de waarneming als de definitie van de parameterverzameling! Voorbeeld 4.18 (Gamma-verdeling). Stel dat X1 , . . ., Xn een steekproef is uit de Gamma-verdeling met kansdichtheid pα,λ (x) =
xα−1 λα e−λx . Γ(α)
Hierin zijn α > 0 en λ > 0 de onbekende vorm- en inverse schaalparameter, en Γ de Gamma-functie Z ∞ Γ(α) = sα−1 e−s ds. 0
De log likelihood-functie voor X1 , . . ., Xn is dan gelijk aan (α, λ) 7→ log
n Y X α−1 λα e−λXi i
Γ(α)
i=1
= (α − 1)
n X i=1
log Xi + nα log λ − λ
n X i=1
Xi − n log Γ(α).
De parameterruimte voor θ = (α, λ) nemen we gelijk aan Θ = [0, ∞) × [0, ∞). Om de maximum likelihood-schatters voor α en λ te vinden, bepalen
64
4: Schatters
we de parti¨ele afgeleiden van de log likelihood-functie naar λ en α n
∂ nα X log L(α, λ; X1 , . . ., Xn ) = − Xi , ∂λ λ i=1 n
X ∂ log Xi + n log λ − n log L(α, λ; X1 , . . ., Xn ) = ∂α i=1
R ∞ α−1 s log s e−s ds 0 R . ∞ α−1 −s e ds 0 s
(In de afgeleide naar α hebben we de Gamma-functie α 7→ Γ(α) onder het integraalteken gedifferentieerd en gebruikt dat (∂/∂α)sα = sα log s.) De parti¨ele afgeleiden zijn gelijk aan 0 in de maximum likelihood-schatters ˆ dit geeft twee likelihood-vergelijkingen. Uit de eerste vergelijking (ˆ α, λ); ˆ = α volgt onmiddellijk dat λ ˆ /X. Dit substitueren we in de tweede likelihood-vergelijking. Dit geeft R ∞ α−1 n X s ˆ log s e−s ds log Xi + n log α ˆ − n log X − n 0 R ∞ α−1 = 0. ˆ e−s ds 0 s i=1
Deze vergelijking heeft geen expliciete oplossing voor α ˆ , maar kan numeriek, met een iteratieve methode, worden opgelost wanneer een realisatie van X1 , . . ., Xn is waargenomen. Voor de meeste numerieke algoritmen zijn startwaarden nodig van waaruit gezocht wordt naar een oplossing van de vergelijking. De momentenschattingen kunnen als startwaarden dienen (zie Paragraaf 4.4). De gevonden waarde α ˆ substitueren we vervolgens in de vergelijking ˆ = α/X ˆ te vinden. Om te controleren of de log likelihood-functie λ ˆ om λ in de oplossing ook daadwerkelijk een maximum heeft, moeten we de ˆ berekenen. Als deze beide eigenwaarden van de Hessiaan-matrix in (ˆ α, λ) ˆ ˆ inderdaad de maximum eigenwaarden negatief zijn in (ˆ α, λ), dan is (ˆ α, λ) likelihood-schatter voor (α, λ).
Voorbeeld 4.19 (Toepassing, aantal bacteri¨ en). Bacteri¨ en in vervuild water zijn onmogelijk met het oog of een microscoop te tellen. Om toch een idee te krijgen van de mate van vervuiling maken we een inschatting van het aantal bacteri¨en in een centiliter water. We gaan als volgt te werk. We veronderstellen dat het aantal bacteri¨en in een centiliter vervuild water Poisson-verdeeld is met parameter µ. Om een indicatie te krijgen van het aantal bacteri¨en in het vuile water, willen we µ schatten. We gieten het vuile water in een bak met 1000 liter zuiver water, roeren goed en verdelen het water vervolgens over 1000 kweekbakken. Daarna kijken we in elke kweekbak of zich een kolonie vormt. Is dit het geval, dan zat er tenminste ´e´en bacterie in deze liter; is dit niet het geval, dan was deze liter bacterievrij. Definieer X als het totaal aantal bacteri¨ en in de centiliter vervuild water, P1000 dan kunnen we X schrijven als X = i=1 Xi , waarbij Xi het aantal bacteri¨en is in de ie kweekbak is. De variabelen X1 , . . ., X1000 zijn dan onderling onafhankelijk en Poisson-verdeeld met parameter µ/1000.
4.3: Maximum Likelihood-Schatters
65
We kunnen X1 , . . ., X1000 echter niet waarnemen, maar nemen alleen Y1 , . . ., Y1000 waar, met Yi gedefinieerd door n 0 als zich in de ie bak geen kolonie vormt Yi = 1 anders.
De waarnemingen Yi zijn onafhankelijk en alternatief verdeeld met P (Yi = 0) = P (Xi = 0) = e−µ/1000
en
P (Yi = 1) = 1 − e−µ/1000 .
Definieer p: = P (Yi = 1) = 1 − e−µ/1000 . In Voorbeeld 4.12 is de maximum likelihood-schatter voor de parameter p van de alternatieve verdeling afgeleid.P Gebaseerd op de steekproef Y1 , . . ., Y1000 is deze schatter 1000 gelijk aan pˆ = i=1 Yi /1000. Aangezien p = 1 − e−µ/1000 is µ gelijk aan −1000 log(1 − p) en wordt de maximum likelihood-schatter voor µ gegeven P1000 door µ ˆ = −1000 log(1 − i=1 Yi /1000).
Voorbeeld 4.20 (Toepassing, Poisson-voorraden). In Voorbeeld 2.6 wordt een statistisch model beschreven voor het totaal aantal verkochte exemplaren van een bepaald artikel per week en per filiaal. Men neemt waar X = (X1,1 , X1,2 , . . ., XI,J ), waarbij Xi,j het aantal artikelen is dat verkocht werd in filiaal i in week j. Veronderstel dat X1,1 , . . ., XI,J onderling onafhankelijk zijn en Xi,j Poisson-verdeeld is met onbekende parameter µi . De parameter µi is slechts afhankelijk van het filiaal en niet van de week. De parameters µ1 , . . ., µI schatten we met de maximum likelihood-methode. De log likelihood-functie voor X1,1 , . . ., XI,J is gelijk aan (µ1 , . . ., µI ) 7→
X µ i,j log e−µi i Xi,j ! i=1 j=1
I X J X
=−
I X i=1
Jµi +
I X J X i=1 j=1
Xi,j log µi −
I X J X
log(Xi,j !).
i=1 j=1
We nemen de natuurlijke parameterverzameling (0, ∞)I voor (µ1 , . . ., µI ). PJ Oplossen van de likelihood-vergelijkingen geeft µ ˆ k = J −1 j=1 Xk,j , mits PJ j=1 Xk,j > 0. Het is gemakkelijk na te gaan dat de Hessiaan-matrix in een willekeurig punt (µ1 , . . ., µI ) een diagonaal matrix is met slechts negatieve PJ PJ eigenwaarden wanneer j=1 Xk,j > 0 voor alle k. Als j=1 Xk,j = 0 (hetgeen met positieve kans het geval is), bestaat er feitelijk geen maximum likelihood-schatter van µk , omdat de likelihood-functie in dat geval strikt dalend is en dus geen maximum aanneemt op (0, ∞). Defini¨eren we de Poisson-verdeling met parameter 0 als de in het punt 0 ontaarde kansverdeling en breiden we de parameterverzameling voor µk uit tot [0, ∞) voor PJ iedere k, dan is J −1 j=1 Xk,j de maximum likelihood-schatter voor µk . Als het aantal verkochte artikelen lineair verandert met de weken, kunnen we veronderstellen dat µi,j = µi (1 + βj). Hier nemen we aan dat de
66
4: Schatters
verandering β gelijk is voor alle filialen. In dat geval is de log likelihoodfunctie voor X1,1 , . . ., XI,J gelijk aan (µ1 , . . ., µI , β) 7→
I X J X −µi (1 + βj) + Xi,j log(µi (1 + βj)) − log(Xi,j !) . i=1 j=1
De likelihood-vergelijkingen voor µk en β zijn gelijk aan J X ˆ + Xk,j = 0 −(1 + βj) µ ˆk j=1
I X J X i=1 j=1
−ˆ µi j +
voor k = 1, . . ., I
jXi,j = 0. ˆ 1 + βj
Expliciete oplossingen van deze vergelijkingen zijn er niet, maar de nulpunten van de afgeleiden kunnen met een iteratief algoritme gevonden worden.
* Voorbeeld 4.21 (Autoregressie). De maximum likelihood-methode is niet beperkt tot onafhankelijke waarnemingen. We illustreren dit met een model dat vaak wordt gebruikt voor het analyseren van een variabele die in de tijd varieert, het autoregressieve model: Xi = βXi−1 + ei . Hierin is β een onbekende parameter, en de variabelen e1 , . . ., en zijn nietwaarneembare toevalsfluctuaties, in deze context ook wel “innovaties” genoemd. Dit model lijkt veel op het lineaire regressiemodel zonder intercept, behalve dat de waarneming Xi wordt “verklaard” door regressie op de waarneming Xi−1 . Als we de index i ∈ {1, . . ., n} interpreteren als opeenvolgende momenten in de tijd, dan vindt regressie plaats van Xi op het verleden Xi−1 van de reeks zelf, vandaar de term “autoregressie”. We beschouwen hier het autoregressiemodel van orde 1; een uitbreiding naar regressie op meer dan een variabele in het verleden ligt voor de hand. De volgorde van de datapunten is nu van groot belang en een weergave van de data als een functie in de tijd zinvol. Figuur 4.8 geeft drie mogelijke realisaties (x0 , x1 , . . ., xn ) van de vector (X0 , X1 , . . ., Xn ), als plot van de index i op de horizontale as tegen de waarde xi op de verticale as. Alle drie realisaties starten met x0 = 1, maar zijn daarna gegenereerd volgens het model Xi = βXi−1 + ei met onafhankelijke innovaties ei maar met dezelfde waarde van β. Het statistische probleem is de waarde van β te schatten op basis van een waargenomen realisatie (x0 , x1 , . . ., xn ). We zullen dit oplossen met behulp van de maximum likelihood-methode. We maken de beschrijving van het model volledig door aan te nemen dat X0 verdeeld is volgens een kansdichtheid pX0 en dat de innovaties e1 , . . ., en onafhankelijke, normaal N (0, σ 2 )-verdeelde grootheden
67
-4
-2
0
2
4
4.3: Maximum Likelihood-Schatters
0
10
20
30
40
50
Figuur 4.8. Drie realisaties van de vector (X0 , X1 , . . ., X50 ) verdeeld volgens het autoregressieve model met standaard normale innovaties, x0 = 1 en β = 0.7. Ieder van de drie grafieken is een lineaire interpolatie van de punten {(i, xi ): i = 0, . . ., 50}.
vormen, die onafhankelijk zijn van X0 . De likelihood-functie is de simultane kansdichtheid van de waarnemingsvector X = (X0 , . . ., Xn ). Daar de waarnemingen X0 , X1 , . . ., Xn stochastisch afhankelijk zijn, is de simultane dichtheid niet het product van de marginale dichtheden. We kunnen echter gebruikmaken van de algemene decompositie voor een simultane dichtheid: pX0 ,. . .,Xn (x0 , . . ., xn ) = pX0 (x0 )pX1 |X0 (x1 | x0 )pX2 |X0 ,X1 (x2 | x0 , x1 )× · · · × pXn |X0 ,. . .,Xn−1 (xn | x0 , . . ., xn−1 ). Deze formule geeft een factorisatie van de simultane dichtheid als een product van voorwaardelijke dichtheden, en generaliseert de productformule voor het geval van onafhankelijke waarnemingen. De formule kan worden bewezen door herhaalde toepassing van de formule f X,Y (x, y) = f X (x)f Y |X (y| x). In het autoregressieve model is de voorwaardelijke dichtheid van Xi gegeven X0 = x0 , . . ., Xi−1 = xi−1 gelijk aan de dichtheid van βxi−1 + ei , dat wil zeggen de dichtheid van de normale verdeling met verwachting βxi−1 en variantie var ei = σ 2 . De likelihood-functie heeft derhalve de vorm (β, σ) 7→ L(β, σ; X0 , . . ., Xn ) = pX0 (X0 )
n Y 1 Xi − βXi−1 . φ σ σ i=1
Hierin hebben we de dichtheid van X0 nog niet nader gespecificeerd. Omdat deze dichtheid slechts ´e´en term van de n+1 termen be¨ınvloedt, en n meestal groot is, wordt dit vaak achterwege gelaten. De term pX0 (X0 ) wordt dan weggelaten uit de likelihood-functie, en de analyse wordt “voorwaardelijk de waarde van X0 ” uitgevoerd.
68
4: Schatters
Met deze definitie van de likelihood-functie kan de (voorwaardelijke) maximum likelihood-schatter voor de parameter (β, σ) worden bepaald volgens dezelfde berekeningen als in het lineaire regressiemodel (zie Paragraaf 8.1.1). βˆ minimaliseert de kwadraatPnDe maximum likelihood-schatter 2 som β 7→ i=1 (Xi − βXi−1 ) en is gelijk aan Pn i=1 Xi Xi−1 . βˆ = P n 2 i=1 Xi−1 De maximum likelihood-schatter voor σ 2 is n
1X ˆ i−1 )2 . σ ˆ = (Xi − βX n i=1 2
Afhankelijk van de modellering van de beginwaarneming X0 nemen de maximum likelihood-schatters gebaseerd op de onvoorwaardelijke likelihoodfunctie een iets andere vorm aan. * Voorbeeld 4.22 (Onbekende dichtheid). Veronderstel dat X1 , . . ., Xn een steekproef is uit een verdeling met een onbekende kansdichtheid f . In de voorgaande voorbeelden waren de kansverdelingen bekend op een eindigdimensionale parameter na, bijvoorbeeld de exponenti¨ele verdeling met onbekende parameter λ. In dit voorbeeld veronderstellen we dat er helemaal niets over de dichtheid f bekend is. Om f te schatten zullen we opnieuw de maximum likelihood-methode gebruiken. De log likelihoodfunctie voor de steekproef X1 , . . ., Xn wordt gegeven door f 7→ log L(f ; X1 , . . ., Xn ) = log
n Y
i=1
f (Xi ) =
n X
log f (Xi ).
i=1
Deze functie moet gemaximaliseerd worden naar de kansdichtheid f over de verzameling van R alle kansdichtheden, dat is over alle niet-negatieve functies f zodanig dat f (x)dx = 1. Dit maximum bestaat echter niet. Om dit in te zien beperken we ons tot kansdichtheden hε met ε > 0 van de vorm hε (x) =
n X 1 1 (x), nε [Xi −ε/2,Xi +ε/2] i=1
dat wil zeggen dichtheden die een hoogte 1/(nε) hebben op de intervallen [Xi − ε/2, Xi + ε/2] voor i = 1, . . ., n en daarbuiten nul zijn, zie Figuur 4.9. Als de kansverdeling waaruit de steekproef genomen is continu is, dan zullen deze intervallen elkaar niet overlappen mits ε maar klein genoeg is, en is Z ∞ 1 hε (x)dx = nε = 1. nε −∞
69
0.0
0.2
0.4
0.6
0.8
1.0
1.2
4.3: Maximum Likelihood-Schatters
−2
−1
0
1
Figuur 4.9. De dichtheid hε op basis van een steekproef ter grootte 10 uit de standaard normale verdeling met ε = 0.1.
De restrictie van de log likelihood-functie tot de dichtheden hε wordt dan gegeven door ε 7→
n X
log hε (Xi ) =
n X i=1
i=1
log
1 = −n log nε. nε
Voor ε ↓ 0, geldt dat log L(ε; X1 , . . ., Xn ) → ∞. Dit betekent dat er binnen de dichtheden van de vorm hε met ε > 0 geen dichtheid bestaat die de log likelihood-functie maximaliseert. Aangezien de limiet limε↓0 hε niet bevat is in de verzameling kansdichtheden bestaat de maximum likelihood-schatter voor dit probleem niet. We kunnen wel het probleem veranderen in een probleem dat wel een oplossing bezit. In plaats van te zoeken naar een dichtheid, zoeken we naar een verdelingsfunctie F ; we schatten dus F , niet f . Als log likelihood nemen we de zogenaamde empirische log likelihood F 7→
n X i=1
log F {Xi }.
Deze functie is verkregen door f (Xi ) in de log likelihood-functie te vervangen door F {Xi }, de sprong van F in het punt Xi . We zoeken nu naar de verdelingsfunctie die de empirische log likelihood-functie maximaliseert over alle kansverdelingen. Dit maximum wordt bereikt in de zogenaamde empirische verdelingsfunctie F n
#{i: Xi ≤ x} 1X 1Xi ≤x = . Fˆ (x) = F(x) = n i=1 n Deze verdelingsfunctie is een sprongfunctie met sprongen ter grootte 1/n in de waarnemingen X1 , . . ., Xn (zie Figuur 4.10). De bijbehorende verdeling
70
4: Schatters
1.0 0.8 0.6 0.4 0.2 0.0
0.0
0.2
0.4
0.6
0.8
1.0
is discreet met puntmassa’s in de waarnemingen. Zien we een puntmassa als een dichtheid met een oneindig hoge en smalle piek, dan is F in zekere zin de limiet van hε als ε ↓ 0.
−4
−2
0
2
4
−4
−2
0
2
4
Figuur 4.10. De empirische verdelingsfunctie (stapfunctie) op basis van een steekproef ter grootte 10 (links) en 30 (rechts) uit de standaard normale verdeling tezamen met verdelingsfunctie van de standaard normale verdeling.
* Voorbeeld 4.23 (Toepassing, samengesteld Poisson-proces). Een ziektekostenverzekeringsmaatschappij betaalt de gemaakte ziektekosten uit aan haar klanten en zorgverleners. De maatschappij wil graag aan het begin van de maand een indruk hebben hoeveel geld zij voor die maand opzij moet zetten om alle gehonoreerde claims voor die maand uit te kunnen betalen. Daartoe wordt een dataset samengesteld met alle uitbetalingen van de afgelopen 120 maanden. Het aantal claims dat uitbetaald wordt, varieert van maand tot maand en is afhankelijk van het aantal klanten dat de verzekeringsmaatschappij heeft in de desbetreffende maand. We defini¨eren Ni als het aantal gehonoreerde claims in maand i en veronderstellen dat N1 , . . ., N120 onderling onafhankelijke stochastische grootheden zijn met Ni ∼ Poisson(µMi ),
i = 1, . . ., 120
waar µ > 0 een onbekende parameter is en Mi het aantal klanten dat de maatschappij aan het begin van maand i heeft. De aantallen Mi worden als bekend en niet stochastisch verondersteld. De hoogte van de j e claim in maand i noteren we met Ci,j . Het uitgePNi Ci,j . We veronderstellen keerde bedrag in maand i is dan gelijk aan j=1 dat de hoogte van de uitbetaalde schadeclaims onderling onafhankelijke stochastische grootheden zijn met Ci,j ∼ exp(θ),
i = 1, . . ., 120, j = 1, . . ., Ni
4.3: Maximum Likelihood-Schatters
71
waar θ > 0 een onbekende parameter is. Bovendien veronderstellen we dat de hoogtes van de claims Ci,j onafhankelijk zijn van de aantallen claims Ni . Met bovenstaande modelaannames is het mogelijk het verwachte te honoreren bedrag voor de komende maand te bepalen. Wanneer bekend zou zijn dat het aantal claims voor de komende maand gelijk is aan n, dan is het verwachte te honoreren bedrag gelijk aan Eθ
n X
Cj =
j=1
n θ
waar C1 , . . ., Cn de claimgroottes zijn in de komende maand. Het totaal aantal claims is echter onbekend en volgt de Poisson(µM )-verdeling met M het aantal klanten voor de komende maand. Het verwachte uit te keren bedrag wordt dan Eµ,θ
N N µM X Cj |N = Eµ Cj = E µ Eθ = . θ θ j=1 j=1
N X
PN In bovenstaande uitdrukking wordt eerst verwachting van j=1 Cj berekend bij gegeven N , dit levert N/θ en vervolgens wordt de verwachting van N/θ genomen. Wanneer θ en µ bekend zijn, is het verwachte uit te keren bedrag voor de komende maand dus gelijk aan µM/θ. De parameters µ > 0 en θ > 0 zijn onbekend en moeten worden geschat op basis van de gegevens in de dataset. We doen dit met behulp van de maximum likelihood-methode. Om de likelihood-functie af te leiden bepalen we eerst de simultane dichtheid van (C1 , . . ., CN , N ), de waarnemingen voor een maand. Deze dichtheid noteren we met fθ,µ , fθ,µ (c1 , . . ., cN , N = n) = fθ,µ (c1 , . . ., cn |N = n)Pµ (N = n) n Y (µM )n θe−θcj e−µM = . n! j=1 We veronderstellen dat de waarnemingen van verschillende maanden en jaren onderling onafhankelijk zijn. De log likelihood-functie voor alle waarnemingen in de dataset van de afgelopen 10 jaar is dan gelijk aan de logaritme van het product van de simultane kansdichtheden van de verschillende maanden: (µ, θ) 7→ log =
120 X i=1
Ni 120 Y Y i=1
log
(µMi )Ni θe−θCi,j e−µMi Ni ! j=1
Ni Y
j=1
θe
−θCi,j
+
(µMi )Ni log e−µMi . Ni ! i=1
120 X
72
4: Schatters
De eerste van de twee termen is niet afhankelijk van de parameter µ en de tweede term bevat de parameter θ niet. Om de maximum likelihoodschatters van θ en µ te bepalen, volstaat het dus om de eerste term naar θ te maximaliseren en de tweede term naar µ. Dit geeft P120 i=1 Ni ˆ θ = P120 P Ni i=1 j=1 Ci,j
P120
i=1 µ ˆ = P120
en
i=1
Ni Mi
.
De maximum likelihood-schatter van het uit te keren bedrag is gelijk aan µ ˆ M =M θˆ
P120 PNi i=1
j=1
P120
i=1
Ci,j
Mi
.
In dit voorbeeld veronderstellen we dat de parameters µ en θ voor iedere maand en ieder jaar gelijk zijn. Deze aannames zijn aanvechtbaar. Zo zal het uitgekeerde bedrag gemiddeld genomen toenemen door inflatie en het aantal claims in de winter groter zijn dan in de zomermaanden. Het valt te overwegen de parameters afhankelijk te maken van jaar en maand. Zo kunnen we in plaats van ´e´en parameter µ twaalf parameters µ1 , . . ., µ12 nemen voor de verschillende maanden. Door het aantal onbekende parameters in het model te vergroten, zullen de schattingen echter minder nauwkeurig worden.
* 4.3.1
Fisher-Scoring
Hoewel de voorgaande voorbeelden van toepassing van de maximum likelihood-methode een andere indruk zouden kunnen geven, is het vaak niet mogelijk de maximum likelihood-schatter door een expliciete formule in de data uit te drukken (zie Voorbeeld 4.18). In zo’n geval is het noodzakelijk een numerieke benaderingsmethode toe te passen. Bij gegeven waarneming x is de likelihood-functie θ 7→ L(θ; x) een “gewone” functie van de parameter θ, en we zoeken naar de waarde van θ waar deze functie maximaal is. Een aangepaste versie van de methode van Newton-Raphson staat in de statistiek bekend als Fisher-scoring. Deze paragraaf bevat een korte uiteenzetting van deze numerieke methoden. In de meeste gevallen is de gezochte waarde θˆ een stationair punt van de afgeleide van de log likelihood-functie naar θ. We bespreken daarom het ˙ vinden van een nulpunt θˆ van de functie θ 7→ Λ(θ; x), waarin Λ˙ de vector van parti¨ele afgeleiden van de log likelihood-functie θ 7→ Λ(θ; x) = log L(θ; x) is. Het idee van de methode van Newton-Raphson is om uitgaande van een redelijke “begin schatting” θ˜0 voor θˆ de functie Λ˙ te vervangen door de lineaire benadering ˙ ˙ θ˜0 ; x) + Λ( ¨ θ˜0 ; x)(θ − θ˜0 ). Λ(θ; x) ≈ Λ(
4.3: Maximum Likelihood-Schatters
73
¨ x) de matrix met de tweede afgeleide van de log likelihoodHierin is Λ(θ; functie naar de parameter. In plaats van te zoeken naar de waarde van θ ˙ waarvoor de vergelijking Λ(θ; x) gelijk aan 0 is, richten we ons nu op het ˙ θ˜0 ; x) + Λ( ¨ θ˜0 ; x)(θ − θ˜0 ) = 0. Het nulpunt oplossen van de vergelijking Λ( van deze tweede vergelijking is gelijk aan (4.1)
¨ θ˜0 ; x)−1 Λ( ˙ θ˜0 ; x). θ˜1 = θ˜0 − Λ(
Omdat de lineaire benadering niet exact is, zal de waarde θ˜1 meestal niet het gezochte nulpunt θˆ zijn. We verwachten echter dat de gevonden waarde θ˜1 een betere benadering voor θˆ zal zijn dan de startwaarde θ˜0 . We nemen vervolgens θ˜1 als startwaarde en berekenen een derde waarde, etc. Dit geeft een rij benaderingen θ˜0 , θ˜1 , θ˜2 , . . . die onder bepaalde voorwaarden naar een nulpunt θˆ convergeert. De convergentie is verzekerd als de startwaarde θ˜0 voldoende dicht bij de doelwaarde θˆ ligt, en de functie Λ˙ voldoende glad is, maar deze garantie is in de praktijk natuurlijk niet te verkrijgen. Verschillende modificaties van het algoritme kunnen de convergentie betrouwbaarder maken. Bezit de log likelihood echter meerdere locale maxima, en/of minima, dan is voorzichtigheid geboden, omdat de convergentie ook kan plaatsvinden naar een ander nulpunt van Λ˙ (corresponderend met een locaal maximum of minimum), naast de mogelijkheid van divergentie van de rij θ˜0 , θ˜1 , θ˜2 , . . .. ˆ x) van ¨ θ; We zullen in Paragraaf 7.2 zien dat de tweede afgeleide Λ( de log likelihood-functie ge¨evalueerd in de maximum likelihood-schatter een speciale betekenis bezit. Deze tweede afgeleide wordt aangeduid als de waargenomen informatie, en is ongeveer gelijk aan de Fisher-informatie (zie Lemma 6.9). In plaats van de tweede afgeleide gebruikt men ook wel een andere matrix in het Newton-Raphson algoritme (4.1). Wordt de Fisherinformatie gebruikt, dan staat het algoritme bekend als Fisher-scoring. Dit is vooral interessant als de Fisher-informatie analytisch kan worden berekend. * 4.3.2
Het EM-Algoritme
Naast het Fisher-scoring algoritme is het Expectation-Maximization Algoritme, afgekort EM algoritme, een veel gebruikt algemeen algoritme om maximum likelihood-schatters te berekenen. Het algoritme is bedoeld voor toepassingen waarbij de beoogde data slechts gedeeltelijk worden waargenomen. In veel praktische toepassingen ontstaat een dergelijk missing data model op een natuurlijke wijze, maar het algoritme kan ook worden toegepast door de waargenomen waarnemingen op te vatten als deel van een denkbeeldige “volledige waarneming” (een voorbeeld wordt gegeven in Voorbeeld 4.25). Zoals gebruikelijk noteren we de waarneming als X, maar we veronderstellen dat we “slechts” X waarnemen, in plaats van de “volledige data” (X, Y ), die in theorie ook beschikbaar zou kunnen zijn. Als (x, y) 7→ pθ (x, y)
74
4: Schatters
een kansdichtheid van de vector (X, Y ) is, dan verkrijgen we de dichtheid van X door te marginaliseren: Z pθ (x) = pθ (x, y) dy. (In het geval van discreet verdeelde waarnemingen nemen we een som in plaats van een integraal.) De maximum likelihood-schatter voor θ gebaseerd op de waarneming X maximaliseert de likelihood-functie θ 7→ pθ (X). Als de integraal in het voorgaande display expliciet kan worden ge¨evalueerd, dan is het berekenen van de maximum likelihood-schatter een standaard probleem, dat bijvoorbeeld analytisch of met een iteratief algoritme kan worden opgelost. Als de integraal niet analytisch kan worden ge¨evalueerd, dan vereist de berekening van de likelihood in iedere gegeven waarde θ een numerieke benadering van de integraal, en vereist het vinden van de maximum likelihood-schatter mogelijk vele van zulke benaderingen. Het EM-algoritme probeert deze benaderingen te ontwijken. Zouden we de beschikking hebben gehad over de “volledige data” (X, Y ), dan zouden we de maximum likelihood-schatter op basis van (X, Y ) hebben bepaald. Deze schatter, die meestal beter zal zijn dan de maximum likelihood-schatter gebaseerd op alleen X, is het punt van maximum van de log likelihood-functie θ 7→ log pθ (X, Y ), welke waarschijnlijk wel gemakkelijk te evalueren is. Een natuurlijke procedure als Y niet beschikbaar is, is om deze log likelihood-functie te vervangen door zijn voorwaardelijke verwachting (4.2) θ 7→ Eθ0 log pθ (X, Y )| X . Dit is de voorwaardelijke verwachting van de log likelihood voor de volledige data gegeven de waarneming X. Het idee is om de gewone log likelihood te vervangen door de functie (4.2), en het punt van maximum van deze laatste te bepalen. Helaas zal de verwachte waarde in (4.2) meestal afhangen van de ware parameter θ0 , welke om deze reden is meegegeven als subscript van de verwachtingsoperator Eθ0 . Omdat de ware waarde van θ niet bekend is, is de functie in het display niet bruikbaar als basis voor een schattingsmethode. Het EM-algoritme lost dit probleem op door iteratie. Gegeven een geschikt gekozen eerste gooi θ˜0 naar de ware waarde van θ, bepalen we een schatter θ˜1 door het maximaliseren van de criterium functie in (4.2). Vervolgens vervangen we θ˜0 in Eθ˜0 door θ˜1 , maximaliseren het nieuwe criterium, etc. Initialiseer θ˜0 . E-stap: gegeven θ˜i bereken de functie θ 7→ Eθ˜i log pθ (X, Y )| X = x .
M-stap: definieer θ˜i+1 als het punt van maximum van deze functie.
4.3: Maximum Likelihood-Schatters
75
Het EM-algoritme geeft een rij waarden θ˜0 , θ˜1 , . . ., en we hopen dat θ˜i voor toenemende i een steeds betere benadering voor de onbekende maximum likelihood-schatter is. De voorgaande beschrijving wekt de indruk dat het resultaat van het EM-algoritme een nieuw type schatter is. Dit is echter niet het geval, want als de rij θ˜0 , θ˜1 , . . . gegenereerd volgens het EM-algoritme naar wens convergeert naar een limiet, dan is deze limiet precies de maximum likelihoodschatter gebaseerd op de waarneming X. Onder regulariteitsvoorwaarden geldt namelijk dat, voor iedere i, pθ˜i+1 (X) ≥ pθ˜i (X).
(4.3)
(zie het volgende lemma). De iteraties van het EM-algoritme leveren dus een steeds grotere waarde voor de likelihood-functie van de waarneming X. Als het algoritme “naar wens” werkt, dan zullen de waarden pθ˜i (X) uiteindelijk naar het maximum van de likelihood stijgen, en θ˜i zal convergeren naar de maximum likelihood-schatter. Helaas is een dergelijke convergentie in het algemeen niet gegarandeerd, en dient per geval te worden beoordeeld. De rij θ˜i kan bijvoorbeeld naar een locaal maximum convergeren. Evenmin is de uitvoering van de twee stappen van het algoritme noodzakelijkerwijze eenvoudig. Lemma 4.24. De rij θ˜0 , θ˜1 , θ˜2 , . . . gegenereerd volgens het EM-algoritme geeft een stijgende rij likelihood-waarden pθ˜0 (X), pθ˜1 (X), pθ˜2 (X), . . .. Bewijs. De dichtheid pθ van (X, Y ) kan worden gefactoriseerd als Y |X
pθ (x, y) = pθ
(y| x)pθ (x).
De logaritme verandert dit product in een som, en dus geldt dat Y |X Eθ˜i log pθ (X, Y )| X = Eθ˜i log pθ (Y | X)| X + log pθ (X).
Omdat de waarde θ˜i+1 deze functie over θ maximaliseert, is deze uitdrukking in θ = θ˜i+1 groter dan in θ = θ˜i , Eθ˜i log pθ˜i+1 (X, Y )| X ≥ Eθ˜i log pθ˜i (X, Y )| X .
Y |X Als we kunnen laten zien dat Eθ˜i log pθ (Y | X)| X kleiner is in θ = θ˜i+1 dan in θ = θ˜i , dan moet voor log pθ (X) het omgekeerde gelden (en moet het verschil door deze tweede term worden goedgemaakt), en dan volgt daaruit dat (4.3) geldt. Het is dus voldoende te laten zien dat Y |X Y |X Eθ˜i log pθ˜ (Y | X)| X ≤ Eθ˜i log pθ˜ (Y | X)| X . i+1
i
R
Deze ongelijkheid is van de vorm log(q/p) dP ≤ 0 voor p en q de voorwaardelijke dichtheid van Y gegeven X onder, respectievelijk, θ˜i en θ˜i+1 ,
76
4: Schatters
en P de kansmaat behorende bij de dichtheid p. Omdat log x ≤ x − 1 voor iedere x ≥ 0, geldt voor ieder paar kansdichtheden p en q dat Z Z Z q(x) dx − 1 ≤ 0. log(q/p) dP ≤ (q/p − 1) dP = p(x)>0
Dit impliceert het voorgaande display, waarmee het bewijs is voltooid. Voorbeeld 4.25 (Mengsel verdelingen). Veronderstel dat een aantal objecten of individuen in principe gegroepeerd kan worden in min of meer homogene clusters. De cluster labels zelf nemen we helaas niet waar, maar in plaats daarvan meten we voor ieder object een vector xi . Op grond van de waarnemingen x1 , . . ., xn willen we de clustering van de objecten vinden. We zouden kunnen aannemen dat iedere waarneming xi de realisatie van een stochastische vector Xi is, met kansdichtheid fj als het object tot het j e cluster behoort. De kwalificatie “min of meer homogeen” in de voorgaande alinea kunnen we dan zo opvatten dat de kansdichtheden f1 , . . ., fk voor de verschillende clusters weinig overlap vertonen. We zullen aannemen dat het aantal clusters k bekend is, hoewel we dit ook met behulp van de data zouden kunnen bepalen. E´en mogelijkheid om de clusters te bepalen is om de likelihood k Y Y
fj (Xi )
j=1 i∈Ij
te maximaliseren over alle partities (I1 , . . ., Ik ) van {1, . . ., n} in k deelverzamelingen en over alle onbekende parameters in de dichtheden fj . De partitie geeft dan de clustering. Nemen we bijvoorbeeld voor fj de normale dichtheid met verwachtingsvector µj , dan leidt dit tot k-means clustering: de beste klasse-indeling wordt gegeven door de partitie die k X X kXi − µj k2 min (µ1 ,. . .,µk )∈Rk j=1 i∈I j
minimaliseert. Dit is computationeel geen eenvoudig probleem, maar de clusters kunnen worden benaderd door een iteratief algoritme. Een andere mogelijkheid is om aan te nemen dat ieder object aselect is toegewezen aan ´e´en van de clusters (door “de natuur”). We kunnen dan spreken over een stochastische vector (C1 , . . ., Cn ), welke de cluster labels geeft (Ci = j als het ie object tot cluster j behoort), en vatten de dichtheid fj op als de voorwaardelijke kansdichtheid van Xi gegeven dat Ci = j. De klassenvector (C1 , . . ., Cn ) wordt niet waargenomen. Als we aannemen dat (C1 , X1 ), . . ., (Cn , Xn ) onafhankelijke identiek verdeelde vectoren zijn met P(Ci = j) = pj voor j = 1, . . ., k voor alle i, dan kunnen we de maximum likelihood-schatter voor de parameters p = (p1 , . . ., pk ) en de onbekende parameters in f = (f1 , . . ., fk ) bepalen met het EM algoritme.
4.3: Maximum Likelihood-Schatters
77
De volledige data bestaat uit (C1 , X1 ), . . ., (Cn , Xn ). De corresponderende likelihood-functie is te schrijven als (p, f ) 7→
n X k Y
i=1 j=1
pj fj (Xi )1{Ci =j} =
n Y k Y
pj fj (Xi )
i=1 j=1
1{Ci =j}
.
De E-stap van het EM-algoritme is daarom het berekenen van n Y k Y 1{Ci =j} Ep, p f (X ) | X , . . ., X log ˜ j j i 1 n ˜f i=1 j=1
=
n X k X i=1 j=1
. log p + log f (X ) 1{C = j}| X Ep, ˜ j j i i i ˜f
Met behulp van de regel van Bayes vinden we de voorwaardelijke kansP dichtheid van Ci gegeven Xi als P(Ci = j| Xi = x) = pj fj (x)/ c pc fc (x). De uitdrukking in het voorgaande display is derhalve gelijk aan k X n X
k X n X p˜j f˜j (Xi ) p˜j f˜j (Xi ) log pj P + log fj (Xi ) P . ˜c f˜c (Xi ) j=1 i=1 ˜c f˜c (Xi ) cp cp j=1 i=1
In de M-stap van het EM-algoritme maximaliseren we deze uitdrukking over p en f . Voor de maximalisatie over p is alleen de eerste term van belang. Argumenten uit de calculus laten zien dat het maximum wordt aangenomen voor n 1 X p˜j f˜j (Xi ) . pj = P n p˜c f˜c (Xi ) i=1
c
(Vergelijk de berekening in Opgave 4.15.) Voor de maximalisatie over f is alleen de tweede term van belang. Bovendien maximaliseren we ieder van de j termen afzonderlijk over fj als de parameters f1 , . . ., fk onafhankelijk van elkaar vari¨eren: fj maximaliseert in dat geval fj 7→
n X
p˜j f˜j (Xi ) log fj (Xi ) P . ˜c f˜c (Xi ) cp i=1
Kiezen we voor fj bijvoorbeeld de normale dichtheid met verwachtingsvector µj , zodat log fj (x) op een constante na gelijk is aan − 12 kx − µj k2 , en maximaliseren we naar µj , dan vinden we Pn p˜j f˜j (Xi ) i=1 αij Xi µj = P , αij = P . n ˜c f˜c (Xi ) i=1 αij cp Dit is een gewogen gemiddelde van de waarnemingen Xi , waarbij de gewichten gelijk zijn aan de voorwaardelijke kans αij = Pp, ˜ f˜(Ci = j|Xi ) dat het ie object tot de j e klasse behoort, berekend volgens de huidige
78
4: Schatters
schatting (˜ p, f˜) van de parameters. Deze updatingformules itereren we nu herhaaldelijk totdat het resultaat nog nauwelijks wijzigt. Uit de maximum likelihood-schattingen van de parameters vinden we ook een maximum likelihood-schatting van de kans Pp,f (Ci = j| Xi ) dat het ie object tot cluster j behoort. We zouden het object kunnen toewijzen aan het cluster waarvoor deze kans het grootst is.
4.4
Momentenschatters
De methode van de momenten is een alternatief voor de maximum likelihood-methode. Omdat de momentenmethode vaak niet de volledige informatie uit het statistische model gebruikt, zijn momentenschatters vaak minder effici¨ent dan maximum likelihood-schatters. Aan de andere kant is de methode soms makkelijker te implementeren. Bovendien vereist de methode alleen de theoretische vorm van de momenten en niet de gehele kansverdeling van de waarnemingen. Aangezien deze momenten vaak gemakkelijker op een realistische manier zijn te modelleren dan de hele kansverdeling, kan dit een groot voordeel zijn. Het gebruik van een verkeerd model om schatters te construeren kan daardoor worden voorkomen. Veronderstel dat X een stochastische variabele is met een verdeling die bekend is op een parameter θ na. Het j e moment van X is gedefinieerd als Eθ (X j ), mits deze verwachting bestaat. Op basis van onderling onafhankelijke en identiek verdeelde variabelen X1 , . . ., Xn uit dezelfde verdeling kanPhet j e moment geschat worden met het j e steekproefmoment: n X j = n−1 i=1 Xij . Dat dit een goede schatter is voor Eθ (X j ) volgt uit de wet van de grote aantallen. De momentenschatter voor θ is die waarde θˆ waarvoor het j e moment overeenkomt met het j e steekproefmoment: Eθˆ(X j ) = X. In de praktijk geven we de voorkeur aan de momentenschatter die gevonden wordt door j zo klein mogelijk te nemen. Voor een eendimensionale parameter θ volstaat j = 1, mits de verwachtingswaarde van de marginale verdeling afhangt van θ. Wanneer het eerste moment niet afhangt van θ, wordt j = 2 gekozen, etc. Indien θ meerdimensionaal is, zijn er meerdere vergelijkingen nodig om een unieke oplossing voor θˆ te krijgen. In dat geval wordt de momentenschatter θˆ opgelost uit de vergelijkingen voor j = 1, . . ., k met k het kleinste gehele getal waarvoor het stelsel vergelijkingen een unieke oplossing bezit. De momentenschatter voor g(θ) met g: Θ → H een functie ˆ met θˆ de momentenschatter voor θ. met bereik H is gedefinieerd als g(θ)
4.4: Momentenschatters
79
Voorbeeld 4.26 (Exponenti¨ ele verdeling). Veronderstel dat X1 , . . ., Xn een steekproef is uit een exponenti¨ele verdeling met onbekende parameter λ. Dan is Eλ Xi = 1/λ. De momentenschatter van λ wordt nu gevonden ˆ op te lossen naar λ. ˆ Dit geeft λ ˆ = 1/X als door de vergelijking X = 1/λ momentenschatter voor λ. Deze schatter is ook de maximum likelihoodschatter voor λ (zie Voorbeeld 4.14). Voorbeeld 4.27 (Homogene verdeling). Veronderstel dat X1 , . . ., Xn een steekproef uit de hom[0, θ]-verdeling is met onbekende parameter θ. Dan is Eθ Xi = θ/2 en de momentenschatter voor θ is gelijk aan θˆ = 2X. De maximum likelihood-schatter voor θ is gelijk aan X(n) (zie Voorbeeld 4.11). In Voorbeeld 4.5 hebben we gezien dat de verwachte kwadratische fout van X(n) kleiner is dan die van 2X. Onze voorkeur gaat hier dus uit naar de maximum likelihood-schatter. Voorbeeld 4.28 (Normale verdeling). Veronderstel dat X1 , . . ., Xn een steekproef uit de N(0,σ 2 )-verdeling is met onbekende parameter σ 2 > 0. Dan is Eσ2 Xi = 0 en dus is het eerste moment niet bruikbaar voor het bepalen van de momentenschatter voor σ 2 . Het tweede moment van Xi is gelijk aan Eσ2 Xi2 = σ 2 . De momentenschatter voor σ 2 is dan gelijk aan σ ˆ 2 = X 2 . Als de verwachting van Xi onbekend of ongelijk aan nul was geweest, dan hadden we een andere momentenschatter voor σ 2 gevonden (zie Voorbeeld 4.30). Voorbeeld 4.29 (Gamma-verdeling). Veronderstel dat X1 , . . ., Xn de gamma-verdeling met onbekende vorm- en inverse schaalparameter α en λ hebben. Dan is Eα,λ Xi = α/λ en varα,λ Xi = α/λ2 , en dus is het tweede moment gelijk aan Eα,λ Xi2 = varα,λ Xi + (Eα,λ Xi )2 = α(1 + α)/λ2 . De momentenschatters voor α en λ worden gevonden uit het oplossen van de volgende twee vergelijkingen ˆ=X Eα, ˆ /λ ˆ Xi = α ˆλ 2 ˆ2 = X 2 Eα, ˆ (1 + α ˆ )/λ ˆ Xi = α ˆλ
ˆ Dit geeft naar α ˆ en λ. α ˆ=
(X)2 X2
−
(X)2
en
ˆ= λ
X X2
− (X)2
.
Omdat er geen expliciete uitdrukkingen van de maximum likelihoodschatters bekend zijn, kan de verwachte kwadratische fout niet worden bepaald. Om toch een keuze te maken tussen de twee schatters op basis van hun prestatie (zuiverheid en variantie) kan een simulatie studie worden uitgevoerd als staat beschreven in Paragraaf 4.2.
80
4: Schatters
Voorbeeld 4.30 (Verwachting en variantie). Zij X1 , . . ., Xn een steekproef met verwachting µ en variantie σ 2 . Het oplossen van µ ˆ en σ ˆ 2 uit de vergelijkingen Eµˆ,ˆσ2 Xi = µ ˆ = X, Eµˆ,ˆσ2 Xi2 = µ ˆ2 + σ ˆ2 = X 2, geeft de momentenschatters voor µ ˆ en σ ˆ2: n
σ ˆ 2 = X 2 − (X)2 =
µ ˆ = X,
1X (Xi − X)2 . n i=1
Als de onderliggende verdeling N (µ, σ 2 ) is, dan zijn bovenstaande momentenschatters gelijk aan de maximum likelihood-schatters voor µ en σ 2 (zie Voorbeeld 4.16).
* 4.4.1
Gegeneraliseerde Momentenschatters
De methode van de momentenschatters kan op verschillende manieren worden P gegeneraliseerd. Zo kunnen we in plaats van Pn de steekproefmomenten n n−1 i=1 Xij , gemiddelden van het type n−1 i=1 g(Xi ) gebruiken voor geschikt gekozen functies g. Het is verder niet nodig dat de waarneming X een steekproef is, en we kunnen ook algemene functies van X gebruiken in plaats van gemiddelden. De essentie is het oplossen van een stelsel vergelijkingen van het type g(X) = e(θ) voor geschikt gekozen functies en e(θ) = Eθ g(X). Is de parameter k-dimensionaal, dan ligt het voor de hand om k vergelijkingen te gebruiken voor de definitie van de momentenschatter. De vraag rijst dan: welke functies? In feite reduceert de methode der momenten de waarnemingen eerst tot de waarden van k functies van die waarnemingen, en de momentenschatter is gebaseerd op deze gereduceerde data. Als de oorspronkelijke data niet uit de k waarden zijn te reconstrueren, leidt deze reductie tot een verlies van informatie. De keuze van de gebruikte functies is daarom van belang voor de effici¨entie van de resulterende schatters. Een mogelijke uitweg voor dit verlies aan informatie is om meer momenten te gebruiken dan onbekende parameters. Omdat dit leidt tot meer vergelijkingen dan onbekenden, zal het in dat geval meestal niet mogelijk zijn een parameterwaarde te vinden waarvoor de steekproefmomenten exact gelijk zijn aan de theoretische momenten. We zouden in plaats daarvan een afstandsmaat tussen deze twee typen momenten kunnen minimaliseren, bijvoorbeeld een uitdrukking van de vorm l X n X 1 j=1
n i=1
gj (Xi ) − Eθ gj (X1 )
2
.
4.5: Bayes-schatters
81
De functies g1 , . . ., gl zijn bekende, vast gekozen functies. De schatter θˆ is de waarde van θ waarvoor deze uitdrukking minimaal is. Deze methode staat bekend (vooral in de Econometrie) als de generalized method of moments.
4.5
Bayes-schatters
De methode van Bayes is de oudste methode voor het construeren van schatters, gesuggereerd door Thomas Bayes aan het eind van de 18e eeuw. De methode is omgeven door een filosofie aangaande de beste manier om onzekerheid uit te drukken. Deze filosofie (in zijn strikte vorm) heeft als uitgangspunt dat het statistische model geen unieke parameterwaarde bevat die correspondeert met de “ware” toestand van de werkelijkheid. Iedere parameterwaarde bezit echter een waarschijnlijkheid, die zo nodig op een subjectieve, persoonlijke manier kan worden vastgesteld. Op dit subjectieve element wordt veel kritiek geuit. Bayesiaanse methoden in een meer objectieve zin zijn echter breed geaccepteerd en kennen sinds de jaren ’90 van de vorige eeuw een grote populariteit, omdat aanvankelijke problemen met de berekeningen nu kunnen worden opgelost met computersimulatie (zie Paragraaf 4.5.1). Een volledig Bayesiaanse handelswijze begint met de specificatie van een zogenaamde a priori kansverdeling op de parameterverzameling Θ, in aanvulling op de specificatie van een statistisch model (of likelihoodfunctie). Deze kansverdeling wordt vervolgens aangepast aan beschikbare data door middel van een toepassing van de regel van Bayes uit de kansrekening. Deze aangepaste kansverdeling heet de a posteriori kansverdeling. We zullen de methode van Bayes allereerst beschrijven als een methode om schatters te construeren, en zullen dit updatingmechanisme van de kansverdeling nader beschrijven in Paragraaf 4.5.1. Bayes-schatters worden geconstrueerd uitgaande van een a priori kansverdeling op de parameterverzameling Θ. Deze kansverdeling wordt gekozen op grond van ad hoc argumenten, dan wel als een uitdrukking van de a priori, zo nodig subjectieve inschatting van de waarschijnlijkheid van de verschillende parameterwaarden. De noodzaak van het kiezen van een a priori verdeling wordt aan de ene kant vaak als een zwakte van de methode van Bayes-schatters gezien, maar is anderzijds zeer aantrekkelijk voor het genereren van een grote collectie schatters: voor iedere a priori verdeling vinden we een andere schatter. De volledige-klassenstelling (Engels: complete class theorem) laat zelfs zien dat, onder bepaalde voorwaarden, alle toelaatbare schatters willekeurig dicht benaderd kunnen worden door Bayes-schatters. Deze stelling zullen we hier niet behandelen. Voor het gemak nemen we de a priori verdeling continu met dichtheid π, een willekeurige kansdichtheid op Θ. Het Bayes-risico van een schatter
82
4: Schatters
T voor een re¨eelwaardige parameter g(θ) is gedefinieerd als het gewogen gemiddelde van de MSE(θ; T ), gewogen volgens π, Z 2 R(π; T ) = Eθ T − g(θ) π(θ) dθ.
Dit is een maat voor de kwaliteit van de schatter T , die meer gewicht toekent aan de waarden θ die a priori waarschijnlijker worden geacht. De Bayes-schatter is gedefinieerd als de beste volgens dit kwaliteitscriterium. Het doel is nog steeds een schatter te vinden waarvoor de MSE(θ; T ) voor alle θ klein is, maar het doel wordt concreet gemaakt door de verschillende waarden van θ te wegen. Definitie 4.31. De Bayes-schatter ten opzichte van de a priori dichtheid π is die schatter T die R(π; T ) minimaliseert over alle schatters T . Schrijven we x 7→ pθ (x) voor de kansdichtheid van X, dan kunnen we de Bayes-schatter uitdrukken als een quoti¨ent van twee integralen. Terwijl de maximum likelihood-schatter is gedefinieerd als de plaats van het maximum van de likelihood-functie, is een Bayes-schatter een soort gewogen gemiddelde van deze functie. Stelling 4.32. De Bayes-schatting voor g(θ) met betrekking tot de a priori dichtheid π wordt gegeven door R g(θ)pθ (x) π(θ) dθ . T (x) = R pθ (x) π(θ) dθ
De Bayes-schatting is dus afhankelijk van zowel de likelihood-functie θ 7→ pθ (x) als de a priori dichtheid π.
Voorbeeld 4.33 (Exponenti¨ ele verdeling). Veronderstel dat de waarneming X = (X1 , . . ., Xn ) een steekproef is uit de exponenti¨ele verdeling met onbekende parameter θ. Als a priori verdeling voor θ nemen we eveneens de exponenti¨ele verdeling, maar nu met bekende parameter λ. De Bayesschatting Tλ (x) voor θ gebaseerd op x = (x1 , . . ., xn ) en ten opzichte van de gegeven a priori verdeling, is R ∞ Qn −λθ R ∞ n+1 −θ(λ+Pn xi ) −θxi i=1 θ θe λe dθ θ λe dθ i=1 0 Pn R0 ∞ Qn . = R −θxi λe−λθ dθ ∞ n −θ(λ+ xi ) θe i=1 i=1 θ λe dθ 0 0 Het expliciet uitrekenen van de integralen in de teller en noemer van deze breuk is niet de handigste manier om Tλ (x) te bepalen. We zullen zien dat dit makkelijker wordt door eerst de a posteriori dichtheid te bepalen, zie Voorbeeld 4.35. In dat voorbeeld wordt afgeleid dat Tλ (x) = (n + 1)/(λ + Pn x ) de Bayes-schatting is. De Bayes-schatter voor θ is dus gelijk aan i i=1
4.5: Bayes-schatters
83
P Tλ (X) = (n + 1)/(λ + ni=1 Xi ). Voor grote waarden van n zijn de Bayesschatter Tλ (X) en de maximum likelihood-schatter θˆ = 1/X ongeveer aan elkaar gelijk. Het bewijs van Stelling 4.32 is een oefening in het manipuleren van voorwaardelijke verdelingen. De volgende “Bayesiaanse” notatie en begrippen zijn daarvoor handig en ook op zichzelf van groot belang. Ze beschrijven de Bayesiaanse methode in een meer omvattend kader, waarbij de zogenaamde a posteriori verdeling het eindpunt van de analyse vormt. Normaal gesproken beschouwen we de parameter θ als deterministisch en is er ´e´en “ware” parameterwaarde die de dichtheid x 7→ pθ (x) van de waarneming X bepaalt. Hiervan afwijkend, beschouwen we in deze paragraaf pθ als de voorwaardelijke dichtheid pX|Θ=θ van de variabele X gegeven dat een (hypothetische) stochastische grootheid Θ de waarde θ aanneemt. Deze grootheid Θ geven we de (marginale) kansdichtheid π. Dan is de simultane dichtheid van (X, Θ) gelijk aan pX,Θ (x, θ) = pX|Θ=θ (x)pΘ (θ) = pθ (x)π(θ). De marginale dichtheid van X in deze Bayesiaanse setting wordt verkregen door de simultane dichtheid te integreren naar θ en is dus Z Z pX (x) = pX,Θ (x, θ) dθ = pθ (x)π(θ) dθ. Derhalve is de voorwaardelijke dichtheid van Θ gegeven dat X = x gelijk aan pX,Θ (x, θ) pθ (x)π(θ) pΘ|X=x (θ) = . =R pX (x) pθ (x)π(θ) dθ
(Deze formule is precies de regel van Bayes uit de kansrekening, zie Paragraaf 9.5.) Deze dichtheid heet de a posteriori dichtheid R van Θ. De term in de noemer is slechts een normeringsconstante zodat pΘ|X=x (θ) dθ = 1. Voordat de waarneming bekend was, kenden we aan Θ de a priori dichtheid π toe. Nadat de waarneming bekend is geworden, geeft de a posteriori dichtheid de herziene kansverdeling. De waarneming leidt zo tot het aanpassen van onze a priori gedachten over de parameter. Deze berekeningen tonen aan dat de uitdrukking T (x) in Stelling 4.32 precies de verwachting van g(Θ) onder de a posteriori kansverdeling is, de voorwaardelijke verwachting van g(Θ) gegeven dat X = x. We kunnen deze stelling daarom als volgt herformuleren. Stelling 4.34. Met gebruikmaking van Bayesiaanse notatie wordt de Bayes-schatting voor g(θ) met betrekking tot de a priori dichtheid π gegeven door Z T (x) = E g(Θ)| X = x = g(θ)pΘ|X=x (θ) dθ.
84
4: Schatters
Bewijs. Allereerst schrijven we het Bayes-risico in Bayesiaanse notatie. De 2 term Eθ T − g(θ) in de gewone notatie is de voorwaardelijke verwachting 2 E T (X) − g(Θ) | Θ = θ
in de Bayesiaanse notatie. Daaruit kunnen we afleiden dat Z 2 R(π; T ) = E T (X) − g(θ) | Θ = θ π(θ) dθ
2 = E T (X) − g(Θ) Z 2 = E T (x) − g(Θ) | X = x pX (x) dx.
In bovenstaande is de rekenregel voor decompositie van verwachtingen R 2 EZ = E(Z| Y = y) fY (y) dy met Z = T (X) − g(Θ) tweemaal gebruikt: in de tweede gelijkheid met Y = Θ en in de derde met Y = X. Om R(π; T ) te minimaliseren naar T kunnen we voor iedere x de integrand minimaliseren, omdat de integrand overal niet-negatief is. We zoeken daarom voor iedere x het getal t = T (x) zodanig dat E
2 t − g(Θ) | X = x pX (x)
minimaal is. Omdat voor een gegeven x de term pX (x) een niet-negatieve constante is, is het minimaliseren van bovenstaande integrand naar t equivalent met het minimaliseren van 2 E t − g(Θ) | X = x
naar t. Daarom kan voor iedere x het getal t = T (x) worden gevonden door de laatste uitdrukking te minimaliseren. Nu geeft het minimaliseren van E(t − Y )2 naar t de waarde t = EY , het minimum van de parabool t 7→ E(t − Y )2 = t2 − 2t EY + EY 2 . Hier moeten we dit principe toepassen met een stochastische grootheid Y die verdeeld is volgens de voorwaardelijke verdeling van g(Θ) gegeven X = x, en vinden dus t = E g(Θ)| X = x , ofwel de Bayes-schatting wordt gegeven door T (x) = E g(Θ)| X = x . Voorbeeld 4.35 (Exponenti¨ ele verdeling, vervolg). Veronderstel dat de waarneming X = (X1 , . . ., Xn ) een steekproef is uit de exponenti¨ele verdeling met onbekende parameter θ en dat de a priori dichtheid voor θ de exponenti¨ele verdeling is met bekende parameter λ. In Voorbeeld 4.33 staat een uitdrukking gegeven voor de Bayes-schatting voor θ. Door eerst de a posteriori verdeling te bepalen, kunnen we Bayes-schatting gemakkelijker expliciet bepalen.
4.5: Bayes-schatters
85
De a posteriori verdeling wordt gegeven door −λθ Qn −θxi λe i=1 θe θ 7→ pΘ|X=x (θ) = R ∞ Qn −θx i λe−λθ dθ i=1 θe 0 Pn Pn θn λe−θ(λ+ i=1 xi ) θn e−θ(λ+ i=1 xi ) Pn = R∞ = C(x, λ) n λe−θ(λ+ i=1 xi ) dθ θ 0
waar C(x, λ) een normeringsconstante is, afhankelijk van x = (x1 , . . ., xn ) en λ, zodat pΘ|X=x een dichtheid is. In deze a posteriori verdeling herkennen we de Gamma-verdeling Pn met vormparameter n + 1 en inverse schaalparameter gelijk aan λ + i=1 xi . In het algemeen is de verwachtingswaarde behorende bij de Gamma-verdeling met vormparameter α en inverse schaalparameter λ gelijk aan α/λ (zie Voorbeeld 9.13). De Bayes-schatting voor θ is de verwachtingswaardePvan de a posteriori verdeling en is dus gelijk n aan Tλ (x) = (n + 1)/(λ i=1 xi ), en de bijbehorende Bayes-schatter is P+ n Tλ (X) = (n + 1)/(λ + i=1 Xi ). Op analoge wijze vinden we de Bayes-schatter voor θ 2 . Deze is volgens Stelling 4.34 gelijk aan het tweede moment van de a posteriori verdeling, in dit geval de Gamma-verdeling met vormparameter n+1 en inverse schaalpaPn rameter λ + i=1 xi . Het tweede moment van een Gamma(α,λ)-verdeelde 2 stochastische grootheid is gelijk aan α/λ2 + (α/λ)2 = (α + 1)α/λ Pn . De 2 Bayes-schatter voor θ is hier dus gelijk aan (n + 2)(n + 1)/(λ + i=1 Xi )2 . Voorbeeld 4.36 (Binomiale verdeling). Veronderstel dat de waarneming X de binomiale verdeling met parameters n en θ bezit, waarin n bekend en 0 ≤ θ ≤ 1 onbekend is. Een handige klasse van a priori dichtheden op [0, 1] is de klasse van B`eta-dichtheden, geparametriseerd door α en β (zie Voorbeeld 9.14) θα−1 (1 − θ)β−1 1[0,1] (θ). π(θ) = B(α, β) Wanneer we als a priori verdeling voor Θ de B`eta-verdeling met parameters α en β nemen, dan wordt de a posteriori dichtheid gegeven door n x n−x π(θ) θx+α−1 (1 − θ)n−x+β−1 x θ (1 − θ) pΘ|X=x (θ) = R 1 n = , C(x, α, β) θx (1 − θ)n−x π(θ) dθ 0
x
met C(x, α, β) een normeringsconstante zodanig dat pΘ|X=x een dichtheid is. Met andere woorden: de a posteriori verdeling van Θ is de B`eta-verdeling met parameters x + α, n − x + β en met C(x, α, β) = B(x + α, n − x + β) voor B de B`eta-functie. Figuur 4.11 laat tweemaal drie realisaties zien van de a posteriori dichtheid. In alle gevallen is de ware parameterwaarde gelijk aan θ = 21 en de a priori dichtheid (gestippelde curve in de figuur) de B`eta-dichtheid met parameters α = 25 en β = 5. In het bovenste plaatje
86
4: Schatters
0
2
4
6
8
10
is n = 20, terwijl in het onderste plaatje n = 100. De a priori dichtheid geeft relatief veel kans aan waarden van Θ in de buurt van 1, en is daarom ongunstig voor het schatten van de ware parameterwaarde θ = 12 . De figuren laten zien dat deze verkeerde a priori dichtheid goed wordt gecorrigeerd als voldoende data beschikbaar is, maar doorwerkt in de a posteriori dichtheid als dit niet het geval is.
0.2
0.4
0.6
0.8
1.0
0.0
0.2
0.4
0.6
0.8
1.0
0
2
4
6
8
10
0.0
Figuur 4.11. Drie realisaties van de a posteriori dichtheid in de gevallen n = 20 (boven) en n = 100 (onder). De a priori dichtheid (gestippeld) is in beide gevallen gelijk aan de B` etadichtheid met α = 25 en β = 5. De realisaties (doorgetrokken) zijn gebaseerd op trekkingen uit de binomiale verdeling met parameters n en 12 .
De Bayes-schatting voor θ is nu gegeven door de verwachtingswaarde behorende bij de B`eta-verdeling met parameters x + α en n − x + β. In het algemeen is de verwachtingswaarde behorende bij de B`eta-verdeling met parameters α en β gelijk aan α/(α+β), waaruit volgt dat de Bayes-schatter voor θ gelijk is aan X +α . Tα,β (X) = n+α+β Voor iedere combinatie van parameters (α, β) met α > 0 en β > 0 vinden we een andere schatter. De natuurlijke schatter X/n behoort niet tot de klasse van Bayes-schatters, maar is het limietgeval (α, β) → (0, 0). Welke schatter moeten we nu gebruiken? Als we sterke gevoelens hebben aangaande een a priori verdeling, dan kunnen we de bijhorende
4.5: Bayes-schatters
87
Bayes-schatter gebruiken. Een probleem is dat een andere onderzoeker heel andere “gevoelens” zou kunnen hebben en zodoende tot een andere a priori verdeling, en dus een andere schatter, zou komen. Op zich zijn geen van beide Bayes-schatters “verkeerd”. Beide schatters zijn immers het beste op het moment dat we zouden besluiten het corresponderende Bayes-risico als kwaliteitscriterium te nemen. Toch is het verstandig de schatters nader te vergelijken, bijvoorbeeld door de verwachte kwadratische fouten te berekenen. Deze zijn gelijk aan X +α 2 MSE(θ; Tα,β ) = Eθ −θ n+α+β E X +α 2 varθ X θ = + − θ (n + α + β)2 n+α+β 2 2 θ (α + β) − n + θ(n − 2α(α + β) + α2 = . (n + α + β)2 Figuur 4.12 geeft een schets van de verwachte kwadratische fout van enkele schatters als functie van θ. Iedere schatter is wel ergens beter dan een andere, en is er √ geen absoluut beste schatter. Interessante speciale gevallen zijn α = β = 12 n (constante verwachte kwadratische fout) en α = β = 0 (schatter X/n). De keuze α = β = 1 correspondeert met de homogene a priori verdeling, die alle θ ∈ [0, 1] a priori dezelfde kans geeft. Dat laatste lijkt redelijk, maar deze schatter wordt toch zelden gebruikt. Gelukkig zijn de verschillen klein als n groot is, en verdwijnen zelfs als n → ∞. Merk op dat in de onderste grafiek (corresponderend met n = 100) in Figuur 4.11 de drie realisaties van de a posteriori verdeling dichter bij de ware waarde 1/2 liggen, maar ook meer geconcentreerd zijn. De a posteriori dichtheden ogen verrassend normaal. We komen hierop terug in Paragraaf 6.6, waar we ook zullen zien dat Bayes- en maximum likelihood-schatters meestal weinig verschillen als het aantal waarnemingen groot is. Voorbeeld 4.37 (Geometrische verdeling). Veronderstel dat de waarneming X = (X1 , . . ., Xn ) een steekproef is uit de geometrische verdeling met parameter θ, Pθ (X1 = x) = (1 − θ)x−1 θ,
x = 1, 2, . . .,
waarbij 0 ≤ θ ≤ 1 onbekend is. Als a priori verdeling voor θ kiezen we de B`eta-verdeling met parameters α = β = 2 met kansdichtheid π(θ) = 6(1 − θ)θ,
θ ∈ (0, 1).
Dan wordt de a posteriori verdeling gegeven door Qn Pθ (Xi = xi )π(θ) θn+1 (1 − θ)n(x−1)+1 pΘ|X=x (θ) = R 1 Qi=1 = . n C(x1 , . . ., xn ) i=1 Pθ (Xi = xi )π(θ) dθ 0
4: Schatters
0.0
0.005
0.010
0.015
0.020
0.025
0.030
88
0.0
0.2
0.4
0.6
0.8
1.0
Figuur 4.12. Verwachte kwadratische fout van de Bayes-schatters √ Tα,β met n = 20, √ α = β = 12 n (constant), α = β = 0 (krom, doorgetrokken), α = n, β = 0 (gestreept, lineair), α = β = 1 (kort gestreept) als functie van θ.
In deze a posteriori verdeling van θ herkennen we de B`eta-verdeling met parameters n+2 en n(x−1)+2. Net als in het voorgaande voorbeeld vinden we nu de Bayes-schatter voor θ uit de verwachting van de B`eta-verdeling, T (X) = (n + 2)/(nX + 4).
* 4.5.1
MCMC Methoden
Het principe van de methode van Bayes is eenvoudig: uitgaande van een model en een a priori verdeling berekenen we de a posteriori verdeling met behulp van de regel van Bayes. Het rekenwerk in de laatste stap is echter niet altijd eenvoudig. Traditioneel worden vaak a priori verdelingen gekozen die het rekenwerk voor het gegeven model vereenvoudigen. De combinatie van de binomiale verdeling met de B`eta a priori verdeling is daarvan een voorbeeld. Meer recent vervangt men het analytische rekenwerk wel door stochastische simulatie, zogenaamde Markov Chain Monte Carlo (of MCMC) methoden. In principe is het met dergelijke methoden mogelijk een willekeurige a priori verdeling te combineren met een gegeven statistisch model. In deze paragraaf geven we een zeer beknopte introductie tot deze methoden. Gegeven een waarneming X, met realisatie x, met kansdichtheid pθ en een a priori dichtheid π, is de a posteriori dichtheid proportioneel aan de functie θ 7→ pθ (x)π(θ). In de meeste gevallen is het makkelijk om deze uitdrukking te berekenen, omdat deze functie direct gerelateerd is aan de specificatie van het statistische model en de a priori verdeling. In het algemeen is het echter niet
4.5: Bayes-schatters
89
gemakkelijk om de a posteriori dichtheid of de Bayes-schatting te berekenen: daarvoor is het nodig om de integraal naar θ van pθ (x)π(θ) respectievelijk θpθ (x)π(θ) voor gegeven x te evalueren. Het feit dat dit lastig kan zijn, heeft de populariteit van Bayes-schatters geen goed gedaan. Het is weinig attractief gedwongen te zijn tot een bepaalde a priori dichtheid om wille van de eenvoud van de berekeningen. Als de parameter θ laagdimensionaal is, bijvoorbeeld re¨eelwaardig, dan is het redelijk recht-toe recht-aan om de berekeningen numeriek te implementeren, bijvoorbeeld door de integralen te benaderen met sommen. Voor hogerdimensionale parameters, bijvoorbeeld van dimensie groter dan of gelijk aan 4, zijn de problemen groter. Simulatiemethoden hebben deze problemen sinds 1990 verzacht. MCMC methoden zijn een algemene procedure voor het simuleren van een Markov-keten Y1 , Y2 , . . . waarvan de marginale verdelingen ongeveer gelijk zijn aan de a posteriori verdeling. Voordat we de MCMC algoritmen beschrijven, bespreken we in de volgende alinea’s enkele essenti¨ele begrippen uit de theorie van de Markov-ketens. Een Markov-keten is een rij Y1 , Y2 , . . . stochastische grootheden waarvan de voorwaardelijke verdeling van Yn+1 gegeven de voorgaande grootheden Y1 , . . ., Yn alleen van Yn afhangt. Een equivalente formulering is dat gegeven de “huidige” variabele Yn de “toekomstige” variabele Yn+1 onafhankelijk is van het “verleden” Y1 , . . ., Yn−1 . We kunnen de variabele Yn dan zien als de toestand op het “tijdstip” n, en voor het simuleren van de volgende toestand Yn+1 is het voldoende de huidige toestand Yn te kennen, zonder interceptie van de voorgaande toestanden te kennen. We zullen alleen Markov-ketens beschouwen die “tijd-homogeen” zijn. Dit wil zeggen dat de voorwaardelijke verdeling van Yn+1 gegeven Yn niet afhangt van n, zodat de overgang van de ene toestand naar de volgende toestand steeds volgens hetzelfde mechanisme plaatsvindt. Het gedrag van de keten wordt dan volledig bepaald door de overgangskern Q gegeven door Q(y, B) = P(Yn+1 ∈ B| Yn = y). Voor een vaste y geeft B 7→ Q(y, B) de kansverdeling op het volgende tijdstip gegeven de huidige toestand y. Vaak wordt Q gegeven door een overgangsdichtheid q. Dit is de R voorwaardelijke dichtheid van Yn+1 gegeven Yn en voldoet aan Q(y, B) = B q(y, z) dz, waarbij de integraal moet worden vervangen door een som in het discrete geval. Een kansverdeling Π heet een stationaire verdeling voor de overgangskern Q als, voor iedere eventualiteit B, Z Q(y, B) dΠ(y) = Π(B). Deze vergelijking zegt precies dat de stationaire verdeling behouden blijft onder de overgang van Yn naar Yn+1 . Bezit Y1 de stationaire verdeling, dan bezit ook Y2 de stationaire verdeling, etc. Als Q een overgangsdichtheid q
90
4: Schatters
bezit en Π een dichtheid π (die dan stationaire dichtheid wordt genoemd), dan is een equivalente vergelijking Z q(y, z) π(y) dy = π(z). Deze laatste vergelijking geeft een eenvoudige manier om stationaire verdelingen te karakteriseren. Een dichtheid π is een stationaire dichtheid als voldaan is aan de detailed balance relatie π(y)q(y, z) = π(z)q(z, y). Deze relatie eist dat een overgang van y naar z even waarschijnlijk is als een overgang van z naar y, als in beide gevallen het startpunt een random punt is gekozen volgens π. Een Markov-keten met deze eigenschap wordt reversibel genoemd. Dat de detailed balance relatie impliceert dat π een stationaire dichtheid is, kan worden gezien door de beide kanten Rvan de relatie naar y te integreren, en gebruik te maken van de gelijkheid q(z, y) dy = 1, voor iedere z. De bovenstaande inleiding over Markov-ketens is voldoende om het principe van MCMC algoritmen te begrijpen. In MCMC algoritmen worden Markov-ketens gegeneneerd met een overgangskern waarvan de stationaire dichtheid gelijk is aan de a posteriori verdeling, met de waargenomen waarde x vast genomen. De stationaire dichtheid y 7→ π(y) in de voorgaande algemene discussie van Markov-ketens wordt in de MCMC toepassing dus vervangen door de a posteriori dichtheid die proportioneel is aan θ 7→ pθ (x)π(θ). Gelukkig is in de simulatieschema’s de proportionaliteitsconstante onbelangrijk. Omdat het meestal lastig is de eerste waarde Y1 van de keten te genereren volgens de stationaire dichtheid (= a posteriori dichtheid) is een MCMC Markov-keten meestal niet stationair. Wel convergeert de keten naar stationariteit als n → ∞. In de praktijk simuleert men de keten over een groot aantal (N ) stappen, en gooit vervolgens de eerste gesimuleerde data Y1 , . . ., Yb weg, de zogenaamde “burn-in”. De resterende variabelen Yb+1 , Yb+2 , . . ., YN kunnen dan worden opgevat als een realisatie van een Markov-keten met de a posteriori verdeling als stationaire verdeling. Door middel van bijvoorbeeld een histogram van Yb+1 , . . ., YN verkrijgen we dan een goede indruk van de a posteriori dichtheid, en het gemiddelde van Yb+1 , . . ., YN is een goede benadering van de Bayes-schatter, de a posteriori verwachting. De motivatie voor het gebruik van deze “empirische benaderingen” is hetzelfde als in Paragraaf 3.2.1, met dit verschil dat de variabelen Y1 , Y2 , . . . nu een Markov-keten vormen, en dus niet onafhankelijk zijn. Voor vele Markov-ketens geldt echter ook een Wet van de Grote Aantallen en deze garandeert dat ook nu gemiddelden zich asymptotisch gedragen als verwachtingen. Wel blijkt de snelheid van convergentie sterk af te hangen van de overgangskern, zodat in de praktijk het nog een hele kunst kan zijn
4.5: Bayes-schatters
91
om een MCMC algoritme op te zetten dat binnen een redelijke (CPU) tijd goede benaderingen levert. Inmiddels bestaan vele typen MCMC algoritmen. De twee belangrijkste algoritmen, welke vaak ook samen worden gebruikt, zijn het MetropolisHastings algoritme en de Gibbs-sampler. Voorbeeld 4.38 (Metropolis-Hastings). In het Metropolis-Hastings algoritme wordt een Markov-keten gegenereerd die gebruik maakt van een proposal overgangsdichtheid q behorende bij kern Q. Deze dichtheid q wordt zo gekozen dat het gemakkelijk is om te simuleren volgens de kansdichtheid z 7→ q(y, z), voor iedere gegeven y. Definieer verder α(y, z) =
π(z)q(z, y) ∧1 π(y)q(y, z)
met π de a posteriori dichtheid die we willen simuleren en a ∧ b = min(a, b). Merk op dat het voldoende is de vorm van π en q te weten; de proportionaliteitsconstante valt weg. Voor iedere overgang Yn naar Yn+1 in de Markov-keten wordt een voorstel (proposal) toestand Zn+1 gegenereerd volgens de proposal overgangskern Q. Deze toestand wordt geaccepteerd (dwz. Yn+1 = Zn+1 ) met kans α(Yn , Zn+1 ) en met kans 1 − α(Yn , Zn+1 ) wordt de huidige toestand gehandhaafd (dwz. Yn+1 = Yn ). Het simulatieschema is dan als volgt: Neem een vaste beginwaarde Y0 en handel vervolgens recursief als volgt: gegeven Yn genereer Zn+1 volgens Q(Yn , ·). genereer Un+1 volgens de homogene verdeling op [0, 1]. if Un+1 < α(Yn , Zn+1 ) laat Yn+1 : = Zn+1 else laat Yn+1 : = Yn . De overgangskern P van de Markov-keten Y1 , Y2 , . . . die zo ontstaat, bestaat uit twee stukken, corresponderend met de “if-else” splitsing. Deze kern wordt gegeven door P (y, B) = P (Yn+1 ∈ B| Yn = y)
= P (Zn+1 ∈ B, Un+1 < α(Yn , Zn+1 )| Yn = y) =
Z
+ P (Yn ∈ B, Un+1 ≥ α(Yn , Zn+1 )| Yn = y)
α(y, z)q(y, z) dz B
+ 1 − P (Un+1 < α(Yn , Zn+1 )| Yn = y) δy (B) Z = α(y, z)q(y, z) dz + 1 − E(α(y, Zn+1 )| Yn = y) δy (B) ZB Z = α(y, z)q(y, z) dz + 1 − α(y, z)q(y, z) dz δy (B) B
92
4: Schatters
waar de integraal in de tweede term over de gehele toestandsruimte wordt genomen. De notatie δy staat voor de gedenereerde verdeling (Dirac-maat) in y: gegeven Yn = y blijven we in y met kans Z 1 − α(y, z)q(y, z) dz. Het eerste “deel” van de keten beweegt volgens de subovergangsdichtheid α(y, z)q(y, z). De functie α is zo gekozen dat het bereik in het interval [0, 1] bevat is en zodanig dat voldaan is aan de detailed balance relatie (4.4)
π(y)α(y, z)q(y, z) = π(z)α(z, y)q(z, y).
Dit gedeelte van de Markov-keten is daarom reversibel. De beweging van y naar y van het tweede “deel” van de keten is trivialerwijze symmetrisch. Uit deze vaststellingen is gemakkelijk af te leiden dat π een stationaire dichtheid voor de Markov-keten Y1 , Y2 , . . . is. Een populaire keuze voor de proposal overgangsdichtheid q is de random walk kern q(y, z) = f (z − y) voor een gegeven dichtheid f . Als we f symmetrisch rond 0 kiezen, dan reduceert α(y, z) tot π(z)/π(y). De keuze van een goede kern is echter niet eenvoudig. Het algemene principe is een overgangskern Q te kiezen die “bewegingen” naar variabelen Zn+1 in de gehele drager van π voorstelt in de eerste stap van het algoritme, en tegelijkertijd niet te vaak tot de “else” stap leidt, omdat dit de effici¨entie van het algoritme nadelig zou be¨ınvloeden. In MCMC jargon heet het dat we een proposal overgangskern Q zoeken die “voldoende mixing is”, “voldoende de ruimte afzoekt”, en “niet te vaak blijft hangen”. Voorbeeld 4.39 (Gibbs-Sampler). De Gibbs-sampler reduceert het probleem van simuleren uit een hoogdimensionale a posteriori dichtheid tot herhaald simuleren uit lager dimensionale verdelingen. Het algoritme wordt vaak gebruikt in combinatie met de Metropolis-Hastings sampler, als geen geschikte proposal overgangsdichtheid q voor het Metropolis-Hastings algoritme voor handen is. Veronderstel dat π een dichtheid is afhankelijk van m variabelen, en veronderstel dat we over een procedure beschikken om variabelen te genereren uit ieder van de voorwaardelijke dichtheden πi (xi | x1 , . . ., xi−1 , xi+1 , . . .xm ) = R
π(x) . π(x) dxi
Kies een gegeven beginwaarde Y0 = (Y0,1 , . . ., Y0,m ), en handel vervolgens recursief op de volgende wijze: Gegeven Yn = (Yn,1 , . . ., Yn,m ), genereer Yn+1,1 volgens π1 (·| Yn,2 , . . ., Yn,m ).
4.6: M-Schatters
93
genereer Yn+1,2 volgens π2 (·| Yn+1,1 , Yn,3 . . ., Yn,m ) . . . genereer Yn+1,m volgens πm (·| Yn+1,1 , . . ., Yn+1,m−1 ). De co¨ ordinaten worden dus om de beurt vervangen door een nieuwe waarde, steeds conditionerend op de laatst beschikbare waarde van de andere co¨ ordinaten. Men kan nagaan dat de dichtheid π stationair is voor ieder van de afzonderlijke stappen van het algoritme (zie Opgave 4.41). Voorbeeld 4.40 (Ontbrekende data). Veronderstel dat in plaats van “volledige data” (X, Y ) we slechts de data X waarnemen. Als (x, y) 7→ R pθ (x, y) een kansdichtheid van (X, Y ) is, dan is x 7→ pθ (x, y) dy een kansdichtheid van de waarneming X. Gegeven een a priori dichtheid π is de a posteriori dichtheid derhalve proportioneel aan Z θ 7→ pθ (x, y) dµ(y) π(θ). We kunnen de voorgaande MCMC algoritmen toepassen op deze a posteriori dichtheid. Als de marginale dichtheid van X (de integraal in het voorgaande display) echter niet analytisch kan worden berekend, dan is het lastig om de MCMC schema’s te implementeren. Een alternatief is om in plaats van de marginale verdeling te berekenen de niet-waargenomen waarden Y mee te simuleren. In de Bayesiaanse notatie is de a posteriori verdeling de voorwaardelijke verdeling van een denkbeeldige variabele Θ gegeven de waarneming X. Dit is de marginale verdeling van de voorwaardelijke verdeling van het paar (Θ, Y ) gegeven X. Als we in staat zouden zijn een rij variabelen (Θ1 , Y1 ), . . ., (Θn , Yn ) volgens de laatste voorwaardelijke verdeling te genereren, dan zouden de eerste co¨ ordinaten Θ1 , . . ., Θn van deze rij trekkingen uit de gewenste a posteriori verdeling zijn. Marginalizeren van een empirische verdeling is hetzelfde als “vergeten” van sommige variabelen, en dit is computationeel heel gemakkelijk! Zo kunnen we een MCMC algoritme toepassen om variabelen (Θi , Yi ) te simuleren uit de kansdichtheid die proportioneel is aan de afbeelding (θ, y) 7→ pθ (x, y)π(θ), met x gelijk aan de waargenomen waarde van de waarneming. Vervolgens gooien we de Y -waarden weg en vatten de overgebleven Θ-waarden op als steekproef uit de a posteriori verdeling van de parameter.
94
* 4.6
4: Schatters
M-Schatters
Zij M (θ; X) een willekeurige functie van de parameter en de waarneming. Een M-schatter voor een parameter θ is die waarde van θ die de criterium functie θ 7→ M (θ; X) maximaliseert (of minimaliseert). Nemen we M gelijk aan de likelihood-functie, dan vinden we de maximum likelihood-schatter voor θ. Er zijn echter tal van andere mogelijkheden. De meest gebruikte criterium functies bij onafhankelijke waarnemingen X = (X1 , . . ., Xn ) hebben een som-structuur: M (θ; X) =
n X
mθ (Xi ),
i=1
voor geschikt gekozen functies mθ (x). Maximaliseren van een functie is vaak hetzelfde als het oplossen van de vergelijkingen verkregen door een afgeleide 0 te stellen. De term “Mschatter” wordt daarom ook gebruikt voor schatters die een vergelijking Ψ(θ; X) = 0 oplossen. Zulke vergelijkingen worden schattingsvergelijkingen (Engels: estimating equations) genoemd. Voorbeeld 4.41 (Mediaan). Het gemiddelde P X van stochastische grootn heden X1 , . . ., Xn minimaliseert de functie θ 7→ i=1 (Xi − θ)2 . Het gemiddelde is een schatting voor het “centrum” van de kansverdeling van de waarnemingen. Een alternatieve schatter met Pn ruwweg een zelfde interpretatie wordt verkregen door de functie θ 7→ i=1 |Xi − θ| te minimaliseren. Men kan laten zien dat dit leidt tot de steekproefmediaan X((n+1)/2) , als n oneven, med{X1 , . . ., Xn } = 1 2 (X(n/2) + X(n+2)/2) ), als n even. Dit is de “middelste waarneming”.
Voorbeeld 4.42 (Kleinste kwadratenschatter). In Voorbeeld 2.7 hebben we kort het enkelvoudige lineaire regressiemodel beschreven (zie ook Paragraaf 8.1). Voor afhankelijke variabelen Y1 , . . ., Yn en verklarende variabelen x1 , . . ., xn is Yi = α+βxi +ei . Veelal wordt verondersteld dat de meetfouten e1 , . . ., en onderling onafhankelijk en normaal verdeeld zijn met verwachting 0 en variantie σ 2 . De onbekende parameters α en β kunnen worden geschat met de kleinste kwadratenschatters (KK-schatters); dat zijn de waarden die n X i=1
(Yi − α − βxi )2
minimaliseren naar α en β. Als de meetfouten normaal verdeeld zijn, dan komen de kleinste kwadratenschatters overeen met de maximum likelihoodschatters voor α en β (zie Paragraaf 8.1). De KK-schatters zijn ook bruikbaar zonder de normaliteitsaanname. Ze zijn dan geen maximum likelihoodschatters, maar algemene M -schatters.
95
5
10
15
4: Opgaven
-4
-2
0
2
4
Figuur 4.13. De functie θ 7→ Σn i=1 |xi − θ| voor x1 , . . ., xn een steekproef ter grootte van 4 uit de standaard normale verdeling.
Algemener kunnen we de methode van de kleinste kwadraten gebruiken in een niet-lineair regressiemodel Yi = gθ (xi )+ei , waarin gθ een niet-lineaire functie is van θ, e1 , . . ., en niet-waarneembare meetfouten zijn, en x 7→ gθ (x) een functie is die bekend is op een parameter θ na. De KK-schatter voor θ minimaliseert het criterium θ 7→
n X i=1
2 Yi − gθ (xi ) .
Als de meetfouten normaal verdeeld zijn, dan leidt dit wederom tot de maximum likelihood-schatter voor θ. Voor een niet-lineaire functie gθ is meestal een numeriek algoritme noodzakelijk voor de berekening van de kleinste kwadratenschatting. Een voorbeeld van niet-lineaire regressie is het fitten van een tijdscurve wanneer waarnemingen y1 , . . ., yn , inclusief meetfouten, van de curve op een aantal tijdstippen x1 , . . ., xn bekend zijn. Als een geparametriseerde curve van de vorm t 7→ gθ (t) is, bijvoorbeeld gθ (t) = θ0 + θ1 t + θ2 e−θ3 t met vierdimensionale parameter θ = (θ0 , θ1 , θ2 , θ3 ), dan kunnen we de parameter θ schatten op grond van de metingen (xi , yi ), i = 1, . . ., n.
Opgaven 1. Geef een theoretisch verklaring voor de vorm van de histogrammen (exponentieel en normaal) in Figure 4.1.
96
4: Schatters
2. Veronderstel dat X1 , . . ., Xn onderling onafhankelijk en hom[0, θ]-verdeeld zijn, met θ > 0 onbekend. Bereken de verwachte kwadratische fouten van de schatters cX(n) voor θ, voor iedere waarde van c > 0. Welke waarde voor c geeft de beste schatter? 3. Zij X binomiaal verdeeld met parameters n en p met n bekend en p ∈ [0, 1] onbekend. Zij Tc = cX/n een schatter voor p, waarin c > 0 nog onbepaald is. (i) Voor welke waarde van c is Tc zuiver? (ii) Bepaal de verwachte kwadratische fout van Tc . (iii) Voor welke waarde van c is deze schatter optimaal? Is deze optimale schatter bruikbaar in de praktijk? Leg uit. (iv) Bepaal de limiet van de optimale waarde voor c voor n → ∞. Welke schatter Tc krijg je dan? 4. Zij X1 , . . ., Xn een steekproef uit de Poisson(θ)-verdeling. Men wenst θ 2 te schatten. (i) Is (X)2 een zuivere schatter voor θ 2 ? (ii) Bepaal een zuivere schatter voor θ 2 . 5. Zij X1 , . . ., Xm en Y1 , . . ., Yn onafhankelijke steekproeven zijn uit een alt(p)verdeling, met p ∈ [0, 1] onbekend. Pm Pn (i) Bewijs dat (X + Y )/2 en ( i=1 Xi + j=1 Yj )/(m + n) zuivere schatters zijn voor p. (ii) Welk van deze twee schatters verdient de voorkeur (als m 6= n)? 6. Bij een onderzoek naar discriminatie in Amsterdam wordt aan proefpersonen gevraagd, of ze persoonlijk discriminatie (naar ras, huidskleur, sekse of godsdienst) hebben ondervonden. Men trekt een gestratificeerde steekproef: 50 mannen en 50 vrouwen worden aselect uit de volwassen inwoners van Amsterdam getrokken. Zij X het aantal mannen en Y het aantal vrouwen in de steekproef met discriminerende ervaringen. Definieer: pM = fractie Amsterdamse mannen met discriminerende ervaring pV = fractie Amsterdamse vrouwen met discriminerende ervaring p = fractie Amsterdammers met discriminerende ervaring. Neem eens aan dat pV = 2pM en dat er evenveel mannen als vrouwen in Amsterdam wonen. (i) Bereken de verwachte kwadratische fout van de schatter (X + Y )/100 voor p. Definieer nu Z als het aantal personen met discriminerende ervaring in een gewone (niet-gestratificeerde = enkelvoudige) steekproef van 100 volwassen Amsterdammers. (ii) Bereken de verwachte kwadratische fout van de schatter Z/100 voor p; (iii) Vergelijk de beide verwachte kwadratische fouten. Wat is uw conclusie? 7. Men wil onderzoeken in hoeveel Nederlandse huishoudens een pc aanwezig is. Zij Π de populatie van alle Nederlandse huishoudens. Zij k het aantal gemeenten in Nederland en 1000mi het aantal huishoudens in de ie gemeente, voor i = 1,P 2, . . ., k. Voor het gemak veronderstellen we dat mi ∈ N. In Π zitten dus M = i mi duizendtallen huishoudens. Men trekt nu op de volgende manier een steekproef. Trek eerst uit de verzameling van al deze duizendtallen aselect zonder teruglegging 100 duizendtallen. Zij Yi het aantal getrokken duizend-
4: Opgaven
97
tallen in de ie gemeente. Trek dan vervolgens in de ie gemeente aselect zonder teruglegging 10Yi huishoudens. Zij pi de fractie huishoudens met pc in de ie gemeente en p de populatiefractie. Schat p met X/1000, waarin X het totaal aantal getrokken huishoudens is met pc. Is X/1000 een zuivere schatter voor p? 8. Bereken de maximum likelihood-schatter voor θ gebaseerd op een steekproef X1 , . . ., Xn uit de Poisson(θ)-verdeling. 9. Zij X1 , . . ., Xn een steekproef uit een Weibull-verdeling, waarvan de kansdichtheid wordt gegeven door a
pθ (x) = θaxa−1 e−θx ,
voor x > 0
en 0 anders. Hierin is a een bekend getal en θ > 0 is een onbekende parameter. (i) Bepaal de maximum likelihood-schatter voor θ. (ii) Bepaal de maximum likelihood-schatter voor 1/θ. 10. Zij X1 , . . ., Xn een steekproef uit een verdeling met kansdichtheid pθ (x) = θxθ−1 ,
voor x ∈ (0, 1)
en 0 anders. Hierin is θ > 0 een onbekende parameter. (i) Bereken µ = g(θ) = Eθ X1 . (ii) Bepaal de maximum likelihood-schatter voor µ. 11. Een urn bevat een fractie p witte en een fractie 1 − p zwarte ballen. We trekken ´e´en voor ´e´en ballen met teruglegging uit de urn net zo lang tot een witte bal verschijnt. Zij Yi het aantal vereiste trekkingen. We herhalen dit proces n keer, resulterend in aantallen Y1 , . . ., Yn . Bepaal de maximum likelihood-schatter voor p. 12. Zij X1 , . . ., Xn een steekproef uit de verdeling met kansdichtheid pθ (x) = θx−2 , en 0 (i) (ii) (iii)
voor x ≥ θ
voor x < θ, met θ > 0 onbekend. Bepaal de maximum likelihood-schatter voor θ. Is deze schatter zuiver? Bepaal de verwachte kwadratische fout van deze schatter.
13. Zij X1 , . . ., Xn een steekproef uit een kansverdeling met dichtheid pθ (x) = θ(1 + x)−(1+θ) ,
voor x ≥ 0
en 0 anders, waarin θ > 0 onbekend. Bepaal de maximum likelihood-schatter voor θ. 14. Veronderstel dat X1 , . . ., Xm en Y1 , . . ., Yn twee onafhankelijke steekproeven zijn uit de normale verdeling met parameters (µ1 , σ 2 ) en (µ2 , σ 2 ), respectievelijk. Bepaal de maximum likelihood-schatter voor θ = (µ1 , µ2 , σ 2 ). 15. Veronderstel dat de vector X = (X1 , . . ., Xm ) een multinomiale verdeling heeft met parameters n en (p1 , . . ., pm ), met p1 +. . .+pm = 1. We veronderstellen dat n bekend is en de kansen p1 , . . ., pm onbekend zijn. Laat zien dat de maximum likelihood-schatter voor (p1 , . . ., pm ) gelijk is aan (X1 /n, . . ., Xm /n).
98
4: Schatters
16. Men wil het aantal vissen, zeg N stuks, in een vijver schatten. Daartoe gaat men als volgt te werk. Men vangt r vissen en voorziet die van een merkteken. Vervolgens laat men deze vissen weer zwemmen en na verloop van tijd vangt men n vissen (zonder terug te werpen). Zij Xi gelijk aan 0 of 1 als de ie gevangen vis wel of niet gemerkt isP(i = 1, .., n). (i) Bepaal de kansverdeling van Xi , uitgedrukt in r, n en N . P n (ii) Bepaal de maximum likelihood-schatter voor N gebaseerd op X. i=1 i
17. Zij X1 , . . ., Xn een steekproef uit een verdeling met een onbekende verdelingsfunctie F . De empirische verdelingsfunctie van de steekproef noteren we met Fˆ . (i) Welke verdeling heeft nFˆ (x)? (ii) Is Fˆ (x) een zuivere schatter voor F (x)? (iii) Bepaal de variantie van Fˆ (x). (iv) Laat zien dat cov(Fˆ (u), Fˆ (v)) = n−1 (F (m) − F (u)F (v)) met m = min{u, v}. Hieruit volgt dat Fˆ (u) en Fˆ (v) positief gecorreleerd zijn. 18. (k-means clustering.) Veronderstel dat X1 , . . ., Xn onafhankelijke stochastische grootheden zijn, waarbij voor een onbekende partitie {1, . . ., n} = ∪kj=1 Ij de variabelen (Xi ; i ∈ Ij ) normaal verdeeld zijn met verwachting µj en variantie 1. Laat zien dat de maximum likelihood-schatter Pk Pvoor de partitie2 en de parametervector (µ1 , . . ., µk ) de kwadraatsom (Xi − µj ) minij=1 i∈Ij maliseert. Interpreteer deze procedure in woorden. 19. Zij X1 , . . ., Xn een steekproef uit de exponenti¨ele verdeling met parameter λ, waarbij λ > 0 een onbekende parameter is. (i) Bepaal de maximum likelihood-schatter voor 1/λ2 . (iv) Bepaal een momentenschatter voor 1/λ2 . (iii) Bepaal een zuivere schatter voor 1/λ2 .
20. Zij X1 , . . ., Xn een steekproef uit de binomiale verdeling met parameters n en p, waarbij p ∈ [0, 1] onbekend is. Bepaal de maximum likelihood-schatter en de momentenschatter voor p. 21. Zij X1 , . . ., Xn een steekproef uit de alternatieve verdeling met p ∈ [0, 1] een onbekende parameter. (i) Bepaal de momentenschatter T voor p. (ii) Laat zien dat de schatter T 2 niet zuiver is voor p2 en bepaal vervolgens een zuivere schatter voor p2 . 22. Zij X1 , . . ., Xn een steekproef uit de geometrische verdeling met onbekende parmater p ∈ (0, 1]. Bepaal de momentenschatter voor p. 23. Zij X1 , . . ., Xn een steekproef uit een kansverdeling met dichtheid pθ (x) = θ(1 + x)−(1+θ)
voor x > 0,
en 0 anders, met θ > 1 onbekend. Bepaal de momentenschatter voor θ. 24. Zij X1 , . . ., Xn een steekproef uit een verdeling met kansdichtheid pθ (x) =
2x 1{0≤x≤θ} , θ2
waarbij θ > 0 een onbekende parameter is.
4: Opgaven
(i) (ii) (iii) (iv)
99
Bepaal de momentenschatter T voor θ. Laat zien dat T zuiver is voor θ. Geef de momentenschatter voor θ 2 . Laat zien dat de momentenschatter voor θ 2 niet zuiver is voor θ 2 en bepaal vervolgens een zuivere schatter voor θ 2 .
25. Zij X1 , . . ., Xn een steekproef uit de kansverdeling gegeven door Pθ (X = x) = 1/θ voor x ∈ {1, 2, . . ., θ}. Hierin is θ ∈ N onbekend. (i) Bepaal de momentenschatter voor θ. (ii) Bepaal de maximum likelihood-schatter voor θ. 26. Zij X1 , . . ., Xn een steekproef uit de hom[σ, τ ]-verdeling met σ < τ onbekend. (i) Bepaal de maximum likelihood-schatter voor de vector (σ, τ ). (ii) Bepaal de momentenschatter voor de vector (σ, τ ). 27. Zij X1 , . . ., Xn een steekproef uit de homogene verdeling op [−θ, θ] met θ > 0 onbekend. (i) Bepaal de maximum likelihood-schatter voor θ. (ii) Bepaal de momentenschatter voor θ. 28. Zij X een stochastische grootheid met eindig tweede moment. Toon aan dat de functie b 7→ E(X − b)2 minimaal is voor b = EX. 29. Zij X een continu verdeelde stochastische grootheid met eindig eerste moment. Toon aan dat de functie b 7→ E|X − b| minimaal is voor b een punt zodanig dat P(X < b) = P(X > b) = 1/2, de populatie-mediaan. 30. Zij X1 , . . ., Xn een steekproef uit de Laplace-verdeling (of dubbel-exponenti¨ele verdeling waarvan de kansdichtheid gelijk is pθ (x) =
1 −|x−θ| e , 2
waarin θ ∈ R. (i) Bepaal de populatie-mediaan (zie vorige som). (ii) Bepaal de maximum likelihood-schatter voor θ. (iii) Bepaal de momentenschatter voor θ. 31. De momentenschatter en maximum likelihood-schatter voor de parameter van een Laplace-verdeling zijn heel verschillend. Het is mogelijk op grond van de theoretische argumenten een voorkeur voor ´e´en van de twee schatters uit te spreken, maar de berekeningen zijn aan de ingewikkelde kant. Ga in plaats daarvan door simulatie na welke schatter de voorkeur verdient. Het R-programma in Tabel 4.1 kan hiervoor worden gebruikt. Toelichting: in de eerste regel declareren we twee vectoren (arrays) ter lengte 1000, waarin we 1000 realisaties gaan zetten van de twee schatters. In de laatste twee regels berekenen we de gemiddelde kwadratische afwijking van de twee vectoren tot de echte waarde van de parameter (die 0 is in dit geval). Dit zijn niet de echte verwachte kwadratische fouten, maar wel goede benaderingen ervoor. In de for-loop wordt op de eerste regel een steekproef ter grootte n(n = 100) uit de standaard Laplace-verdeling genomen (op een wat ingewikkelde wijze). Vervolgens wordt op basis van de steekproef de maximum likelihood-schatting en de momentenschatting berekend. Dit wordt 1000 maal herhaald.
100
4: Schatters momenten = mls = numeric(1000) n = 100 for (i in 1:1000)
{
x = rexp(n)*(2*rbinom(n,1,0.5)-1) momenten[i] = mean(x) mls[i] = median(x)
}
msemomenten = mean(momenten^2) msemls = mean(mls^2)
Tabel 4.1. R-code voor het vergelijken van de momentenschatter en de maximum likelihood-schatter.
32. Zij X1 , . . ., Xn een steekproef uit een kansverdeling met dichtheid pθ (x) = θxθ−1 en 0 (i) (ii) (iii)
voor 0 ≤ x ≤ 1
anders, met θ > 0 onbekend. Bepaal de momentenschatter voor θ. Bepaal de maximum likelihood-schatter voor θ. Bepaal de Bayes schatter voor θ ten opzichte van de a priori dichtheid π(θ) = e−θ voor θ > 0 en 0 anders.
33. Bereken de a posteriori verdeling en de Bayes-schatter voor θ gebaseerd op een waarneming X met de negatieve binomiale verdeling met parameters k (bekend) en θ, relatief ten opzichte van een a priori B`eta-verdeling. 34. Bereken de Bayes-schatter voor θ gebaseerd op een steekproef X1 , . . ., Xn uit de hom[0, θ]-verdeling relatief ten opzichte van een hom[0, M ] a priori verdeling. 35. Bereken de Bayes-schatter voor θ gebaseerd op een waarneming X uit de Poisson-verdeling met parameter θ relatief ten opzichte van een Gammaverdeling met parameters α en λ, (i) voor α = 1. (ii) voor algemene α > 0. 36. Bereken de a posteriori verdeling en de Bayes-schatter voor θ gebaseerd op een steekproef X1 , . . ., Xn uit de verdeling met kansdichtheid pθ (x) = 2θxe−θx
2
voor x > 0
en 0 anders, relatief ten opzichte van de Gamma-verdeling met parameters α en λ. 37. Bereken de a posteriori verdeling en de Bayes-schatter voor θ gebaseerd op een steekproef X1 , . . ., Xn uit de N (θ, 1)-verdeling relatief ten opzichte van een N (0, τ 2 )-a priori verdeling. Welke schatter vinden we voor τ → ∞? Hoe kan de a priori verdeling voor τ ≈ ∞ worden gekarakteriseerd? 38. Zij X1 , . . ., Xn een steekproef uit een alternatieve verdeling met onbekende parameter p ∈ [0, 1]. We willen de variantie varp (Xi ) = p(1 − p) Bayesiaans schatten relatief ten opzichte van een B`eta(α, β) a priori verdeling voor de parameter p.
4: Opgaven
101
(i) Bepaal de a posteriori dichtheid voor p relatief ten opzichte van de B`eta(α, β) verdeling. (ii) Bepaal de Bayes-schatters voor p en varp (Xi ). 39. Veronderstel dat we in plaats van de verwachte kwadratische fout de mean absolute deviation (MAD) gebruiken voor het defini¨ R eren van een Bayes-schatter: we vervangen R(π; T ) in Paragraaf 4.5 door Eθ |T − θ| π(θ) dθ en defini¨eren een Bayes-schatter als de schatter T waarvoor deze uitdrukking minimaal is. Laat zien de mediaan van de a posteriori verdeling in dat geval een Bayesschatter is. 40. Implementeer een Metropolis-Hastings algoritme voor de berekening van de a posteriori verdeling voor θ gebaseerd op een steekproef uit de N (θ, 1)-verdeling, relatief ten opzichte van een normale of een Cauchy a priori dichtheid. Experimenteer met verschillende proposal overgangsdichtheden q. 41. Zij Y = f (X) een functie van een stochastische vector X met verdeling Π en zij Q(y, B) = P(X ∈ B| Y = y) de voorwaardelijke verdeling van X gegeven Y = y. Als we X genereren volgens Π, vervolgens Y = f (X) berekenen en ten slotte Z genereren volgens de kansverdeling Q(Y, ·), dan bezit Z verdeling Π. (i) Bewijs dit. (ii) Pas dit toe met f (x) = (x1 , . . ., xi−1 , xi+1 , . . ., xm ) om te bewijzen dat de Gibbs-sampler stationaire dichtheid π bezit.
ERFELIJKHEIDSONDERZOEK
Ouders met blauwe ogen hebben kinderen met blauwe ogen. Daarentegen hoeven ouders met obesitas geen kinderen met obesitas te hebben. Sommige eigenschappen, als oogkleur, worden geheel genetisch bepaald en liggen bij de geboorte al vast. Andere eigenschappen, als het hebben van obesitas, zijn slechts deels erfelijk bepaald, en worden tevens door omgevingsfactoren, als voeding en levensstijl, be¨ınvloed. Onderzoek bij een- en twee-eiige tweelingen kan inzicht geven in hoeverre eigenschappen bij mensen bepaald worden door erfelijke of omgevingsfactoren of een wisselwerking tussen beide. Een eeneiige tweeling ontstaat als bij een van de eerste celdelingen van een bevruchte eicel twee losse groepjes cellen ontstaan die ieder uitgroeien tot een embryo. Eeneiige tweelingen zijn genetisch gezien identiek en daardoor ook altijd van hetzelfde geslacht. Twee-eiige tweelingen ontstaan doordat de moeder een dubbele eisprong had en beide eicellen bevrucht werden. Gemiddeld genomen hebben twee-eiige tweeling 50% van het erfelijk materiaal gemeen en zijn in genetisch opzicht gewoon broers en zusters van elkaar. Tweelingen groeien veelal op in hetzelfde gezin, gaan naar dezelfde school en hebben dezelfde levensstijl; zij worden dus blootgesteld aan min of meer dezelfde omgevingsfactoren. Als voor een bepaalde eigenschap de correlatie binnen eeneiige tweelingparen groter is dan die binnen twee-eiige tweelingparen, dan is dit verschil toe te schrijven aan de mate van overeenkomsten in het genetische materiaal; immers omgevingsfactoren binnen tweelingparen komen nagenoeg overeen. De betreffende eigenschap wordt dan dus deels erfelijk bepaald. Zijn, daarentegen, de correlaties min of meer aan elkaar gelijk (en ongelijk aan 0), dan wordt de eigenschap met name door omgevingsfactoren bepaald. Het Nederlands Tweelingen Register (zie: www.tweelingenregister.org) bevat gegevens van tweelingen en hun familieleden ten behoeve van wetenschappelijk onderzoek op het gebied van gezondheid, levensstijl en persoonlijkheid. Het register bevat onder andere gegevens van de lichaamslengte van tweelingen. Op basis van deze gegevens willen we een indicatie krijgen in hoeverre individuele verschillen in volwassen lichaamslengte genetisch bepaald worden. Mannen zijn gemiddeld genomen langer dan vrouwen. In onderzoek naar de erfelijkheid van lichaamslengte moeten we daarom rekening houden met het geslacht. Om de notatie eenvoudig te houden, beperken we ons hier tot mannelijke een- en twee-eiige tweelingen; een uitbreiding naar vrouwelijke en gemengde tweelingen is qua methode eenvoudig, maar qua notatie lastig. We noteren de lichaamslengte van een jongvolwassen tweelingpaar van het mannelijke geslacht met (X1 , X2 ) en veronderstellen dat de lengten X1 en X2 geschreven kunnen worden als de som van een gemiddelde lengte
4: Erfelijkheidsonderzoek
103
µ en drie stochastische componenten: X1 = µ + G 1 + C + E 1 X2 = µ + G 2 + C + E 2 , welke staan voor de afwijking van de gemiddelde mannelijke populatielengte door genetische invloeden (G1 en G2 ), door omgevingsfactoren die de tweeling gemeenschappelijk heeft (C) en voor individueel specifieke invloeden, zowel genetische als omgevingsinvloeden (E1 en E2 ). Veelal wordt verondersteld dat de variabelen voor genetische, omgevings en individueel specifieke invloeden onafhankelijk van elkaar zijn: (G1 , G2 ), C en (E1 , E2 ) zijn onderling onafhankelijk. Dit betekent dat aangenomen wordt dat er geen interactie bestaat tussen de omgeving en genetische invloeden (of aan deze aanname is voldaan bij lichaamslengte, valt te betwijfelen). We veronderstellen dat G1 en G2 gelijk verdeeld zijn met verwachting 0 en onbekende variantie σg2 . Deze variabelen beschrijven genetische invloeden op de variatie van lichaamslengte. Bij tweelingen komt het genetisch materiaal geheel of gedeeltelijk overeen; G1 en G2 zijn dus gecorreleerd. Eeneiige tweelingen zijn in genetisch opzicht identiek; voor hen geldt dat G1 = G2 (met kans 1) en dus dat de correlatie tussen G1 en G2 gelijk is aan cor(G1 , G2 ) = 1. Twee-eiige tweelingen delen slechts een deel van hun genen, zodat G1 en G2 niet aan elkaar gelijk zijn, maar wel gecorreleerd. Gemiddeld genomen hebben twee-eiige tweelingen 50% van hun genetisch materiaal gemeenschappelijk. Onder de aanname van bovenstaand additief model (en enkele andere aannamen) kan worden aangetoond dat bij twee-eiige tweelingen de correlatie tussen G1 en G2 gelijk is aan cor(G1 , G2 ) = 1/2. De individueel specifieke invloeden E1 en E2 worden onafhankelijk en gelijk verdeeld verondersteld, met verwachting 0 en onbekende variantie σe2 . De verwachting en variantie van C zijn 0 en σc2 . Met bovenstaande aannames geldt dat X1 en X2 gelijk verdeeld zijn met verwachting EXi = µ en variantie var Xi gelijk aan σ 2 : = var(µ + Gi + C + Ei ) = var Gi + var C + var Ei = σg2 + σc2 + σe2 ,
i = 1, 2
waarbij de tweede gelijkheid geldt vanwege de onderlinge onafhankelijkheid van de verschillende componenten. De term h2 : = var Gi / var Xi = σg2 /σ 2 wordt ook wel “heritabiliteit” genoemd. Heritabiliteit beschrijft de mate waarin variatie tussen, in dit geval, lichaamslengte van individuen veroorzaakt wordt door genetische verschillen. Heritabiliteit is minimaal 0 en maximaal 1, omdat 0 ≤ σg2 ≤ σ 2 . Als heritabiliteit voor lichaamslengte gelijk aan 1 is, dan is σ g2 = σ 2 en moeten σc2 en σe2 beide gelijk aan 0 zijn. Omdat tevens de verwachtingswaarden van C, E1 en E2 gelijk aan 0 zijn, zijn C, E1 en E2 gelijk aan 0
104
4: Schatters
met kans 1. De variatie van lichaamslengte tussen mensen is dan volledig genetisch bepaald. Als de heritabiliteit gelijk aan 0 is, dan is σ g2 = 0 en zijn G1 en G2 gelijk aan 0 met kans 1; variatie in lichaamslengte wordt dan geheel niet genetisch bepaald. Het doel is h2 te schatten op basis van een steekproef van lichaamslengtes van een- en twee-eiige tweelingen. Daartoe schrijven we eerst h 2 in termen van de correlaties tussen de lichaamslengtes binnen een- en tweeeiige tweelingparen en schatten deze parameters vervolgens met de steekproef correlaties. De correlaties tussen de lichaamslengtes binnen zowel een eenals een twee-eiige tweeling zijn gelijk aan cov(X1 , X2 ) cov(µ + G1 + C + E1 , µ + G2 + C + E2 ) √ √ = var X1 var X2 var X1 var X2 cov(G1 , G2 ) σc2 cov(G1 , G2 ) cov(C, C) + = + 2, = σ2 σ2 σ2 σ waar de tweede gelijkheid volgt uit de eerder gemaakte onafhankelijkheidsaannames. De covariantie van de genetische componenten G1 en G2 binnen eeneiige tweelingparen is gelijk aan cov(G1 , G2 ) = var G1 = σg2 , omdat G1 = G2 met kans 1. Binnen twee-eiige tweelingparen is deze covariantie gelijk aan p 1 1 cov(G1 , G2 ) = cor(G1 , G2 ) var G1 var G2 = var G1 = σg2 . 2 2
Uit bovenstaande berekeningen volgt nu dat de correlaties binnen een- en twe-eiige tweelingen, ρ1 en ρ2 , gelijk zijn aan: ρ1 =
σg2 σ2 + c2 2 σ σ
ρ2 =
σg2 σ2 + c2 . 2 2σ σ
Er volgt direct dat ρ1 ≥ ρ2 met een gelijkheid als σg2 = 0. Ofwel, de correlatie tussen de lichaamslengtes binnen eeneiige tweelingparen is groter dan of gelijk aan de correlatie tussen de lichaamslengtes binnen twee-eiige tweelingparen. Gelijkheid is er alleen als er geen genetische invloeden zijn op de variatie van lichaamslengte en het verschil is maximaal als de variatie in lichaamslengte volledig genetisch bepaald is; als σc2 = 0. Uit de uitdrukkingen van de correlaties ρ1 en ρ2 volgt dat de heritabiliteit gelijk is aan σg2 h2 = 2 = 2(ρ1 − ρ2 ). σ Om een schatting voor h2 te vinden, kunnen we ρ1 en ρ2 schatten met hun steekproef correlaties, Pn (X1,i − X 1 )(X2,i − X 2 ) q q rX1 ,X2 = i=1 2 2 (n − 1) SX SX 1 2
105
4: Erfelijkheidsonderzoek
op basis van alleen een- en twee-eiige tweelingen, respectievelijk. In de voorgaande formule staan X1,i en X2,i voor het eerste en tweede individu van het ie een- of twee-eiige tweelingpaar, zijn X 1 en X 2 gelijk aan de steekproefgemiddelden van de eerste en tweede individuen binnen de een- of twee-eiige 2 2 tweelingparen, en zijn SX en SX de corresponderende steekproefvarianties. 1 2 Omdat de marginale verdeling voor lichaamslengte voor alle individuen in de data-set gelijk is, ligt het voor de hand X 1 en X 2 te vervangen door de gemiddelde lichaamslengte van alle individuen, van zowel een- als twee-eiig tweelingen en zowel eerste als tweede individu in een tweelingpaar. Hetzelfde kan worden overwogen voor de steekproefvarianties in de noemer van rX1 ,X2 . Deze methode voor het schatten van heritabiliteit heeft veel overeenkomsten met de methode van de momentenschatter; immers de onbekende parameters worden gevonden door een theoretische kwantiteit, in dit geval de correlatie, gelijk te stellen aan de steekproef waarde van dezelfde kwantiteit. In de Figuren 3.11 en 3.12 zijn de lichaamslengtes van een- (Figuur 3.11) en twee-eiige (Figuur 3.12) tweelingen tegen elkaar uitgezet. Duidelijk te zien is dat de correlatie tussen de lengten binnen eeneiige tweelingparen groter is dan binnen twee-eiige tweelingparen. De steekproefcorrelaties voor eeneiige tweelingen zijn gelijk aan 0.87 en 0.96 voor mannelijke en vrouwelijke eeneiige tweelingen en 0.55 en 0.50 voor mannelijke en vrouwelijke twee-eiige tweelingen. Heritabiliteit wordt geschat met 0.64 voor mannen en 0.92 voor vrouwen. Een andere methode om de heritabiliteit te schatten is de maximum likelihood-methode. Veronderstel dat de lichaamslengte van een volwassen tweelingpaar van het mannelijke geslacht (X1 , X2 ) tweedimensionaal normaal verdeeld is (voor uitleg over de meerdimensionale normale verdeling, zie Appendix 10) met verwachtingsvector ν = (µ, µ)T en covariantiematrix voor eeneiige (Σ1 ) en twee-eiige (Σ2 ) tweelingparen Σ1 =
σ2 2 σg + σc2
σg2 + σc2 σ2
Σ2 =
σ2 1 2 2 2 σg + σ c
1 2 2 σg
+ σc2 σ2
met σ 2 = σg2 + σc2 + σe2 . De diagonaalelementen van de covariantiematrices zijn gelijk aan de variantie van X1 en X2 ; de andere twee termen zijn gelijk aan de covarianties tussen X1 en X2 . De kansdichtheid van de lichaamslengte van een tweelingpaar is gelijk aan x 7→
1 T −1 1 √ e− 2 (x−ν) Σ (x−ν) , 2π det Σ
met x = (x1 , x2 )T , Σ gelijk aan Σ1 of Σ2 naar gelang het type tweeling en ν = (µ, µ)T de vector als eerder beschreven. Met det Σ wordt de determinant van Σ bedoeld. We veronderstellen dat de lichaamslengtes van verschillende tweelingparen onafhankelijk van elkaar zijn, waardoor de likelihood gelijk is
106
4: Schatters
aan een product van twee-dimensionale dichtheden en de log likelihood gelijk is aan lµ,σg2 ,σc2 ,σe2 (X1 , . . ., Xn1 , Y1 , . . ., Yn2 ) = n2 n1 log(det Σ1 ) − log(det Σ2 ) − (n1 + n2 ) log 2π − 2 2 n1 n2 1X 1X − (Xi − ν)T Σ−1 (Yi − ν)T Σ−1 1 (Xi − ν) − 2 (Yi − ν), 2 i=1 2 i=1 met X1 , . . ., Xn1 de lengtes van de eeneiige tweelingparen en Y1 , . . ., Yn2 die van twee-eiige tweelingparen; dus Xi = (Xi,1 , Xi,2 )T en Yi = (Yi,1 , Yi,2 )T met Xi,1 en Xi,2 de lichaamslengtes van het eerste en tweede individu binnen het ie eeneiige tweelingpaar en analoog voor Yi . Maximalisatie van de log likelihood naar (µ, σg2 , σc2 , σe2 ) over de parameterruimte [0, ∞)4 geeft de maximum likelihood-schattingen. Heritabilitiet σg2 /σ 2 wordt geschat door de schattingen van σg2 en σ 2 in te vullen in de definitie voor h2 : ˆ2 = σ h ˆg2 /ˆ σ 2 = 0.61. Dezelfde berekeningen kunnen we uitvoeren voor een- en twee-eiige tweelingparen van het vrouwelijke geslacht. Dit levert een geschatte heritabiliteit van 0.93. Wanneer een gecombineerde likelihood wordt opgesteld voor data van mannen en vrouwen wordt veelal verondersteld dat de verwachte lengte van vrouwen wel verschilt van die van mannen, maar dat de covariantiematrices, en dus ook heritabiliteit, gelijk zijn. Maximaliseren van de likelihood voor lichaamslengte voor mannen en vrouwen geeft een schatting van 0.79 voor de heritabiliteit. Heritabiliteit is een maat voor de variatie van een eigenschap binnen een populatie, lichaamslengte in ons geval. Dat de heritabiliteit voor lichaamslengte erg groot is, betekent niet dat lichaamslengte bijna volledig genetisch bepaald wordt; wel dat de variatie van lichaamslengte binnen de populatie waaruit onze data afkomstig zijn, grotendeels door verschillen in het erfelijk materiaal wordt bepaald. Omgevingsfaktoren hebben wel degelijk invloed op lichaamslengte (zie Voorbeeld 2.7) maar zijn waarschijnlijk zo uniform over de populatie waaruit de data getrokken is, dat alleen genetische verschillen nog waar te nemen zijn in de variatie van lichaamslengte.
5 Toetsen
Bij wetenschappelijk onderzoek, in de industrie en in het dagelijks leven is het vaak gewenst na te gaan of bepaalde vragen al dan niet bevestigend beantwoord kunnen worden. Helpt een bepaalde therapie? Speelt leeftijd of sekse van de pati¨ent hierbij een rol? Is het ene type auto veiliger dan het andere? Bevat een partij excessief veel defecte artikelen? Gaat het ene type lamp langer mee dan het andere? Komt het DNA-profiel van de verdachte overeen met het DNA-profiel dat gevonden is op de plaats van het misdrijf? Zijn de log returns van beurswaarden op verschillende dagen onafhankelijk? Et cetera. Antwoorden op dergelijke vragen worden gebaseerd op de uitkomsten van experimenten of onderzoeken. In veel gevallen laten de uitkomsten van die experimenten echter geen ondubbelzinnig antwoord toe. Als een nieuwe therapie bij 100 pati¨enten wordt beproefd, en in 64 gevallen goede resultaten geeft, terwijl dat bij de oude therapie in 50% van de pati¨enten het geval is, is de nieuwe therapie dan ook werkelijk beter dan de oude of hebben we “geluk” gehad? Als bij 75 van de 100 pati¨enten verbetering optreedt kan van toeval toch geen sprake meer zijn, . . . of toch wel? Is een waargenomen steekproefcorrelatieco¨effici¨ent van 0.17 “significant” verschillend van 0? De toetsingstheorie is erop gericht dit beslissingsproces, waarin gekozen moet worden tussen twee conflicterende hypothesen, te formaliseren.
5.1
Nulhypothese en Alternatieve Hypothese
De beslissing tussen conflicterende hypothesen wordt gebaseerd op een geschikt statistisch model voor de waarneming X. De hypothesen worden gecodeerd in parameterwaarden die de kansverdelingen in het statistische model indiceren. We zullen ons hier beperken tot twee hypothesen. De para-
108
5: Toetsen
meter θ behoort ofwel tot een verzameling Θ0 , corresponderend met de ene hypothese, ofwel tot het complement Θ1 = Θ \ Θ0 , waarbij Θ = Θ0 ∪ Θ1 een disjuncte splitsing van de gehele parameterruimte Θ is. We noemen de hypothese H0 : θ ∈ Θ0 de nulhypothese en de hypothese H1 : θ ∈ Θ1 de alternatieve hypothese. In de standaard toetsingsaanpak (die door de meeste gebruikers van de statistiek wordt gevolgd) worden de nul- en alternatieve hypothese niet symmetrisch behandeld. Het gaat er vooral om te weten te komen of de alternatieve hypothese juist is. Mocht de data hiervoor onvoldoende aanwijzing opleveren, dan besluiten we niet noodzakelijkerwijze dat de alternatieve hypothese onjuist is (en de nulhypothese juist); het is ook mogelijk dat voor geen van beide hypothesen voldoende bewijs is. De statistische analyse kan zo tot twee conclusies leiden: - Verwerp H0 (en accepteer H1 als zijnde correct). - Verwerp H0 niet (maar accepteer H0 niet als correct). De eerst mogelijke conclusie is een sterke conclusie; de tweede is eigenlijk geen conclusie. De tweede conclusie moet worden begrepen als een uitspraak dat meer informatie nodig is om tot een conclusie te komen. Doen we op grond van onze waarnemingen uitspraken over de hypothesen, dan kunnen we twee soorten fouten maken, corresponderend met het ten onrechte besluiten tot ´e´en van de twee mogelijke conclusies: - Een fout van de eerste soort is H0 verwerpen als H0 correct is. - Een fout van de tweede soort is H0 niet verwerpen als H0 incorrect is. Een fout van de eerste soort correspondeert met het ten onrechte besluiten tot de sterke conclusie. We beschouwen dit als zeer ongewenst. Een fout van de tweede soort correspondeert met het ten onrechte besluiten tot de zwakke conclusie. Dit is ongewenst, maar omdat de zwakke conclusie eigenlijk geen conclusie is, minder erg. Vanwege de asymmetrische behandeling van de hypothesen H0 en H1 bij de keuze van een toets, mag aan het niet-verwerpen van H0 niet veel betekenis worden gehecht. Het is daarom van groot belang de nulhypothese en de alternatieve hypothese geschikt te kiezen. In principe kiezen we de uitspraak die we willen aantonen als alternatieve hypothese. Vervolgens stellen we ons als het ware op het H0 -standpunt: we verwerpen H0 alleen als er sterke aanwijzingen tegen H0 zijn. Voorbeeld 5.1 (Multinomiale verdeling). Bij het spelen met oneerlijke dobbelstenen zijn de kansen op het werpen van de verschillende aantallen ogen, p1 , . . ., p6 , niet allemaal gelijk aan 1/6. Zo gebruikt James Bond in de film “Octopussy” tijdens een spelletje backgammon verzwaarde dobbelstenen waarmee hij met kans (nagenoeg) gelijk aan 1 zes ogen gooit. Voor zijn dobbelstenen geldt (p1 , p2 , p3 , p4 , p5 , p6 ) ≈ (0, 0, 0, 0, 0, 1). Het onderliggende statistische model is dat het aantal ogen bij een enkele worp X multinomiaal verdeeld is met parameters (1, θ), met θ = (p1 , . . ., p6 ). In het statistische model kunnen we de parameterruimte voor θ gelijk nemen aan P6 Θ = {(p1 , p2 , p3 , p4 , p5 , p6 ) ∈ [0, 1]6 : i=1 pi = 1}.
5.1: Nulhypothese en Alternatieve Hypothese
109
Stel dat we de dobbelstenen van onze tegenstander in een spelletje backgammon niet vertrouwen. We vermoeden dat hij de kansen op de verschillende uitkomsten kunstmatig heeft veranderd. De nulhypothese om formeel te toetsen of een dobbelsteen oneerlijk is, luidt dan H0 : pi = 1/6, i = 1, . . ., 6 en de alternatieve hypothese is H1 : pi 6= 1/6 voor tenminste ´e´en i ∈ {1, . . ., 6}. De nulhypotheseruimte Θ0 is dan een deelruimte van Θ bestaande uit slechts ´e´en punt: Θ0 = {(1/6, 1/6, 1/6, 1/6, 1/6, 1/6)}. Wanneer alleen de uitkomst van zes ogen ons interesseert, kunnen we de nulhypothese H0 : p6 = 1/6 versus H1 : p6 6= 1/6 toetsen. In dat geval is de nulhyP5 potheseruimte gelijk aan Θ0 = {(p1 , p2 , p3 , p4 , p5 , 1/6) ∈ [0, 1]6 : i=1 pi = 5/6}. Voorbeeld 5.2 (Twee steekproeven). Figuur 5.1 toont boxplots van de mate van expressie van een gen in twee verschillende typen tumoren. De steekproeven zijn respectievelijk 26 en 15 tumoren groot. De vraag is of het gen in het ene type tumor meer tot expressie is gekomen dan in het andere type tumor. De boxplot geeft niet onmiddellijk uitsluitsel op deze vraag. Weliswaar ligt de box van de tweede steekproef hoger dan die voor de eerste, maar er is een duidelijke overlap en het bereik van de tweede steekproef ligt duidelijk binnen het bereik van de eerste steekproef. Dit laatste zou betekenis kunnen hebben, maar ook een gevolg kunnen zijn van het feit dat de steekproeven ongelijke groottes hebben. Een formele toets kan helpen de vraag te beantwoorden. Een redelijk statistisch model is dat de twee steekproeven X1 , . . ., X26 en Y1 , . . ., Y15 onafhankelijke steekproeven zijn uit de normale verdelingen met, respectievelijk, parameters (µ, σ 2 ) en (ν, τ 2 ). We willen dan de nulhypothese H0 : µ = ν tegen het alternatief H1 : µ 6= ν toetsen. De parameter kunnen we hier gelijk nemen aan θ = (µ, ν, σ 2 , τ 2 ) met parameterruimte Θ = R2 × (0, ∞)2 . De nulhypothese is de deelverzameling Θ0 = {(µ, µ): µ ∈ R} × (0, ∞)2 . Voorbeeld 5.3 (Aanpassing). Het Black-Scholes model voor log returns op aandelen (zie Voorbeeld 3.11) zegt dat deze log returns kunnen worden opgevat als onafhankelijke trekkingen uit een normale verdeling. De verdeling van de log returns is belangrijk zowel voor “risk management” als voor het prijzen van derivaten (zoals opties). Als normaliteit wordt aangenomen, maar de log returns bezitten in werkelijkheid een verdeling met dikkere staarten (veel extreme waarden), dan loopt een houder van deze aandelen meer risico dan is ingecalculeerd, en een optieprijs zal niet re¨eel zijn. Daarom is het interessant om de aanname van normaliteit te toetsen. Kunnen de log returns worden opgevat als een steekproef uit een normale verdeling, of niet? In Hoofdstuk 3 hebben we gezien hoe de verdeling van een steekproef ook grafisch, bijvoorbeeld middels een QQ-plot, kan worden beoordeeld.
5: Toetsen
-0.6
-0.4
-0.2
0.0
0.2
0.4
110
Figuur 5.1. Boxplots van de mate van expressie van een gen gemeten in twee groepen van 26 (links) en 15 (rechts) tumoren.
Het is niet de bedoeling deze grafische methoden nu te vervangen door formele toetsen; veeleer beschouwen we de toetsen als een aanvulling. De formele opzet van de toetsingstheorie is een voordeel vanwege de helderheid, maar heeft als nadeel dat alleen een wel/niet antwoord wordt verkregen, zonder inzicht te krijgen in het soort afwijkingen van normaliteit in het geval het antwoord “niet” is. Aan de andere kant is de toetsingsmethode zeer geschikt om een vermeende afwijking in een QQ-plot op een objectieve wijze te bevestigen of te ontkennen. Naast de marginale verdeling van een steekproef kunnen we ook andere aspecten met behulp van een toets onderzoeken. In het geval van de log returns is bijvoorbeeld de tijdsafhankelijkheid interessant. Toetsen om na te gaan of de verdeling van een waarneming tot een bepaalde familie behoort worden aanpassingstoetsen (Engels: goodness-of-fit tests) genoemd. In Paragraaf 5.5.4 gaan we nader in op dit probleem.
5.2
Toetsingsgrootheid en Kritiek Gebied
Op basis van de waarneming X moeten we besluiten of er voldoende aanwijzingen tegen de nulhypothese H0 zijn, zodat we H0 willen verwerpen en de bewering onder de alternatieve hypothese als correct willen beschouwen. De waarden van X waarvoor de aanwijzingen sterk genoeg zijn vormen het zogenaamde kritieke gebied K. Voor deze waarden van X hebben we voldoende vertrouwen in de alternatieve hypothese om H0 te verwerpen. Definitie 5.4. Bij een gegeven nulhypothese H0 wordt een statistische
5.2: Toetsingsgrootheid en Kritiek Gebied
111
toets (Engels: test) gegeven door een een verzameling K van mogelijke waarden van de waarneming X, het kritieke gebied. Veronderstel dat x is waargenomen. Als x ∈ K, dan verwerpen we H0 ; als x ∈ / K, dan verwerpen we H0 niet. Met name als X = (X1 , . . ., Xn ) een vector van waarnemingen is, is het vaak lastig om op basis van X in te zien of de uitspraak onder de alternatieve hypothese juist kan zijn. Daarom vatten we de data vaak samen in een toetsingsgrootheid. Een toetsingsgrootheid is een re¨eelwaardige grootheid T = T (X) die gebaseerd is op de data en informatie geeft over de juistheid van de nul- en de alternatieve hypothese; de toetsingsgrootheid hangt dus niet van de onbekende parameter af. Het kritieke gebied K heeft veelal de vorm {x: T (x) ∈ KT }, of kortweg {T ∈ KT }, voor een toetsingsgrootheid T en een verzameling KT in het bereik van T . In de praktijk wordt de verzameling KT vaak ook wel het kritieke gebied genoemd. Hoe het kritieke gebied K of KT opgesteld kan worden, bespreken we in de volgende paragraaf. Voorbeeld 5.5 (Gauss-toets). Veronderstel dat X1 , . . ., Xn een steekproef vormen uit de normale verdeling met onbekende verwachting µ en bekende variantie σ 2 . We willen graag de nulhypothese H0 : µ ≤ µ0 toetsen tegen het alternatief H1 : µ > µ0 , voor µ0 een vast gekozen getal, bijvoorbeeld voor µ0 = 0. Dit probleem doet zich bijvoorbeeld voor bij de kwaliteitscontrole van producten in een fabriek. Omdat de fabrikant het te duur vindt om alle producten te controleren, wordt een kwaliteitsmaat bij een steekproef van producten gemeten. Uit eerder onderzoek is bekend dat de kwaliteitsmaatstaf normaal verdeeld is. De fabrikant wil bevestigen dat de gemiddelde kwaliteit van de gehele productie groter dan µ0 is. (De aanname van een bekende σ 2 is niet realistisch, maar vergemakkelijkt het voorbeeld. In de praktijk veronderstelt men dat σ 2 onbekend is en gebruikt men bijna altijd de t-toets uit Voorbeeld 5.26.) Het gemiddelde X is de maximum likelihood-schatter voor µ en kan daarom gebruikt worden om een idee te krijgen over de juistheid van de nul- en de alternatieve hypothese. Als het waargenomen gemiddelde x groter is dan µ0 dan wijst dit op het waar zijn van de alternatieve hypothese en hoe groter x is hoe sterker deze aanwijzing is. Het gemiddelde X kunnen we dus gebruiken als toetsingsgrootheid en we verwerpen H0 voor grote waarden van de toetsingsgrootheid. Het kritieke gebied heeft dan de vorm K = {(x1 , . . ., xn ): x ≥ c} voor een zekere waarde c. Maar, hoe groot moet c worden genomen opdat we genoeg vertrouwen hebben in de juistheid van de alternatieve hypothese als x ≥ c en de fout van de eerste soort klein genoeg is?
112
5: Toetsen
Stel dat voor een statistische toets het kritieke gebied de vorm K = {x: T (x) ∈ KT } heeft waar T een toetsingsgrootheid is en KT een deelverzameling in het bereik van T . De verzameling KT hangt af van de keuze van de toetsingsgrootheid T . Bij een andere toetsingsgrootheid T 0 hoort in het algemeen een andere verzameling KT 0 . Het kritieke gebied K kan echter in beide gevallen hetzelfde zijn; bij twee verschillende toetsingsgrootheden kan hetzelfde kritieke gebied K horen (zie Opgave 5.11). 5.2.1
Onbetrouwbaarheid en Onderscheidend Vermogen
Wanneer bij het toetsen van H0 : θ ∈ Θ0 tegen H1 : θ ∈ Θ1 de ware waarde van θ tot Θ0 behoort, is de nulhypothese waar. Als in dat geval x ∈ K, dan verwerpen we H0 ten onrechte en maken we een fout van de eerste soort. Voor een goede toets moet daarom de kans Pθ (X ∈ K) voor θ ∈ Θ0 klein zijn. Aan de andere kant willen we in het geval dat de nulhypothese niet waar is (θ ∈ Θ1 ) juist dat Pθ (X ∈ K) groot is. De kwaliteit van een toets kan daarom worden afgemeten aan de functie θ 7→ Pθ (X ∈ K). Definitie 5.6. Het onderscheidend vermogen (Engels: power function) van een toets K is π(θ; K) = Pθ (X ∈ K).
0.0
0.2
0.4
0.6
0.8
1.0
We zoeken dus een kritiek gebied waarvoor het onderscheidend vermogen “kleine waarden” (dichtbij 0) aanneemt als θ ∈ Θ0 , en “grote waarden” (dichtbij 1) als θ ∈ Θ1 . In Figuur 5.2 zijn van twee toetsen het onderscheidend vermogen weergegeven (als functie van θ op de horizontale as), een “ideale toets” met kans op beide soorten fouten gelijk aan 0 en een re¨ele toets.
Figuur 5.2. Onderscheidend vermogen van een ideale toets (doorgetrokken) en een re¨ ele toets (gestippeld). De parameterruimte onder de nul- en de alternatieve hypothese (Θ 0 en Θ1 ) zijn het gedeelte van de horizontale as waar het onderscheidend vermogen van de ideale toets gelijk aan 0, respectievelijk gelijk aan 1 is.
5.2: Toetsingsgrootheid en Kritiek Gebied
113
Definitie 5.7. De onbetrouwbaarheid (Engels: size) van een toets K met onderscheidend vermogen π(·; K) is het getal α = sup π(θ; K). θ∈Θ0
Een toets is van niveau α0 (Engels: level α0 ) als α ≤ α0 . De asymmetrie tussen de twee hypothesen wordt nu formeel gemaakt door een afspraak die zeker stelt dat de kans op een fout van de eerste soort hoogstens α0 is. Afspraak 5.8. In iedere praktijksituatie kiezen we eerst een vast getal α 0 , de onbetrouwbaarheidsdrempel. Vervolgens gebruiken we alleen toetsen van niveau α0 . Met andere woorden, we laten alleen toetsen toe waarvan het onderscheidend vermogen π(·; K) onder de nulhypothese ten hoogste α0 is: sup π(θ; K) ≤ α0 .
θ∈Θ0
Het lijkt aantrekkelijk de onbetrouwbaarheidsdrempel α0 extreem klein te kiezen, zodat we vrijwel nooit een fout van de eerste soort maken. Dit kunnen we alleen bereiken door K bijzonder klein te maken. In dat geval zal echter ook het onderscheidend vermogen voor θ ∈ Θ1 klein worden. De kansen op een fout van de tweede soort Pθ (X ∈ / K) = 1 − π(θ; K),
θ ∈ Θ1 ,
worden nu dus erg groot, hetgeen ook ongewenst is. De eisen om de kansen op fouten van eerste en tweede soort beide klein te maken werken elkaar tegen. We behandelen de twee soorten fouten niet symmetrisch; we streven er bijvoorbeeld niet naar de som van de maximale kansen op fouten van de eerste en tweede soort te minimaliseren. In de praktijk kiest men α0 vaak gelijk aan het magische getal 0.05. Deze keuze leidt ertoe dat, als we vaak toetsen, we ons niet mogen verbazen als we 1 op de 20 keer de nulhypothese ten onrechte verwerpen (en een fout van de eerste soort maken). Eigenlijk zouden we α0 afhankelijk moeten kiezen van de mogelijke consequenties van een fout van de eerste soort. Zijn deze buitengewoon ernstig, dan is α0 = 0.05 wellicht veel te groot. Wat betreft de fouten van de eerste soort beschouwen we Afspraak 5.8 als voldoende garantie dat de kans hierop klein is. Meestal zullen veel toetsen (met evt. verschillende toetsingsgrootheden) aan deze afspraak voldoen. Van deze toetsen geven we de voorkeur aan die toets met de kleinste kansen op een fout van de tweede soort. Hoe klein deze kansen zijn hangt af van de situatie, onder meer van het aantal waarnemingen en de gekozen onbetrouwbaarheidsdrempel α0 . Bij te grote kansen op fouten van de tweede soort is de toets natuurlijk weinig zinvol, omdat we dan bijna altijd H0 niet verwerpen en de tweede, niet-conclusie zullen kiezen.
114
5: Toetsen
Afspraak 5.9. Gegeven de onbetrouwbaarheidsdrempel α0 , geven we de voorkeur aan een toets van niveau α0 met een zo groot mogelijk onderscheidend vermogen π(θ; K) onder θ ∈ Θ1 . Volgens deze afspraak prefereren we bij een gegeven onbetrouwbaarheidsdrempel α0 een toets K1 boven een toets K2 , als beide toetsen van niveau α0 zijn en K1 een groter onderscheidend vermogen bezit dan K2 voor alle θ ∈ Θ1 : sup π(θ; Ki ) ≤ α0 , i = 1, 2
θ∈Θ0
en
π(θ; K1 ) ≥ π(θ; K2 ),
∀θ ∈ Θ1 ,
met strikte ongelijkheid voor tenminste ´e´en θ ∈ Θ1 . We noemen de toets K1 meer onderscheidend (Engels: more powerful) dan de toets K2 in zekere θ ∈ Θ1 als π(θ; K1 ) > π(θ; K2 ). We noemen K1 uniform meer onderscheidend als de ongelijkheid geldt voor alle θ ∈ Θ1 . In principe zoeken we nu de uniform meest onderscheidende toets van niveau α0 ; dat is een toets waarvan (bij een gegeven onbetrouwbaarheidsdrempel) het onderscheidend vermogen maximaal is voor alle θ ∈ Θ1 . Net als bij het vergelijken van verwachte kwadratische fouten van schatters, vergelijken we hier twee functies, en het is mogelijk dat de ene toets meer onderscheidend is voor bepaalde θ ∈ Θ1 , en de andere toets juist voor andere θ ∈ Θ1 . Welke toets we dan moeten prefereren is niet onmiddellijk duidelijk. Deze vraag komt in dit boek niet aan de orde. In uitzonderlijke gevallen bestaat een uniform meest onderscheidende toets (Engels: uniformly most powerful test) onder alle toetsen van niveau α0 . Dan is er een absoluut beste toets en is er geen probleem van niet-vergelijkbare toetsen. In Hoofdstuk 7 zullen we hier voorbeelden van zien. Voorbeeld 5.10 (Binomiale toets). Zij p de kans op succes bij een nieuwe therapie voor een willekeurig gekozen pati¨ent. Men wil deze therapie vergelijken met een oude therapie, die slechts in de helft van de gevallen succesvol is. Omdat men alleen ge¨ınteresseerd is in de nieuwe therapie wanneer die beter blijkt dan de oude, vergelijken we de onbekende succeskans p van de nieuwe therapie met 0.5; de (bekende) succeskans van de bestaande therapie is. We willen “bewijzen” dat de nieuwe therapie beter is dan de oude. We nemen de uitspraak “p > 0.5” daarom als alternatieve hypothese. De nulen alternatieve hypothese zijn dan gelijk aan H0 : p ≤ 0.5 en H1 : p > 0.5. Wanneer we H0 kunnen verwerpen, zullen we overgaan op de nieuwe therapie. De nieuwe therapie wordt bij 100 pati¨enten toegepast. We noteren het aantal pati¨enten waarvoor de nieuwe therapie succesvol is als de waarneming X en veronderstellen dat X bin(100, p)-verdeeld is. Het ligt voor de hand T (X) = X als toetsingsgrootheid te nemen, en het kritieke gebied van de vorm K = {cα0 , cα0 + 1, . . ., 100}.
5.2: Toetsingsgrootheid en Kritiek Gebied
115
Een grote waarde van X geeft immers een aanwijzing dat H0 onjuist is. De waarde cα0 moet zo worden gekozen dat de onbetrouwbaarheid van de toets ten hoogste α0 is. De onbetrouwbaarheid van de toets wordt gegeven door α = sup Pp (X ≥ cα0 ) = P0.5 (X ≥ cα0 ). p≤0.5
0.0
0.2
0.4
0.6
0.8
1.0
Het supremum wordt aangenomen in p = 0.5, omdat Pp (X ≥ cα0 ) als functie van p monotoon stijgend is. Deze monotonie is met enige moeite analytisch te bewijzen, maar is ook intu¨ıtief duidelijk. De functie p 7→ Pp (X ≥ cα0 ) is voor cα0 = 59 getekend in Figuur 5.3.
0.0
0.2
0.4
0.6
0.8
1.0
p Figuur 5.3. De functie p 7→ Pp (X ≥ 59) voor X bin(100, p) verdeeld.
Veronderstel dat we α0 = 0.05 kiezen. Als we vervolgens c0.05 = 59 nemen, is de onbetrouwbaarheid α = P0.5 (X ≥ 59) = 0.044 kleiner dan α0 = 0.05, terwijl voor c0.05 = 58 de onbetrouwbaarheid P0.5 (X ≥ 58) = 0.067 > 0.05. Voor c0.05 ≤ 58 is de toets dus niet van niveau 0.05 en daarom niet toegestaan bij deze waarde van de onbetrouwbaarheidsdrempel. We moeten daarom c0.05 ≥ 59 kiezen. Ter illustratie geeft Figuur 5.4 de functie x 7→ P0.5 (X ≥ x). Volgens Afspraak 5.9 moeten we het kritieke gebied zo kiezen dat het onderscheidend vermogen zo groot mogelijk is. Dit komt er op neer dat we het kritieke gebied zo groot mogelijk moeten kiezen, zodat onder H1 de kans op het (terecht) verwerpen van de nulhypothese, Pp (X ∈ K), zo groot mogelijk is. We kiezen daarom K = {59, 60, . . ., 100}. Onder alle toetsen van de gegeven vorm is dit de toets van niveau 0.05 met het grootste onderscheidend vermogen. De functie p 7→ Pp (X ≥ 59) in Figuur 5.3 is precies het onderscheidend vermogen van deze toets. Vindt men 64 successen bij de nieuwe therapie, dan wordt H0 dus verworpen op niveau 0.05 en luidt de conclusie dat de nieuwe therapie een grotere succeskans heeft dan de oude therapie. Bij 58 successen hadden we deze conclusie niet kunnen trekken: H0 was dan niet verworpen.
5: Toetsen
0.0
0.2
0.4
0.6
0.8
1.0
116
0
20
40
60
80
100
x Figuur 5.4. De functie x 7→ P0.5 (X ≥ x) voor X binomiaal verdeeld met parameters 100 (en 0.5). Deze functie is linkscontinu in punten waar x een waarde in N aanneemt. De horizontale lijn is ter hoogte 0.05.
In het geval van een eendimensionale parameter θ spreken we van een eenzijdige hypothese wanneer de nulhypothese van de vorm H0 : θ ≤ θ0 of H0 : θ ≥ θ0 is, waarbij θ0 een vast gegeven getal is. De alternatieve hypothese is dan van de vorm H1 : θ > θ0 respectievelijk H1 : θ < θ0 . De eerste hypothese noemen we rechtseenzijdig en de tweede hypothese linkseenzijdig. Wanneer de nul- en alternatieve hypothese de vorm H0 : θ = θ0 en H1 : θ 6= θ0 hebben, spreken we van een tweezijdige hypothese. Voor een toetsingsgrootheid T heeft het kritieke gebied vaak een van de volgende vormen KT = {T ≥ cα0 },
KT = {T ≤ cα0 }, KT = {T ≤ cα0 } ∪ {T ≥ dα0 },
voor getallen cα0 en dα0 met cα0 < dα0 in het laatste kritieke gebied. Welke vorm het kritieke gebied aanneemt is afhankelijk van de opgestelde hypothesen en de keuze voor de toetsingsgrootheid. De eerste twee vormen van KT heten eenzijdig, de laatste tweezijdig. De getallen cα0 en dα0 heten de kritieke waarden. Is de waarde van de toetsingsgrootheid extremer dan de kritieke waarde, dan wordt de nulhypothese verworpen. Merk op dat “extremer” zowel “groter dan” als “kleiner dan” kan betekenen, afhankelijk van de context en de toetsingsgrootheid. De Gauss-toets in Voorbeeld 5.11 is een voorbeeld van een toets waar een eenzijdige nulhypothese leidt tot een eenzijdig kritiek gebied KT en een tweezijdige nulhypothese tot een tweezijdig kritiek gebied KT . Dit is echter niet in het algemeen het geval; de vorm van het kritieke gebied hangt af van de opgestelde hypothesen en de keuze van de toetsingsgrootheid. In Paragraaf 5.6 (likelihood-ratiotoetsen)
5.2: Toetsingsgrootheid en Kritiek Gebied
117
zien we bijvoorbeeld een tweezijdige nulhypothese met daarbij een eenzijdig kritiek gebied KT . Voorbeeld 5.11 (Gauss-toets, vervolg). Stel dat X1 , . . ., Xn een steekproef is uit de N (µ, σ 2 )-verdeling, waarbij σ 2 een bekende constante is. Beschouw het toetsingsprobleem H0 : µ ≤ µ0 tegen H1 : µ > µ0 , waarbij µ0 een vast gegeven getal is (bijvoorbeeld µ0 = 0). In Voorbeeld 5.5 hebben we gezien dat het gemiddelde X een geschikte toetsingsgrootheid zou kunnen zijn. Het blijkt echter handiger te zijn om deze grootheid te standaardiseren tot T =
√ X − µ0 n , σ
zodat T onder de aanname µ = µ0 een N (0, 1)-verdeling bezit. Zowel µ0 als σ 2 is bekend, waardoor T ook daadwerkelijk een toetsingsgrootheid is. De toetsingsgrootheid X leidt tot hetzelfde kritieke gebied K (zie Opgave 5.11). Grote waarden van X, groter dan µ0 , en dus van T , zijn waarschijnlijker onder H1 dan onder H0 . Immers X is normaal verdeeld met verwachting µ en variantie σ 2 /n, en deze verdeling schuift naar rechts als µ toeneemt. We kiezen daarom een kritiek gebied, gebaseerd op de toetsingsgrootheid T , van de vorm K = (x1 , . . ., xn ): T ≥ cα0 . In de volgende twee alinea’s beargumenteren we dat de juiste keuze voor cα0 wordt gegeven door het (1 − α0 )-kwantiel ξ1−α0 van de standaard normale verdeling. (We noteren met ξα het getal zodanig dat Φ(ξα ) = α, waarbij Φ de standaard normale verdelingsfunctie is.) Volgens Afspraak 5.8 zoeken we een toets met een onbetrouwbaarheid die hoogstens α0 is, dat wil zeggen: sup Pµ ((X1 , . . ., Xn ) ∈ K) = sup Pµ (T ≥ cα0 ) ≤ α0 .
(5.1)
µ≤µ0
µ≤µ0
√
Omdat n(X − µ)/σ, als µ de ware parameterwaarde is, de standaard normale verdeling volgt, is de kans Pµ (T ≥ cα0 ) gelijk aan Pµ
√ X − µ √ X − µ √ µ0 − µ 0 ≥ c α0 = P µ n ≥ c α0 + n n σ σ σ √ µ0 − µ = 1 − Φ cα0 + n . σ
Deze kans is een stijgende functie van µ (hetgeen ook intu¨ıtief duidelijk is uit het feit dat de normale verdeling met verwachting µ naar rechts schuift als µ toeneemt), zodat het supremum supµ≤µ0 Pµ (T ≥ cα0 ) wordt aangenomen voor de grootst mogelijke waarde van µ, µ = µ0 . De eis (5.1) dat de onbetrouwbaarheid hoogstens α0 is, reduceert dus tot Pµ0 (T ≥ cα0 ) ≤ α0 .
118
5: Toetsen
Aangezien T standaard normaal verdeeld is onder de aanname dat µ = µ0 , volgt hieruit dat cα0 ≥ ξ1−α0 . Onder de toetsen van niveau α0 (van bovenstaande vorm) zoeken we nu de meest onderscheidende toets, volgens Afspraak 5.9. Dit is natuurlijk de toets met het grootste kritieke gebied, dat wil zeggen met een zo klein mogelijke kritieke waarde cα0 . In combinatie met de ongelijkheid in de vorige alinea nemen we cα0 = ξ1−α0 . Merk op dat de onbetrouwbaarheid nu precies gelijk is aan de onbetrouwbaarheidsdrempel α0 . Samengevat, de toets verwerpt de nulhypothese H0 : µ ≤ µ0 voor waar√ den van X zodanig dat T = n(X − µ0 )/σ ≥ ξ1−α0 . Dit is de gebruikelijke toets voor dit probleem, de Gauss-toets (genoemd naar de wiskundige die als een van de eersten de normale verdeling hanteerde). Het bijbehorende kritieke gebied is gelijk aan o n √ x − µ0 ≥ ξ1−α0 . K = {(x1 , . . ., xn ): T ∈ KT } = (x1 , . . ., xn ): n σ
De verzameling KT is dus gelijk aan [ξ1−α0 , ∞). Merk op dat de gevonden kritieke waarde cα0 = ξ1−α0 niet afhangt van de waarden van µ0 en σ 2 . Voor alle waarden van µ0 en σ 2 wordt hetzelfde kritieke gebied KT = [ξ1−α0 , ∞) gevonden. Dit is het voordeel van de gestandaardiseerde toetsingsgrootheid T boven X als toetsingsgrootheid. Daarom is het bij de Gauss-toets gebruikelijk de gestandaardiseerde toetsingsgrootheid te gebruiken. De verzameling KT = [ξ1−α0 , ∞) wordt dan ook vaak het kritieke gebied genoemd van de rechtseenzijdige Gauss-toets. Op analoge wijze kan de nulhypothese H0 : µ ≥ µ0 worden getoetst tegen de alternatieve hypothese H1 : µ < µ0 . Voor deze toets hanteert men dezelfde toetsingsgrootheid T . De nulhypothese H0 wordt bij onbetrouw√ baarheidsdrempel α0 verworpen als T = n(X − µ0 )/σ ≤ ξα0 = −ξ1−α0 . Het kritieke gebied voor het toetsen van de nulhypothese H0 : µ = µ0 tegen het tweezijdige alternatief H1 : µ 6= µ0 bij onbetrouwbaarheidsdrempel α0 wordt gevonden door samenvoeging van de kritieke gebieden van de beide eenzijdige toetsen met elk √onbetrouwbaarheid α0 /2. √ Dit leidt tot verwerping van de nulhypothese als n(X −µ0 )/σ ≤ ξα0 /2 of n(X −µ0 )/σ ≥ ξ1−α0 /2 , √ of, equivalent, als n|X − µ0 |/σ ≥ ξ1−α0 /2 . Uiteraard bezit de tweezijdige toets een kleiner onderscheidend vermogen dan de linkseenzijdige toets voor waarden µ < µ0 en dan de rechtseenzijdige toets voor waarden µ > µ0 , zie Figuur 5.5. Is men alleen in ´e´en van deze typen alternatieven ge¨ınteresseerd, dan verdient een geschikte eenzijdige toets dus de voorkeur boven een tweezijdige toets. Dit kan bijvoorbeeld het geval zijn als men overweegt een nieuwe productiemethode in te voeren of een nieuw apparaat aan te schaffen. Men is dan niet zozeer ge¨ınteresseerd in de vraag of deze innovatie tot achteruitgang kan leiden, maar men wil weten of een verbetering te verwachten is. De keuze tussen eenzijdig en tweezijdig toetsen hangt dus af van de praktische vraagstelling. Als men het idee achter “onbetrouwbaarheid” serieus wil nemen, dan mag men zich
119
0.0
0.2
0.4
0.6
0.8
1.0
5.2: Toetsingsgrootheid en Kritiek Gebied
−3
−2
−1
0
1
2
3
mu
Figuur 5.5. Onderscheidend vermogens als functie van µ van de twee eenzijdige Gausstoetsen (gestreept en gestippeld) en de tweezijdige Gauss-toets (doorgetrokken) voor µ 0 = 0 bij α0 = 0.05 en n = 5.
bij die keuze niet laten leiden door de uitkomsten van de experimenten! In het bijzonder zou het verkeerd zijn bijvoorbeeld voor de rechtseenzijdige toets te kiezen nadat is vastgesteld dat X > µ0 . In het bovenstaande hebben we de Gauss-toets ge¨ıntroduceerd middels een ad hoc argument. Behalve intu¨ıtief redelijk zijn deze toetsen ook de best mogelijke. Men kan namelijk bewijzen dat de eenzijdige Gauss-toetsen uniform meest onderscheidend zijn; dat wil zeggen dat bij deze toetsen het onderscheidend vermogen in alle mogelijke waarden onder de alternatieve hypothese maximaal zijn (zie Paragraaf 7.3). De tweezijdige Gauss-toets is uniform meest onderscheidend onder de zuivere toetsen. Zuivere toetsen zijn toetsen met π(θ0 ) ≤ α0 ≤ π(θ1 ) voor alle θ0 ∈ Θ0 en θ1 ∈ Θ1 en voor α0 de onbetrouwbaarheidsdrempel. Voorbeeld 5.12 (Binomiale toets, vervolg). Voorbeeld 5.10 betreft een speciaal geval van de volgende binomiale toets. Veronderstel dat voor een vast gekozen getal p0 ∈ (0, 1) we de nulhypothese H0 : p ≤ p0 willen toetsen tegen H1 : p > p0 op grond van een bin(n, p)-verdeelde waarneming X. We kiezen X zelf als toetsingsgrootheid en verwerpen H0 voor grote waarden van X. Het kritieke gebied heeft derhalve de vorm {x ∈ {0, 1, . . ., n}: x ≥ cα0 } = {cα0 , . . ., n}. We kiezen de kritieke waarde cα0 ∈ {0, . . ., n} zodanig dat de onbetrouwbaarheid van de toets kleiner dan of gelijk is aan α0 en, onder deze nevenvoorwaarde, het onderscheidend vermogen maximaal is (vergelijk Voorbeeld 5.10). De onbetrouwbaarheid van deze toets is gelijk aan α = sup Pp (X ≥ cα0 ) = Pp0 (X ≥ cα0 ), p≤p0
aangezien de kans Pp (X ≥ x) stijgend is in p bij vaste x. Om het onderscheidend vermogen zo groot mogelijk te maken onder de alternatieve
120
5: Toetsen
hypothese, nemen we kriteke gebied zo groot mogelijk, ofwel de kritieke waarde zo klein mogelijk: o n cα0 = min t ∈ {0, . . ., n}: Pp0 (X ≥ t) ≤ α0 .
Uiteraard geldt dan dat α ≤ α0 . Vanwege het sprongkarakter van de binomiale verdelingsfunctie zal deze ongelijkheid strikt zijn voor de meeste waarden van α0 . Voor niet te kleine waarden van n kunnen we de kans Pp0 (X ≥ t) normaal benaderen en zijn de sprongen in de verdelingsfunctie van X te verwaarlozen. Voor de onbetrouwbaarheid van de binomiale toets levert dit α0 ≥ Pp0 X ≥ cα0 = Pp0 X ≥ cα0 − 12 c − np − 1 X − np cα − np0 − 21 α 0 0 2 = P p0 p ≈ 1 − Φ p0 ≥ p0 np0 (1 − p0 ) np0 (1 − p0 ) np0 (1 − p0 )
waarbij het ≈-teken volgt uit de benadering van de binomiale verdelingsfunctie door de normale verdelingsfunctie en de term 1/2 in de teller de continu¨ıteitscorrectie is (zie Appendix 9). Bij gegeven α0 is de waarde van cα0 het kleinste gehele getal waarvoor geldt dat cα − np0 − 21 . ξ1−α0 ≤ p0 np0 (1 − p0 )
(5.2)
Aanpassingen van deze eenzijdige toets voor het geval van het andere eenzijdige probleem, H1 : p < p0 , of het tweezijdige probleem, H1 : p 6= p0 , liggen voor de hand. Voorbeeld 5.13 (Verschoven exponenti¨ ele verdeling). Veronderstel dat X1 , . . ., Xn een steekproef is uit de verschoven exponenti¨ele verdeling met intensiteitsparameter 1 en een onbekende verschuivingsparameter θ ∈ (−∞, ∞). De bijbehorende dichtheid wordt gegeven door pθ (x) = eθ−x voor x ≥ θ, en pθ (x) = 0 voor x < θ. Veronderstel dat we de nulhypothese H0 : θ ≤ 0 willen toetsen tegen de alternatieve hypothese H1 : θ > 0 bij een onbetrouwbaarheidsdrempel α0 . De maximum likelihood-schatter voor θ wordt gegeven door de eerste ordestatistiek X(1) = min{X1 , . . ., Xn } (zie Voorbeeld 4.15). Het ligt dan voor de hand X(1) als toetsingsgrootheid T te nemen en de nulhypothese te verwerpen voor grote waarden van T ; immers als T positief is, is dit een teken dat de alternatieve hypothese waar zou kunnen zijn. Het kritieke gebied heeft derhalve de vorm K = {(x1 , . . ., xn ): x(1) ≥ cα0 }. De volgende stap is het bepalen van de kritieke waarde cα0 zodanig dat de onbetrouwbaarheid van de toets ten hoogste α0 is en het onderscheidend vermogen maximaal. De onbetrouwbaarheid van de toets wordt gegeven door sup Pθ ((X1 , . . ., Xn ) ∈ K) = sup Pθ (X(1) ≥ cα0 ). θ≤0
θ≤0
5.2: Toetsingsgrootheid en Kritiek Gebied
121
n Voor θ < cα0 is de kans Pθ (X(1) ≥ cα0 ) = Pθ (X1 ≥ cα0 ) = en(θ−cα0 ) stijgend in θ. Het supremum in de uitdrukking voor de onbetrouwbaarheid van de toets wordt dus aangenomen in θ = 0. De kritieke waarde cα0 moet nu voldoen aan de ongelijkheid e−ncα0 ≤ α0 , ofwel cα0 ≥ −n−1 log α0 . Om het onderscheidend vermogen van de toets zo groot mogelijk te maken moet het kritieke gebied zo groot mogelijk zijn. Hieruit volgt dat cα0 = −n−1 log α0 . Het kritieke gebied is daarmee gelijk aan o n 1 K = (x1 , . . ., xn ): x(1) ≥ − log α0 , n
en de onbetrouwbaarheid van de toets is precies gelijk aan α0 . De toets verwerpt de nulhypothese als X(1) ≥ −n−1 log α0 . Merk op dat −n−1 log α0 > 0 voor α0 ∈ (0, 1). Met behulp van de theorie uit Hoofdstuk 7 kan, op analoge wijze als bij de homogene verdeling, worden bewezen dat bovenstaande toets uniform meest onderscheidend is. Dat wil zeggen dat voor het toetsen van de nulhypothese H0 : θ ≤ 0 tegen de alternatieve hypothese H1 : θ > 0 bovenstaande toets voor elke waarde van θ > 0 meest onderscheidend is onder alle toetsen van niveau α0 . Natuurlijk hadden we ook een andere toetsingsgrootheid kunnen kiezen, bijvoorbeeld de momentenschatter voor θ: X − 1, welke tot een ander kritiek gebied leidt. Deze toets blijkt een kleiner onderscheidend vermogen te hebben voor θ > 0 en heeft daarom niet onze voorkeur. Voorbeeld 5.14 (Toepassing, vervuild zwembadwater). De richtlijn voor het aantal colibacteri¨en in zwembadwater luidt: maximaal 10000 in een monster van 100 ml. Omdat het aantal bacteri¨en niet exact bepaald kan worden hanteren we als norm dat de kans op meer dan 10000 colibacteri¨en in een monster van 100 ml hoogstens 5% mag zijn.‡ In Voorbeeld 4.19 is een procedure uitgelegd die gebruikt kan worden om het aantal colibacteri¨en in (vervuild) water te schatten. Definieer X als het aantal colibacteri¨en in een monster van 100 ml zwembadwater. We veronderstellen dat X Poissonverdeeld is met onbekende parameter µ. Voor pµ = Pµ (X ≥ 10000) kan de norm formeel getoetst worden aan de hand van de hypothesen H0 : pµ ≤ 0.05
versus
H1 : pµ > 0.05.
De kans pµ = Pµ (X ≥ 10000) is monotoon stijgend in µ. Er geldt Pµ=9836 (X ≥ 10000) = 0.050 terwijl Pµ (X ≥ 10000) > 0.050 voor µ > 9836. Daarom is het toetsen van bovenstaande hypothesen equivalent aan het toetsten van de hypothesen H00 : µ ≤ 9836
versus
H10 : µ > 9836.
‡ In de praktijk gaat het niet precies zoals in dit voorbeeld staat beschreven. In het echt neemt men meerdere monsters op verschillende plaatsen in het bad. Van deze monsters moet minimaal 95 % aan de richtlijn voldoen. In dit voorbeeld is deze praktijksituatie vertaald naar een kans van minstens 95 % per monster.
122
5: Toetsen
Men verdeelt het monster vermengd met zuiver water over 10000 kweekbakken van 1 liter. Net als in Voorbeeld 4.19 defini¨eren we Xi als het aantal colibacteri¨en in de ie liter en Yi als de indicatorvariabele die aangeeft of er zich een kolonie vormt in de ie kweekbak. De variabelen X1 , . . ., X10000 veronderstellen we onafhankelijk en Poisson-verdeeld met parameter µ/10000. De variabelen Y1 , . . ., Y10000 worden verondersteld identiek en alternatief verdeeld te zijn met parameter qµ = Pµ (Yi = 1) = 1 − e−µ/10000 . Omdat qµ monotoon stijgend is in µ en 1 − e−9836/10000 = 0.626 zijn de hypothesen H00 en H10 gelijkwaardig met H000 : qµ ≤ 0.626
versus
H100 : qµ > 0.626.
Deze nulhypothese, H000 , kan getoetst worden op basis van de toetsingsgrootP heid T = 10000 i=1 Yi , die binomiaal verdeeld is met parameters 10000 en qµ . De nulhypothese kan daarom getoetst worden met de eenzijdige binomiale toets, zoals wordt beschreven in Voorbeeld 5.12. De normale benadering is zeker gerechtvaardigd omdat 10000 × 0.626 × (1 − 0.626) = 2341 > 5 (zie Appendix 9). De kritieke waarde is op te lossen uit Vergelijking 5.2. Hieruit volgt dat bij een onbetrouwbaarheidsdrempel van α0 = 0.05 de P10000 nulhypothese H000 verworpen wordt als i=1 Yi ≥ 6341. Wanneer we in minstens 6341 kweekbakken een kolonie aantreffen, nemen we aan dat qµ > 0.626, ofwel dat µ > 9836 (we verwerpen dan dus ook H00 en nemen H10 aan), en dus verwerpen we in dat geval onze aanvankelijke nulhypothese H0 en nemen aan dat pµ = Pµ (X ≥ 10000) > 0.05. We concluderen dat het zwembadwater niet voldoet aan de norm wanneer in ten minste 6341 kweekbakken een kolonie wordt gevormd.
5.2.2
Steekproefgrootte
Het onderscheidend vermogen van een toets is doorgaans sterk afhankelijk van de hoeveelheid beschikbare data. Uiteraard kan met meer data een groter onderscheidend vermogen worden behaald. Doorgaans kan met “oneindig veel data” het ideale onderscheidend vermogen uit Figuur 5.2 worden bereikt. De nul- en alternatieve hypothese kunnen dan zonder fouten precies van elkaar worden onderscheiden. In praktische situaties kunnen we fouten van de eerste en tweede soort niet vermijden, maar we kunnen wel de helling van het onderscheidend vermogen als in Figuur 5.2 positief be¨ınvloeden door de toetsingsprocedure op meer data te baseren. In de praktijk leidt dit tot de vraag van de zogenaamde minimale steekproefomvang. Bedoeld wordt de minimale grootte van de steekproef opdat de corresponderende toets in een zeker alternatief θ ∈ Θ1 een groter onderscheidend vermogen bezit dan een gegeven ondergrens. Het is duidelijk uit deze precisering dat de minimale steekproefomvang alleen goed gedefinieerd is als zowel het bewuste alternatief als de te bereiken kans
5.2: Toetsingsgrootheid en Kritiek Gebied
123
op een fout van de tweede soort is vastgelegd, naast natuurlijk de gewenste onbetrouwbaarheid. In de meeste gevallen betekent dit dat een integere statisticus geen eenvoudig antwoord op de vraag van een minimale steekproefomvang zal kunnen uitspreken. We illustreren dit met een aantal voorbeelden, waarin de berekeningen min of meer expliciet zijn. Voorbeeld 5.15 (Gauss-toets, vervolg). De Gauss-toets verwerpt de nul√ hypothese H0 : µ ≤ µ0 voor waarden van T = n(X − µ0 )/σ groter dan of gelijk aan ξ1−α0 ; het kritieke gebied voor de toetsingsgrootheid T is KT = [ξ1−α0 , ∞). Het onderscheidend vermogen van de Gauss-toets is de functie √ X − µ 0 n ≥ ξ1−α0 σ √ X − µ √ µ − µ0 √ µ − µ0 = 1 − Φ ξ1−α0 − n . ≥ ξ1−α0 − n = Pµ n σ σ σ
µ 7→ π(µ; K) = Pµ
Gebruik makend van het feit dat x 7→ Φ(x) een monotoon stijgende functie is, en dus ξ1−α dalend in α is, lezen we hieruit de volgende eigenschappen af: • hoe groter n, des te groter het onderscheidend vermogen in µ > µ0 (meer informatie is beschikbaar); • hoe groter µ, des te groter het onderscheidend vermogen in µ (µ ligt dan verder van de nulhypothese); • hoe groter σ, des te kleiner het onderscheidend vermogen in µ > µ0 (de grotere spreiding in de waarnemingen maakt het moeilijker iets over hun verwachting te zeggen); • hoe groter α0 , des te groter het onderscheidend vermogen in µ > µ0 , maar ook des te groter de kans op een fout van de eerste soort. Veronderstel nu dat we voor een gegeven onbetrouwbaarheidsdrempel α0 en een gegeven alternatief µ > µ0 een onderscheidend vermogen van minstens 1 − β wensen, d.w.z. de kans op een fout van de tweede soort in µ is kleiner dan β. Uit de formule voor het onderscheidend vermogen volgt dat dit het geval is mits √ µ − µ0 ≤β Φ ξ1−α0 − n σ ofwel, met β = Φ(ξβ ), mits
√ µ − µ0 n ≥ ξ1−α0 − ξβ . σ √ De minimale waarde van n waarvoor aan deze eis is voldaan is gelijk aan (ξ1−α0 − ξβ )σ/(µ − µ0 ). Hierbij merken we op dat alle natuurlijke keuzes voor α0 en β voldoen aan 1 − α0 > β, zodat ξ1−α0 − ξβ positief is.
124
5: Toetsen
Voorbeeld 5.16 (Binomiale toets, vervolg). De standaard toets voor de nulhypothese H0 : p ≤ p0 gebaseerd op een grootheid X met de binomiale verdeling met parameters n en p, verwerpt voor waarden van X in het kritieke gebied K = {cα0 , . . ., n} waarbij cα0 bij benadering kan worden opgelost uit vergelijking (5.2), cα0 − np0 − 21 p ≈ ξ1−α0 . np0 (1 − p0 )
Het onderscheidend vermogen van de toets is gelijk aan de functie c − np − 1 α 2 . p 7→ Pp (X ≥ cα0 ) ≈ 1 − Φ p0 np(1 − p)
0.0
0.2
0.4
0.6
0.8
1.0
Deze functie is geschetst in Figuur 5.6 voor n = 10 en n = 25, α0 = 0.05 en p0 = 12 . Duidelijk blijkt dat voor p > 0.5 het onderscheidend vermogen bij n = 25 veel groter is dan bij n = 10: bij meer waarnemingen kunnen we beter uitmaken of H1 al dan niet waar is en verwerpen we H0 met grotere kans als H1 waar is. (Merk op dat ook de onbetrouwbaarheid van de toets bij n = 25 iets groter is; we hebben de waarde cα0 in beide gevallen gekozen volgens onze twee afspraken.)
0.0
0.2
0.4
0.6
0.8
1.0
Figuur 5.6. Onderscheidend vermogen van de toets voor H0 : p ≤ 12 bij onbetrouwbaarheidsdrempel α0 = 0.05 gebaseerd op een waarneming uit de binomiale verdeling voor n = 10 (doorgetrokken curve) en n = 25 (gestippeld curve).
De normale benadering is zeer geschikt om de minimale steekproefomvang te bepalen voor het bereiken van een voorgeschreven onderscheidend vermogen. Veronderstel bijvoorbeeld dat we H0 : p ≤ 12 willen toetsen tegen H1 : p > 21 bij onbetrouwbaarheidsdrempel α0 = 0.05 en wel zo, dat het onderscheidend vermogen in p = 0.6 minstens 0.8 bedraagt. Hoe groot moet
5.3: Statistische Significantie
125
n dan zijn? Dit leidt tot het stelsel vergelijkingen: c0.05 − n0.5 − 12 p ≈ ξ0.95 = 1.64, n0.5(1 − 0.5)
c0.05 − n0.6 − 21 p ≤ ξ0.2 = −0.84. n0.6(1 − 0.6) √ Uit de gelijkheid volgt c0.05 ≈ n/2 + 1.64 n/2 +√1/2 en substitutie van deze waarde voor c0.05 in de ongelijkheid, geeft dat n ≥ 12.32 en dus n ≥ 152. Voorbeeld 5.17 (Verschoven exponenti¨ ele verdeling, vervolg). Veronderstel dat X1 , . . ., Xn een steekproef is uit de verschoven exponenti¨ele verdeling met intensiteitsparameter gelijk aan 1 en een onbekende verschuivingsparameter θ ∈ R. In Voorbeeld 5.13 is afgeleid dat de nulhypothese H0 : θ ≤ 0 wordt verworpen als X(1) ≥ −n−1 log α0 met α0 de onbetrouwbaarheid van de toets. Voor een onderscheidend vermogen van minstens 0.8 in θ = 0.1 kunnen we de minimale steekproefgrootte bepalen. Door de verdelingsfunctie van X(1) uit te drukken in de marginale verdelingsfunctie (van X1 ) kan het onderscheidend vermogen van de toets worden bepaald voor elke θ, n 1 1 π(θ, K) = Pθ X(1) ≥ − log α0 = Pθ X1 ≥ − log α0 = α0 enθ . n n
De eis dat π(0.1, K) ≥ 0.8 bij α0 = 0.05 leidt tot de ongelijkheid 0.05en0.1 ≥ 0.80. Hieruit volgt direct dat n ≥ 27.7.
5.3
Statistische Significantie
De algemene opzet van de toetsingstheorie zoals hiervoor is beschreven is zowel tamelijk ingewikkeld, als verbluffend eenvoudig, omdat er slechts twee beslissingen mogelijk zijn. In veel praktijksituaties is de eenvoud misleidend. Een effect wordt statistisch significant genoemd als de relevante nulhypothese wordt verworpen, bij de gegeven onbetrouwbaarheidsdrempel. Dit moet als volgt worden ge¨ınterpreteerd: het effect dat we in de data hebben waargenomen is waarschijnlijk niet aan toevalsvariatie te wijten; zouden we het hele experiment herhalen, dan zouden we waarschijnlijk hetzelfde effect opnieuw vinden. Dit hoeft geenszins te betekenen dat het “effect” praktisch significant is. Het is heel denkbaar dat de toetsingsprocedure terecht heeft aangetoond dat de nieuwe therapie beter is, maar dat de verbetering verwaarloosbaar klein is. Als de oude therapie kans p = 0.5
126
5: Toetsen
op succes heeft, en de nieuwe kans p = 0.500001, dan zullen we dit effect vinden en H0 verwerpen mits we voldoende waarnemingen doen, maar praktisch gesproken zal het ons waarschijnlijk weinig uitmaken welke therapie we volgen. Om deze reden is het wenselijk een toetsingsprocedure die leidt tot verwerping van H0 altijd aan te vullen met een schattingsprocedure die een indicatie geeft van de grootte van een mogelijk effect. De context bepaalt dan of dit effect van praktisch belang is. Een andere mogelijkheid om de discrepantie tussen statistische en praktische significantie te overbruggen zou zijn om de nulhypothese anders te formuleren. We zouden bijvoorbeeld de nulhypothese kunnen toetsen dat het verschil p2 − p1 in kans op succes bij de nieuwe therapie en de oude therapie minstens 0.2 is, in plaats van de hypothese dat p2 −p1 > 0. De waarde 0.2 zou dan de praktische significantie kunnen uitdrukken. In de praktijk is men echter meestal tevreden met het vaststellen van een kwalitatief verschil en toetst men de hypothese H1 : p2 − p1 > 0.
5.4
Overschrijdingskansen
In het voorgaande hebben we toetsen middels een toetsingsgrootheid T en een kritiek gebied K beschreven. Veronderstel dat het kritieke gebied de vorm K = {x: T (x) ≥ dα0 } bezit waarbij de constante dα0 het kleinste getal is zodanig dat een toets van deze vorm niveau α0 heeft. Dat wil zeggen o n (5.3) dα0 = min t: sup Pθ (T ≥ t) ≤ α0 . θ∈Θ0
Veelal correspondeert het minimaal nemen van dα0 met het maximaliseren van het onderscheidend vermogen in Θ1 . De formule is daarom een gevolg van Afspraak 5.9. De gelijkheid (5.3) impliceert dat, voor iedere t ∈ R, sup Pθ (T ≥ t) ≤ α0
θ∈Θ0
⇐⇒
t ≥ d α0 .
We kunnen de toets daarom op de volgende wijze uitvoeren: gegeven dat de waarde t is waargenomen voor de toetsingsgrootheid T , bereken de overschrijdingskans of p-waarde (Engels: observed significance level, of, p-value) sup Pθ (T ≥ t).
θ∈Θ0
Is de overschrijdingskans kleiner dan of gelijk aan α0 , dan verwerpen we H0 ; anders verwerpen we H0 niet. Dit voorschrift geeft precies de toets met kritiek gebied K = {x: T (x) ≥ dα0 }, want de overschrijdingskans is kleiner dan of gelijk aan α0 dan en slechts dan als t ≥ dα0 . Bovenstaande
127
0.0
0.2
0.4
0.6
0.8
1.0
5.4: Overschrijdingskansen
−2
0
2
4
Figuur 5.7. Rechter overschrijdingskans t 7→ supµ≤µ0 Pµ (T ≥ t) = Pµ0 (T ≥ t) (doorgetrokken curve) voor de Gauss-toets met µ0 = 0. Op de hoogte van α0 = 0.05 is een stippellijn getekend. De dik gedrukte lijn is het bijbehorende kritieke gebied.
wordt met behulp van de Gauss-toets in Figuur 5.7 ge¨ıllustreerd. In de figuur is duidelijk te zien dat voor waarden t in het kritieke gebied geldt dat supµ≤µ0 Pµ0 (T ≥ t) ≤ α0 , en anders om. In woorden is de overschrijdingskans het maximum over alle mogelijkheden onder de nulhypothese van de kans dat bij een identiek experiment een extremere waarde van de toetsingsgrootheid wordt gevonden dan de waarde t van het uitgevoerde experiment. Het supremum over alle mogelijkheden onder de nulhypothese maakt de overschrijdingskans enigszins gecompliceerd. In veel gevallen is het supremum overbodig omdat ´e´en van de parameters θ0 ∈ Θ (vaak een randpunt van Θ0 ) altijd de maximumkans geeft. In dat geval is de overschrijdingskans gelijk aan Pθ0 (T ≥ t). De overschrijdingskans zoals we hem zojuist hebben gedefinieerd is specifiek voor kritieke gebieden van de vorm {x: T (x) ≥ dα0 }. Een uitbreiding naar kritieke gebieden van de vorm {x: T (x) ≤ cα0 } ligt voor de hand, waarbij nu de aanname is dat n o cα0 = max t: sup Pθ (T ≤ t) ≤ α0 . θ∈Θ0
Gegeven de waargenomen waarde t berekenen we de overschrijdingskans supθ∈Θ0 Pθ (T ≤ t). Is dit getal kleiner dan of gelijk aan α0 , dan verwerpen we H0 . Tweezijdige kritieke gebieden van de vorm {x: T (x) ≤ c} ∪ {x: T (x) ≥ d} bestaan vaak uit een combinatie van twee eenzijdige gebieden in de zin dat c = cα0 /2 en d = dα0 /2 voor cα0 en dα0 als eerder gedefinieerd. De onbetrouwbaarheidsdrempel α0 wordt dus gesplitst in twee gelijke delen van α0 /2 in de linker- en rechterstaart. In dit geval wordt de overschrijdingskans
128
5: Toetsen
bij waargenomen waarde t gedefinieerd als 2 min sup Pθ (T ≤ t), sup Pθ (T ≥ t) . θ∈Θ0
θ∈Θ0
Is dat getal kleiner dan of gelijk aan α0 , dan verwerpen we H0 ; anders verwerpen we H0 niet. Dit komt neer op het kijken of ´e´en van de twee “eenzijdige overschrijdingskansen” kleiner is dan of gelijk is aan α0 /2: 2 min(a, b) ≤ α0 dan en slechts dan als a ≤ α0 /2 of b ≤ α0 /2. Toetsen middels overschrijdingskansen verdient in de meeste gevallen de voorkeur boven toetsen middels een kritiek gebied, omdat de resulterende uitspraak informatiever is. Bij rapportering van de overschrijdingskans is het immers mogelijk alsnog (en op heel eenvoudige wijze) de hypothese bij ieder gewenste onbetrouwbaarheidsdrempel α0 te toetsen, terwijl bij rapportering van het kritieke gebied en de waarde van de toetsingsgrootheid bij een vaste α0 dit niet mogelijk is. Bovendien geeft, bijvoorbeeld, een heel kleine overschrijdingskans onmiddellijk aan dat H0 overduidelijk wordt verworpen. Voorbeeld 5.18 (Binomiale toets, vervolg). In Voorbeeld 5.10 werd geconcludeerd dat bij 64 successen de nulhypothese wordt verworpen bij α0 = 0.05, terwijl bij 58 successen de nulhypothese niet wordt verworpen. De overschrijdingskansen bij 64 en 58 successen zijn respectievelijk sup Pp (X ≥ 64) = P0.5 (X ≥ 64) = 0.0033
p≤0.5
sup Pp (X ≥ 58) = P0.5 (X ≥ 58) = 0.0666.
p≤0.5
De eerste kans is heel klein en inderdaad kleiner dan 0.05 en de tweede is groter dan 0.05. We zien bovendien dat de nulhypothese bij 64 successen verworpen wordt voor alle onbetrouwbaarheidsdrempels α0 ≥ 0.0033. De overschrijdingskans geeft dus meer informatie dan alleen de vaststelling dat de nulhypothese wordt verworpen bij α0 = 0.05, hetgeen de conclusie was in Voorbeeld 5.10. Voorbeeld 5.19 (Binomiale toets, vervolg). De overschrijdingskans van de binomiale toets voor de nulhypothese H0 : p ≤ p0 , bij waargenomen waarde x, is gelijk aan sup Pp (X ≥ x) = Pp0 (X ≥ x).
p≤p0
We verwerpen H0 : p ≤ p0 als deze kans kleiner is dan of gelijk is aan α0 . Voor bekende p0 , α0 , n en x kunnen we de overschrijdingskans opzoeken in een tabel, dan wel berekenen met een statistisch computerpakket. Voor grote n kunnen we ook de normale benadering toepassen, x − np − 1 0 2 Pp0 (X ≥ x) ≈ 1 − Φ p . np0 (1 − p0 )
5.4: Overschrijdingskansen
129
Voor de linker overschrijdingskans kan eveneens de normale benadering worden toegepast, met de continu¨ıteitscorrectie in de andere richting. Voorbeeld 5.20 (Gauss-toets, vervolg). De Gauss-toets verwerpt de nul√ hypothese H0 : µ ≤ µ0 voor grote waarden van T = n(X − µ0 )/σ. De kritieke waarde ξ1−α0 van de toets voldoet aan (5.3). De overschrijdingskans van de toets is daarom gelijk aan, bij waargenomen waarde x, √ x − µ √ x − µ0 √ x − µ0 0 sup Pµ T ≥ n = P µ0 T ≥ n =1−Φ n . σ σ σ µ≤µ0 Is deze kans kleiner dan of gelijk aan α0 , dan wordt H0 verworpen op niveau α0 . De overschrijdingskans voor het toetsen van de andere eenzijdige nulhypothese H0 : µ ≥ µ0 tegen de √ alternatieve hypothese H1 : µ < µ0 wordt gegeven door de kans Pµ0 (T ≤ n(x − µ0 )/σ). We verwerpen de nulhypothese als deze kans kleiner dan of gelijk is aan α0 . De tweezijdige Gauss-toets is niets anders dan de combinatie van de twee eenzijdige toetsen, ieder met onbetrouwbaarheidsdrempel α0 /2. We kunnen deze toets daarom uitvoeren door het berekenen van zowel de linkerals de rechteroverschrijdingskans. De overschrijdingskans van de tweezijdige toets is dan gelijk aan twee maal het minimum van de linker- en rechteroverschrijdingskans. Is ´e´en van de twee overschrijdingskansen kleiner dan of gelijk aan α0 /2, dan is de overschrijdingskans kleiner dan of gelijk aan α0 en verwerpen we de nulhypothese H0 : µ 6= µ0 . Voorbeeld 5.21 (Toepassing, Poisson-voorraden). Veronderstel dat een distributiecentrum wekelijks een bepaald bederfelijk artikel inkoopt om verschillende filialen te voorzien (zie Voorbeeld 2.6). Omdat het artikel slechts een beperkte houdbaarheid heeft, wil men niet te veel inkopen; niet verkochte artikelen worden aan het einde van de week weggegooid. Anderzijds, wanneer er te weinig wordt ingekocht en niet aan de vraag kan worden voldaan dan geeft dat ontevredenheid en verlies van klanten. Men heeft daarom besloten wekelijks een vast aantal (C) artikelen in te kopen zodat de kans op een tekort maximaal 10 % bedraagt. Echter, de laatste tijd is het aantal ingekochte artikelen regelmatig niet toereikend om aan de vraag van de filialen te voldoen. Blijkbaar is de wekelijkse vraag gestegen. Dit wil men met een statistische toets nagaan. We veronderstellen dat de totale wekelijkse vraag Z Poisson-verdeeld is met parameter θ. Bij een gegeven wekelijks ingekocht aantal artikelen C kan dan bepaald worden wat de maximale parameterwaarde θ0 is waarbij nog aan de norm van 10% wordt voldaan: θ0 = max{θ: Pθ (Z > C) ≤ 0.10}. Om te toetsen of de huidige wekelijkse vraag hoger geworden is dan waarop het inkoopbeleid is gebaseerd, willen we de nulhypothese H0 : θ ≤ θ0 tegen het alternatief H1 : θ > θ0 toetsen. Daartoe houden we gedurende n weken de
130
5: Toetsen
totale wekelijkse vraag bij. Dit geeft als waarnemingen Z1 , . . ., Zn . Verondersteld wordt dat Z1 , . . ., Zn onderling onafhankelijk en Poisson-verdeeld zijn met parameter θ. Om hypothese te toetsen, nemen we als Pbovenstaande n toetsingsgrootheid T = i=1 Zi , welke Poisson-verdeeld is met parameter nθ. De toets wordt uitgevoerd door middel van het berekenen van de rechter overschrijdingskans. Bij waargenomen T = t is de overschrijdingskans supθ≤θ0 Pθ (T ≥ t) = Pθ0 (T ≥ t). Als deze overschrijdingskans kleiner dan of gelijk is aan de gekozen onbetrouwbaarheidsdrempel α0 dan wordt de nulhypothese verworpen en kan worden geconcludeerd dat de huidige vraag te hoog is om bij het huidige inkoopbeleid aan de 10% norm te voldoen. De overschrijdingskans kan exact worden bepaald met behulp van een statistisch pakket, maar kan ook worden benaderd. Als nθ groot is, is de toetsingsgrootheid T bij benadering normaal verdeeld met zowel de verwachting als de variantie gelijk aan nθ, zie Paragraaf 9.6. De overschrijdingskans kan dan als volgt worden benaderd Pθ0 (T ≥ t) = Pθ0
T − nθ t − nθ t − nθ0 0 0 √ ≈1−Φ √ . ≥ √ nθ0 nθ0 nθ0
Dit toetsingsprobleem kan ook van een andere kant benaderd worden. Veronderstel dat we in plaats van de wekelijkse vraag slechts noteren of we die week voldoende artikelen in voorraad hebben. We nemen dan een rij X1 , . . ., Xn waar, waarbij Xi = 1Zi >C gelijk is aan 1 als de vraag hoger is dan het aantal geleverde producten C en 0 als er voldoende is. De variabelen X1 , . . ., Xn zijn dan onderling onafhankelijk en alternatief verdeeld met parameter p, waar p de kans is dat er in een willekeurige week een tekort is. Aangezien we willen onderzoeken of deze kans groter dan 10% is, toetsen we nu de nulhypothese Pn H0 : p ≤ 0.10 tegen H1 : p > 0.10. Als toetsingsgrootheid nemen we X = i=1 Xi welke binomiaal verdeeld is met parameters n en p. Het bepalen van de overschrijdingskans voor deze toets staat beschreven in Voorbeeld 5.19. Welke van bovenstaande toetsen is nu beter? Dit kunnen we beoordelen aan de hand van het onderscheidend vermogen. Het onderscheidend vermogen van de eerste toets, gebaseerd op de Poisson(θ)-verdeelde grootheden Z1 , . . ., Zn , is een functie van θ. Voor de tweede toets, gebaseerd op de alternatief(p)-verdeelde grootheden X1 , . . ., Xn , is het onderscheidend vermogen in principe een functie van p. Echter bij gegeven θ is de kans p als volgt uit te rekenen p = Pθ (Xi = 1) = Pθ (Zi > C) =
∞ X
k=C+1
e−θ
θk . k!
Daarmee kan ook het onderscheidend vermogen van de tweede toets als functie van θ worden berekend.
131
0.0
0.2
0.4
0.6
0.8
1.0
5.5: Enkele Standaard Toetsen
85
90
95
100
105
Figuur 5.8. Onderscheidend vermogen als functie van θ op basis van de Poisson-verdeelde waarnemingen Z1 , . . ., Zn (doorgetrokken curve) en de alternatief verdeelde waarnemingen X1 , . . ., Xn bij n = 26, C = 100 en α0 = 0.05 en θ0 = max{θ: Pθ (Z > 100) ≤ 0.10} = 88.35
In Figuur 5.8 is het onderscheidend vermogen van beide toetsen getekend als functie van θ voor de keuze C = 100, n = 26 en α0 = 0.05. In de figuur is te zien dat het onderscheidend vermogen van de eerste toets hoger is dan dat van de tweede toets voor waarden van θ onder de alternatieve hypothese, dat is voor θ > θ0 . Op basis van dit plaatje zou onze voorkeur daarom uitgaan naar de toets gebaseerd op de Poissonverdeelde stochastische grootheden Z1 , . . ., Zn . Echter, als de aanname van een Poisson-verdeelde wekelijkse vraag discutabel is, dan is de binomiale toets betrouwbaarder omdat deze niets aanneemt over de verdeling van de wekelijkse vraag; een onjuiste aanname in het statistische model geeft mogelijk een hogere onbetrouwbaarheid van de toets dan de gewenste α0 .
* 5.4.1
Algemene Overschrijdingskansen
Overschrijdingskansen kunnen ook gedefinieerd worden voor toetsen met een kritiek gebied van een algemene vorm. Om dit te onderstrepen vermelden we de definitie, maar we zullen deze verder niet toepassen. Definitie 5.22. Bij een gegeven collectie toetsen die voor iedere α ∈ (0, 1) een toets van niveau α bevat, is de overschrijdingskans de kleinste waarde van α waarvoor de corresponderende toets H0 verwerpt.
132
5.5
5: Toetsen
Enkele Standaard Toetsen
In deze paragraaf bespreken we enkele toetsen die, naast de Gauss-toets en de binomiale toets, veel toegepast worden. De meeste van deze toetsen kunnen op intu¨ıtieve gronden worden begrepen. Het algemene idee is om voor een gegeven toetsingsprobleem een toetsingsgrootheid te vinden die “redelijk” is (vaak gebaseerd op een goede schatter van de parameter) en waarvoor gemakkelijk een kritieke waarde of overschrijdingskans kan worden berekend. Voor dat laatste is het nodig dat de kansverdeling van de toetsingsgrootheid onder de (“rand” van de) nulhypothese getabelleerd of berekenbaar is. Vaak behoort de kansverdeling onder de nulhypothese echter niet tot het gebruikelijke rijtje bekende verdelingen uit de kansrekening. We kunnen dan een nieuwe standaard kansverdeling introduceren en tabelleren. Een alternatief is om de kansverdeling “on-thefly” te benaderen door stochastische simulatie. We bespreken voorbeelden van beide manieren van aanpak. We beginnen deze paragraaf met een bespreking van de twee belangrijkste statistische kansverdelingen, de chikwadraat- en t-verdelingen. Deze families van kansverdelingen zijn allebei gerelateerd aan de normale verdeling, en treden zowel op bij het toetsen van de parameters van de normale verdeling als bij benaderingen bij grote steekproeven. 5.5.1
Chikwadraat- en t-Verdeling
De chikwadraat- en t-verdelingen zijn continue kansverdelingen, waarvan de dichtheden worden gegeven door relatief eenvoudige uitdrukkingen. Voor ons doel zijn de volgende structurele definities van deze kansverdelingen echter aantrekkelijker. Definitie 5.23. Een stochastische grootheid W bezit de chikwadraatverdeling n vrijheidsgraden, notatie χ2n , als W dezelfde verdeling bezit Pn met 2 als i=1 Zi voor Z1 , . . ., Zn een steekproef uit de N (0, 1)-verdeling. Definitie 5.24. Een stochastische grootheid T bezit de t-verdeling of Student-verdeling met n vrijheidsgraden, notatie tn , als T dezelfde verdeling bezit als Z p , W/n
voor Z en W twee onafhankelijke stochastische grootheden uit respectievelijk de N (0, 1)-verdeling en de χ2n -verdeling.
Met standaard technieken uit de kansrekening is het mogelijk om formules voor de dichtheden van chikwadraat- en t-verdeling af te leiden. Deze uitdrukkingen zijn in “klassieke” tijden gebruikt om tabellen van de verdelingsfuncties te maken. Meer recentelijk zijn zij de basis voor standaard
133
0.0
0.05
0.10
0.15
0.20
0.25
5.5: Enkele Standaard Toetsen
0
5
10
15
20
2
0.0
0.1
0.2
0.3
0.4
Figuur 5.9. Dichtheden van de χ -verdelingen met 4 (doorgetrokken) en 10 (gestippeld) vrijheidsgraden.
−4
−2
0
2
4
Figuur 5.10. Dichtheden van de t-verdelingen met 1 (gestreept) en 5 (gestippeld) en ∞ (doorgetrokken) vrijheidsgraden.
algoritmes in statistische software. We zullen de tabellen en software als gegeven beschouwen, en bespreken de precieze vorm van de dichtheden niet. Figuren 5.9 en 5.10 geven een kwalitatief idee van de dichtheden. De volgende stelling laat zien waarom de chikwadraat- en t-verdeling belangrijk zijn. Stelling 5.25. Als X1 , . . ., Xn een steekproef uit de N (µ, σ 2 )-verdeling is, dan geldt (i) X is N (µ, σ 2 /n)-verdeeld. 2 (ii) (n − 1)SX /σ 2 is χ2n−1 -verdeeld.
134
5: Toetsen
2 (iii) X √ en SX zijn onderling onafhankelijk. (iv) n(X − µ)/SX bezit de tn−1 -verdeling.
Bewijs. Bewering (i) is bekend uit de kansrekening: de som van onafhankelijke normaal verdeelde stochastische grootheden is weer normaal verdeeld. Voor het bewijs van beweringen (ii) en (iii) kunnen we zonder verlies van de algemeenheid aannemen dat µ = 0 en σ 2 = 1. De simultane dichtheid van de stochastische vector X = (X1 , . . ., Xn )T is dan gelijk aan n Y 1 2 1 1 1 − 2 kxk2 √ e− 2 xi = , e (x1 , . . ., xn ) 7→ (2π)n/2 2π i=1 Pn waarin kxk2 = i=1 x2i het kwadraat van √ √ de Euclidische lengte van x is. Definieer de vector f1 = (1/ n, . . ., 1/ n) ∈ Rn met kf1 k2 = 1 en vul f1 op een willekeurige wijze aan tot een orthonormale basis {f1 , . . ., fn } van Rn . Zij O de (n × n)-matrix met rijen f1 , . . ., fn . Uit de definitie volgt onmiddellijk dat OO T = I (met I de eenheidsmatrix), zodat O T = O−1 en O een orthogonale matrix is: OO T = OT O = I en dus kOxk2 = xT OT Ox = kxk2 voor alle x. Definieer de stochastische vector Y = OX. Dan is √ Y1 = f1 X = n X, n n X X 2 Yi2 = kY k2 − Y12 = kXk2 − nX = (Xi − X)2 . i=2
i=1
Beweringen (ii) en (iii) volgen daarom als we kunnen bewijzen dat Y1 , . . ., Yn onderling onafhankelijk en N (0, 1)-verdeeld zijn. De verdelingsfunctie van Y wordt gegeven door Z Z 1 2 1 e− 2 kxk dx1 · · · dxn P(Y ≤ y) = · · · n/2 x:Ox≤y (2π) Z Z 1 2 1 = ··· e− 2 kuk du1 · · · dun , n/2 u:u≤y (2π) waar we gebruik maken van de substitutie Ox = u. Dan is kxk = kOxk = kuk en de Jacobiaan van de transformatie Ox = u is gelijk aan det O = 1. Uit de laatste uitdrukking volgt onmiddellijk dat Y dezelfde simultane dichtheid bezit als X. Daaruit en volgens Lemma 10.3 volgt dat Y een multivariaat-normale verdeling heeft met verwachtingsvector (0, . . ., 0)T en variantiematrix gelijk aan de eenheidsmatrix I. Volgens Lemma 10.6 zijn Y1 , . . ., Yn onderling onafhankelijk en normaal verdeeld met verwachting 0 en variantie 1. Voor het bewijs van (iv) schrijven we √ √ X −µ n(X − µ)/σ n . = q 2 /σ 2 (n−1)SX SX (n−1)
5.5: Enkele Standaard Toetsen
135
0
0
1
2
2
4
3
4
6
5
Volgens (iii) zijn de teller en de noemer onafhankelijk, en volgens (i) en (ii) bezitten zij, respectievelijk, een N (0, 1)-verdeling en de wortel van een χ2n−1 -verdeling gedeeld door n − 1. Volgens Definitie 5.24 bezit het quoti¨ent dan de tn−1 -verdeling.
-1.0
-0.5
0.0
0.5
1.0
0.5
1.0
1.5
2.0
2.5
3.0
Figuur 5.11. Scatterplot van het steekproefgemiddelde (x-as) tegen de steekproefvariantie (y-as) voor 1000 steekproeven ter grootte 5 uit de standaard normale verdeling (links) en 1000 steekproeven ter grootte 10 uit de exponenti¨ ele verdeling (rechts). Links zijn de twee co¨ ordinaten onafhankelijk, rechts bestaat een positief verband.
De uitspraken van de voorgaande stelling zijn interessant. Vooral de onafhankelijkheid van het steekproefgemiddelde en de steekproefvariantie, berekend op dezelfde data, is verrassend. Figuur 5.11 illustreert dat deze eigenschap afhankelijk is van de verdeling van de waarnemingen: de normale verdeling bezit deze eigenschap, maar de exponenti¨ele verdeling niet! √ Voor de toepassingen is de implicatie van (iv) dat de verdeling van n(X − µ)/SX niet afhangt van de parameter σ 2 het meest van belang voor onder andere het opstellen van een toets. Het is ook prettig te weten dat deze verdeling een t-verdeling is, zodat we naar standaard functies of tabellen van deze verdeling kunnen refereren. Dit is echter minder essentieel, omdat de verdeling ook te benaderen is door stochastische simulatie. Omdat de vorm van de dichtheid van de Student-verdeling expliciet bekend is (gevonden door W. Gosset die zijn vondst onder het pseudoniem “Student” publiceerde), is simulatie onnodig. Ieder statistisch pakket bevat functies om de verdelingsfunctie en kwantielen van de Student- en chikwadraat-verdeling numeriek te berekenen. 5.5.2
Eensteekproeftoetsen
Gegeven een steekproef X1 , . . ., Xn wil men vaak toetsen of de locatie van de verdeling van de steekproef zich links of rechts van een bepaalde waarde
136
5: Toetsen
bevindt. Hierbij wordt “locatie” bijvoorbeeld gepreciseerd als “verwachting”, of als “mediaan”. Nemen we ook aan dat de steekproef uit een normale verdeling afkomstig is, dan is de zeer bekende t-toets de correcte toets voor het probleem wanneer de variantie onbekend is. Als de variantie bekend zou zijn, zouden we gebruikmaken van de Gauss-toets (zie Voorbeeld 5.11). Voorbeeld 5.26 (t-Toets). Veronderstel dat X1 , . . ., Xn een steekproef is uit de N (µ, σ 2 )-verdeling met µ en σ 2 onbekend. Beschouw het toetsingsprobleem H0 : µ ≤ µ0 tegen H1 : µ > µ0 , waarbij µ0 een vast gegeven getal is (bijvoorbeeld µ0 = 0). Formeel gesproken wordt de parameter in 2 dit geval door het paar gegeven θ = (µ, σ ) en is de nulhypothese gelijk aan 2 2 Θ0 = (µ, σ ): µ ≤ µ0 , σ > 0 . Aangezien de toetsingsgrootheid en het kritieke gebied K van de Gauss-toets uit Voorbeeld 5.11 afhankelijk is van σ en deze parameter nu onbekend is, is die toets hier niet bruikbaar. Een logische uitbreiding van de Gauss-toets is om σ in de definitie van de toetsingsgrootheid te vervangen door een schatter. We gebruiken hiervoor de steekproef standaarddeviatie SX . Dit geeft de toetsingsgrootheid T =
√ X − µ0 n . SX
We verwerpen de nulhypothese voor grote waarden van deze grootheid. Aangezien de substitutie van SX voor σ ook de verdeling van deze grootheid verandert, is deze niet meer normaal verdeeld als µ = µ0 . Het is daarom niet onmiddellijk duidelijk welke kritieke waarde we dienen te nemen. In de volgende alinea beargumenteren we, met behulp van Stelling 5.25, dat dit het (1 − α0 )-kwantiel van de t-verdeling met n − 1 vrijheidsgraden moet zijn, welke we noteren met tn−1,1−α0 . Volgens Afspraak 5.8 dient de kritieke waarde cα0 , voor het verkrijgen van een toets van niveau α0 , te voldoen aan √ X − µ 0 n sup Pµ,σ2 ≥ c α0 ≤ α 0 , SX µ≤µ0 ,σ 2 >0 voor α0 de onbetrouwbaarheidsdrempel van de toets. Merk op dat het supremum zowel over µ ≤ µ0 als over alle mogelijke waarden van σ 2 moet worden berekend; over de gehele parameterruimte onder de nulhypothese. Het supremum over µ (voor iedere σ) wordt echter aangenomen in het randpunt µ = µ0 , zoals intu¨ıtief wel duidelijk is (maar niet triviaal om te bewijzen), zodat de ongelijkheid reduceert tot √ X − µ 0 n ≥ c α0 ≤ α 0 . SX σ 2 >0 √ Nu hangt volgens Stelling 5.25(iv) de verdeling van n(X − µ0 )/SX onder (µ0 , σ 2 ) helemaal niet af van (µ0 , σ 2 ) en is gelijk aan de tn−1 -verdeling. sup Pµ0 ,σ2
5.5: Enkele Standaard Toetsen
137
Uit bovenstaande ongelijkheid volgt nu dat cα0 ≥ tn−1,1−α0 . Om een zo groot mogelijk onderscheidend vermogen te krijgen, in overeenstemming met Afspraak 5.9, kiezen we het kritieke gebied zo groot mogelijk en nemen we cα0 = tn−1,1−α0 . De onbetrouwbaarheid α van de toets is dan precies gelijk aan de onbetrouwbaarheidsdrempel: α = α0 . De resulterende toets, √ die de t-toets of Student-toets wordt genoemd, luidt: “Verwerp H0 als n(X −µ0 )/SX ≥ tn−1,1−α0 ”. De corresponderende overschrijdingskans, bij waargenomen waarden x en sx , is gelijk aan √ x − µ0 √ x − µ0 = P Tn−1 ≥ n , Pµ0 ,σ2 T ≥ n sx sx
waarin Tn−1 een stochastische grootheid met de tn−1 -verdeling voorstelt. Aanpassingen van de t-toets voor de toetsingsproblemen H0 : µ ≥ µ0 en H0 : µ = µ0 gaan analoog aan de aanpassingen van de Gauss-toets. Het is belangrijk hierbij te weten dat de t-verdeling symmetrisch is rond 0, net als de normale verdeling, zodat tn,α = −tn,1−α . Voor kleine waarden van n (zoals n ≤ 10) verschilt de tn -verdeling aanzienlijk van de normale verdeling. Het gebruik van normale kwantielen in plaats van tn−1 -kwantielen (dat wil zeggen de Gauss-toets met σ gelijk genomen aan SX ) leidt dan tot een toets met een onbetrouwbaarheid die veel groter is dan de bedoelde onbetrouwbaarheid. Dit is in strijd met Afspraak 5.8. Voor toenemende waarden van n geldt dat de tn -verdeling steeds meer op de standaard normale verdeling gaat lijken, met convergentie naar de normale verdeling voor n → ∞. Voor n ≥ 20 is de gelijkenis al zo goed dat de Student- en Gauss-toetsen in dat geval praktisch identieke resultaten geven. We hebben de t-toets ge¨ıntroduceerd met ad hoc argumenten. Men kan echter laten zien dat de toets uniform meest onderscheidend is binnen de klasse van alle zuivere toetsen (zie Paragraaf 7.3.3). De t-toets is de correcte toets voor het toetsen van locatie in het geval de waarnemingen X1 , . . ., Xn een steekproef uit de normale verdeling vormen. Is aan de laatste aanname niet voldaan, dan is het wellicht mogelijk en wenselijk de waarnemingen te transformeren (bijvoorbeeld met behulp van de logaritmische functie) tot waarnemingen waarvoor de normaliteitsaanname wel redelijk is. Een alternatief is het gebruik van een toets die de normaliteitsaanname niet vereist. Hiervan bestaan veel voorbeelden, waarvan we er slechts ´e´en bespreken. Voorbeeld 5.27 (Tekentoets). De tekentoets is toepasbaar onder minimale aannames en is daarom ook geschikt als de verdeling waar de waarnemingen uit afkomstig zijn niet de normale verdeling is. Het is een toets voor de mediaan en niet de verwachtingswaarde, zoals bij de Gauss- en de t-toets. Veronderstel dat we willen toetsen of de mediaan µ van de verdeling waar de onafhankelijke waarnemingen X1 , . . ., Xn uit afkomstig zijn,
138
5: Toetsen
groter is dan een gegeven waarde µ0 : H0 : µ ≤ µ0 tegen H1 : µ > µ0 . De toetsingsgrootheid wordt gegeven door T = #(1 ≤ i ≤ n: Xi > µ0 ); er wordt geteld hoeveel waarnemingen groter zijn dan µ0 , ofwel hoeveel verschillen Xi − µ0 positief zijn. We krijgen nu in feite de binomiale toets toegepast op de tekens (postief of negatief) van de verschillen X1 − µ0 , . . ., Xn − µ0 . De toetsingsgrootheid is binomiaal verdeeld met parameters n en pµ = Pµ (Xi > µ0 ). Als de mediaan van de verdeling van de waarnemingen gelijk is aan µ0 , dan zijn de parameters n en 21 . Bezit de verdeling van de waarnemingen echter een mediaan µ ≤ µ0 , dan is de kans pµ kleiner dan of gelijk aan 1/2. De nulhypothese H0 : µ ≤ µ0 kan daarom worden getoetst door de equivalente nulhypothese H0 : pµ ≤ 1/2 te toetsen op grond van T . We verwerpen voor grote waarden van T , waarbij de kritieke waarde wordt bepaald als in Voorbeeld 5.12. * Voorbeeld 5.28 (Toetsen voor σ 2 ). Veronderstel dat X1 , . . ., Xn een steekproef is uit de N (µ, σ 2 )-verdeling met µ en σ 2 onbekende parameters. Beschouw het toetsingsprobleem H0 : σ 2 ≤ σ02 tegen H1 : σ 2 > σ02 , waarbij σ02 een vast gegeven getal is. Formeel gesproken wordt de parameter gegeven door het paar θ = (µ, σ 2 ) en is de parameterruimte onder de nulhypothese gelijk aan Θ0 = (µ, σ 2 ): µ ∈ R, σ 2 ≤ σ02 . Een redelijke schatter voor σ 2 is 2 2 de steekproefvariantie SX . Grote waarden van SX geven een indicatie dat de alternatieve hypothese juist zou kunnen zijn. We verwerpen daarom de 2 nulhypothese voor grote waarden van SX . 2 2 De kansverdeling van (n−1)SX /σ onder (µ, σ 2 ) hangt niet van de parameter (µ, σ 2 ) af, en is precies de chikwadraat-verdeling met n−1 vrijheidsgraden (zie Stelling 5.25). Noteren we het α-kwantiel van de chi-kwadraat verdeling met n − 1 vrijheidsgraden als χ2n−1,α , dan is de voor de hand 2 liggende toets: “Verwerp H0 als (n − 1)SX /σ02 ≥ χ2n−1,1−α0 ” (met α0 de onbetrouwbaarheidsdrempel van de toets). Men kan laten zien dat deze toets onbetrouwbaarheid α0 bezit, op dezelfde wijze als in de voorgaande voorbeelden. De toetsen voor het andere eenzijdige toetsingsprobleem H0 : σ 2 ≥ σ02 en het tweezijdige toetsingsprobleem H0 : σ 2 = σ02 liggen voor de hand. Merk echter op dat de chikwadraat-verdeling niet symmetrisch is en alle kansmassa op (0, ∞) legt. Er is daarom geen directe relatie tussen de kwantielen χ2n−1,α en χ2n−1,1−α , en we kunnen niet de absolute waarde van de toetsingsgrootheid gebruiken om de tweezijdige toets te beschrijven. De 2 /σ02 ≤ χ2n−1,α0 /2 of als tweezijdige toets luidt: “Verwerp H0 als (n − 1)SX 2 2 2 (n − 1)SX /σ0 ≥ χn−1,1−α0 /2 .” We kunnen deze toetsen ook met overschrijdingskansen uitvoeren. 5.5.3
Tweesteekproeventoetsen
Bij het tweesteekproevenprobleem beschikken we over twee steekproeven X1 , . . ., Xm en Y1 , . . ., Yn uit mogelijk verschillende kansverdelingen, en zijn
5.5: Enkele Standaard Toetsen
139
we ge¨ınteresseerd in het vergelijken van deze kansverdelingen, bijvoorbeeld wat betreft hun locatie. Afhankelijk van de aannames bestaan verschillende typen tweesteekproeventoetsen. We kunnen een belangrijk onderscheid maken tussen toetsen voor gepaarde en ongepaarde waarnemingen. In het eerste geval ontstaan de twee steekproeven uit een steekproef (X1 , Y1 ), . . ., (Xn , Yn ) van paren waarnemingen, waarbij de X- en de Y -variabelen binnen ieder paar gerelateerd kunnen zijn, maar de paren onderling onafhankelijk worden geacht. De Xmeting geeft bijvoorbeeld de toestand van een pati¨ent voor de behandeling weer en de Y -meting de toestand na de behandeling, bij een onderzoek naar de effectiviteit van een behandeling. Omdat Xi en Yi metingen aan dezelfde pati¨ent zijn, ligt het voor de hand dat ze stochastisch afhankelijk zijn. Een lage waarde bij de eerste meting is immers een indicatie dat de pati¨ent in slechte gezondheid verkeert, hetgeen het waarschijnlijk maakt dat de tweede meting eveneens laag zal zijn (ten opzichte van de rest van de populatie, alhoewel misschien wel hoger dan de eerste meting als de behandeling succes heeft). Bij herhaalde metingen aan eenzelfde object of persoon (Engels: repeated measures; longitudinal data) is afhankelijkheid van de metingen niet te vermijden. In andere toepassingen worden de X- en Y -component zelfs bewust stochastisch afhankelijk gemaakt door de opzet van het experiment. Een groep proefpersonen wordt bijvoorbeeld van tevoren gepaard volgens achtergrondvariabelen als leeftijd, sekse, voorgaande behandeling, of ziektegeschiedenis, zodat de twee personen in ieder paar wat deze variabelen betreft vergelijkbaar zijn. Vervolgens krijgt in elk paar ´e´en (willekeurig gekozen) persoon het medicijn en de ander een placebo. Een verschil in toestand na deze behandeling geeft een indicatie voor de werkzaamheid van het medicijn. Het doel van het paren van de proefpersonen in deze opzet is om het effect van de behandeling duidelijker naar voren te brengen. Een waargenomen verschil binnen een paar kan immers niet worden verklaard door fluctuaties in de achtergrondvariabelen, maar moet te wijten zijn aan de behandeling (of een nog onbekende achtergrondsvariabele). Paart men de waarnemingen niet, dan kan de extra toevalsfluctuatie, die veroorzaakt is door de achtergrondvariabelen, het behandelingseffect maskeren. Voorbeeld 5.29 (t-Toets voor gepaarde waarnemingen). Het ligt voor de hand om een toets voor het vergelijken van de locaties van twee gepaarde steekproeven (X1 , Y1 ), . . ., (Xn , Yn ) te baseren op de verschillen Zi = Xi − Yi . De t-toets voor paren is dan de gewone t-toets toegepast op de verschillen Z1 , . . ., Zn . Voor de toepassing van de t-toets veronderstellen we dat de verschillen Z1 , . . ., Zn onafhankelijk en N (∆, σ 2 )-verdeeld zijn, waarbij de parameter ∆ gelijk is aan het verschil EXi − EYi van de verwachtingen. Stel dat we de nulhypothese H0 : ∆ = 0 dat de behandeling geen effect heeft, willen toetsen, dan wel ´e´en van de hypothesen H0 : ∆ ≥ 0 of H0 : ∆ ≤ 0.
140
5: Toetsen
Het onderscheidend vermogen van de t-toets is sterk afhankelijk van de variantie σ 2 . Is de variantie groot, dan is een verschil in verwachtingswaarde moeilijk te detecteren, en is het onderscheidend vermogen van de t-toets gering. Een kleine variantie is gunstig en zorgt voor een groot onderscheidend vermogen. Deze vaststelling maakt duidelijk dat het verstandig kan zijn de steekproeven in het tweesteekproevenprobleem met opzet afhankelijk te maken. Volgens de rekenregel voor varianties geldt immers dat var Zi = var Yi +var Xi −2 cov(Xi , Yi ), hetgeen kleiner is dan var Yi +var Xi , indien Xi en Yi positief gecorreleerd zijn. Een intu¨ıtieve verklaring is dat het nemen van verschillen toevalsvariatie elimineert die in zowel de X- als de Y component aanwezig is en waarin we niet ge¨ınteresseerd zijn. Na eliminatie van deze variatie is het gemakkelijker een eventueel verschil te ontdekken dat veroorzaakt wordt door de behandeling. Correcte toepassing van de t-toets vereist wel dat de verschillen Z1 , . . ., Zn kunnen worden opgevat als een steekproef uit een normale verdeling. Voorbeeld 5.30 (Twee steekproeven t-toets). Veronderstel dat de waarnemingen X1 , . . ., Xm en Y1 , . . ., Yn twee onafhankelijke steekproeven zijn uit, respectievelijk, de N (µ, σ 2 ) en de N (ν, σ 2 )-verdelingen. We willen eenzijdig toetsen of µ − ν > 0: H0 : µ − ν ≤ 0 tegen H1 : µ − ν > 0. Een voor de hand liggende schatter voor µ − ν is het verschil X − Y van de gemiddelden van de steekproeven. Grote waarden van dit verschil zijn een aanwijzing dat H1 juist is. De verdeling van X − Y is normaal met verwachting µ − ν en variantie 1 σ2 σ2 1 var(X − Y ) = var X + var Y = , + = σ2 + m n m n
door onafhankelijkheid van de twee steekproeven. Omdat deze verdeling afhangt van de onbekende parameter σ 2 , kiezen we als toetsingsgrootheid niet X − Y , maar de grootheid T =
X −Y q
SX,Y waarin 2 SX,Y =
1 m
+
1 n
,
m n X X 1 (Xi − X)2 + (Yj − Y )2 m + n − 2 i=1 j=1
een zuivere schatter is voor σ 2 (de maximum likelihood-schatter voor σ 2 is 2 gelijk aan (m + n − 2)/(m + n)SX,Y , ga na). Als µ = ν dan bezit T een t-verdeling met m + n − 2 vrijheidsgraden (zie de volgende alinea voor de afleiding). Net als bij de t-toets voor een steekproef in Voorbeeld 5.26 geldt ook hier dat het voldoende is om de verdeling van T in het randpunt µ = ν te beschouwen en dat de verdeling van T dan onafhankelijk is van σ 2 . We
5.5: Enkele Standaard Toetsen
141
kiezen de kritieke waarde daarom gelijk aan tm+n−2,1−α0 , en de toets is: “Verwerp H0 als T ≥ tm+n−2,1−α0 ”. Om in te zien dat T een t-verdeling bezit, schrijven we de toetsingsgrootheid T als q 2 2 (X − Y )/ σm + σn . T = q 2 2 (m+n−2)SX,Y /σ m+n−2
De teller van deze uitdrukking bezit onder µ = ν de N (0, 1)-verdeling. Om de verdeling van de noemer te bepalen, merken we op dat de som van twee onafhankelijke chikwadraat-verdeelde stochastische grootheden weer een chikwadraat-verdeling bezit, met het aantal vrijheidsgraden gelijk aan de som van de aantallen vrijheidsgraden. Gebruikmakend van Stelling 5.25 2 zien we dan dat (m + n − 2)SX,Y /σ 2 een χ2m+n−2 -verdeling bezit en onafhankelijk is van X − Y . De teller en de noemer van de toetsingsgrootheid zijn dus onafhankelijk. Dat T onder µ = ν de tm+n−2 -verdeling bezit, volgt nu uit de definitie van de t-verdeling. Toetsen voor het andere eenzijdige en het tweezijdige hypothesen, en de bijbehorende overschrijdingskansen kunnen worden afgeleid op analoge wijze als in het eensteekproefprobleem.
Men noemt de toets in Voorbeeld 5.30 de t-toets (of Student-toets) voor twee steekproeven. Deze toets wijkt essentieel af van de eensteekproeftoets voor verschillen uit Voorbeeld 5.29, omdat daar op natuurlijke wijze paren (Xi , Yi ) gedefinieerd waren, hetgeen hier niet het geval is. Als de co¨ ordinaten Xi en Yi binnen een paar (Xi , Yi ) afhankelijk zijn, mogen we de tweesteekproeven t-toets niet gebruiken, of in ieder geval niet met de tm+n−2,1−α0 kritieke waarde. Er is dan immers geen garantie dat de onbetrouwbaarheid kleiner dan of gelijk is aan α0 . Zijn echter zowel de paren (X1 , Y1 ), . . ., (Xn , Yn ) als de co¨ ordinaten Xi en Yi binnen ieder paar onderling onafhankelijk en normaal verdeeld, dan bezitten zowel de t-toets voor paren (Voorbeeld 5.29) als de tweesteekproeven t-toets (Voorbeeld 5.30) onbetrouwbaarheid α0 en zijn beide toegestaan. De tweesteekproeven ttoets verdient dan echter de voorkeur vanwege zijn grotere onderscheidend vermogen. De intu¨ıtieve reden is dat de onbekende parameter σ 2 bij de t-toets voor paren geschat wordt met behulp van n onafhankelijke waarnemingen (de verschillen Zi = Xi − Yi , waarvan er n − 1 “vrij” zijn, ofwel 2 met n − 1 vrijheidsgraden), terwijl SX,Y is gebaseerd op 2n onafhankelijke waarnemingen (met 2n−2 vrijheidsgraden). Dat tweede is natuurlijk beter. In Voorbeeld 5.30 hebben we aangenomen dat de variantie σ 2 voor beide steekproeven gelijk is, maar bij veel praktische problemen is dit onzeker of niet waar. Een algemenere probleemstelling wordt verkregen door aan te nemen dat de twee steekproeven uit de N (µ, σ 2 )- en N (ν, τ 2 )verdeling afkomstig zijn. Gevraagd wordt dezelfde nulhypothese H0 : µ ≤ ν
142
5: Toetsen
te toetsen, maar nu bij onbekende σ 2 en τ 2 . Dit is het befaamde BehrensFisher -probleem. Anders dan voor het probleem waarin σ 2 = τ 2 , waarin de zojuist besproken toets uniform meest onderscheidend is onder de zuivere toetsen, bestaat in de situatie van het Behrens-Fisher-probleem geen absoluut beste toets (vandaar: “probleem”). Wel zijn er verschillende redelijke toetsen (waarvoor we verwijzen naar de handboeken). Trekt men zich van de mogelijke ongelijkheid van σ 2 en τ 2 niets aan, maar past men gewoon de tweesteekproeven t-toets uit Voorbeeld 5.30 toe, dan kan de ware onbetrouwbaarheid van de toets flink afwijken van de gewenste onbetrouwbaarheid (die in dit verband de nominale onbetrouwbaarheid wordt genoemd). Tabel 5.1 geeft hiervan een indruk. Het effect van ongelijke varianties is relatief klein als m en n ongeveer gelijk zijn en niet te klein. (Men kan bewijzen dat de onbetrouwbaarheid naar α0 convergeert als m = n → ∞ voor iedere σ 2 /τ 2 !) Dit leidt tot het advies om zo mogelijk gelijke steekproefomvangen te kiezen. Dit is overigens ook verstandig als σ 2 = τ 2 , omdat het onderscheidend vermogen van de tweesteekproeven t-toets maximaal is als m = n (bij vaste m + n).
m 5 15 7
σ 2 /τ 2 n 3 5 7
0.2
0.5
1
2
3
0.100 0.180 0.063
0.072 0.098 0.058
0.050 0.050 0.050
0.038 0.025 0.058
0.031 0.008 0.063
Tabel 5.1. Ware onbetrouwbaarheid van tweezijdige tweesteekproeven t-toets bij ongelijke varianties en nominaal niveau 0.05.
Voorbeeld 5.31 (Asymptotische t-toets). Correcte toepassing van de tweesteekproeven t-toets uit Voorbeeld 5.30 veronderstelt dat de twee steekproeven normaal verdeeld zijn met gelijke varianties. Als de twee steekproeven allebei voldoend groot zijn, dan is noch de normaliteit, noch de veronderstelling van gelijke varianties essentieel, mits de toets als volgt wordt aangepast. Als toetsingsgrootheid kiezen we T =q
X −Y 2 SX m
+
2 SY n
.
Deze grootheid verschilt van de toetsingsgrootheid in Voorbeeld 5.30 door het gebruik van een andere schatter voor de standaarddeviatie in de noemer. Met behulp van de Centrale Limietstelling 9.28 kan men laten zien dat onder de hypothese µ = ν van gelijke verwachtingen voor de twee steekproeven, de grootheid T = Tm,n in verdeling naar een standaard normale verdeling convergeert, als m, n → ∞, mits de varianties van de twee steekproeven bestaan en eindig zijn. Voor grote waarden van m en n kunnen we de nulhypothese H0 : µ ≤ ν daarom toetsen met behulp van de toets: “Verwerp H0 als T ≥ ξ1−α0 ”.
5.5: Enkele Standaard Toetsen
143
De onbetrouwbaarheid van deze toets convergeert naar de onbetrouwbaarheidsdrempel α0 als m, n → ∞, voor ieder paar van onderliggende verdelingen met eindige varianties. Voor niet te asymmetrische verdelingen is dit resultaat al bruikbaar voor m = n = 20. Het is lang niet altijd redelijk om aan te nemen dat de data afkomstig zijn uit normale verdelingen. Als goede redenen bestaan voor een ander parametrisch model, bijvoorbeeld exponenti¨ele verdelingen, dan zal dit in het algemeen tot een andere toets aanleiding geven, omdat de t-toets in dat geval niet het juiste niveau en mogelijk ook een onnodig klein onderscheidend vermogen bezit. De algemene methoden voor toetsconstructie, zoals de likelihood-ratiotoets uit Paragraaf 5.6, suggereren welke toets redelijk is. Het is ook mogelijk correcte toetsen te vinden die heel weinig aannames over de verdeling van de data vereisen. Zogenaamde verdelingsvrije toetsen werken voor heel ruime klassen van verdelingen. De tekentoets uit Voorbeeld 5.27 behoort tot deze groep. We bespreken hieronder een voorbeeld van een verdelingsvrije tweesteekproeventoets. * Voorbeeld 5.32 (Wilcoxon). Bij gegeven steekproeven X1 , . . ., Xm , Y1 , . . ., Yn defini¨eren we de rangnummers R1 , . . ., Rm van de eerste steekproef in de totale steekproef als de positienummers van X1 , . . ., Xm na ordening op grootte van X1 , . . ., Xm , Y1 , . . ., Yn . (Bijvoorbeeld, als X1 de op drie na kleinste is onder alle waarnemingen, dan defini¨eren we R1 = 4; als X2 de grootste is, dan isPR2 = m + n, etc.) De toetsingsgrootheid van de m Wilcoxon -toets is W = i=1 Ri . Grote waarden van W geven een indicatie dat X1 , . . ., Xm relatief groot zijn ten opzichte van Y1 , . . ., Yn . Dit leidt tot het verwerpen van de nulhypothese H0 dat de twee steekproeven identiek verdeeld zijn tegen het alternatief dat de eerste steekproef uit een “stochastisch grotere verdeling” komt voor grote waarden van W . Uiteraard kunnen we ook eenzijdig naar de andere kant en tweezijdig toetsen. Onder de nulhypothese zijn X1 , . . ., Xm , Y1 , . . ., Yn te beschouwen als een steekproef ter grootte m + n uit een vaste (onbekende) verdeling. De rangnummers R1 , . . ., Rm kunnen dan worden beschouwd als een willekeurige greep van m getallen uit de getallen {1, 2, . . ., m + n}. (We veronderstellen gemakshalve dat de waarnemingen continu verdeeld zijn, zodat de rangnummers altijd eenduidig zijn bepaald.) De verdeling van de Wilcoxon-grootheid onder de nulhypothese is daarom onafhankelijk van deze verdeling, en kan worden bepaald op grond van combinatorische argumenten. Deze verdeling is getabelleerd en via statistische pakketten op de computer beschikbaar. 5.5.4
Aanpassingstoetsen
Een toets om vast te stellen of de ware verdeling van de waarneming tot een bepaalde klasse verdelingen behoort wordt een toets voor aanpassing (Engels: goodness of fit) genoemd. Zie Voorbeeld 5.3 voor een toepassing.
144
5: Toetsen
Eigenlijk past deze categorie toetsen slecht in de algemene filosofie van het toetsen, omdat bij aanpassingstoetsen men de nulhypothese meestal liever niet verwerpt. De nulhypothese zegt bijvoorbeeld dat de data opgevat kunnen worden als een steekproef uit een normale verdeling, en het zou ons de meeste informatie verschaffen als we deze nulhypothese zouden kunnen aantonen. De algemene opzet van de toetsingstheorie geeft ons deze mogelijkheid echter niet: de enig mogelijke sterke conclusie is dat de nulhypothese onjuist is; in het andere geval houden we ons op de vlakte. Men zou kunnen denken dat het omdraaien van de nul- en de alternatieve hypothese het probleem oplost. Immers, wanneer we dan de nulhypothese verwerpen, zouden we de sterke conclusie hebben dat de data uit een normale verdeling afkomstig zijn. Echter, deze nulhypothese zal in de praktijk nooit verworpen kunnen worden. De nulhypothese bevat in dat geval alle nietnormale verdelingen. Iedere normale verdeling in de alternatieve hypothese kan willekeurig dicht benaderd worden door een niet-normale verdeling in de nulhypothese. Het is daardoor onmogelijk een duidelijk onderscheid te maken tussen de nul- en de alternatieve hypothese en de sterke conclusie te trekken. Daarom kiezen we voor de eerder genoemde nulhypothese dat de verdeling waaruit de waarnemingen afkomstig zijn een normale verdeling is. In overeenstemming met deze handelswijze is het verstandig de resultaten van aanpassingstoetsen pragmatisch te interpreteren. Wordt bijvoorbeeld de nulhypothese van normaliteit niet verworpen, dan nemen we dit als indicatie dat het gebruik van de normale verdeling niet onredelijk is, zonder dat we het als afdoend bewijs van normaliteit opvatten. Het is simpelweg onmogelijk de juistheid van een bepaalde verdeling aan te tonen. Voorbeeld 5.33 (Kolmogorov-Smirnov). Veronderstel dat de waarnemingen X1 , . . ., Xn een steekproef zijn uit een onbekende verdeling F , en dat we de nulhypothese H0 : F = F0 dat deze gelijk is aan een gegeven verdeling F0 willen toetsen tegen het alternatief H1 : F 6= F0 dat dit niet zo is. De verdeling F0 zou bijvoorbeeld de standaard normale verdeling kunnen zijn. De Kolmogorov-Smirnov-toets is gebaseerd op de empirische verdelingsfunctie Fn van X1 , . . ., Xn , welke is gedefinieerd als n
Fn (x) =
1 1X 1{Xi ≤x} #(Xi ≤ x) = n n i=1
(zie Figuur 5.12 en Voorbeeld 4.22). Fn (x) is gelijk aan het aantal waarnemingen dat kleiner dan of gelijk is aan x, gedeeld door n. Wegens de Wet van P E1{X≤x} = F (x) als n → ∞. Voor de Grote Aantallen geldt dat Fn (x) → niet te kleine waarden van n moet Fn daarom dicht bij de echte verdelingsfunctie liggen, dus bij F0 als H0 juist is. De Kolmogorov-Smirnov-statistiek
5.5: Enkele Standaard Toetsen
145
is de maximale afstand tussen Fn en F0 , T = sup Fn (x) − F0 (x) . x∈R
We verwerpen H0 : F = F0 voor grote waarde van T . De kritieke waarde voor de toets kunnen we afleiden uit de kansverdeling van T onder H0 . Deze heeft geen bijzondere naam, maar is wel getabelleerd en in statistische pakketten op de computer beschikbaar. Handig hierbij is dat de verdeling hetzelfde is voor iedere continue verdelingsfunctie F0 , zodat ´e´en tabel volstaat. Voor grote waarden van n kunnen we ook gebruik maken van het limietresultaat ∞ X √ 2 2 (−1)j+1 e−j z . lim PF0 sup Fn (x) − F0 (x) > z/ n = 2
n→∞
x∈R
j=1
0.0
0.2
0.4
0.6
0.8
1.0
De reeks aan de rechterkant kan op eenvoudige wijze numeriek berekend worden voor gegeven z. Daardoor is bovenstaande gelijkheid met name handig om overschrijdingskansen te bepalen.
-3
-2
-1
0
1
2
3
Figuur 5.12. De empirische verdelingsfunctie van een steekproef ter grootte 25 uit de N (0, 1)-verdeling en de ware verdelingsfunctie.
In veel gevallen in de praktijk is het zojuist besproken probleem te eenvoudig. We willen vaak niet een enkelvoudige nulhypothese H 0 : F = F0 toetsen, maar een hypothese van de vorm H0 : F ∈ Fθ : θ ∈ Θ voor een gegeven statistisch model {Fθ : θ ∈ Θ . Bijvoorbeeld, toetsen of de waarnemingen “normaal verdeeld” zijn, correspondeert met de keuzes θ = (µ, σ 2 ) ∈ R × (0, ∞) en Fµ,σ2 = N (µ, σ 2 ). Een uitbreiding van de KolmogorovSmirnov-toetsingsgrootheid is T ∗ = sup Fn (x) − Fθˆ(x) , x∈R
146
5: Toetsen
voor een schatter θˆ van θ. We verwerpen weer voor grote waarden van T ∗ . Door de substitutie van θˆ is de verdeling van T ∗ echter niet gelijk aan die van T . In het algemeen hangt deze verdeling af van het te toetsen model, van welke schatter θˆ wordt gebruikt, en zelfs van de ware parameter θ. Voor sommige speciale gevallen is de verdeling getabelleerd. In andere gevallen gebruikt men benaderingen of bepaalt men kritieke waarden met behulp van computersimulatie. Beschouw bijvoorbeeld de toepassing op het toetsen van normaliteit. Het ligt voor de hand de onbekende parameter θ = (µ, σ 2 ) te schatten met het steekproefgemiddelde en de steekproefvariantie. We verwerpen de nulhypothese van normaliteit voor grote waarden van de statistiek x − X (5.4) T ∗ = sup Fn (x) − Φ . SX x∈R
Om de kritieke waarde voor de toets, of een overschrijdingskans te bepalen, is het nodig de verdeling van deze statistiek te kennen onder de aanname dat de nulhypothese correct is. Hoewel de nulhypothese samengesteld is, kan men laten zien dat de verdeling van T ∗ hetzelfde is onder ieder element van de nulhypothese (Opgave 5.41). Het is niet eenvoudig hier een analytische uitdrukking voor af te leiden, maar het is heel eenvoudig deze verdeling te benaderen door middel van simulatie. We simuleren een groot aantal keer, bijvoorbeeld 1000 keer, een steekproef uit de normale verdeling van dezelfde omvang als de data, en berekenen de waarde van de Kolmogorov-Smirnovstatistiek T ∗ voor ieder van de 1000 steekproeven. Een benadering voor de overschrijdingskans is dan de fractie van de 1000 waarden die groter zijn dan de waarde van de statistiek op de echte data. Voorbeeld 5.34 (Chikwadraat-toets). Veronderstel dat de waarnemingen X1 , . . ., Xn een steekproef zijn uit een onbekende verdeling F . Een alternatief voor de Kolmogorov-Smirnov-toets bij een enkelvoudige nulhypothese, H0 : F = F0 tegen H1 : F 6= F0 , is de chikwadraat-toets voor samenhang. Daarbij verdeelt men het bereik van X1 in een aantal aansluitende intervallen I1 , I2 , . . ., Ik . Het aantal waarnemingen in de steekproef in ieder interval, genoteerd als Nj voor j = 1, . . ., k, is de stochastische grootheid Nj = #(1 ≤ i ≤ n: xi ∈ Ij ).
Onder de nulhypothese volgt de kans dat een waarneming Xi valt in het interval Ij , pj : = PH0 (X1 ∈ Ij ), uit de verdeling F0 voor j = 1, . . ., k en is de verwachting van het aantal waarnemingen in interval Ij gelijk aan npj . In de toetsingsgrootheid bij de chikwadraat-toets wordt de afwijking tussen het gerealiseerde aantal waarnemingen en het onder de nulhypothese verwachte aantal waarnemingen in de intervallen op een genormaliseerde manier gemeten: k X (Nj − npj )2 2 X = . npj j=1
5.5: Enkele Standaard Toetsen
147
Onder de nulhypothese heeft X 2 voor vaste k bij benadering een chikwadraat-verdeling met k − 1 vrijheidsgraden. Deze benadering is betrouwbaar voor niet te kleine waarden van n. Als vuistregel hanteert men dat het verwachte aantal waarnemingen onder de nulhypothese in ieder interval, npj voor j = 1, . . ., k, minstens 5 moet zijn. Chikwadraat-toetsen komen ook in andere situaties voor. In Voorbeeld 5.44 wordt een andere toepassing van een chikwadraat-toets besproken. Het wezenlijke van een chikwadraattoets is dat de toetsingsgrootheid X 2 een som is van termen van de vorm (Yi − EYi )2 /EYi waar Yi stochastische grootheden zijn. Voorbeeld 5.35 (Auto-correlaties). In Paragraaf 3.3.1 wordt de steekproef auto-correlatieco¨effici¨ent van orde h ∈ N voor een gegeven steekproef X1 , . . ., Xn gedefini¨eerd door Pn−h (Xi+h − X n )(Xi − X n ) ρˆX,n (h) = i=1 . 2 (n − h)SX,n 2 2 in plaats van ρˆX (h), X en SX om de Hier schrijven we ρˆX,n (h), X n en SX,n afhankelijkheid van n in deze stochastische grootheden te benadrukken. De steekproef auto-correlatieco¨effici¨ent van orde h is een maat voor de lineaire afhankelijkheid tussen een variabele Xt en een variabele Xt+h die h “tijdstippen” later wordt gemeten. Als de steekproef auto-correlatieco¨effici¨enten waarden dichtbij 0 aannemen, dan is dit een indicatie voor (lineaire) tijdsonafhankelijkheid. Veronderstel dat we de nulhypothese dat X1 , . . ., Xn onafhankelijk en identiek verdeeld zijn willen toetsen, dan zouden we de de steekproef autocorrelatieco¨effici¨enten ρˆX,n (h) als toetsingsgrootheden kunnen kiezen en de nulhypothese verwerpen als deze co¨effici¨enten te ver van 0 afliggen. Om “te ver van 0” precies te maken is het nodig de verdeling van de steekproef autocorrelatieco¨effici¨enten te kennen onder de aanname van onafhankelijkheid, zodat een kritiek gebied opgesteld kan worden en overschrijdingskansen bepaald kunnen worden. Omdat de steekproef auto-correlatieco¨effici¨enten een ingewikkelde functie van de variabelen X1 , . . ., Xn zijn, en hun verdeling bovendien van de marginale verdeling van de Xi ’s afhangt, is de nulverdeling niet eenvoudig te bepalen. Voor grote waarden van n is het echter mogelijk een benadering toe te passen, gebaseerd op de volgende limietstelling. Als X1 , . . ., Xn een steekproef uit √ een verdeling met eindig vierde moment is, dan geldt dat voor iedere h de rij nˆ ρX,n (h) in verdeling naar een standaard normale verdeling convergeert, als n → ∞. Bovendien zijn de rijen voor verschillende waarden van h asymptotisch onafhankelijk. In de praktijk vatten we deze wiskundige stelling op als rechtvaardiging om voor√ grote waarden √ van n en onder H0 de steekproef auto-correlatieco¨effici¨enten nρX,n (1), nρX,n (2), . . . op te vatten als een rij onafhankelijke standaard normale variabelen. Als dit precies √ correct zou zijn, dan zou de toets “Verwerp H0 als n|ρX,n (h)| ≥ ξ1−α0 /2 ”
148
5: Toetsen
onbetrouwbaarheid α0 hebben. Omdat de benadering alleen voor grote waarden van n juist is, heeft deze toets in werkelijkheid ongeveer betrouwbaarheid α0 . We kunnen de toets uitvoeren voor iedere h > 0 (waarbij de normale benadering alleen dan bevredigend is als h relatief klein is ten opzichte van n). Voeren we de genoemde toets uit voor k waarden van h, steeds met onbetrouwbaarheid α0 , dan is de onbetrouwbaarheid van alle toetsen tezamen ongeveer gelijk aan 1 − (1 − α0 )k . (Gebruik de regel P(∪h Ah ) = 1 − P(∩h Ach ) met Ah de eventualiteit dat de he toets de nulhypothese van onafhankelijkheid ten onrechte verwerpt. Vanwege Q de (asymptotische) onafhankelijkheid van de toetsen geldt P(∩h Ach ) = h 1 − P(Ah ) .) Voor kleine α0 is de onbetrouwbaarheid dan 1 − (1 − α0 )k ≈ kα0 , dus k keer zo groot als de onbetrouwbaarheid van ieder van de toetsen apart. Willen we een overall onbetrouwbaarheid α0 bereiken, dan dienen we de afzonderlijke toetsen dus met onbetrouwbaarheid α0 /k uit te voeren. In de praktijk is men minder formeel en maakt men een plot van bijvoorbeeld de eerste 20 steekproef √ auto-correlatieco¨effici¨enten met horizontale lijnen op de hoogten ±1.96/ n (vergelijk Figuur 3.13). Als de waarnemingen onafhankelijk zijn, verwachten we dat ´e´en van de 20 steekproef auto-correlatieco¨effici¨enten, maar niet beduidend meer, buiten de horizontale strip zal vallen. Beperken we de nulhypothese tot de hypothese dat X1 , . . ., Xn onafhankelijk en normaal verdeeld zijn, dan is het mogelijk de verdeling van de steekproef auto-correlatieco¨effici¨enten preciezer te bepalen.
5.6
Likelihood-Ratiotoetsen
Toetsen worden vaak geconstrueerd op grond van heuristische argumenten. Een aantal voorbeelden zijn besproken in de vorige paragraaf. In deze en de volgende paragraaf bespreken we enkele algemene methoden voor het vinden van een toets, te beginnen met de belangrijkste, de likelihood-ratiotoets. In de volgende paragraaf komen score- en Wald-toetsen aan bod. Definitie 5.36. Als pθ de kansdichtheid is van een waarneming X, dan is de likelihood-ratiostatistiek voor het toetsen van H0 : θ ∈ Θ0 tegen H1 : θ ∈ Θ \ Θ0 gedefinieerd als λ(X) =
supθ∈Θ pθ (X) . supθ0 ∈Θ0 pθ0 (X)
(Definieer a/b als ∞ als a > 0 = b.) Voor het berekenen van λ(X) maximaliseren we de likelihood tweemaal, eenmaal met de parameter θ beperkt tot Θ0 en eenmaal over de
5.6: Likelihood-Ratiotoetsen
149
gehele parameterruimte Θ. Aangezien Θ0 een deelruimte van Θ is, zal de likelihood-ratiostatistiek altijd groter dan of gelijk zijn aan 1. Noteren we de gewone maximum likelihood-schatter met θˆ en de maximum likelihoodschatter onder de aanname dat de nulhypothese H0 juist is met θˆ0 , dan kunnen we de likelihood-ratiostatistiek ook schrijven als λ(X) =
pθˆ(X) . pθˆ0 (X)
Als θˆ ∈ Θ0 dan is θˆ0 = θˆ en is de likelihood-ratiostatistiek gelijk aan 1. Als de teller pθˆ(X) van λ(X) groter is dan de noemer, dan is dit een aanwijzing dat de ruimte Θ \ Θ0 “meer aannemelijke” parameters bevat dan de nulruimte Θ0 . Grote waarden van λ(X) geven dus een indicatie dat H1 juist is. We nemen daarom een kritiek gebied van de vorm λ(x) ≥ cα0 . De kritieke waarde cα0 en/of overschrijdingskansen kunnen worden bepaald uit de verdeling van λ(X) onder iedere θ0 ∈ Θ0 . Voorbeeld 5.37 (Normale verdeling). De likelihood-ratiostatistiek voor het toetsen van H0 : µ = µ0 tegen H1 : µ 6= µ0 op grond van een steekproef X1 , . . ., Xn uit de N (µ, σ 2 )-verdeling voor bekende σ 2 is λn (X1 , . . ., Xn ) = =
Qn
µ)2 /σ 2 2 −1/2 − 21 (Xi −ˆ e i=1 (2πσ ) Qn 2 −1/2 e− 21 (Xi −µ0 )2 /σ 2 i=1 (2πσ ) n n 1 X 1 X (Xi − µ ˆ )2 + 2 (Xi exp − 2 2σ i=1 2σ i=1
− µ 0 )2 ,
waar µ ˆ de maximum likelihood-schatter voor µ is, ofwel µ ˆ = X. Het is handig om de verdeling van 2 log λn te beschouwen in plaats van de verdeling van λn . Twee maal de logaritme van de likelihood-ratiostatistiek is namelijk gelijk aan n n 1X 1X 2 X) + (X − (Xi − µ0 )2 i σ 2 i=1 σ 2 i=1 X − µ 2 0 =n . σ
2 log λn (X1 , . . ., Xn ) = −
√ Onder H0 volgt n(X − µ0 )/σ de N (0, 1)-verdeling, zodat in dit geval 2 log λn (X1 , . . ., Xn ) een χ21 -verdeling heeft (zie Definitie 5.23). De nulhypothese wordt dus verworpen als n(X − µ0 )2 /σ 2 ≥ χ21,1−α0 . Omdat (ξ1−α0 /2 )2 = χ21,1−α0 is bovenstaande likelihood-ratiotoets identiek aan de √ Gauss-toets waar wordt verworpen als | n(X −µ0 )/σ| ≥ ξ1−α0 /2 (zie Voorbeeld 5.11).
150
5: Toetsen
Gewoonlijk is het bepalen van de verdeling van de likelihoodratiostatistiek onder iedere θ0 ∈ Θ0 gecompliceerd, en gebruikt men benaderingen. Een grote steekproefbenadering is meestal mogelijk als de waarneming een vector X = (X1 , . . ., Xn ) is, bestaande uit een steekproef X1 , . . ., Xn uit een kansdichtheid pθ . De likelihood-ratiostatistiek heeft dan de volgende vorm Qn p ˆ(Xi ) . λn (X) = Qni=1 θ p i=1 θˆ0 (Xi ) √ √ Noteer met √ n(Θ − θ0 ) de√verzameling vectoren n(θ − θ0 ) als θ over Θ varieert, n(Θ − θ0 ) = { n(θ − θ0 ): θ ∈ Θ}. We nemen aan dat Θ een deelverzameling is van een Euclidische ruimte. Stelling 5.38. Veronderstel dat de afbeelding θ 7→ pθ (x) differentieerbaar √ is voor √ alle x en dat voor een gegeven θ0 ∈ Θ0 de verzamelingen n(Θ−θ0 ) en n(Θ0 −θ0 ) naar een k-dimensionale, respectievelijk een k0 -dimensionale lineaire ruimte convergeren, als n → ∞. Dan geldt, onder bepaalde voorwaarden, dat, onder deze θ0 , 2 log λn (X1 , . . ., Xn )
χ2k−k0
n → ∞.
Het zij toegegeven dat de bovenstaande formulering weinig precies is, en het label “Stelling” niet waard is. Een precieze formulering is echter ingewikkeld en gaat √ buiten het bestek √ van dit boek. De convergentie van de rijen verzamelingen n(Θ − θ0 ) en n(Θ0 − θ0 ) moet worden begrepen in de volgende zin: een rij verzamelingen Hn convergeert naar een verzameling H als (i) ieder element h ∈ H is de limiet h = limn→∞ hn van een rij hn met hn ∈ Hn voor iedere n; (ii) als h = limi→∞ hni voor gegeven natuurlijke getallen n1 < n2 < · · · en elementen hni ∈ Hni voor iedere i, dan is h ∈ H. In de meeste gevallen is de limietverzameling H precies de verzameling van limieten h = lim hn van convergente rijen met hn ∈ Hn voor iedere n. Hieronder geven we twee algemene voorbeelden, en een aantal concrete gevallen om de convergentie te verduidelijken. Aan convergentie naar een lineaire (deel)ruimte is meestal voldaan als de parameter geen randpunt van de parameterverzamelingen Θ of Θ0 is. Is aan deze aanname niet voldaan, dan faalt de chikwadraat-benadering. Voor een precieze formulering van de stelling, een bewijs, en een uitbreiding naar randpunten verwijzen we naar [vdV, Chapter 16]. Uitbreiding van de stelling naar niet-identiek verdeelde of afhankelijke waarnemingen is mogelijk. Bovendien is de aanname dat de parameterverzameling een deelverzameling is van een Euclidische ruimte onnodig. De uitspraak van de stelling hangt alleen af van de “co-dimensie” van de nulhypotheseruimte Θ0 binnen Θ (het getal k − k0 in de stelling). De stelling kan
5.6: Likelihood-Ratiotoetsen
151
ook worden uitgebreid naar het toetsen van eindigdimensionale parameters in semiparametrische modellen, zoals het Cox-model in Paragraaf 8.5. De “stelling” suggereert de nulhypothese te verwerpen bij onbetrouwbaarheidsdrempel α0 als 2 log λn (X1 , . . ., Xn ) ≥ χ2k−k0 ,1−α0 . Dit kritieke gebied is altijd eenzijdig, ongeacht of de nulhypothese een- of tweezijdig is. Voorbeeld 5.39 (Enkelvoudige nulhypothese). Veronderstel dat θ een eendimensionale parameter is en stel dat we de enkelvoudige nulhypothese H0 : θ = θ0 voor een gegeven waarde θ0 willen toetsen. Als θ0 een inwendig punt van de parameterverzameling Θ is, dan geldt de convergentie in de stelling met k = 1 en k0 = 0. Onder regulariteitsvoorwaarden is tweemaal de logaritme van de likelihood-ratiostatistiek dus asymptotisch chikwadraatverdeeld met 1 vrijheidsgraad. √ Dat k0 = 0 is onmiddellijk duidelijk, omdat Θ0 = {θ0 }, zodat n(Θ0 − θ0 ) = {0} voor iedere n. Uiteraard convergeert de rij verzamelingen {0}, {0}, {0}, . . . naar de 0-dimensionale ruimte {0}. De aanname dat θ0 een inwendig punt van Θ is, betekent √ dat Θ − θ0 een open bol (mogelijk heel klein) rond 0 bevat. Dan bevat n(Θ−θ0 ) voor grote n een heel grote bol rond 0, en men kan nagaan dat dit impliceert dat de limiet van deze rij verzamelingen de hele ruimte R is. Voorbeeld 5.40 (Eendimensionale restrictie). Veronderstel dat θ = (θ1 , . . ., θm ) een m-dimensionale vector is en dat we de nulhypothese H0 : θ1 = c dat de eerste co¨ ordinaat een bepaalde waarde bezit willen toetsen. De overgebleven m − 1 co¨ ordinaten zijn vrij in de nulhypothese. Neem weer aan dat een gegeven vector θ0 = (c, θ02 , . . ., θ0m ) ∈ Θ0 een inwendig punt van de parameterverzameling Θ is. Soortgelijke argumenten als in het voorgaande voorbeeld maken aannemelijk dat in dit geval de convergentie als in de stelling waar is met k = m als gegeven en k0 = m − 1 voor de gegeven θ0 . De limietverdeling van tweemaal de logaritme van de likelihood-ratiostatistiek voor het toetsen van een nulhypothese over een eendimensionale parameter is dus χ21 (onder voorwaarden). De meer algemene vorm van een eendimensionale nulhypothese is H0 : bT θ = c, met b ∈ Rm , c ∈ R en bT θ het inproduct van b en θ. (In de vorige alinea was b = (1, 0, . . ., 0).) In dat geval bestaat er een orthonormale ˜ zodanig dat θ˜1 = bt θ/kbk. co¨ ordinatentransformatie U op Θ, θ 7→ U θ =: θ, T Daarmee wordt de nulhypothese H0 : b θ = c equivalent met H0 : θ˜1 = c˜ met c˜ = c/kbk. Bovendien is de waarde van de likelihood-ratiostatistiek onveranderd omdat met behulp van de substitutie θ 7→ U −1 θ˜ de likelihood als functie van θ˜ is te schrijven en de maximum likelihood-schatter voor θ˜
152
5: Toetsen
ˆ Hieruit volgt dat de limietverdeling van 2 log λn voor een algelijk is aan U θ. gemene eendimensionale restrictie de χ21 -verdeling is (onder voorwaarden). De likelihood-ratiotoets kan worden gezien als een analogon van de maximum likelihood-schatter in de schattingstheorie. Anders dan voor de maximum likelihood-schatter, die optimaal is in een asymptotische zin (zie Hoofdstuk 7), zijn de optimaliteitseigenschappen van de likelihoodratiotoets echter minder overtuigend (behalve in het geval k − k0 = 1 voor k en k0 als in de stelling). Wanneer een toets uniform meest onderscheidend is, dan heeft deze toets het hoogste onderscheidend vermogen van alle toelaatbare toetsen bij een zekere onbetrouwbaarheidsdrempel in alle mogelijke waarden onder de alternatieve hypothese (zie Definitie 7.37). Dat de likelihood-ratiotoets niet uniform meest onderscheidend is, is geen gebrek van deze toets, maar een gevolg van het feit dat voor veel (de “meeste”?) problemen geen uniform meest onderscheidende toets bestaat. Voor verschillende alternatieve waarden is steeds weer een andere toets meest onderscheidend. De likelihood-ratiotoets is “gemiddeld” goed voor verschillende alternatieve waarden, maar vaak voor geen enkele alternatieve waarde absoluut optimaal. Alleen in speciale situaties is de toets absoluut de beste. Dit is bijvoorbeeld het geval bij het toetsen van enkelvoudige hypothesen (zowel Θ0 als Θ1 bevatten precies ´e´en punt), zie het Lemma van Neyman en Pearson in Paragraaf 7.3. Voorbeeld 5.41 (Normale verdeling, vervolg). Neem aan dat X1 , . . ., Xn een steekproef is uit de N (µ, σ 2 )-verdeling met bekende σ 2 . In Voorbeeld 5.37 is afgeleid dat onder de nulhypothese H0 : µ = µ0 twee maal de logaritme van de likelihood-ratiostatistiek exact χ21 -verdeeld is. De likelihood-ratiostatistiek voor het toetsen van H0 : µ ≤ µ0 is gecompliceerder en er wordt √ niet meer voldaan aan de eis van convergentie van de verzamelingen n(Θ0 − θ0 ) in de “stelling” voor alle θ0 ∈ Θ0 , en de 2 asymptotische nulverdeling √ is niet χ ! Om het eerste in te zien nemen we Θ0 = (−∞, µ0 ]. Dan is n(Θ0 −µ0 ) = (−∞, 0] voor iedere n en convergeert deze verzameling niet naar een lineaire ruimte. Voorbeeld 5.42 (Vergelijken van Twee Binomiale Kansen). Veronderstel dat X en Y onderling onafhankelijk zijn met, respectievelijk, de bin(m, p1 ) en de bin(n, p2 )-verdeling. We willen de hypothese H0 : p1 = p2 toetsen tegen het alternatief H1 : p1 6= p2 . De maximum likelihoodschatter voor (p1 , p2 ) zonder restricties is (ˆ p1 , pˆ2 ) = (X/m, Y /n), de vector bestaande uit de twee maximum likelihood-schatters in het geval we alleen X of Y waarnemen. Onder de nulhypothese dat p = p1 = p2 is de likelihoodfunctie m X m−X n pY (1 − p)n−Y . p 7→ p (1 − p) Y X
5.6: Likelihood-Ratiotoetsen
153
Deze wordt gemaximaliseerd door pˆ0 = (X + Y )/(m + n). De maximum likelihood-schatter voor (p1 , p2 ) onder de nulhypothese is dus (ˆ p0 , pˆ0 ). De likelihood-ratiostatistiek kan nu berekend worden als λ(X, Y ) =
(X/m)X (1 − X/m)m−X (Y /n)Y (1 − Y /n)n−Y . pˆX+Y (1 − pˆ0 )m+n−X−Y 0
De “stelling” is toepasbaar en geeft een chikwadraat-benadering met 2 − 1 = 1 vrijheidsgraad, omdat het een eendimensionale restrictie betreft. We verwerpen H0 als 2 log λ ≥ χ21,1−α0 . Alternatieven voor deze toets zijn Fishers exacte toets en een chikwadraat-toets, zie de handboeken voor meer informatie. * Voorbeeld 5.43 (Toepassing, samengesteld Poisson-proces). In Voorbeeld 4.23 is de maximum likelihood-schatter bepaald voor de tweedimensionale parameter (θ, µ) in de verdeling van het maandelijks uit te betalen bedrag van een ziektekostenverzekeraar. Verondersteld werd dat de verwachte aantallen claims en claimhoogtes in alle maanden van het jaar gelijk zijn. Het vermoeden bestaat echter dat er een verschil is in verwachte claimhoogte tussen zomer en winter. We gaan dit vermoeden toetsen met de likelihood-ratiotoets, gebaseerd op data van n winter- en m zomermaanden. We nemen aan dat de data van de verschillende maanden onafhankelijk zijn. Als model nemen we aan dat de claimhoogtes in de zomer en de winter exponentieel verdeeld zijn met onbekende parameters θz en θw , respectievelijk. De parameter µ uit de verdeling van de aantallen claims wordt gelijk verondersteld in de zomer en de winter. De parameter is nu driedimensionaal, (µ, θz , θw ). De nulhypothese luidt H0 : θz = θw en de alternatieve hypothese is gelijk aan H1 : θz 6= θw . De maximum likelihood-schatter voor de parameters kunnen worden bepaald als staat beschreven in Voorbeeld 4.23. Onder de nulhypothese is de parameter gelijk aan (µ, θ0 , θ0 ). Net als in Voorbeeld 4.23 is ook nu de log-likelihoodfunctie te schrijven als een som van termen die ieder slechts van een van de parameters afhangt. De maximum likelihood-schatter voor µ volgt uit het maximaliseren van de term die alleen van µ afhangt. Omdat deze term zowel in de log likelihood van het gehele model als in de log likelihood onder de nulhypothese staat, valt deze term weg in de log likelihood-ratiostatistiek. We laten daarom de term en de schatter voor µ hier verder achterwege. Onder de nulhypothese wordt θ0 geschat door Pn+m Ni ˆ θ0 = Pn+mi=1 P Ni i=1 j=1 Ci,j waar de data van alle n + m maanden samen wordt genomen. Zonder de restrictie van de nulhypothese worden de maximum likelihood-schatters voor
154
5: Toetsen
θz en θw gegeven door Pn Niz θˆz = Pn i=1 PNiz z j=1 Ci,j i=1
en
Pm Niw θˆw = Pm i=1 PNiw w j=1 Ci,j i=1
waar het superscript z en w respectievelijk data van de zomer- en wintermaanden aanduidt. De log likelihood-ratiostatistiek wordt gegeven door log λn,m
z
w
Ni Ni m Y X Y z w θˆz −(θˆz −θˆ0 )Ci,j θˆw −(θˆw −θˆ0 )Ci,j = log + log . e e ˆ ˆ i=1 j=1 θ0 i=1 j=1 θ0 n X
Met behulp van de voorgaande “stelling” volgt dat voor grote waarden van n en m de statistiek 2 log λn,m onder de nulhypothese bij benadering een chikwadraat-verdeling met 1 vrijheidsgraad heeft, omdat het een eendimensionale restrictie betreft (zie Voorbeeld 5.40). * Voorbeeld 5.44 (Multinomiale verdeling). Veronderstel dat Y = (Y1 , . . ., Ym ) multinomiaal verdeeld is met parameters (n, p1 , . . ., pm ). We beschouwen n bekend, en willen een hypothese toetsen aangaande de kansvector p = (p1 , . . ., pm ). De likelihood-functie wordt gegeven door n p 7→ pY1 · · · pYmm . Y1 · · · Y m 1 De maximum likelihood-schatter voor p1 ,P · · · , pm relatief tot de natuurlijke m parameterverzameling {p ∈ Rm : pi ≥ 0, i=1 pi = 1} (het “eenheidssimplex”) is gelijk aan pˆi = Yi /n, i = 1, · · · , m. De log likelihood-ratiostatistiek voor het toetsen van H0 : p ∈ P0 voor een gegeven deelverzameling P0 van het eenheidssimplex wordt dus gegeven door Qm n m Yi X Yi i=1 (Yi /n) Y1 ···Ym log λ(Y ) = log . = inf Yi log Q m n Yi p∈P npi 0 supp∈P0 Y ···Y i=1 pi i=1 1
m
Zelfs voor een enkelvoudige nulhypothese P0 = {p0 } heeft deze statistiek een gecompliceerde verdeling. Aangezien Y kan worden opgevat als de som van n onderling onafhankelijke multinomiaal verdeelde grootheden met parameters 1 en p, en de kansdichtheid van Y en de simultane dichtheid van deze steekproef proportioneel zijn, is de voorgaande “stelling” toepasbaar. De dimensie van de parameterruimte (de k in de stelling) is gelijk aan m−1 (mits de ware parameter p een inwendig punt van het eenheidssimplex is), omdat (p1 , . . ., pm ) over een m − 1-dimensionale verzameling varieert. Voor een enkelvoudige nulhypothese is de likelihood-ratiotoets asymptotisch equivalent aan de chikwadraat-toets van Voorbeeld 5.34. Om dit in te zien herschrijven we de log likelihood-ratiostatistiek log λ(Y ). De Taylorbenadering van f (y) = y log(y/y0 ) met f 0 (y) = log(y/y0 )+1 en f 00 (y) = 1/y rond y0 geeft voor grote n de benadering f (y) ≈ (y − y0 ) + 12 (y − y0 )2 /y0 .
5.7: Score- en Wald-Toetsen
155
Deze benadering toegepast op iedere term in de som van log λ(Y ) met y = Yi en y0 = npi geeft log λ(Y ) =
m X i=1
Yi log
m m X X (Yi − npi )2 Yi ≈ (Yi − npi ) + 12 npi npi i=1 i=1
= De laatste gelijkheid volgt uit
* 5.7
1 2
m X (Yi − npi )2 i=1
npi
i=1 npi
= n en
Pm
.
Pm
i=1 Yi
= n.
Score- en Wald-Toetsen
Uitvoering van de likelihood-ratiotoets vergt de bepaling van de maximum likelihood-schatter voor de parameter, zowel onder de nulhypothese als onder het gehele model. Dit kan bewerkelijk zijn. De score-toets is een alternatief dat minder rekenwerk vereist en ongeveer dezelfde kwaliteit bezit in het geval dat het aantal waarnemingen groot is. De score-functie van een statistisch model gegeven door kansdichtheden pθ is in Hoofdstuk 4 gedefinieerd als de gradi¨ent `˙θ (x) = ∇θ log pθ (x) van de logaritme van de kansdichtheid. In Lemma 6.9 in Hoofdstuk 6 wordt bewezen dat, onder voorwaarden, Eθ `˙θ (X) = 0, voor iedere parameter θ. Verschilt de waarde `˙θ0 (x) aanzienlijk van 0, dan is dit daarom een aanwijzing dat θ0 niet de ware waarde van de parameter is. Dit geeft het principe van de score-toets: de nulhypothese H0 : θ = θ0 wordt verworpen als de score-functie `˙θ0 (x) aanzienlijk van 0 verschilt. De vraag is hoe we “aanzienlijk” kunnen kwantificeren. We zullen deze vraag alleen beantwoorden in het geval dat X = (X1 , . . ., Xn ) een steekproef van onafhankelijke, identiek verdeelde grootheden is. Dan heeft de kansQn dichtheid van X de vorm (x1 , . . ., xn ) 7→ i=1 pθ (xi ), voor pθ de dichtheid van ´e´en waarneming. De score-statistiek voor H0 : θ = θ0 is dan van de vorm n X
`˙θ0 (Xi ),
i=1
waarin `˙θ nu de score-functie voor ´e´en waarneming is. De score-statistiek is een som van onafhankelijke, identiek verdeelde stochastische vectoren. Onder de nulhypothese is Eθ0 `˙θ0 (X) = 0 en heeft bovenstaande som als n groot is bij benadering een normale verdeling vanwege de Centrale Limietstelling (Stelling 9.28). Deze stelling impliceert dat, onder θ0 , n
1 X˙ √ `θ (Xi ) n i=1 0
N (0, iθ0 ),
iθ0 = Eθ0 `˙θ0 (Xi )`˙Tθ0 (Xi )
156
5: Toetsen
voor n → ∞. Het getal iθ0 , of de matrix iθ0 in het geval de parameter hoger dimensionaal is, welk we eindig veronderstellen, is precies de Fisherinformatie, die we ook in Hoofdstuk 6 zullen tegenkomen. In het geval dat θ een eendimensionale re¨elwaardige parameter is, kunnen we nu als toetsingsgrootheid kiezen: n −1/2 1 X ˙ `θ0 (Xi ) . iθ0 √ n i=1
We verwerpen de nulhypothese H0 : θ = θ0 als deze grootheid groter is dan het (1 − α0 /2)-kwantiel van de standaard normale verdeling. In het geval van een k-dimensionale parameter is de uitdrukking in het display een vector. We kiezen dan het kwadraat van zijn norm als toetsingsgrootheid en verwerpen de nulhypothese H0 : θ = θ0 als deze grootheid groter is dan het (1 − α0 )-kwantiel van de chikwadraat-verdeling met k vrijheidsgraden. Als n niet te klein is, dan is de onbetrouwbaarheid van de toets bij benadering gelijk aan α0 . Dit geeft een volledige beschrijving van de score-toets voor een enkelvoudige nulhypothese. Voor het toetsen van een samengestelde nulhypothese H0 : θ ∈ Θ0 voor een gegeven deelverzameling Θ0 ⊂ Θ is de toets in deze vorm niet bruikbaar, omdat we immers de “ware” θ0 ∈ Θ0 , als de nulhypothese correct is, niet kennen. De score-toets kan worden uitgebreid tot dit geval door de maximum likelihood-schatter θˆ0 voor θ onder de nulhypothese voor de onbekende θ0 in te vullen. We gebruiken dan de toetsingsgrootheid
(5.5)
n
2
−1/2 1 X ˙ √ `θˆ0 (Xi ) .
iθˆ 0 n i=1
Onder hetzelfde type regulariteitsvoorwaarden als voor de likelihoodratiotoets (vergelijk Stelling 5.38) is deze statistiek onder de nulhypothese voor grote n bij benadering verdeeld volgens de chikwadraat-verdeling met k − k0 vrijheidsgraden, voor dezelfde k en k0 als in Stelling 5.38. We verwerpen H0 : θ ∈ Θ0 daarom als de statistiek in de voorgaande display groter is dan het (1 − α0 )-kwantiel van de chikwadraat-verdeling met k − k0 vrijheidsgraden. Toepassing van de score-toets voor een samengestelde nulhypothese vereist dus het bepalen van de maximum likelihood-schatter onder de nulhypothese. Als de parameter θ gepartitioneerd is als θ = (θ1 , θ2 ) en de nulhypothese de vorm heeft Θ0 = {(θ1 , θ2 ): θ1 ∈ Rk0 , θ2 = 0}, dan komt dit neer op het bepalen van de maximum likelihood-schatter in een lager dimensionaal submodel. Schrijven we `˙θ = (`˙θ,1 , `˙θ,2 ) voor `˙θ,i de vector van parti¨ele afgeleiden van de logaritme van de kansdichtheid naar de co¨ ordinaten van
5.7: Score- en Wald-Toetsen
157
θi , dan zal θˆ0 voldoen aan θˆ0 = (θˆ0,1 , 0) voor θˆ0,1 bepaald door de likelihoodvergelijking n X `˙θˆ0 ,1 (Xi ) = 0. i=1
Dit is een stelsel met P evenveel vergelijkingen als de dimensie Pn van θ1 in n θ = (θ1 , θ2 ). De vector i=1 `˙θˆ0 (Xi ) neemt nu de vorm (0, i=1 `˙θˆ0 ,2 (Xi )) en de score-toetsingsgrootheid (5.5) reduceert tot T X 1 X ˙ ˙ ˆ (Xi ) . `θˆ0 ,2 (Xi ) i−1 ` θ0 ,2 θˆ0 2,2 n i=1 i=1 n
(5.6)
n
. (Merk op dat ) de relevante ondermatrix van de matrix i−1 Hierin is (i−1 θˆ0 θˆ0 2,2 −1 een ondermatrix van een inverse matrix A niet de inverse van de ondermatrix A2,2 is.) We kunnen deze grootheid interpreteren als een maat voor in hoeverre de maximum likelihood-schatter θˆ0 = (θˆ0,1 , 0) erin slaagt de Pn score-vergelijking i=1 `˙θ (Xi ) voor het gehele model tot nul te reduceren. Pn Omdat i=1 `˙θˆ(Xi ) = 0 voor de maximum likelihood-schatter θˆ voor het hele model, kan de score-toetsingsgrootheid ook worden opgevat als een maat voor het verschil tussen de maximum likelihood-schatters onder de nulhypothese en het gehele model. Voor een nulhypothese van de vorm H0 : g(θ) = 0 voor een gegeven, algemene functie g: Rk → Rm kan de maximum likelihood-schatter θˆ0 onder H0 soms worden bepaald door gebruik te maken van de methode van Lagrange. Dit is een algemene methode uit de wiskundige analyse voor het bepalen van een extremum van een functie onder een nevenvoorwaarde. Het ˆ te bepalen van de functie idee is om de stationaire punten (θˆ0 , λ) (θ, λ) 7→
n X
log pθ (Xi ) + λT g(θ).
i=1
Deze functie is de likelihood-functie plus een vector parameter λ ∈ Rm , de “Lagrange multiplier”, keer de nevenvoorwaarde (g(θ) − 0 = g(θ) in onze situatie). Volgens de Stelling van Lagrange is, onder bepaalde voorwaarden, de eerste co¨ ordinaat θˆ0 van zo’n stationair punt de gezochte maximum likelihood-schatter onder H0 . Differentiatie naar θ geeft de stationaire vergelijking n X ˆ = 0, `˙θˆ0 (Xi ) + g( ˙ θˆ0 )T λ i=1
waarin g˙ ∈ R de functionaal matrix vanPg is. Dit laat zien dat de ˆ “proportioneel” is aan n `˙ ˆ (Xi ), hetgeen in esLagrange multiplier λ i=1 θ0 sentie de score-toetsingsgrootheid is. In het bijzonder is in het geval dat θ = (θ1 , θ2 ) en g(θ) = θ2 de functionaal matrix gelijk aan (0, I)T en geldt m×k
158
5: Toetsen
ˆ = Pn `˙ ˆ (Xi ), hetgeen in essentie de toetsingsgrootheid (5.6) is. Waarλ i=1 θ0 ,2 schijnlijk om deze reden is de score-toets in de econometrische literatuur bekend als de Lagrange multiplier toets. Zoals opgemerkt kan de score-toets worden opgevat als een vergelijking van de maximum likelihood-schatters θˆ0 onder de nulhypothese en θˆ onder het gehele model. De Wald-toets maakt deze vergelijking op een directe wijze, en kan worden gezien als een derde variant op de likelihoodratiotoets. In het geval van een gepartioneerde parameter θ = (θ1 , θ2 ) en een nulhypothese van de vorm Θ0 = {θ = (θ1 , θ2 ): θ2 = 0} wordt de Wald-toets gebaseerd op de tweede component θˆ2 van de maximum likelihood-schatter θˆ = (θˆ1 , θˆ2 ) onder het gehele model. Als θˆ2 teveel verschilt van de maximum likelihood-schatter onder nulhypothese, dit is 0, dan wordt de nulhypothese verworpen. “Teveel” kan precies worden gemaakt door referentie aan de limietverdeling van de maximum likelihood-schatter. Algemener wordt de Wald-toets gebaseerd op het verschil θˆ − θˆ0 . Als de kwadratische vorm n(θˆ − θˆ0 )T iθˆ0 (θˆ − θˆ0 ) te groot is, wordt de nulhypothese verworpen. Onder de voorwaarden van Stelling 5.38 kan men aantonen dat deze rij Wald-statistieken voor n → ∞ naar een chikwadraat-verdeling met k − k0 vrijheidsgraden convergeert, zodat de juiste kritieke waarde uit de χ2 -tabel kan worden gekozen. Men kan laten zien dat, onder bepaalde voorwaarden, de likelihoodratiotoets, de score-toets, en de Wald-toets allemaal bij benadering hetzelfde onderscheidend vermogen bezitten, als het aantal waarnemingen groot is. We beperken ons weer tot het geval dat de waarneming een vector X = (X1 , . . ., Xn ) van identiek verdeelde stochastische grootheden met dichtheid pθ is. Stelling 5.45. Veronderstel dat de afbeelding θ 7→ pθ (x) differentieerbaar √ is √ voor alle x en dat voor gegeven θ0 ∈ Θ0 de verzamelingen n(Θ − θ0 ) en n(Θ0 − θ0 ) naar een k-dimensionale, respectievelijk een k0 -dimensionale lineaire ruimte convergeren, als n → ∞. Dan geldt, onder bepaalde voorwaarden, dat, onder deze θ0 , als n → ∞, X T 1 X ˙ ˙ ˆ (Xi ) − n(θˆ − θˆ0 )T i ˆ (θˆ − θˆ0 ) `θˆ0 (Xi ) i−1 ` ˆ θ θ0 0 θ0 n i=1 i=1 n
n
2 log λn (X1 , . . ., Xn ) − n(θˆ − θˆ0 )T iθˆ0 (θˆ − θˆ0 )
0,
0,
waarbij “ ” staat voor convergentie in verdeling. Bovendien convergeert de rij n(θˆ − θˆ0 )T iθˆ0 (θˆ − θˆ0 ) in verdeling naar een chikwadraat-verdeling met k − k0 vrijheidsgraden.
5.8: Meervoudig Toetsen
* 5.8
159
Meervoudig Toetsen
Dagelijks worden in de wereld als geheel vele statistische toetsen uitgevoerd, meestal met onbetrouwbaarheid 5%. Zo’n 1 op de 20 keer wordt een nulhypothese dan ten onrechte verworpen. Zo zou van zo’n 5% van statistische onderbouwde artikelen in medische tijdschriften, waarin een 5% statistisch significant resultaat de standaard is, de gemaakte claim onterecht kunnen zijn. Niemand schijnt zich daar zorgen over te maken. Anders wordt het wanneer ´e´en onderzoeker een groot aantal toetsen tegelijk uitvoert. Kiest hij daarbij voor iedere toets een onbetrouwbaarheidsdrempel van 5%, dan mag hij bij het uitvoeren van bijvoorbeeld 1000 toetsen zo’n 50 “significante” resultaten verwachten, zelfs als er in werkelijkheid niets significants te vinden is. Een dergelijke situatie treedt bijvoorbeeld op in de medische beeldanalyse als voor ieder pixel wordt getoetst of de waarde van het beeld afwijkt van normaal, bij het analyseren van genetische data als voor een groot aantal genen wordt nagegaan of zij van invloed zijn, of in de economie als een groot aantal landen of bedrijven wordt onderzocht. In al deze gevallen wordt het meervoudig toetsen als probleem ervaren. Voert men N toetsen tegelijk uit, ieder met onbetrouwbaarheid α, dan is de kans dat ´e´en of meer van de nulhypothesen ten onrechte wordt verworpen kleiner dan of gelijk aan N α. Een eenvoudige manier om een overall onbetrouwbaarheid van α te verkrijgen is daarom het uitvoeren van iedere individuele toets bij onbetrouwbaarheid α/N . Dit heet de Bonferronicorrectie. Het nadeel van deze eenvoudige correctie is dat de onbetrouwbaarheid die zo wordt verkregen vaak veel kleiner is dan de gewenste α. (De correctie is zeer conservatief.) Om hierin meer inzicht te krijgen is het zinvol het meervoudige toetsingsprobleem te formaliseren. Veronderstel dat we de N nulhypothesen H0j : θ ∈ Θj0 willen toetsen (j = 1, . . ., N ), waarbij Θ10 , . . ., ΘN 0 gegeven deelverzamelingen van de parameterverzameling Θ zijn die de kansverdeling van de waarneming X beschrijven. Voor het toetsen van H0j beschikken we over een toets met kritiek gebied K j , en we besluiten in een meervoudige toetsingsprocedure de nulhypothesen H0j te verwerpen waarvoor X ∈ K j . Als de ware parameter θ0 tot Θj behoort, en X ∈ K j , dan maken we een fout van de eerste soort met betrekking tot de j e hypothese. In werkelijkheid is iedere combinatie van correcte en foute nulhypothesen mogelijk. Als de hypothesen H0j voor iedere j in een gegeven verzameling J ⊂ {1, . . ., N } correct zijn, en de andere nulhypothesen onjuist, dan is een zinvolle definitie van de overall onbetrouwbaarheid sup θ∈∩j∈J Θj0
Pθ X ∈ ∪j∈J K j .
Dit is de maximale kans dat we minstens ´e´en van de correcte nulhypothesen
160
5: Toetsen
verwerpen. Deze uitdrukking is kleiner dan sup
X
θ∈∩j∈J Θj0 j∈J
X Pθ X ∈ K j ≤ sup Pθ X ∈ K j . j j∈J θ∈Θ0
De suprema in de som aan de rechterkant zijn precies de onbetrouwbaarheden van de individuele toetsen met de kritieke gebieden K j voor de nulhypothesen H0j . Bezitten al deze toetsen onbetrouwbaarheid kleiner dan of gelijk aan α, dan is de overall onbetrouwbaarheid kleiner dan #J α ≤ N α, zoals we al eerder hadden geconcludeerd. De berekening laat zien waarom de Bonferroni-correctie conservatief is. Ten eerste correspondeert de bovengrens N α met de situatie dat alle nulhypothesen correct zijn, terwijl in werkelijkheid mogelijk maar #J hypothesen correct zijn. Ten tweede, en Pbelangrijker, is de bovengrens gebaseerd op de ongelijkheid Pθ ∪j K j ) ≤ j Pθ (K j ), welke in veel gevallen pessimistisch is: als de kritieke gebieden overlappen, dan kan de kans op hun vereniging veel kleiner zijn dan de som van hun kansen. “Overlap” ontstaat vaak door “stochastische afhankelijkheid” tussen de toetsen. In de beeldanalyse zijn data aangaande verschillende pixels bijvoorbeeld meestal afhankelijk. Helaas bestaat geen algemene methode om met dergelijke afhankelijkheid rekening te houden bij het combineren van toetsen. De beste oplossing is meestal om niet de individuele toetsen te combineren, maar om een nieuwe overall toets te defini¨eren. In sommige gevallen is juist de stochastische onafhankelijkheid van de toetsen een redelijke aanname. Zijn de kritieke gebieden stochastisch onafhankelijk, dan geldt Pθ ∪j K j ) = 1 − Pθ (∩j (K j )c ) = 1 −
Y j
1 − Pθ (K j ) .
Hebben alle toetsen onbetrouwbaarheid kleiner dan α, dan is deze uitdrukking begrensd door 1 − (1 − α)N , hetgeen (natuurlijk) kleiner is dan N α. Voor kleine waarden van α is het verschil echter zeer gering. Willen we een overall onbetrouwbaarheid van α0 , dan suggereert de Bonferronicorrectie om per toets onbetrouwbaarheid α0 /N te nemen, terwijl voor on1/N afhankelijke hypothesen de iets mogelijk is. grotere waarde 1 − (1 − α0 ) 1/N Het quoti¨ent 1 − (1 − α0) /(α0 /N ) van deze keuzes stijgt voor N → ∞ naar − log(1 − α0 )/α0 . Voor α0 = 0.05 is de limiet ongeveer 1.025866, en is de Bonferroni-correctie dus slechts 2.5 % groter. Voert men heel veel toetsen tegelijk uit (bijvoorbeeld N ≈ 1000 of groter), dan is het controleren van de onbetrouwbaarheid wellicht geen zinvol doel. De keuze van een zeer kleine onbetrouwbaarheid voor de afzonderlijke toetsen om op die manier een aanvaardbare overall onbetrouwbaarheid te garanderen, zal immers leiden tot een heel klein onderscheidend vermogen, met mogelijk als resultaat dat geen enkele hypothese wordt verworpen.
5.8: Meervoudig Toetsen
161
Een andere handelswijze is te accepteren dat een klein aantal nulhypothesen onterecht wordt verworpen, als dan tenminste een redelijk aantal nulhypothesen terecht wordt verworpen. De false discovery rate (FDR) wordt gedefinieerd als het verwachte quoti¨ent F DR(θ) = Eθ
#{j: X ∈ K j , θ ∈ Θj0 } . #{j: X ∈ K j }
Dit is de verwachte fractie onterecht verworpen nulhypothesen van het totaal aantal verworpen nulhypothesen. Een F DR van hoogstens 5% kan een redelijk criterium zijn. De volgende procedure, afkomstig van Benjamini en Hochberg, wordt vaak toegepast voor het controleren van de FDR. De procedure is geformuleerd in termen van de p-waarden Pj = supθ∈Θj Pθ (X ∈ K j ) van de N 0 toetsen. (i) Orden de p-waarden naar grootte P(1) ≤ P(2) ≤ · · · ≤ P(N ) . (j) (ii) Verwerp alle nulhypothesen H0 waarvoor N P(j) ≤ jα. (iii) Verwerp bovendien alle nulhypothesen met een p-waarde kleiner dan ´e´en van de verworpen nulhypothesen uit (ii). Het is duidelijk dat deze procedure in het algemeen meer nulhypothesen zal verwerpen dan de Bonferroni-methode. In termen van p-waarden komt deze laatste methode immers neer op het verwerpen van de hypothesen H0j met N Pj ≤ α, terwijl de Benjamini-Hochberg-methode een extra factor j gebruikt in de vergelijking N P(j) ≤ jα in (ii). In sommige omstandigheden heeft dit echter geen negatieve invloed op de FDR. In het bijzonder kan men bewijzen dat #{j: θ ∈ Θj0 } 1 1 F DR(θ) ≤ α 1+ +··· + , N 2 m waarbij de factor 1 + 12 + · · · + 1/m ≈ log m mag worden weggelaten in het geval de toetsingsgrootheden van de verschillende toetsen onafhankelijk zijn, of een bepaalde vorm van positieve afhankelijkheid bezitten. De factor #{j: θ ∈ Θj0 }/N is de fractie van de N nulhypothesen dat correct is. In de meeste toepassingen is deze fractie dicht bij ´e´en. Is dit niet het geval, dan is de Benjamini-Hochberg-procedure conservatief, net als de Bonferronimethode. Indien deze fractie van tevoren bekend zou zijn, dan zou het mogelijk zijn de F DR dicht bij een nominale waarde α te krijgen, door het eerdere schema te gebruiken met een gewijzigde waarde van α. Dit is echter een weinig realistische situatie. Wel zijn verfijningen bedacht om met behulp van de data een “schatting” te bepalen van deze fractie, en de waarde α te corrigeren met behulp van deze schatting.
162
5: Toetsen
Opgaven 1. Bij McRonald adverteert men met kwartpond hamburgers. De consumentenbond wil onderzoeken of het hier inderdaad kwartponders betreft. Men meet het gewicht van 100 als kwartpond hamburgers geafficheerde producten. Formuleer een statistisch model en beschrijf het toetsingsprobleem. 2. Een koffiebar trekt ’s ochtends voor 10 uur weinig klanten. Om meer klanten te trekken wordt overwogen de prijs van een kopje koffie voor 10 uur 50 eurocent te verlagen. Beschrijf een experiment om te meten of een dergelijke maatregel effect heeft. Geef het statistische model aan en beschrijf het toetsingsprobleem. 3. Formuleer voor ieder van de volgende situaties een statistisch model en beschrijf het toetsingsprobleem (nulhypothese, alternatieve hypothese). (i) Een sociologe vraagt aan een grote groep middelbare scholieren welke academische studie zij kiezen. Zij verwacht dat een kleiner percentage meisjes dan jongens wiskunde zal kiezen. (ii) Een politicoloog veronderstelt dat er verband is tussen leeftijd en het al dan niet gaan stemmen bij verkiezingen, en wel een negatieve correlatie. Hij maakt 10 leeftijdscategorie¨en en bekijkt voor elke categorie bij 100 personen of ze zijn gaan stemmen of niet. (iii) Om het effect van werkcollege te meten wordt een groep studenten aselect in twee groepen verdeeld. De ene groep volgt alleen het hoorcollege, de andere groep volgt zowel het hoorcollege als het werkcollege. De tentamenresultaten van beide groepen zijn het waarnemingsmateriaal. 4. Traditioneel veronderstelt men een lineair verband y = α+βx1 +γx2 tussen de opbrengst y van een industrieel proces, de temperatuur x1 , en de hoeveelheid toegevoegde catalysator x2 . Een onderzoeker meent echter dat (binnen zekere grenzen) de temperatuur niet van invloed is op de opbrengst. Zijn collega gelooft daar niets van en wil met behulp van een statistische toets bewijzen dat de temperatuur wel degelijk een rol speelt. Beschrijf hoe deze vraagstelling past binnen het statistisch toetsen (o.a. statistisch model, hypothesen). 5. Een random number generator wordt geacht een rij getallen u1 , u2 , . . . te produceren die kunnen worden opgevat als realisaties van onafhankelijke stochastische grootheden met de homogene verdeling op het interval [0, 1]. Het is onmogelijk te bewijzen dat een gegeven generator deze eigenschap bezit, maar men kan proberen met behulp van statistische toetsen aan te tonen dat de generator niet naar behoren werkt. Beschrijf het statistische model en het toetsingsprobleem. Bedenk ook enkele mogelijke toetsingsgrootheden. 6. Het aantal klanten in een schoenwinkel op donderdag is bij benadering normaal verdeeld met verwachting 200 en standaardafwijking 50. Door te adverteren in het plaatselijke advertentieblad dat op woensdag verschijnt hoopt de winkelier het aantal klanten te laten toenemen. (i) Welke conclusie kan de winkelier trekken als het aantal klanten op 4 donderdagen (na het verschijnen van advertenties) gemiddeld (a) 239 (b) 264 is? Welke veronderstellingen worden gemaakt? (ii) De winkelier weet, dat om uit de advertentiekosten te komen, hij 20 extra klanten nodig heeft. Beantwoord dezelfde vragen als boven met deze doelstelling in gedachten.
5: Opgaven
163
7. Volgens de verpakking behoort een pakje shag 50 gram tabak te bevatten. Om te kijken of de fabrikant voldoende shag in een pakje doet, is van 100 pakjes de inhoud gewogen. De gemiddelde inhoud blijkt 49,82 gram te zijn. Bekend is dat bij vulling de variantie gelijk is aan 1. Formuleer een statistisch model en beschrijf het toetsingsprobleem. Ga d.m.v. een geschikte toets na of de fabrikant aan de eis voldoet. Neem α0 = 0.05. 8. Zij X1 , . . ., X25 een steekproef uit de N (µ, 4)-verdeling. Men wenst de nulhypothese H0 : µ ≤ 0 te toetsen tegen H1 : µ > 0 bij onbetrouwbaarheidsdrempel α0 = 0.05. Het waargenomen steekproefgemiddelde is 0.63. (i) Bepaal het kritieke gebied van een geschikte toets. (ii) Dient H0 verworpen te worden? (iii) Bepaal het onderscheidend vermogen van de toets in µ = 1/2. (iv) Bepaal de overschrijdingskans bij deze toets. 9. Zij X1 , . . ., X100 onderling onafhankelijk N (µ, 25)-verdeelde stochastische grootheden. Men wenst de nulhypothese H0 : µ = 0 te toetsen tegen H1 : µ 6= 0 bij onbetrouwbaarheidsdrempel α0 = 0.05. Men vindt x = −1.67. (i) Ga door middel van een geschikte toets na of H0 verworpen dient te worden. (ii) Bepaal de overschrijdingskans. 10. Zij X1 , . . ., Xn een steekproef uit de N (µ, 4)-verdeling. Men wenst de nulhypothese H0 : µ ≤ 1 te toetsen tegen H1 : µ > 1 bij onbetrouwbaarheidsdrempel α0 = 0.05. Daar het van groot belang is in het onderhavige geval dat H0 daadwerkelijk wordt verworpen als µ = 2, wenst men n zo te kiezen dat bij de Gauss-toets de kans op een fout van de tweede soort bij µ = 2 ten hoogste 0.1 is. Hoe groot moet n tenminste zijn? 11. Stel dat X1 , . . ., Xn een steekproef is uit de N (µ, σ 2 )-verdeling met µ onbekend en σ 2 > 0 bekend. Beschouw het toetsingsprobleem H0 : µ ≤ µ0 tegen H1 : µ > µ0 waarbij µ0 een vast gegeven getal is. Veronderstel dat, in tegenstelling tot Voorbeeld 5.11, toetsingsgrootheid X wordt genomen. √ (i) Laat zien dat het kritieke gebied K = {(x1 , . . ., xn ): x ≥ ξ1−α0 σ/ n+µ0 } een toets geeft met onbetrouwbaarheid α0 . (ii) Laat zien dat het kritieke gebied K uit het vorige onderdeel gelijk is aan √ het kritieke gebied op basis van toetsingsgrootheid n(X − µ0 )/σ dat wordt gegeven in Voorbeeld 5.11. 12. Iemand beweert telepathische gaven te hebben in die zin, dat als men uit een stel kaarten met evenveel rode als zwarte er aselect ´e´en trekt, hij met kans 0.6 de juiste kleur weet te zeggen in plaats van met kans 0.5. Om dit te testen doet men het volgende: men laat hem achtereenvolgens 25 keer raden, waarbij de getrokken kaart steeds weer teruggelegd wordt. Raadt hij tenminste 17 keer goed, dan besluit men hem te geloven, anders niet. (i) Formuleer dit probleem in termen van nulhypothese, toetsingsgrootheid, alternatieve hypothese, kritiek gebied. (ii) Bereken de onbetrouwbaarheid van deze toets. (iii) Bereken het onderscheidend vermogen in p = 0.6. (iv) Hij blijkt 16 keer goed te hebben geraden van de 25 keer. Wat is de overschrijdingskans? (v) Verwerpen we H0 bij onbetrouwbaarheidsdrempel α0 = 0.05? En bij α0 = 0.10?
164
5: Toetsen
13. De stochastische grootheden X1 , . . ., X25 zijn onderling onafhankelijk en alt(p)verdeeld. Men wenst de nulhypothese H0 : p ≤ 0.6 te toetsen H1 : p > 0.6 bij onbetrouwbaarheidsdrempel α0 = 0.05. Als toetsingsgrootheid neemt men P X= Xi . (i) Bepaal het kritieke gebied van de (rechtseenzijdige) toets. (ii) Bereken het onderscheidend vermogen bij benadering in p = 0.6, 0.7, 0.8, 0.9 en schets de grafiek van het onderscheidend vermogen. (Aan de vuistregel voor de benadering is niet voldaan voor p = 0.8 en p = 0.9, maar voor deze opgave en het schetsen van de grafiek mag de benadering gebruikt worden.) (iii) Bereken de onbetrouwbaarheid van de toets. 14. Stel dat we in Voorbeeld 5.10 een toets van de vorm K = {e, e + 1, . . ., 98} kiezen. (i) Bepaal e zodanig dat α ≤ 0.05. (ii) Vergelijk het onderscheidend vermogen van deze toets met dat van de toets {59, 60, . . ., 100}. 15. Volgens de peilingen van De Politieke Barometer is partij A goed voor 3.5% van de stemmen van de kiesgerechtigde Nederlanders. Wij denken echter dat dit een overschatting is. Om dit te onderzoeken vragen we aan 250 willekeurig gekozen kiesgerechtigden welke partij ze aanhangen. Het aantal aanhangers van partij A noteren we als X. Het blijkt dat x = 5 personen in onze steekproef partij A aanhangen. (i) Geef een statistisch model voor deze situatie. (ii) Formuleer een geschikte nulhypothese. (iii) Bepaal (bij benadering) het kritieke gebied voor X bij onbetrouwbaarheidsdrempel α0 = 0.05. Toets de nulhypothese uit het vorige onderdeel en geef uw conclusie. (iv) Bereken (bij benadering) het onderscheidend vermogen in 0.025, corresponderend met het antwoord bij (iii). (v) Hoe zou men het onderscheidend vermogen bij (iv) kunnen verhogen? 16. Om de hypothese H0 : p ≤ 0.5 dat een Bernoulli-experiment zuiver is te toetsen, voeren we een rij van n van deze experimenten uit, onafhankelijk van elkaar en gebruiken de standaard toets, met onbetrouwbaarheidsdrempel 5 %. Hoe groot moeten we n minstens kiezen opdat het onderscheidend vermogen in p = 0.6 minstens gelijk is 0.9? 17. Om te onderzoeken of het merendeel van de Nederlanders naar het buitenland op vakantie gaat, vragen we aselect n Nederlanders naar hun vakantiebestemming voor de komende zomer. We noteren X als het aantal mensen in onze steekproef die naar het buitenland op vakantie gaan. Op basis van deze gegevens willen we de nulhypothese H0 : p ≤ 0.5 toetsen tegen de alternatieve hypothese H1 : p > 0.5. Hoe groot moet n minimaal gekozen worden om bij een onbetrouwbaarheidsdrempel van α0 = 0.05 een onderscheidend vermogen in p = 0.6 van ten minste 95 % te realiseren? 18. Zij X verdeeld volgens de bin(25, p)-verdeling. Men wenst H0 : p ≥ 0.4 te toetsen tegen H1 : p < 0.4. Als men in p = 0.3 een onderscheidend vermogen van tenminste 0.6 wil hebben, hoe groot moet men dan de onbetrouwbaarheid van de in aanmerking komende toets tenminste kiezen? Is dit bevredigend?
5: Opgaven
165
19. Een nieuw vaccin voor een virus waarvoor nog geen vaccin beschikbaar is moet getest worden. Omdat de ziekte gewoonlijk niet ernstig is, wordt aan 1000 vrijwilligers het virus toegediend. Het vaccin wordt als succesvol beschouwd, indien het in 90% van de gevallen bescherming biedt. (i) Formuleer een statistisch model en daarin het toetsingsprobleem. (ii) Als het experiment een overschrijdingskans geeft van 0.25, wat betekent dat dan? (iii) Een overschrijdingskans van 0.25 wordt door de onderzoekers niet overtuigend genoeg beschouwd om het vaccin voor regelmatig gebruik aan te bevelen; eens of niet eens met deze conclusie? 20. Zij X1 , . . ., Xn een steekproef uit de verdeling met kansdichtheid pθ (x) = e−x+θ 1x≥θ . Men wenst de nulhypothese H0 : θ ≤ 0 te toetsen tegen H1 : θ > 0 bij onbetrouwbaarheidsdrempel α0 = 0.1. Men kiest X(1) als toetsingsgrootheid. Construeer het kritieke gebied bij de geschikte (eenzijdige) toets. 21. Zij X een stochastische grootheid met een Poisson-verdeling met onbekende parameter θ. Men wenst op basis van X de nulhypothese H0 : θ 6= 5 te toetsen tegen H1 : θ = 5. Laat zien dat het onderscheidend vermogen in θ = 5 van iedere toets niet groter is dan de onbetrouwbaarheid. Is voor dit probleem een zinvolle toets op te stellen? 22. Zij T een toetsingsgrootheid met een continue verdelingsfunctie F0 onder H0 . Dan is 1 − F0 (t) de p-waarde van een toets die verwerpt voor grote waarden van t. (i) Laat zien dan 1 − F0 (T ) onder H0 homogeen verdeeld is op [0, 1]. (ii) Is de verdeling van deze grootheid voor een goede toets onder een alternatief stochastisch “groter” of “kleiner” dan de homogene verdeling? (Stochastisch groter betekent: realisaties zijn, door de bank genomen, groter; preciezer: de verdelingsfunctie is kleiner.) 23. (i) Laat zien dat de X22 -verdeling gelijk is aan de exponenti¨ele verdeling met parameter 1/2. 2 -verdeling en een Gamma(ii) Wat is derhalve de relatie tussen de X2n verdeling? 24. Laat zien dat de verwachting en de variantie van een chikwadraat-verdeling met n vrijheidsgraden gelijk zijn aan n en 2n. 2 25. Beschouw de schatters Tc = cSX voor de variantie van een steekproef 2 X1 , . . ., Xn uit de N (µ, σ )-verdeling. Bereken met behulp van Stelling 5.25 en de vorige opgave de verwachte kwadratische fout van Tc . Voor welke c is deze minimaal?
26. Bepaal de verdeling van de som van twee onafhankelijke chikwadraat-verdeelde grootheden. 27. (F -toets.) Een stochastische grootheid T bezit de F -verdeling met m en n vrijheidsgraden, notatie Fm,n , als T verdeeld is als (U/m)/(V /n) voor onafhankelijke stochastische grootheden U en V met, respectievelijk de χ2m en χ2n -verdeling. Construeer door gebruik te maken van kritieke waarden uit de F -verdeling een toets voor het probleem H0 : σ 2 /τ 2 ≤ 1 tegen H1 : σ 2 /τ 2 > 1
166
5: Toetsen
gebaseerd op twee onafhankelijke steekproeven X1 , . . ., Xm en Y1 , . . ., Yn uit, respectievelijk, de N (µ, σ 2 )- en N (ν, τ 2 )-verdeling (µ en ν onbekend). 28. Op grond van twee onafhankelijke steekproeven X1 , . . ., X25 en Y1 , . . ., Y16 uit de N (µ, σ 2 ) respectievelijk N (ν, τ 2 )-verdeling wensen we te toetsen H0 : σ 2 ≥ 2τ 2 tegen H1 : σ 2 < 2τ 2 bij onbekende µ en ν en α0 = 0.01. (i) Wat is de conclusie als we als kwadraatsommen vinden: s2x = 46.7 en s2y = 45.1? (ii) Bepaal de bijbehorende overschrijdingskans. 29. Zij X1 , . . ., Xn een steekproef uit de N (µ, σ 2 )-verdeling, waarbij µ ∈ R en σ 2 > 0 onbekend zijn. 2 (i) Bewijs dat de toets “Verwerp H0 : σ 2 ≤ σ02 als (n − 1)SX /σ02 ≥ χ2n−1,1−α ” (beschreven in Voorbeeld 5.28) onbetrouwbaarheid α bezit. (ii) Het onderscheidend vermogen van deze toets is een functie van (µ, σ). Druk deze functie uit in de verdelingsfunctie van de chikwadraatverdeling. (iii) Maak een schets van deze functie. 30. Zij X1 , . . ., Xn een steekproef uit de N (µ, σ 2 )-verdeling, waarbij µ bekend is. Hoe zou je de bekende waarde van µ kunnen gebruiken voor het construeren van een toets voor het toetsen van H0 : σ 2 = σ02 tegen H0 : σ 2 6= σ02 ? Verwacht je dat deze toets een groter onderscheidend vermogen bezit dan de toets uit Voorbeeld 5.28? 31. Laat zien dat een t-verdeling symmetrisch is rond de oorsprong. 32. Een chemisch proces behoort tenminste 800 ton chemicali¨en te produceren per dag. De dagelijkse opbrengsten van een bepaalde week zijn 785, 805, 790, 793 en 802 ton. Geven deze gegevens aanleiding om te concluderen dat er iets mis is met het proces? Neem α0 = 0.05. Welke veronderstellingen zijn gemaakt? 33. Tien truien worden door midden geknipt. De ene helft wordt gewassen met product A, de tweede helft met product B. Na het wassen meten we de truien op. We vinden de volgende lengtes trui produkt A produkt B
1 61, 2 61, 5
2 58, 3 58, 2
3 56, 7 59, 0
4 59, 1 58, 6
5 62, 7 62, 4
6 61, 3 61, 2
7 57, 8 55, 0
8 55, 7 55, 0
9 61, 8 61, 4
10 60, 7 61, 0
Krimpen truien in de was minder bij product A dan bij product B? Construeer een geschikte toets en vermeld de conclusie. Neem α0 = 0.05. Welke veronderstellingen zijn gemaakt? 34. In een experiment is de bloeddruk van 32 hypertensiepati¨enten gemeten na inname van het bloeddrukverlagend medicijn Cozaar. In een tweede experiment is de bloeddruk van 20 hypertensiepati¨enten gemeten na inname van Diovan, een ander bloeddrukverlagend medicijn. Noteer de bloeddrukwaardes in de twee experimenten als X1 , . . ., X32 en Y1 , . . ., Y20 . De gemeten uitkomsten zijn x = 163, y = 158, sX = 7.8 en sY = 9.0. (i) Ga door middel van een geschikte toets na of een van de beide medicijnen beter werkt. Gebruik een onbetrouwbaarheidsdrempel van 5 %. (ii) Bepaal de overschrijdingskans (bij benadering).
5: Opgaven
167
35. Mijnheer van Meeteren heeft een taxibedrijf met 12 taxi’s. Hij is van plan 6 nieuwe banden te kopen van merk A en 6 van merk B voor de achterwielen van de taxi’s. Na iedere 500 km zal bekeken worden of de banden versleten zijn. Hij kan of: (1) ´e´en nieuwe achterband aanbrengen op ieder van de 12 taxi’s, of (2) van ieder merk een nieuwe achterband aanbrengen bij 6 taxi’s. Welk van de twee methoden is vanuit statistisch oogpunt te prefereren. Waarom? 36. Mijnheer van Meeteren uit de vorige opgave constateert de volgende aantallen verreden kilometers op het moment waarop de 12 banden versleten zijn: km met merk A km met merk B
51000 55000
50500 49500
61500 62500
59000 61500
64000 65500
59000 60000.
(i) Als de resultaten verkregen zijn volgens methode (1), kan hij dan verschil constateren tussen merk A en B? Neem α0 = 0.10. (ii) Zelfde vraag als de resultaten verkregen zijn volgens methode (2) (waarbij de verticale kolommen de 6 taxi’s weergeven). (iii) Ligt het voor de hand dat bij beide methoden ongeveer dezelfde getallen worden gevonden (zoals we in deze som gemakshalve hebben aangenomen)? (iv) Is het redelijk te veronderstellen dat de aantallen kilometers exact normaal verdeeld zijn? Bij benadering? 37. Een fabrikant van zonnebrandmiddelen krijgt controle op de inhoud van zijn tubes zonnebrandcr`eme. Op de tubes staat dat de inhoud gelijk is aan 150 gram. De controleurs verdenken de fabrikant ervan niet voldoende cr`eme in de tubes te doen. Bij de controle worden de volgende inhouden (in ml) gemeten: 150.10, 149.55, 150.00, 149.65, 149.35, 150.15, 149.75, 150.00, 149.65, 150.20, 149.20, 149.95. (i) Ga met een geschikte toets na of het vermoeden van de controleurs waar is. Gebruik een onbetrouwbaarheidsdrempel α0 = 0.05. De fabrikant krijgt een waarschuwing van de controleurs en past naar eigen zeggen de vulmachines aan. Bij de volgende controle worden de volgende inhouden (in ml) gemeten: 149.85, 150.15, 150.05, 149.90, 150.30, 150.05, 149.95, 149.75, 149.95, 150.10. (ii) Stel een geschikte nul- en alternatieve hypothese op om de bewering van de fabrikant dat het verwachte gewicht bij de tweede controle hoger is dan bij de eerste te toetsen. Voer de toets uit bij een onbetrouwbaarheidsdrempel α0 = 0.05. 38. De bepaling van isolerende eigenschappen van olie kan geschieden door een glazen buisje, waarin zich 2 polen bevinden, met olie te vullen en vervolgens op de polen een spanningsverschil aan te brengen, dat men laat stijgen tot een vonk de isolatie doorbreekt. Men kan deze bepaling van de doorslagspanning zo vaak herhalen als men wil. In een door Youden en Cameron beschreven experiment voerde men steeds 2 bepalingen uit (“duplobepalingen”). Noemen we de doorslagspanningen bij de eerste bepaling X en bij de tweede bepaling Y , dan ligt het voor de hand te onderstellen dat X en Y dezelfde verdeling hebben (ook al is deze in de regel verschillend voor verschillende oliesoorten). Dit is echter geenszins zeker, daar een door de olie slaande vonk ionen kan
168
5: Toetsen
achterlaten, die bij de tweede bepaling de uitkomst kan be¨ınvloeden. Men wenst na te gaan of een dergelijk effect inderdaad aanwezig is. In het experiment werden 10 oliemonsters (ieder van een ander soort olie) betrokken; van ieder monster werden twee vullingen onderzocht en bij iedere vulling twee bepalingen verricht. De uitkomsten zijn hieronder aangegeven: oliemonster 1 2 3 4 5 6 7 8 9 10
1e vulling 16 11 14 19 23 13 16 20 15 14
2e vulling 17 12 15 18 21 14 16 19 16 13
12 10 14 17 20 15 15 19 11 12
14 10 14 19 19 14 14 20 13 15
Toets de nulhypothese dat er geen systematisch verschil is tussen de duplobepalingen tegen de alternatieve hypothese, dat dit wel het geval is, bij onbetrouwbaarheidsdrempel α0 = 0.01 in de veronderstelling, dat alle doorslagspanningen onafhankelijk en normaal verdeeld zijn met dezelfde (onbekende) variantie. Geef aan hoe groot de overschrijdingskans ongeveer is. 39. Laat zien dat een kansdichtheid voor de tn -verdeling wordt gegeven door
Γ (n + 1)/2 t2 −(n+1)/2 1 √ f (x) = 1+ . Γ(n/2) n nπ 40. Veronderstel dat waargenomen zijn x1 = 0.5, x2 = 0.75 en x3 = 1/3. Bepaal de waarde van de Kolmogorov-Smirnov-statististiek voor het toetsen dat x1 , x2 , x3 realisaties zijn van onderling onafhankelijke hom[0, 1]-variabelen. 41. Maak de afhankelijkheid van de Kolmogorov-Smirnov-statistiek (5.4) van de waarnemingen X1 , . . ., Xn zichtbaar door de statistiek te schrijven in de vorm T ∗ (X1 , . . ., Xn ). Definieer Zi = (Xi − µ)/σ. Laat zien dat T ∗ (X1 , . . ., Xn ) = T ∗ (Z1 , . . ., Zn ). Leid hieruit af dat de verdeling van de Kolmogorov-Smirnovstatistiek hetzelfde is voor iedere element van de nulhypothese dat de waarnemingen normaal verdeeld zijn. 42. Zij X1 , . . ., Xn een steekproef uit de verdeling met kansdichtheid pθ (x) = e−x+θ 1x≥θ . (i) Bepaal de likelihood-ratiostatistiek λn voor het toetsen van H0 : θ ≤ 0 tegen H1 : θ > 0. (ii) Bepaal de limietverdeling van 2 log λn . 43. Zij X1 , . . ., Xn een steekproef uit de homogene verdeling op [0, θ]. (i) Bepaal de likelihood-ratiostatistiek λn voor het toetsen van H0 : θ ≤ θ0 tegen H1 : θ > θ0 . (ii) Bepaal de likelihood-ratiostatistiek λn voor het toetsen van H0 : θ = θ0 tegen H1 : θ 6= θ0 .
5: Opgaven
169
44. Zij X1 , . . ., Xn een steekproef uit de Poisson-verdeling met onbekende parameter θ. (i) Bepaal de likelihood-ratiostatistiek λn voor het toetsen van H0 : θ = θ0 tegen H1 : θ 6= θ0 . (ii) Welke limietverdeling bezit 2 log λn als n → ∞? 45. Zij X1 , . . ., Xn een steekproef uit de verdeling met kansdichtheid pθ (x) = 2 2θxe−θx 1(0,∞) (x), waar θ > 0 een onbekende parameter is. (i) Bepaal de likelihood-ratiostatistiek λn voor het toetsen van H0 : θ = θ0 tegen H1 : θ 6= θ0 . (ii) Geef het kritieke gebied voor de likelihood-ratiotoets bij onbetrouwbaarheidsdrempel α0 . 46. Zij X1 , . . ., Xn een steekproef uit de N (µ, σ 2 )-verdeling. We wensen de nulhypothese H0 : σ 2 = σ02 te toetsen tegen H1 : σ 2 6= σ02 bij onbetrouwbaarheidsdrempel α0 (zowel µ als σ 2 is onbekend). Laat zien dat de likelihood-ratiotoets 2 2 H0 verwerpt als (n − 1)S / [c1 , c2 ], waarbij c1 en c2 voldoen aan X /σ0 ∈ (i) P χ2n−1 ∈ [c1 , c2 ] = 1 − α0 . (ii) c1 − c2 = n log(c1 /c2 ). Merk op dat deze toets enigszins, maar voor grote n niet veel verschilt van de toets uit Voorbeeld 5.28. 47. (Score-toets.) Zij X1 , . . ., Xn een steekproef uit de kansdichtheid pθ ge¨ındiceerd door een parameter θ ∈ Θ ⊂ R. Om de nulhypothese H0 : θ = θ0 te Pn toetsen beschouwen we de toetsingsgrootheid Tn = 1/n i=1 `˙θ0 (Xi ), voor `˙θ de score-functie behorend bij pθ . (i) Bepaal Tn voor het toetsen van H0 : θ = 1 gebaseerd op een steekproef uit de N (0, θ2 )-verdeling. (ii) Bepaal een kritiek gebied voor de toets die H0 verwerpt voor grote waarden van |Tn | en die voor grote n bij benadering onbetrouwbaarheid α bezit. (iii) Laat zien dat het onderscheidend vermogen van de toets naar 1 convergeert als n → ∞ voor iedere θ 6= θ0 zodanig dat Eθ `˙θ0 (X1 ) 6= 0. (iv) Verifieer de voorwaarde uit (iii) voor het voorbeeld uit (i).
AANDELEN VOLGENS BLACK-SCHOLES In de jaren 1970 introduceerden Black en Scholes een economische theorie voor het prijzen van opties op aandelen of andere verhandelbare “assets”. Samen met Merton ontving Scholes later, toen Black al was overleden, de Nobelprijs voor dit werk. Het model is ook vandaag nog de basis voor het prijzen van zogenaamde “financial derivatives”, financi¨ele producten die afgeleid zijn van onderliggende producten als aandelen. We zullen hieronder het model op enkele punten statistisch onderzoeken. In het bovenste plaatje van Figuur 5.13 staat de waarde van het aandeel Hewlett Packard op de beurs van New York uitgezet tegen de tijd, in de periode 1984–1991. Uitgezet zijn de beurswaarden At van het aandeel op de sluitingstijd van opeenvolgende beursdagen (t = 1, 2, . . ., 2000); in de grafiek zijn deze waarden lineair ge¨ınterpoleerd. Volgens het Black-Scholes model vormt de beurskoers een “geometrische Brownse beweging”. Dit komt erop neer dat de log returns, gedefini¨eerd door Xt = log
At , At−1
1.0
1.5
2.0
2.5
een rij X1 , X2 , . . . onafhankelijke N (µ, σ 2 )-verdeelde stochastische grootheden vormen. Anders gezegd: de logaritme van de relatieve veranderingen van de koers van het aandeel vormen een onvoorspelbaar ruisproces met een normale verdeling. De log returns worden weergegeven in de onderste figuur van Figuur 5.13, eveneens lineair ge¨ınterpoleerd. We zullen deze aanname van het Black-Scholes model op enkele manieren nader onderzoeken.
1985
1986
1987
1988
1989
1990
1991
1984
1985
1986
1987
1988
1989
1990
1991
-0.2
-0.1
0.0
0.1
1984
Figuur 5.13. Beurswaarde en “log return” van het aandeel Hewlett Packard op de beurs van New York. (Beginwaarde gelijkgesteld aan 1.)
5: Aandelen volgens Black-Scholes
171
Als het Black-Scholes model inderdaad geldig is, dan zijn het steek2 proefgemiddelde X en de steekproefvariantie SX goede schatters van de pa2 rameters µ en σ van de normale verdeling van de log returns. De corresponderende schattingen, berekend zowel over de gehele periode als over vier deelperiodes, zijn periode µ ˆ σ ˆ
84–91 0.000463 0.022673
84-85 0.000164 0.020514
86–87 0.001111 0.026304
88–89 -0.000132 0.019102
90–91 0.000710 0.024100
De schatting van µ ˆ ≈ 0.00046 over de gehele periode betekent dat de koers tussen 1984 en 1991 gemiddeld is gestegen. Vergeten we voor een moment de stochastische fluctuaties (niet verstandig, zie onder!), dan geldt At ≈ At−1 e0.000463 ≈ At−1 1.000463. De gemiddelde toename per dag is dan bijna 0.05%. Op jaarbasis (250 beursdagen) geldt At ≈ At−1 e0.000463 ≈ . . . ≈ At−250 (e0.000463 )250 ≈ At−250 1.12, wat een gemiddelde toename per jaar van 12% geeft. Deze groei is echter niet homogeen verdeeld over de gehele periode. In het derde kwart 88–89 van de periode is zelfs sprake van gemiddeld negatieve log returns (ˆ µ = −0.000132). Met behulp van een statistische toets kunnen we onderzoeken of zo’n daling verenigbaar is met het Black-Scholes model. Onder het Black-Scholes model vormen de waarnemingen in de vier periodes immers vier onafhankelijke steekproeven uit dezelfde normale verdeling. We kunnen bijvoorbeeld toetsen of de log returns in het tweede kwart van de periode dezelfde verwachtingswaarde bezitten als de log returns in de derde periode, onder de aanname dat de log returns in de twee kwarten steekproeven uit de normale verdeling met verwachting µ, respectievelijk ν, en variantie σ 2 zijn. (De keuze om nu precies deze twee kwarten te onderzoeken hebben we gemaakt nadat we de geschatte waarden van µ hadden uitgerekend. Dit betekent dat we de data eigenlijk twee keer gebruiken - om te besluiten wat we toetsen en om te toetsen - hetgeen de interpretatie van p-waarden en onbetrouwbaarheden hachelijk maakt. Het was beter geweest alle vier de periodes te vergelijken, maar dit vereist een ingewikkeldere toets of een vergelijking van alle paren.) We gebruiken de t-toets voor ongepaarde waarnemingen. De geschatte variantie is σ ˆ 2 = 12 (0.0263042 + 0.0191022) ≈ 0.00528 en de t√ √ statistiek heeft de waarde 250(0.001111 − (−0.000132))/ 0.00528 ≈ 0.27. Bij een t-verdeling met 998 vrijheidgraden correspondeert dit met een rechter overschrijdingskans van ongeveer 39%. Ondanks het praktisch significante verschil van teken in de schattingen van µ in de tweede periodes geeft deze toets derhalve geen aanleiding te twijfelen aan het Black-Scholes model. Het opgetreden verschil in de schattingen kan ruimschoots worden verklaard door de fluctuaties van de aandelenkoers door de tijd. In het Black-Scholes model worden deze fluctuaties gemeten door de waarde van de parameter σ 2 , die in dit verband de volatiliteit van de aandelenkoers wordt genoemd. Het is bepaald onverstandig deze fluctuaties niet in de berekeningen te betrekken. Volgens het Black-Scholes model kunnen
172
5: Toetsen
we in een jaar tijd (250 beursdagen) niet rekenen op een deterministische groei van ongeveer 12% ((e0.000463 )250 ≈ 1.12), maar eerder op een groei die bepaald kan worden via de stochastische variabele P250 A249 eX250 A248 eX249 +X250 A250 = = = · · · = e t=1 Xt . A0 A0 A0 P Onder het Black-Scholes model is de variabele t Xt normaal verdeeld met verwachting 250µ√en variantie 250σ 2 , dat wil zeggen als de stochastische grootheid 250µ P+ 250σZ, voor Z standaard normaal verdeeld. De verdeling van exp( t Xt ) wordt log normaal genoemd. De verwachte groei is Ee250µ+
√ 250σZ
= e250µ Ee
√ 250σZ
≈ 1.12e250σ
2
/2
≈ 1.19
waar we de schattingen µ ˆ = 0.000463 en σ ˆ = 0.022673 hebben ingevuld voor µ en σ. De verwachte groei in een jaar onder het Black-Scholes model bedraagt derhalve 19%. Het is enigszins verrassend dat deze waarde aanmerkelijk groter is dan de waarde 12%, die we eerder vonden bij verwaarlozing van het toevalskarakter van de aandeelkoersen. De vorm van het BlackScholes model, waarin de koers een exponenti¨ele functie van de (normaal verdeelde) log returns is, is hiervoor verantwoordelijk. De verwachte groei per dag is exp(µ + 12 σ 2 ) en niet exp(µ), in overeenstemming met de ongelijkheid E exp(X) ≥ exp(EX), welke strikt is als X niet gedegenereerd is. (Om de schijnbare tegenspraak op te heffen wordt vaak de herparameterisatie (µ, σ 2 ) → (µ − 12 σ 2 , σ 2 ) toegepast, zodat de verdeling van de log returns N (µ − 12 σ 2 , σ 2 ) is, en de verwachte groei per dag exp(µ).) De schatting van µ + 21 σ 2 in het derde kwartaal van de periode is nog net positief, zodat bij nader inzien de belegging toch een positief rendement heeft. De volatiliteit σ speelt ook een doorslaggevende rol in de Black-Scholes formule voor de prijs van een optie op het HP-aandeel. In de “dealing rooms” en “back-offices” van banken wordt deze prijs zelfs uitgedrukt met de volatiliteit als eenheid. Het Black-Scholes model wordt daarbij vaak verlaten in de zin dat de parameter σ niet vast wordt genomen, maar van de tijd mag afhangen. In de vier kwart periodes vinden we bijvoorbeeld fluctuaties van σ ter grootte van 13%. Net als voor de parameter µ kunnen we toetsen of deze fluctuaties significant zijn. Voor het vergelijken van de volatiliteit in het tweede en derde kwart berekenen we de F -statistiek (zie Opgave 5.27) 0.0191022/0.0263042. Dit leidt tot een linkeroverschrijdingskans van ongeveer 7∗10−12 relatief ten opzichte van de F -verdeling met 499 en 499 vrijheidsgraden. Dit is een sterke aanwijzing dat de volatiliteit inderdaad niet constant is in de tijd. Tot nu toe hebben we de basis aanname van het Black-Scholes model, dat de log returns kunnen worden opgevat als een steekproef uit een normale verdeling, niet wezenlijk getoetst. Zowel op de aanname van normaliteit als op de aanname dat de log returns onafhankelijke variabelen zijn, valt echter
173
0
5
-0.05
10
0.0
15
20
0.05
25
5: Aandelen volgens Black-Scholes
-0.05
0.0
0.05
-3
-2
-1
0
1
2
3
0.0
0.2
0.4
0.6
0.8
1.0
Figuur 5.14. Histogram en QQ-plot tegen de normale verdeling van de log returns in de periode 88–89 op de HP-aandelen. De curve in het histogram is de normale dichtheid met parameters gelijk aan steekproefgemiddelde en steekproefvariantie van de log returns.
-0.05
0.0
0.05
Figuur 5.15. Empirische verdelingsfunctie van de log returns in 88–89 en verdelingsfunctie van normale verdeling met met parameters gelijk aan steekproefgemiddelde en steekproefvariantie van de log returns.
veel af te dingen. In feite gelooft bijna niemand echt in het model, hoewel het wel standaard wordt toegepast. We onderzoeken allereerst de normaliteit van de log returns, onder de aanname dat de onafhankelijkheid correct is. In dat geval kunnen we toetsen of de log returns X1 , . . ., X2000 als een steekproef uit een normale verdeling kunnen worden opgevat. Omdat we al hebben gezien dat de volatiliteit σ niet constant in de tijd is, zullen we de minder stringente aanname toetsen dat de log returns in de derde kwart periode als een steekproef uit een normale verdeling kan worden opgevat. Figuur 5.14 geeft een eerste grafische indruk van de verdeling van deze steekproef, door middel van een histogram en een QQ-plot. Deze twee grafieken geven twijfel aan de nor-
174
5: Toetsen
maliteitaanname, hoewel de afwijking van normaliteit niet zeer sterk is. We kunnen de aanname formeel onderzoeken door het toepassen van een statistische toets, zoals de Kolmogorov-Smirnov-toets (zie Voorbeeld 5.33). Figuur 5.15 toont de empirische verdelingsfunctie van X1001 , . . ., X1500 en de verdelingsfunctie van de normale verdeling met verwachting en variantie gelijk aan het steekproefgemiddelde en de steekproefvariantie van deze steekproef. De Kolmogorov-Smirnov-statistiek is de maximale verticale afstand tussen deze twee verdelingsfuncties en kan worden berekend als 0.052. De bijbehorende kritieke waarde kan worden berekend door de KolmogorovSmirnov-statistiek te berekenen voor een groot aantal steekproeven gesimuleerd uit de normale verdeling. Van 10000 gesimuleerde steekproeven was de waarde van de Kolmogorov-Smirnov-statistiek in 6% van de gevallen groter dan 0.052. Dit betekent een (geschatte) overschrijdingskans van 6%, zodat de nulhypothese van normaliteit bij onbetrouwbaarheid 5% net niet wordt verworpen. Tenslotte beschouwen we de door Black en Scholes geponeerde stochastische onafhankelijkheid van de log returns over de tijd. Als eerste controle berekenen we de steekproef auto-correlatieco¨effici¨enten van de log returns. Deze zijn weergegeven in de linkerfiguur in Figuur 3.13 en lijken onafhankelijkheid niet tegen te spreken. De steekproef auto-correlatieco¨effici¨enten van de kwadraten van de log returns, in de rechterfiguur in Figuur 3.13, zijn echter duidelijk verschillend van 0. Uitvoering van de toets uit Voorbeeld 5.35 leidt dan ook tot verwerpen van de nulhypothese dat de log returns onafhankelijke identiek verdeelde stochastische grootheden zijn. Op deze werkwijze valt echter af te dingen. We hadden immers al vastgesteld dat de volatiliteit niet constant is in de tijd, zodat de nulhypothese van identiek verdeelde, onafhankelijke log returns niet de meest relevante hypothese is. We kunnen de analyse herhalen voor ieder van de vier periodes afzonderlijk. Dit leidt tot hetzelfde resultaat. De interessante vraag is nu welke afhankelijkheid tussen de log returns op verschillende dagen bestaat. Dit is geen eenvoudige vraag, omdat “afhankelijkheid” een vergaarbak is van mogelijkheden: alle mogelijke ontkenningen van “onafhankelijkheid”, hetgeen wel eenduidig is bepaald. Van de verschillende modellen wordt het GARCH(1,1) model wel gezien als de benchmark. Dit model postuleert 2 2 σt2 = α + θXt−1 + φσt−1 , Xt = σ t Z t .
De eerste vergelijking betreft de propagatie van de volatiliteit σ t . Deze wordt niet rechtstreeks waargenomen, maar gezien als een primair drijvend proces onder de log returns. De volatiliteit op dag t is een functie van het kwadraat van de return en volatiliteit op dag t − 1, groter naarmate deze laatste twee groter zijn (φ, θ ≥ 0). Gegeven de volatiliteit σt is de log-return op tijdstip t gelijk aan σt vermenigvuldigd met een variabele Zt , waarvan vaak wordt
5: Aandelen volgens Black-Scholes
175
aangenomen dat Zt normaal verdeeld is en onafhankelijk van het verleden (Xt−1 , σt−1 , Xt−2 , . . .).
6 Betrouwbaarheidsgebieden
6.1
Introductie
In Hoofdstuk 4 hebben we gezien hoe een parameter θ geschat kan worden met de waargenomen waarde t = T (x) van een schatter T . Binnen de context van het huidige hoofdstuk zullen we dergelijke schattingen ook wel aanduiden met puntschattingen. Een schatting t verschilt als regel van de te schatten θ. Met behulp van de in dit hoofdstuk te bespreken betrouwbaarheidsgebieden kan de mogelijke afwijking van de schatter T tot θ worden gekwantificeerd. Dit leidt in veel gevallen tot een intervalschat ting L(x), R(x) , met de interpretatie dat θ met grote kans in dit interval ligt. Dergelijke intervalschattingen zijn bijvoorbeeld de basis van de onzekerheidsmarges die worden vermeld bij de resultaten van opiniepeilingen. De precieze definitie van een betrouwbaarheidsgebied is als volgt. Definitie 6.1. Zij X een variabele met een kansverdeling die van een parameter θ ∈ Θ afhangt. Een afbeelding X 7→ GX die als bereik de collectie deelverzamelingen van Θ heeft, is een betrouwbaarheidsgebied voor θ met onbetrouwbaarheid α als Pθ GX 3 θ ≥ 1 − α, voor alle θ ∈ Θ. Met andere woorden, een betrouwbaarheidsgebied is een “stochastische deelverzameling” GX van Θ die met “grote kans” de ware parameter θ zal bevatten. Omdat van tevoren niet bekend is welke waarde van θ de ware waarde is, geldt de eis in de definitie voor alle mogelijke waarden van θ: onder aanname dat θ de ware waarde is, moet deze ware waarde met kans minstens 1−α bevat zijn in GX . Nadat X = x waargenomen is, verandert de
6.1: Introductie
177
stochastische verzameling GX in een gewone, niet-stochastische, deelverzameling Gx van Θ. Gewoonlijk kiest men α klein, bijvoorbeeld α = 0.05, zodat de kans dat θ in het betrouwbaarheidsgebied ligt groot is. Naarmate we α kleiner kiezen, zal het betrouwbaarheidsgebied natuurlijk groter moeten zijn en dus minder informatie geven over θ, die dan echter wel “zekerder” is. Hier is weer sprake van een trade-off tussen twee gewenste doelen, zoals we die al zijn tegen gekomen bij het toetsen. Vaak wordt gezegd dat de kans dat de realisatie Gx de ware waarde θ zal bevatten minstens 1 − α is. Deze kansuitspraak is gemakkelijk verkeerd te interpreteren. In onze interpretatie is de ware waarde van θ vast; het gerealiseerde betrouwbaarheidsgebied Gx is evenmin een toevalsvariabele. Derhalve is de ware θ bevat in het betrouwbaarheidsgebied Gx , of niet. (Helaas weten we niet welke van de twee gevallen zich voordoet.) De kansuitspraak kan worden ge¨ınterpreteerd in de zin dat als we bijvoorbeeld 100 keer onafhankelijk het experiment dat aanleiding geeft tot X zouden uitvoeren, en 100 keer het betrouwbaarheidsgebied Gx berekenen, dan mogen we verwachten dat (minstens) ongeveer 100(1 − α) van de gebieden de ware θ bevatten. Dit wordt ge¨ıllustreerd in Figuur 6.1, waarin 100 onafhankelijke realisaties van een 90 % betrouwbaarheidsinterval voor de verwachtingsparameter van de normale verdeling zijn weergegeven. De ware waarde van de parameter is 0 en is in 89 van de intervallen bevat. In de praktijk kunnen we natuurlijk niet herhalen, en kunnen we slechts ´e´en betrouwbaarheidsgebied bepalen. Dit kan ´e´en van de 100α gebieden zijn waar de ware parameter niet in zit, zonder dat we dit kunnen weten! Omdat GX stochastisch is en θ deterministisch hebben we GX 3 θ geschreven in plaats van θ ∈ GX . In onze notatie voor kansen staat de stochast immers meestal links. Sommigen vinden om dezelfde reden ook een uitspraak als “θ ligt met grote kans in GX ” uit den boze. We volgen de laatste conventie niet, maar benadrukken nogmaals dat betrouwbaarheidsgebieden een subtiele interpretatie bezitten. In de Bayesiaanse terminologie uit Paragraaf 4.5 is de parameter wel een toevalsvariabele. Dit geeft de mogelijkheid om in dat verband de kansuitspraak over de eventualiteit θ ∈ GX als een uitspraak over de stochastische variabele θ te zien. De kans van deze eventualiteit kan dan worden bepaald relatief ten opzichte van de a posteriori verdeling. We bespreken deze aanpak in Paragraaf 6.6. Als θ een numerieke parameter is (dwz. Θ ⊂ R), dan gebruiken we meestal betrouwbaarheidsintervallen. Dit zijn betrouwbaarheidsgebieden van de vorm GX = L(X), R(X) voor twee functies L en R van X. We spreken dan ook wel van het betrouwbaarheidsinterval [L, R] voor de parameter θ. Soms is het midden van het betrouwbaarheidsinterval precies de gebruikte puntschatter T = T (X) voor θ. Dan noteren we het interval ook wel in de vorm θ = T ± η, met η = 21 R(X) − L(X) de helft van de lengte van het interval. In andere gevallen is het interval echter bewust asymmetrisch rond de gebruikte puntschatting, hetgeen een uitdrukking kan zijn van een “grotere precisie” naar boven of beneden.
178
0
20
40
60
80
100
6: Betrouwbaarheidsgebieden
-2
-1
0
1
2
3
Figuur 6.1. 100 realisaties van het betrouwbaarheidsinterval voor de verwachtingsparameter van de normale verdeling (als in Voorbeeld 6.4) gebaseerd op 100 onafhankelijke steekproeven ter grootte 5.
Voorbeeld 6.2 (Normale verdeling). Veronderstel dat X = (X1 , . . ., Xn ) een steekproef is uit de normale verdeling N (µ, σ 2 ) met onbekende µ ∈ R en bekende variantie σ 2 . De natuurlijke schatter voor µ is het√steekproefgemiddelde X. Deze bezit een N (µ, σ 2 /n)-verdeling en dus is n(X − µ)/σ standaard normaal verdeeld. Dan geldt √ X −µ Pµ ξα/2 ≤ n ≤ ξ1−α/2 = 1 − α, σ
waar ξα het α-kwantiel van de standaard normale verdeling is. We kunnen dit herschrijven in de vorm σ σ Pµ X − √ ξ1−α/2 ≤ µ ≤ X + √ ξ1−α/2 = 1 − α n n
waar we gebruik hebben gemaakt van ξα/2 = −ξ1−α/2 . Hieruit volgt dat Pµ (GX 3 µ) = 1 − α voor σ σ GX = X − √ ξ1−α/2 , X + √ ξ1−α/2 n n
en dat GX een betrouwbaarheidsinterval is voor µ met onbetrouwbaarheid α. Dit interval ligt symmetrisch rond de schatter X en wordt vaak geschreven als σ µ = X ± √ ξ1−α/2 . n
6.2: Pivots en Bijna-Pivots
179
Hoe kleiner σ en hoe groter n, des te smaller (en dus informatiever) het interval. Merk op dat voor het halveren van de intervallengte 4 maal zoveel waarnemingen nodig zijn. Ook bij grotere α is het interval smaller, maar dit gaat ten koste van de betrouwbaarheid.
6.2
Pivots en Bijna-Pivots
Veel betrouwbaarheidsgebieden zijn geconstrueerd met behulp van een pivot. Definitie 6.3. Een pivot is een functie (X, θ) 7→ T (X, θ), zodanig dat de kansverdeling van T (X, θ) onder de aanname dat θ de ware parameter is een vaste verdeling bezit, die niet afhangt van θ of andere onbekende parameters. Een pivot is dus geen statistiek omdat de pivot af mag hangen van zowel de waarneming X als de parameter θ. Wanneer T (X, θ) een pivot is, is de kans Pθ T (X, θ) ∈ B in principe bekend voor iedere verzameling B. “Bekend” betekent hier “onafhankelijk van θ”; de twee θ’s in de uitdrukking Pθ T (X, θ) ∈ B moeten elkaar dus opheffen. In Voorbeeld 6.2 hebben we al √ een voorbeeld van een pivot gezien: n(X − µ)/σ die de standaard normale verdeling bezit. Voor iedere verzameling B zodanig dat Pθ T (X, θ) ∈ B ≥ 1 − α is de verzameling n o θ ∈ Θ: T (X, θ) ∈ B een betrouwbaarheidsgebied voor θ met onbetrouwbaarheid α. Meestal bestaan vele verzamelingen B die hieraan voldoen, en we willen daar nu een “geschikte” kandidaat uit kiezen. Hoewel het voor de hand ligt te zoeken naar verzamelingen waarvoor het volume van het betrouwbaarheidsgebied klein is, ligt de keuze niet eenduidig vast. We illustreren dit in de volgende voorbeelden.
Voorbeeld 6.4 (Normale verdeling). Veronderstel dat X1 , . . ., Xn een steekproef is uit de N (µ, σ 2 )-verdeling met µ ∈ R en σ 2 > 0 onbekend. Volgens Stelling 5.25 bezit √ X −µ n SX een tn−1 -verdeling, welke niet afhangt van de parameter (µ, σ 2 ). Deze grootheid is dus een pivot en er geldt √ X −µ Pµ tn−1,α/2 ≤ n ≤ tn−1,1−α/2 = 1 − α. SX
180
6: Betrouwbaarheidsgebieden
Uit berekeningen analoog aan die in Voorbeeld 6.2 volgt direct dat SX SX X − √ tn−1,1−α/2 , X + √ tn−1,1−α/2 n n
een betrouwbaarheidsinterval voor µ is met onbetrouwbaarheid α. Omdat het interval symmetrisch rond X ligt, wordt het ook wel geschreven als SX µ = X ± √ tn−1,1−α/2 . n Dit interval lijkt sterk op het interval in het vorige voorbeeld, met σ vervangen door SX en ξα door tn−1,α . Omdat de t-verdeling dikkere staarten heeft dan de standaard normale verdeling, liggen de t-kwantielen verder van nul vandaan dan de kwantielen van de standaard normale verdeling, en is het hier gevonden interval gewoonlijk iets wijder dan in het geval dat σ bekend is (hoewel dat ook van de waarde van SX afhangt). Dit is de prijs die we voor het onbekend zijn van σ moeten betalen. Voor n → ∞ lijkt de tn -verdeling in toenemende mate op de normale verdeling en geldt dat SX in kans naar σ convergeert. Daarom verdwijnt het verschil tussen de twee intervallen voor n → ∞. Door de keuze van de kwantielen is bovenstaand interval symmetrisch rond de maximum likelihood-schatter voor µ. Niet-symmetrische intervallen met onbetrouwbaarheid α kunnen worden geconstrueerd door andere kwantielen van de t-verdeling te kiezen: √ X −µ Pµ tn−1,β ≤ n ≤ tn−1,1−γ = 1 − α, SX
voor β + γ = α. Het betrouwbaarheidsinterval voor µ op basis van deze kwantielen is gelijk aan SX SX X − √ tn−1,1−γ , X − √ tn−1,β . n n
Het smalste betrouwbaarheidsinterval met onbetrouwbaarheid α wordt verkregen door β = γ = α/2 te nemen; dit resulteert in het eerder gegeven interval. Voorbeeld 6.5 (Homogene verdeling). Als X1 , . . ., Xn een steekproef uit de hom[0, θ]-verdeling is, dan is X1 /θ, . . ., Xn /θ een steekproef uit de hom[0, 1]-verdeling. Iedere functie van X1 /θ, . . ., Xn /θ is daarom een pivot. De meest interessante pivot is X(n) /θ, omdat deze pivot gebaseerd is op de maximum likelihood-schatter en voldoende grootheid X(n) voor θ (zie Paragraaf 7.1 voor de definitie van een voldoende grootheid). Er geldt dat Pθ
X
(n)
θ
≤ x = xn ,
0 ≤ x ≤ 1.
6.2: Pivots en Bijna-Pivots
181
Dit leidt tot verschillende betrouwbaarheidsintervallen voor θ. Als 0 ≤ c ≤ d ≤ 1 getallen zijn zodanig dat dn − cn = 1 − α, dan geldt X X(n) X(n) (n) 1 − α = d n − cn = Pθ c ≤ . ≤ d = Pθ ≤θ≤ θ d c
Het interval [X(n) /d, X(n) /c] is derhalve een betrouwbaarheidsinterval voor θ met onbetrouwbaarheid α. De keuze c = 0, d = (1 − α)1/n leidt tot het rechtsonbegrensde interval [X(n) (1 − α)−1/n , ∞). De keuze c = α1/n , d = 1 geeft het interval [X(n) , X(n) α−1/n ]. Omdat we zeker weten dat θ ≥ X(n) legt dit interval alle onzekerheid in de bovengrens. Een redelijke strategie is om c en d zo te kiezen dat |1/d − 1/c| minimaal is en het interval [X(n) /d, X(n) /c] zo kort mogelijk is (zie Opgave 6.20). Alle intervallen zijn echter toegestaan en hebben dezelfde interpretatie. Exacte betrouwbaarheidsgebieden afleiden uit pivots is slechts incidenteel mogelijk, eenvoudig weg omdat niet altijd een pivot beschikbaar is. Het lukt bijvoorbeeld niet voor de parameter p in de binomiale verdeling, of de parameter µ in de Poisson-verdeling. In zo’n geval wordt vaak genoegen genomen met een benaderend betrouwbaarheidsgebied, dat kan worden afgeleid uit een “bijna-pivot”. Hebben we te maken met grote steekproeven, dan zijn zulke bijna-pivots meestal ruim voorradig. Voorbeeld 6.6 (Binomiale verdeling). Als X binomiaal verdeeld is met parameters n en p, dan is X − np p np(1 − p)
voor grote n bij benadering N (0, 1)-verdeeld, vanwege de Centrale Limietstelling, zie Paragraaf 9.6. Bij benadering is deze functie van X en p dus een pivot. De verzameling n o X − np p: ξα/2 ≤ p ≤ ξ1−α/2 np(1 − p)
is derhalve bij benadering een betrouwbaarheidsgebied voor p met onbetrouwbaarheid α. Deze verzameling is een interval, dat gevonden kan wor2 den door de kwadratische vergelijking (X − np)2 ≤ ξ1−α/2 np(1 − p) op te lossen. In Figuur 6.2 wordt dit interval grafisch weergegeven voor bepaalde waarden van α, n en p. Als we toch aan het benaderen zijn, kunnen we ook een stap verder gaan. Vanwege de Wet van de Grote Aantallen convergeert X/n in kans naar p voor n naar oneindig. Daarom is ook de stochastische grootheid p
X − np
n(X/n)(1 − X/n)
6: Betrouwbaarheidsgebieden
0
2
4
6
8
10
12
182
0.0
0.2
0.4
0.6
0.8
1.0
Figuur 6.2. Betrouwbaarheidsinterval voor de parameter p van een binomiale verdeling. De p grafiek toont de functies p 7→ |x − np| en p 7→ 1.96 np(1 − p) voor een geval dat 0 < x < n (namelijk x = 13 en n = 20). Het betrouwbaarheidsinterval is het interval op de horizontale as tussen de twee snijpunten.
bij benadering N (0, 1)-verdeeld. (Dit volgt met behulp van Slutzky’s lemma. We geven geen precies bewijs, maar verwijzen naar Hoofdstuk 2 van [vdV].) Het benaderende betrouwbaarheidsinterval op basis van deze bijna-pivot heeft de eenvoudige vorm r X 1 X X √ 1− ξ1−α/2 . ± p= n n n n
Dit interval wordt veel gebruikt als betrouwbaarheidsindicatie bij het schatten van een fractie elementen in een populatie met een bepaalde eigenschap, bijvoorbeeld een opiniepeiling. Het is opmerkelijk dat de grootte van de populatie geen rol speelt in de lengte van het interval. Alleen de steekproefgrootte telt, en in mindere mate de ware fractie. Als p = 12 en n = 1500, dan is het 95% betrouwbaarheidsinterval ongeveer (X/n) ± 2%. Deze 2% is vermoedelijk de waarde die wordt bedoeld als in de krant een afwijking van hoogstens 2% wordt beloofd in een gegeven opiniepeiling. De correcte interpretatie van deze marge is dat in 95% van de opiniepeilingen de afwijking van de steekproeffractie tot de ware fractie niet groter zal zijn dan 2%. Helaas vertaalt de Nederlandse pers deze ingewikkelde bewering vaak in een te stellige foutenmarge. p Voor p → 0 of p → 1 nadert de functie p 7→ p(1 − p) de waarde 0. Het betrouwbaarheidsinterval is daarom korter voor extreme waarden van p. Voor p = 1/2 is de lengte van het betrouwbaarheidsinterval het minst gunstig. Voorbeeld 6.7 (Toepassing, aantal bacteri¨ en). In Voorbeeld 4.19 werd verondersteld dat het aantal bacteri¨en in een centiliter vuil water Poissonverdeeld is met parameter µ. Om µ te schatten werd het vuile water gemengd met 1000 liter zuiver water en verdeeld over 1000 kweekbakken. We nemen slechts Y1 , . . ., Y1000 waar met Yi gelijk aan 1 als in de ie kweekbak een kolonie bacteri¨en ontstaat, en 0 anders. Hieruit volgt dat Yi alternatief verdeeld is met kans p = 1 − e−µ/1000 voor i = 1, . . ., 1000. In
6.2: Pivots en Bijna-Pivots
183
Voorbeeld 4.19 wordt p geschat met de maximum likelihood-schatter Y . P1000 Omdat i=1 Yi binomiaal verdeeld is met parameters 1000 en p, volgt uit Voorbeeld 6.6 dat q q ξ1−α/2 ξ1−α/2 √ √ P Y − Y (1 − Y ) ≤ p ≤ Y + Y (1 − Y ) ≈ 1 − α. 1000 1000
Dit betrouwbaarheidsinterval voor p kan worden gebruikt om een betrouwbaarheidsinterval voor µ af te leiden door p = 1 − e−µ/1000 te substitueren. Schrijven we σ ˆ 2 = Y (1 − Y ) dan is h
ξ1−α/2 √ 2 ξ1−α/2 √ 2 i −1000 log 1 − Y + √ σ ˆ , −1000 log 1 − Y − √ σ ˆ 1000 1000
een betrouwbaarheidsinterval voor µ met onbetrouwbaarheid p p α mits 1 − Y − ξ1−α/2 σ ˆ 2 /1000 > 0. In het geval dat 1 − Y − ξ1−α/2 σ ˆ 2 /1000 ≤ 0 wordt de rechtergrens vervangen door oneindig. De bijna-pivot in Voorbeeld 6.6 komt van een asymptotische benadering voor de verdeling van de schatter. Veel schatters Tn voor een parameter g(θ) zijn asymptotisch normaal verdeeld in de zin dat voor zekere getallen σn,θ (vaak de standaardafwijking van Tn ), Tn − g(θ) σn,θ
θ
N (0, 1)
als n → ∞. Hierin is het pijltje θ onze notatie voor “convergentie in verdeling” aangenomen dat θ de ware parameter is. Preciezer gezegd betekent de bewering dat T − g(θ) n ≤ x = Φ(x), voor alle x. lim Pθ n→∞ σn,θ Een informele interpretatie is dat Tn − g(θ) /σn,θ voor grote n bij benadering N (0, 1)-verdeeld is, als θ de ware parameter is. Derhalve is Tn − g(θ) σn,θ een bijna-pivot. Dit noemen we ook wel de grote steekproefmethode. Dit leidt tot het benaderende betrouwbaarheidsgebied voor g(θ) n o g(θ): Tn − σn,θ ξ1−α/2 ≤ g(θ) ≤ Tn + σn,θ ξ1−α/2
met onbetrouwbaarheid α. Voor het gemak wordt hierin de uitdrukking σn,θ vaak vervangen door een schatter σ ˆn , hetgeen leidt tot het symmetrische interval g(θ) = Tn ± σ ˆn ξ1−α/2 .
184
6: Betrouwbaarheidsgebieden
De uitdrukking σ ˆn is meestal een schatting voor de standaardafwijking van Tn , de standaardfout (Engels: standard error of s.e.) van de schatter (of schatting). In veel wetenschappelijke rapportages wordt volstaan met het vermelden van de schatting met een bijbehorende standaardfout. Mits de gebruikte schatter bij benadering normaal verdeeld is, kunnen we deze informatie ruwweg interpreteren in de zin van een 95 % betrouwbaarheidsinterval van de vorm g(θ) = Tn ± ξ0.975 s.e. = Tn ± 1.96 s.e.. Goede statistische software zal naast een parameterschatting ook de standaardfout van de schatter vermelden. Voor een schatting van een vectorwaardige parameter levert dit voor iedere co¨ ordinaat een standaardfout, en worden bovendien meestal de geschatte covarianties tussen de schatters vermeld, in de vorm van een matrix met de geschatte varianties van de schatters (de kwadraten van de standaardfouten) op de diagonaal (zie Paragraaf 10.1 voor de algemene definitie van een covariantiematrix).
6.3
Maximum Likelihood-Schatters als Bijna-Pivots
Een belangrijk speciaal geval van de in de voorgaande paragraaf besproken bijna-pivots is dat waarin Tn de maximum likelihood-schatter is. Onder bepaalde voorwaarden is de maximum likelihood-schatter asymptotisch normaal verdeeld. We bespreken het eenvoudigste geval, dat van een steekproef van onderling onafhankelijke stochasten, en beperken ons eerst tot parameters θ ∈ R. Zij θˆ de maximum likelihood-schatter gebaseerd op een steekproef X1 , . . ., Xn uit de verdeling met (marginale) kansdichtheid pθ . Veronderstel dat de functie θ 7→ `θ (x): = log pθ (x) (partieel) differentieerbaar is voor alle x, met afgeleide ∂ `˙θ (x) = log pθ (x). ∂θ De maximum voldoet dan (meestal) aan de likelihoodPlikelihood-schatter n vergelijking i=1 `˙θˆ(Xi ) = 0. De functie `˙θ heet de score-functie van het model en de Fisher-informatie is gedefinieerd als het getal iθ = varθ `˙θ (X1 ). Stelling 6.8. Veronderstel dat de afbeelding θ 7→ pθ (x) differentieerbaar is voor alle x en dat iθ eindig is. Zij θˆn de maximum likelihood-schatter gebaseerd op een steekproef ter grootte n uit de verdeling met kansdichtheid √ pθ . Dan geldt onder bepaalde voorwaarden dat, onder θ, de rij n(θˆn − θ) in verdeling naar een normale verdeling met verwachting 0 en variantie i−1 θ convergeert. Dus √ θ n(θˆn − θ) N (0, i−1 ). θ
6.3: Maximum Likelihood-Schatters als Bijna-Pivots
185
Voor een precieze formulering en een bewijs van deze stelling verwijzen we naar [vdV]. Indien de uitspraak van de stelling van toepassing is, dan is voor grote n de stochastische grootheid √ niθ (θˆ − θ) onder θ bij benadering standaard normaal verdeeld, en derhalve een bijnapivot. Voor het gemak kunnen we iθ vervangen door een schatter ibθ en krijgen we voor θ het benaderende betrouwbaarheidsinterval 1 θ = θˆ ± p ξ1−α/2 nibθ
met onbetrouwbaarheid α. Dit interval wordt het Wald-interval genoemd. De uitspraak van de stelling wordt vaak zo begrepen dat 1/(niθ ) een benaˆ en de wortel hieruit een benadering voor dering is voor de variantie van θ, de standaardfout. Voor α = 0.05 is het Wald-interval daarom in feite een ˆ 0.975 s.e. ≈ θˆ±2s.e.. (De stelling zegt interval van de algemene vorm θ = θ±ξ overigens niets over convergentie van de variantie van de MLE schatters, maar de voorgaande interpretatie is meestal wel te verdedigen.) Gebruikelijke schatters voor de Fisher-informatie iθ zijn de plug-in schatter en de waargenomen informatie (Engels: observed information). De plug-in schatter is ibθ = iθˆ, ofwel de parameter θ in de uitdrukking voor iθ ˆ De waargenomen wordt vervangen door de maximum likelihood-schatter θ. informatie is gedefinieerd als n 1 X¨ b ` ˆ(Xi ), iθ = − n i=1 θ
met
∂2 `¨θ (x) = 2 log pθ (x). ∂θ
De plug-in schatter vereist de (analytische) berekening van de Fisherinformatie iθ , terwijl de waargenomen informatie eenvoudiger uit de data volgt. De waargenomen informatie is (−1/n) keer de tweede afgeleide van P ˆ Zo nodig de log likelihood-functie θ 7→ ni=1 `θ (Xi ) ge¨evalueerd in θ = θ. kan men een numerieke afgeleide (differentiequoti¨ent) gebruiken in plaats van een analytische afgeleide. Grafisch geeft de waargenomen informatie de kromming van de log likelihood-functie in het punt θ = θˆ waar de log likelihood maximaal is. Als de likelihood-functie een platte top bezit, dan is de waargenomen informatie klein, en is het betrouwbaarheidsinterval voor θ breed: de maximum likelihood-schatter is dan weinig nauwkeurig. (Dit reflecteert geen zwakte van deze schattingsmethode, maar is te wijten aan een intrinsiek moeilijk te schatten parameter.) De zinvolheid van de waargenomen informatie als schatter voor iθ is niet onmiddellijk duidelijk, maar volgt (voor grote n) uitP het volgende lemma, en de Wet van de Grote n Aantallen, volgens welke n−1 i=1 `¨θ (Xi ) → Eθ `¨θ (Xi ) als n → ∞ met kans 1 als θ de ware parameter is.
186
6: Betrouwbaarheidsgebieden
Lemma 6.9. Veronderstel dat θ 7→ `θ (x) = log pθ (x) twee maal differentieerbaar is voor alle x. Dan geldt onder regulariteitsvoorwaarden dat Eθ `˙θ (X1 ) = 0 en Eθ `¨θ (X1 ) = −iθ . Bewijs. We schrijven de formules onder de aanname dat X1 continu verdeeld is. (Voor een discrete kansdichtheid vervangen we de Rintegralen door sommen.) Omdat pθ een kansdichtheid is, geldt dat 1 = pθ (x) dx voor alle θ. Derhalve geldt Z Z Z ∂ ∂ pθ (x) dx = p˙ θ (x) dx, 0= pθ (x) dx = ∂θ ∂θ met p˙ θ (x) = ∂/∂θ pθ (x). De verwisseling van differentiatie (naar θ) en integraal (naar x) is toegestaan onder “regulariteitsvoorwaarden”. Aangezien `˙θ (x) = ∂/∂θ log pθ (x) = p˙ θ (x)/pθ (x) kunnen we de rechterkant herschrijven als Z Z p˙θ (x) pθ (x) dx = `˙θ (x) pθ (x) dx = Eθ `˙θ (X1 ). pθ (x) Dit voltooit het bewijs van de eerste bewering: REθ `˙θ (X1 ) = 0. Voor het bewijs van de tweede bewering differenti¨eren we pθ (x)dx tweemaal naar θ en vinden we Z Z ∂2 0= 2 pθ (x) dx = p¨θ (x) dx, ∂θ met p¨θ (x) = ∂ 2 /∂θ2 pθ (x). Differentiatie van de gelijkheid `˙θ (x) = p˙ θ (x)/pθ (x) naar θ geeft p¨θ (x) p˙ θ (x) 2 p¨θ (x) `¨θ (x) = − = − `˙θ (x)2 . pθ (x) pθ (x) pθ (x) We vermenigvuldigen dit met pθ (x) en nemen de integraal met betrekking tot x om te vinden dat Z Z ¨ Eθ `θ (X1 ) = p¨θ (x) dx − `˙θ (x)2 pθ (x) dx = 0 − Eθ `˙θ (X1 )2 = − varθ `˙θ (X1 ) = −iθ ,
aangezien varθ `˙θ (X1 ) = Eθ `˙θ (X1 )2 − (Eθ `˙θ (X1 ))2 = Eθ `˙θ (X1 )2 , vanwege de eerste bewering. Dit bewijst de tweede bewering.
Voorbeeld 6.10 (Poisson-verdeling). Zij X1 , . . ., Xn een steekproef uit de Poisson(θ)-verdeling, waarbij θ > 0 onbekend is. De maximum likelihood-schatter voor θ is θˆ = X mits X > 0. De score-functie is gelijk aan ∂ e−θ θx x `˙θ (x) = log = − 1. ∂θ x! θ
6.3: Maximum Likelihood-Schatters als Bijna-Pivots
187
De Fisher-informatie is dan iθ = varθ
1 −1 = . θ θ
X
1
Volgens het vorige lemma hadden we dezelfde uitdrukking gekregen met de vergelijking E θ X1 1 iθ = −Eθ `¨θ (X1 ) = = . 2 θ θ Indien we θ schatten met X, dan is de plug-in schatter voor iθ gelijk aan 1/X. De waargenomen informatie geeft dezelfde schatter, aangezien n
−
n
1 X Xi 1 X¨ X 1 `θˆ(Xi ) = = = . 2 2 ˆ n i=1 n i=1 θ (X) X
Het symmetrische benaderende betrouwbaarheidsinterval met onbetrouwbaarheid α wordt dan √ X θ = X ± √ ξ1−α/2 . n Dit interval hadden we ook via een meer directe weg kunnen √ vinden,√door toepassing van de Centrale Limietstelling op X. De rij n(X − θ)/ θ is immers bij benadering standaard normaal verdeeld (zie Voorbeeld 9.30).
Voorbeeld 6.11 (Toepassing, Poisson-voorraden). Een distributiecentrum voorziet wekelijks haar filialen van een bepaald bederfelijk artikel. Omdat de totale wekelijkse vraag van de filialen regelmatig hoger ligt dan het aantal ingekochte artikelen, wil men onderzoeken of de vraag is toegenomen (zie Voorbeelden 2.6, 4.20 en 5.21). Daartoe wordt gedurende n weken de totale wekelijkse vraag Z bijgehouden. Dit levert de waarnemingen Z1 , . . ., Zn . Veronderstel dat Z1 , . . ., Zn onderling onafhankelijk Poisson(θ)verdeeld zijn. De verwachte totale wekelijkse vraag θ wordt geschat met de maximum likelihood-schatter Z. Uit de berekeningen in het vorige voorbeeld volgt direct dat een benaderend betrouwbaarheidsinterval voor θ met onbetrouwbaarheid α wordt gegeven door √ Z θ = Z ± √ ξ1−α/2 . n
Voorbeeld 6.12 (Cauchy-verdeling). Veronderstel dat X1 , . . ., Xn onderling onafhankelijk zijn met kansdichtheid pθ (x) =
1 . π(1 + (x − θ)2 )
188
6: Betrouwbaarheidsgebieden
De log likelihood-vergelijking wordt gegeven door n X 2(Xi − θ) = 0. 1 + (Xi − θ)2 i=1
Deze vergelijking is niet expliciet op te lossen naar θ. De maximum likelihood-schatter is derhalve niet te schrijven als een expliciete functie van X1 , . . ., Xn . De schatter kan echter wel numeriek worden bepaald, bijvoorbeeld door de plaats van het maximum af te lezen in een grafiek van de log likelihood-functie, zie bijvoorbeeld Figuur 6.3. De score-functie is `˙θ (x) =
2(x − θ) . 1 + (x − θ)2
De Fisher-informatie is met enige moeite te berekenen als iθ = 1/2; als functie van θ is deze constant en daarom gemakkelijk te schatten als 1/2. De waargenomen informatie is niet precies gelijk 1/2, maar neemt de volgende vorm n ˆ2 1 X 2 − 2(Xi − θ) ibθ = , n i=1 1 + (Xi − θ) ˆ2 2
-300
-250
-200
-150
-100
aan waarin θˆ de maximum likelihood-schatter is.
-200
-100
0
100
Figuur 6.3. Een realisatie van de Cauchy log likelihood-functie. De kromming in de top is de waargenomen informatie.
Voorbeeld 6.13 (Exponenti¨ ele verdeling). Zij X1 , . . ., Xn een steekproef uit de exponenti¨ele verdeling met onbekende parameter λ. De maximum ˆ = 1/X (zie Voorbeeld 4.14). De score-functie likelihood-schatter voor λ is λ is gelijk aan ∂ 1 `˙λ (x) = log λe−λx = − x ∂λ λ
6.3: Maximum Likelihood-Schatters als Bijna-Pivots
189
en de Fisher-informatie is iλ = varλ
1
1 − X1 = 2 . λ λ
Volgens Lemma 6.9 is de Fisher-informatie ook te vinden middels de vergelijking iλ = −Eλ `¨λ (X1 ) = 1/λ2 . Als λ wordt geschat met de maximum likelihood-schatter, dan is de plug-in schatter voor iλ gelijk aan (X)2 . De waargenomen informatie geeft dezelfde schatter voor iλ : n
−
n
1 X¨ 1X 1 2 `λˆ (Xi ) = =X . 2 ˆ n i=1 n i=1 λ
Voor beide schatters van iλ vinden we dan het symmetrische benaderende betrouwbaarheidsinterval voor λ λ=
1 1 ±√ ξ1−α/2 X nX
met onbetrouwbaarheid α.
* 6.3.1
Meerdimensionale parameters
Het voorgaande kan worden uitgebreid tot het geval dat de parameter θ een vector van dimensie k > 1 is. De score-functie wordt dan gedefinieerd als de gradi¨ent `˙θ (x) = ∇θ log pθ (x) =
∂ ∂ `θ (x), . . ., `θ (x) . ∂θ1 ∂θk
De Fisher-informatie wordt gegeneraliseerd tot de (k × k)-matrix ∂ ∂ . iθ = covθ `θ (X1 ), `θ (X1 ) ∂θi ∂θj i,j=1,. . .k
√ Stelling 6.8 blijft correct, maar n(θˆ − θ) is een stochastische vector en zijn limietverdeling is een meerdimensionale normale verdeling (zie Appendix 10). De uitspraak van de “stelling” moet dan worden begrepen in de zin dat de bijna-pivot (niθ )1/2 (θˆ − θ) bij benadering verdeeld is als een vector Z = (Z1 , . . ., Zk ) van k onderling onafhankelijke N (0, 1)-verdeelde grootheden.[ De kwadratische vorm T √ 1/2 √ 1/2 niθ (θˆ − θ) niθ (θˆ − θ) (θˆ − θ)T niθ (θˆ − θ) = [ Met (iθ )1/2 wordt bedoeld een matrix A van dezelfde dimensies als iθ zodanig dat AT A = i θ .
190
6: Betrouwbaarheidsgebieden
P is dan bij benadering verdeeld als Z T Z = ki=1 Zi2 , dat wil zeggen volgens een χ2k -verdeling (zie Paragraaf 5.5). Voor ibθ een schatter voor de matrix iθ is de verzameling o n θ: (θˆ − θ)T nibθ (θˆ − θ) ≤ χ2k,1−α daarom een betrouwbaarheidsgebied voor θ met onbetrouwbaarheid bij benadering gelijk aan α (voor grote n). Meetkundig gezien is deze verzameling een ellipso¨ıde in de k-dimensionale ruimte, omdat de Fisherinformatiematrix iθ positief-definiet is. Vaak zijn we alleen ge¨ınteresseerd in een functie g(θ) van een hoger dimensionale parameter. Stelling 6.8 kan daartoe worden uitgebreid. Stelling 6.14. In de situatie van Stelling 6.8 geldt voor een differentieerbare functie g: Θ → R met gradi¨ent g 0 dat, onder θ, √ ˆ − g(θ) n g(θ)
θ
N 0, g 0 (θ)iθ−1 g 0 (θ)T .
In het bijzonder correspondeert de eerste co¨ ordinaat van θ = (θ1 , . . ., θk ) met de functie g(θ) = θ1 en gradi¨ent g 0 (θ) = (1, 0, . . ., 0). De √ asymptotische variantie van n(θˆ1 − θ1 ) is daarom gelijk aan (i−1 θ )(1,1) ; het (1, 1)-element van de inverse matrix i−1 (niet te verwarren met 1 gedeeld θ door het (1, 1)-element van iθ ). We gebruiken voor θ1 het betrouwbaarheidsinterval −1 1/2 (ibθ )(1,1) √ ξ1−α/2 . θ1 = θˆ1 ± n
Als θ2 , . . ., θk bekend zijn en dus niet geschat hoeven te worden, hebben we een eendimensionaal schattingsprobleem. In Stelling√6.8 hebben we gezien dat in dat geval de asymptotische variantie van n(θˆ1 − θ1 ) gelijk is aan 1 gedeeld door de Fisher-informatie voor het eendimensionale schattingsprobleem. Deze waarde is gelijk aan (iθ,(1,1) )−1 ; 1 gedeeld door het (1, 1)-element van de Fisher-matrix iθ in het bovenstaande meerdimensionale probleem. In het algemeen geldt dat (iθ −1 )(1,1) ≤ (iθ,(1,1) )−1 . Dit betekent dat, wanneer θ2 , . . ., θk onbekend zijn, er informatieverlies is en θ1 minder nauwkeurig geschat kan worden, met als resultaat een grotere asymptotische variantie en een breder betrouwbaarheidsinterval voor θ1 . In sommige gevallen (zie Voorbeeld 6.16) is de Fisher-informatiematrix een diagonaalmatrix. Dan geldt dat (iθ,(1,1) )−1 = (iθ −1 )(1,1) en levert het onbekend zijn van de overige parameters geen informatieverlies op.
Voorbeeld 6.15 (Multinomiale verdeling). Veronderstel dat Y = (Y1 , . . ., Ym ) multinomiaal verdeeld is met parameters n en (p1 , . . ., pm ), zie Voorbeeld 5.44. We veronderstellen dat n bekend is en de kansen Pm p1 , . . ., pm onbekend zijn. De som van de kansen i=1 pi = 1 en daarom
6.3: Maximum Likelihood-Schatters als Bijna-Pivots
191
is pm = 1 − (p1 + . . . + pm−1 ). Omdat pm vast ligt op het moment dat p1 , . . ., pm−1 bekend zijn, hebben we een (m − 1)-dimensionaal schattingsprobleem. Definieer p = (p1 , . . ., pm−1 ) als de vector met onbekende parameters. We willen een benaderend betrouwbaarheidsgebied voor p construeren op basis van de asymptotische verdeling van de maximum likelihood-schatter voor p. De maximum likelihood-schatter voor p maximaliseert de log likelihood-functie van het model; deze functie wordt gegeven door X m n p 7→ log + Yi log pi . Y1 · · · Y m i=1 De maximum likelihood-schatter Pm−1 voor p relatief tot zijn parameterverzameling {p ∈ Rm−1 : pi ≥ 0, i=1 pi ≤ 1} is gelijk aan de vector van fracties (Y1 /n, Y2 /n, . . ., Ym−1 /n) (zie Opgave 4.15). In deze paragraaf onderzoeken we de situatie waarin we een steekproef ter grootte n hebben. In het multinomiale model hebben we in wezen slechts ´e´en waarneming (Y1 , . . ., Ym ) maar deze waarneming kunnen we ook beschouwen als een som van n onafhankelijke, identiek verdeelde deelwaarnemingen Xk , k = 1, . . ., n met Xk multinomiaal verdeeld met parameters 1 en (p1 , . . ., pm ). We schrijven Xk = (Xk,1 , . . ., Xk,m ) zodat Pn ordinaatsgewijs is. Voor dit mok=1 Xk = Y waarbij de sommatie co¨ del zijn de maximum likelihood-schatters voor de parameters p1 , . . ., pm hetzelfde als in het multinomiale model. Dit volgt uit het feit dat de log likelihood-functies gelijk zijn op de eerste term in de log likelihood voor Y na en deze term niet van de onbekende parameters afhangt. Om de theorie in deze paragraaf te illustreren veronderstellen we dat we de steekproef X1 , . . ., Xn waarnemen. De score-functie van het model wordt gegeven door de vector X X1,m X1,m−1 X1,m 1,1 − , . . ., − . p1 pm pm−1 pm Eenvoudig rekenwerk geeft dat varp X1,i = pi (1 − pi ) en covp (X1,i , X1,j ) = −pi pj voor i 6= j. Het (i, j)-element van de Fisher-informatiematrix ip wordt derhalve gegeven door (ip )i,j = 1/pi + 1/pm
voor i = j, en
(ip )i,j = 1/pm
voor i 6= j.
De onbekende parameters in de Fisher-informatiematrix, p1 , . . ., pm−1 , kunnen we schatten met de maximum likelihood-schatters, pˆ1 , . . ., pˆm−1 . Het benaderende betrouwbaarheidsgebied voor p met onbetrouwbaarheid α is nu gelijk aan n o p: (ˆ p − p)T nibp (ˆ p − p) ≤ χ2m−1,1−α ,
met pˆ de maximum likelihood-schatter voor p en ibp de geschatte Fisherinformatiematrix.
192
6: Betrouwbaarheidsgebieden
Veronderstel dat we alleen ge¨ınteresseerd zijn in het schatten van p1 . We passen nu opnieuw Stelling 6.14 toe, maar nu met g(p) = p1 en gradi¨ent g 0 (p) = (1, 0, . . ., 0). Er volgt direct dat √ p1 n(ˆ p 1 − p1 ) N (0, (i−1 p )(1,1) ), waarbij de variantie gelijk is aan het (1,1)-element van de inverse Fisherinformatiematrix i−1 p . Het (i, j)-element van deze matrix is gelijk aan (i−1 p )(i,j) = pi (1 − pi )
voor i = j, en
(i−1 p )(i,j) = −pi pj
voor i 6= j.
Merk op dat het ie diagonaalelement, pi (1−pi ), gelijk is aan var √p X1,i en het n(ˆ p1 − p1 ) is (i, j)-element van i−1 p gelijk is aan covp (X1,i , X1,j ). Kortom, asymptotisch normaal verdeeld met verwachting 0 en variantie p1 (1 − p1 ) = varp X1,1 . Om de variantie te schatten kunnen we p1 opnieuw vervangen door de maximum likelihood-schatter. Een benaderend betrouwbaarheidsinterval met onbetrouwbaarheid α is dan gelijk aan p1 = pˆ1 ±
pˆ1 (1 − pˆ1 ) √ ξ1−α/2 . n
Als we slechts ge¨ınteresseerd zijn in de parameter p1 dan hadden we ook het multinomiale model kunnen terug brengen tot een binomiaal model met parameters n en p1 . De onbekende parameters p2 , . . ., pm hoeven we nu niet apart te schatten; de som p2 + . . . + pm = 1 − p1 is voldoende. Eenvoudig rekenwerk laat zien dat we op die manier hetzelfde benaderende betrouwbaarheidsinterval vinden. Voorbeeld 6.16 (Normale verdeling). Veronderstel dat X1 , . . ., Xn een steekproef is uit de normale verdeling met onbekende parameters µ en σ 2 . We willen een betrouwbaarheidsinterval voor µ bepalen. In Voorbeeld 6.4 hebben we al een exact betrouwbaarheidsinterval met onbetrouwbaarheid √ α gecontrueerd op basis van de tn−1 -verdeelde stochastische grootheid n(X − µ)/SX . Dit interval wordt gegeven door SX µ = X ± √ tn−1,1−α/2 . n
Als alternatief hadden we ook het exacte betrouwbaarheidsinterval uit Voorbeeld 6.2 kunnen nemen en de daar bekend veronderstelde parameter 2 σ 2 kunnen vervangen door zijn schatter SX . We vinden dan een benaderend betrouwbaarheidsinterval met onbetrouwbaarheid α: SX µ = X ± √ ξ1−α/2 . n Het enige verschil met het interval uit Voorbeeld 6.4 zijn de kwantielen. Voor n groot, is er nauwelijks verschil tussen de kwantielen van de tn−1 verdeling en de standaard normale verdeling en zullen de intervallen bij benadering aan elkaar gelijk zijn.
6.3: Maximum Likelihood-Schatters als Bijna-Pivots
193
Ook op basis van de asymptotische verdeling van de maximum likelihood-schatter voor µ kan een benaderend betrouwbaarheidsinterval voor µ worden geconstrueerd in geval van onbekende σ 2 . Omdat σ onbekend is, hebben we te maken met een tweedimensionaal schattingsprobleem. De score-functie van het model wordt gegeven door X − µ (X − µ)2 1 T Z Z2 1 T 1 1 `˙(µ,σ2 ) (X1 ) = , − 2 = , − 2 , 2 4 2 σ 2σ 2σ σ 2σ 2σ
waar we de afkorting Z = (X1 − µ)/σ gebruiken met Z standaard normaal verdeeld. De diagonaalelementen van de Fisher-informatiematrix zijn dan gelijk aan Z = var(µ,σ) σ Z2 1 = − var(µ,σ) 2σ 2 2σ 2
1 σ2 1 1 var(µ,σ) Z 2 = , 4σ 4 2σ 4
aangezien Z 2 de χ21 -verdeling heeft met variantie gelijk aan 2. Het (1,2)- en het (2,1)-element van de symmetrische Fisher-informatiematrix zijn gelijk aan Z Z2 1 2 cov(µ,σ) , 2 = cov = 0, (µ,σ) Z, Z 3 σ 2σ 2σ
waarbij de laatste gelijkheid volgt uit cov(Z, Z 2 ) = EZ 3 − EZ EZ 2 = 0 omdat het eerste en het derde moment van de standaard normale verdeling gelijk zijn aan 0. De Fisher-informatiematrix is derhalve gelijk aan 1/σ 2 0 i(µ,σ2 ) = . 0 1/(2σ 4 ) Omdat de Fisher-informatiematrix een diagonaalmatrix is, is zijn inverse eenvoudig te bepalen door de diagonaalelementen te inverteren: 2 σ 0 = i−1 . (µ,σ 2 ) 0 2σ 4 De onbekende variantie σ 2 kunnen we opnieuw schatten met de steekproef2 variantie SX . Het benaderende betrouwbaarheidsinterval voor µ vinden we dan met Stelling 6.14 SX µ = X ± √ ξ1−α/2 . n Dit is hetzelfde benaderende interval als in het begin van dit voorbeeld. De Fisher-informatiematrix is in dit voorbeeld een diagonaalmatrix. −1 2 In dat specifieke geval is (i−1 ; het al dan niet (µ,σ 2 ) )(1,1) = (i(µ,σ ),(1,1) ) 2 bekend zijn van σ heeft geen invloed op de breedte van het benaderende betrouwbaarheidsinterval voor µ, op het schatten van σ 2 na.
194
6.4
6: Betrouwbaarheidsgebieden
Betrouwbaarheidsgebieden en Toetsen
Betrouwbaarheidsintervallen en toetsen zijn nauw gerelateerd. Een gegeven verzameling toetsen voor de problemen H0 : g(θ) = τ definieert automatisch een betrouwbaarheidsgebied voor g(θ) en andersom. Stelling 6.17. Veronderstel dat voor elke τ ∈ g(Θ) een toets van de nulhypothese H0 : g(θ) = τ is gegeven van niveau α (met een kritiek gebied dat alleen van τ afhangt). Dan is de verzameling van alle bij toetsing niet verworpen waarden τ een betrouwbaarheidsgebied voor g(θ) met onbetrouwbaarheid α. Omgekeerd geldt dat voor gegeven betrouwbaarheidsgebied GX voor g(θ) met onbetrouwbaarheid α, het kritieke gebied {x: τ ∈ / Gx } een toets van niveau α geeft voor de nulhypothese H0 : g(θ) = τ voor alle τ ∈ g(Θ). Bewijs. Definieer de verzameling Θτ = {θ ∈ Θ: g(θ) = τ } voor τ ∈ g(Θ), zodat H0 : θ ∈ Θτ equivalent is met H0 : g(θ) = τ . Voor de eerste bewering schrijven we Kτ voor het kritieke gebied van de gegeven toets voor H0 : g(θ) = τ die van niveau α is voor τ ∈ g(Θ) . Dat de toets niveau α bezit, betekent dat, voor gegeven τ , Pθ (X ∈ Kτ ) ≤ α voor alle θ ∈ Θτ . Bovenstaande geldt voor iedere τ ∈ g(Θ). Dus voor iedere θ ∈ Θ geldt Pθ (X ∈ Kg(θ) ) ≤ α, ofwel Pθ (X ∈ / Kg(θ) ) ≥ 1 − α. Het beoogde betrouwbaarheidsgebied voor g(θ) is de verzameling GX = τ : X ∈ /K τ . Voor deze verzameling geldt dat voor iedere θ ∈ Θ, Pθ g(θ) ∈ GX = Pθ g(θ) ∈ {τ : X ∈ / Kτ } = Pθ (X ∈ / Kg(θ) ) ≥ 1 − α. We concluderen dat GX een betrouwbaarheidsgebied voor g(θ) is met onbetrouwbaarheid α. Dit bewijst de eerste helft van de stelling. In het tweede gedeelte van de stelling betekent de onbetrouwbaarheid α van het betrouwbaarheidsgebied GX dat Pθ (g(θ) ∈ GX ) ≥ 1 − α voor alle θ ∈ Θ, ofwel dat Pθ (g(θ) ∈ / GX ) ≤ α voor alle θ ∈ Θ. De beoogde toets voor de nulhypothese H0 : g(θ) = τ ofwel voor H0 : θ ∈ Θτ is gegeven door het kritieke gebied Kτ = {x: τ ∈ / Gx }. Onder de nulhypothese θ ∈ Θτ en dus onder de aanname dat g(θ) = τ , geldt Pθ (X ∈ Kτ ) = Pθ (X ∈ {x: τ ∈ / Gx }) = Pθ (g(θ) ∈ / GX ) ≤ α. We concluderen dat de toets met kritiek gebied Kτ van niveuau α is. Dit bewijst de tweede helft van de stelling. Op het eerste gezicht lijkt toepassing van deze stelling lastig om een betrouwbaarheidsinterval te construeren: voor elke τ moet de hypothese H0 : g(θ) = τ getoetst worden. Dit kan inderdaad bewerkelijk zijn, maar in een aantal standaard gevallen valt dit mee. Voorbeeld 6.18 (Normale verdeling). Zij X1 , . . ., Xn een steekproef uit de N (µ, σ 2 )-verdeling met onbekende parameters µ en σ 2 . De t-toets verwerpt de nulhypothese H0 : µ = µ0 bij onbetrouwbaarheidsdrempel α niet als √ X − µ0 −tn−1,1−α/2 ≤ n ≤ tn−1,1−α/2 . SX
6.4: Betrouwbaarheidsgebieden en Toetsen
195
Dit is equivalent aan de ongelijkheden SX SX X − √ tn−1,1−α/2 ≤ µ0 ≤ X − √ tn−1,α/2 . n n Op basis van Stelling 6.17 is het betrouwbaarheidsinterval met onbetrouwbaarheid α voor µ dan gelijk aan SX µ = X ± √ tn−1,1−α/2 . n Dit betrouwbaarheidsinterval hadden we al eerder, op andere wijze, gevonden. * Voorbeeld 6.19 (Exponenti¨ ele verdeling). Zij X1 , . . ., Xn een steekproef uit de exponenti¨ele verdeling met onbekende parameter λ. Een benaderend betrouwbaarheidsinterval met onbetrouwbaarheid α voor λ is λ=
1 1 ±√ ξ1−α/2 , X nX
zie Voorbeeld 6.13. Met Stelling 6.17 volgt dat de toets die de nulhypothese H0 : λ = λ0 verwerpt als λ0 niet in bovenstaand betrouwbaarheidsinterval ligt een toets is voor H0 : λ = λ0 tegen het alternatief H1 : λ 6= λ0 met bij benadering onbetrouwbaarheid α Deze toets komt overeen met de Waldtoets, zie Paragraaf 5.7. Voorbeeld 6.20 (Binomiale verdeling). Veronderstel dat X binomiaal verdeeld is met onbekende parameter p en bekende n. We kunnen een “exact” betrouwbaarheidsinterval voor p bepalen door de exacte toets voor H0 : p = p0 , besproken in Voorbeeld 5.19, te inverteren. Het handigst is om de toets in termen van overschrijdingskansen te gebruiken. De nulhypothese H0 : p = p0 wordt verworpen bij onbetrouwbaarheid α als, bij waargenomen waarde x, Pp0 (X ≥ x) ≤ 21 α of Pp0 (X ≤ x) ≤ 12 α. Het betrouwbaarheidsgebied bij waargenomen waarde x is dus de verzameling n o p: Pp (X ≥ x) > 12 α en Pp (X ≤ x) > 12 α .
Voor x ≥ 1 is p 7→ Pp (X ≥ x) een continue functie van p die strikt stijgt van de waarde 0 in p = 0 tot 1 in p = 1, zie Figuur 6.4. Daarom is de verzameling p: Pp (X ≥ x) > 12 α gelijk aan (pl , 1] waar pl de oplossing is van de vergelijking Ppl (X ≥ x) = 21 α. Anderzijds is voor x ≤ n−1 de functie p 7→ Pp (X ≤ x) een continue functie die strikt daalt van 1 in p = 0 tot 0 in p = 1. Daarom is de verzameling
196
6: Betrouwbaarheidsgebieden
p: Pp (X ≤ x) > vergelijking
1 2α
gelijk aan [0, pr ) waar pr de oplossing is van de Ppr (X ≤ x) = 12 α.
0.0
0.2
0.4
0.6
0.8
1.0
Het gezochte betrouwbaarheidsinterval is de doorsnede (pl , pr ) van de twee gevonden intervallen. Als x = 0, dan is Pp (X ≥ x) = 1 voor iedere p, en heeft de vergelijking voor pl geen oplossing. Het betrouwbaarheidsinterval is dan [0, pr ). Als x = n, dan is Pp (X ≤ x) = 1 voor iedere p, en heeft de vergelijking voor pr geen oplossing. Het betrouwbaarheidsinterval is dan (pl , 1].
0.0
0.2
0.4
0.6
0.8
1.0
Figuur 6.4. Betrouwbaarheidsintervallen voor de binomiale verdeling. De grafiek toont de functies p 7→ Pp (X ≥ x) (stijgend) en p 7→ Pp (X ≤ x) (dalend) voor n = 20 en x = 13 en een stippellijn ter hoogte 0.025. Het 95% betrouwbaarheidsinterval bevat de waarden tussen de snijpunten van de krommen met de stippellijn.
De waarden pl en pr kunnen uit de vergelijkingen worden opgelost met behulp van tabellen of de computer, of zelfs met de normale benadering (hoewel dit het doel een “exact” interval te krijgen doorkruist). Bijvoorbeeld, voor α = 0.05, n = 20 en x = 13 vinden we in de tabel: P0.84 (X ≤ 13) = 0.03037 P0.85 (X ≤ 13) = 0.02194
⇒ pr ≈ 0.845.
Evenzo vinden we pl ≈ 0.405, zodat het exacte betrouwbaarheidsinterval wordt gegeven door (0.405, 0.845). Dit interval is in Figuur 6.4 weergegeven.
6.5: Likelihood-Ratiogebieden
6.5
197
Likelihood-Ratiogebieden
De procedure om betrouwbaarheidsgebieden uit toetsen af te leiden wordt in het bijzonder vaak toegepast op de likelihood-ratiotoets. Deze toets verwerpt de nulhypothese H0 : θ = τ voor grote waarden van de likelihoodratiostatistiek pθˆ(X)/pτ (X), voor θˆ de maximum likelihood-schatter voor θ. In veel gevallen gebruikt men de chikwadraat-benadering voor het vinden van een kritieke waarde (vergelijk Stelling 5.38). De likelihood-ratiotoets verwerpt de nulhypothese H0 : θ = τ aangaande een k-dimensionale parameter als 2 log(pθˆ(X)/pτ (X)) ≥ χ2k,1−α , voor χ2k,1−α het 1 − α-kwantiel van de χ2k -verdeling. De procedure van Stelling 6.17 leidt tot het betrouwbaarheidsgebied o n θ: log pθ (X) − log pθˆ(X) ≥ − 12 χ2k,1−α . Dit “inverteren van de likelihood-ratiotoets” heeft de intu¨ıtief aantrekkelijke kant dat het betrouwbaarheidsgebied die waarden van de parameter θ bevat, waarvoor de likelihood-functie zo groot mogelijk is. We kunnen het betrouwbaarheidsgebied visualiseren middels een plot van de log likelihood-functie. Voor een ´e´endimensionale parameter is dit een functie met een “gewone”, tweedimensionale grafiek. Trekken we een horizontale lijn op een hoogte van − 21 χ21,1−α , dan bestaat het betrouwbaarheidsinterval precies uit de waarden van θ waar minus de log likelihoodratiostatistiek, θ 7→ log pθ (x) − log pθˆ(x), boven de horizontale lijn uitstijgt (zie Figuur 6.5 voor een illustratie). Voor hoger dimensionale parameters is de log likelihood-functie een oppervlak, en is het betrouwbaarheidsgebied de verzameling waarden waar het oppervlak boven het niveau ter hoogte van − 21 χ2k,1−α uitstijgt, voor k de dimensie van de parameter. Uit de grafische omschrijving van het betrouwbaarheidsgebied is duidelijk dat de maximum likelihood-schatting altijd in het betrouwbaarheidsgebied ligt, en dat de vorm van het gebied wordt bepaald door de vorm van de likelihood-functie. In het bijzonder is een likelihoodratiobetrouwbaarheidsgebied niet noodzakelijkerwijze symmetrisch rond de maximum likelihood-schatter. Als illustratie zie nogmaals Figuur 6.5. Over het algemeen wordt de asymmetrie, als deze zich voordoet, als wenselijk beschouwd, namelijk als uitdrukking van een verschillende mate van onzekerheid over de parameter in verschillende richtingen. Merk echter op dat het likelihood-ratio oppervlak meerdere locale maxima kan bezitten, en dat in extreme situaties dit kan leiden tot een betrouwbaarheidsgebied dat uit meerdere onsamenhangende componenten bestaat. De wenselijkheid van onsamenhangende betrouwbaarheidsgebieden is onduidelijk. Voorbeeld 6.21 (Exponenti¨ ele verdeling). Veronderstel dat X1 , . . ., Xn een steekproef is uit de exponenti¨ele verdeling met onbekende parameter
6: Betrouwbaarheidsgebieden
-25
-20
-15
-10
-5
0
198
0
2
4
6
8
Figuur 6.5. Minus de log likelihood-ratiostatistiek als een functie van θ voor een steekproef ter grootte 4 uit de Poisson-verdeling met verwachting 1. De gestippelde lijn is ter hoogte − 12 χ21,0.95 . De waarden van θ waarvoor de kromme boven de lijn uitkomt behoren tot het benaderende 95 % betrouwbaarheidsinterval.
λ > 0. Dan is de log likelihood-functie gegeven door λ 7→ n log λ − λ
n X
Xi
i=1
ˆ = 1/X (zie Voorbeeld 4.14). en de maximum likelihood-schatter voor λ is λ De verzameling n
λ: n log λ − λ
n X i=1
ˆ−λ ˆ Xi − n log λ
n X i=1
o Xi ≥ − 12 χ21,1−α
n o n X = λ: n log λ − λ Xi + n log X + n ≥ − 12 χ21,1−α i=1
is dan het benaderende betrouwbaarheidsgebied voor λ gebaseerd op de likelihood-ratiotoets met onbetrouwbaarheid α. Vaak zijn we ge¨ınteresseerd in een betrouwbaarheidsgebied voor een component θ1 van een meerdimensionale parameter θ = (θ1 , . . ., θk ), in plaats van in een gebied voor de gehele parameter vector θ. Met behulp van de likelihood-ratiostatistiek is hierin gemakkelijk te voorzien, door de toets voor de hypothese H0 : θ1 = τ te inverteren, in plaats van de eerder gebruikte hypothese over de gehele parameter (nu met τ ∈ R). De likelihoodratiotoets verwerpt de nulhypothese H0 : θ1 = τ voor grote waarden van de toetsingsgrootheid supθ∈Θ pθ (X) . 2 log supθ∈Θ:θ1 =τ pθ (X)
6.5: Likelihood-Ratiogebieden
199
Vaak kunnen we de kritieke waarde gelijk kiezen aan het (1 − α)-kwantiel van de chikwadraat-verdeling, met 1 vrijheidsgraad, omdat de dimensie k van het gehele model en de dimensie k0 = k − 1 van de nulhypothese Θ0 = {θ: θ1 = τ } een verschil van 1 bezitten (zie Voorbeeld 5.40). Het betrouwbaarheidsgebied voor θ1 bestaat uit de niet verworpen waarden van τ . Dit betrouwbaarheidsgebied kan worden gevisualiseerd middels de profile likelihood-functie, welke is gedefinieerd als L1 (τ ; X) =
sup θ∈Θ:θ1 =τ
pθ (X).
Voor een vaste waarde van θ1 is de profile likelihood L1 (θ1 ; X) gelijk aan het maximum van de “gewone” likelihood pθ (X) over de overige parameters θ2 , . . ., θk . Maximaliseren we de profile likelihood θ1 7→ L1 (θ1 ; X) over θ1 , dan vinden we het maximum van de “gewone” likelihood over de gehele parameter, en het maximum wordt aangenomen in de maximum likelihoodschatter θˆ1 voor θ1 . (Deze procedure splitst het vinden van het overall maximum van de likelihood in twee stappen, maar vindt hetzelfde maximum.) De likelihood-ratiostatistiek voor het toetsen van H0 : θ1 = τ kan daarom worden geschreven in de vorm L1 (θˆ1 ; X)/L1 (τ ; X), en bij gebruik van de chikwadraat-benadering neemt het betrouwbaarheidsgebied voor θ1 n o de vorm θ1 : log L1 (θ1 ; X) − log L1 (θˆ1 ; X) ≥ − 21 χ21,1−α
aan. Met behulp van de profile likelihood kunnen we het likelihoodratiogebied voor θ1 visualiseren op analoge wijze als bij het gebruik van de gewone likelihood voor de gehele parameters. We plotten minus de logaritme van de profile likelihood-ratiofunctie, log L1 (θ1 ; x) − log L1 (θˆ1 ; x), en gebruiken als betrouwbaarheidsgebied de waarden van θ1 waar de functie boven een bepaald niveau uitsteekt. Deze procedure kan worden uitgebreid tot algemene functies g van de parameter θ door de profile likelihood voor g te defini¨eren als de functie τ 7→ Lg (τ ; X) gegeven door Lg (τ ; X) =
sup
pθ (X).
θ∈Θ:g(θ)=τ
* Voorbeeld 6.22 (Toepassing, samengesteld Poisson-proces). In Voorbeeld 4.23 wordt het maandelijks uit te betalen bedrag door een ziektekostenverzekeraar gemodelleerd en de onbekende parameters µ en θ in het model worden geschat met de maximum likelihood-schatters. Stel dat we voor θ een betrouwbaarheidsinterval willen construeren. In Voorbeeld 5.43 is de likelihood-ratiotoets voor het toetsen van H0 : θ = θ0 tegen H0 : θ 6= θ0 besproken. De toetsingsgrootheid hangt niet af van de parameter µ en volgt, onder H0 , asymptotisch de chikwadraat verdeling met 1 vrijheidsgraad. Het benaderende betrouwbaarheidsinterval voor θ is nu eenvoudig af te leiden uit het voorgaande.
200
* 6.6
6: Betrouwbaarheidsgebieden
Bayesiaanse Betrouwbaarheidsgebieden
De Bayesiaanse aanpak levert een alternatieve mogelijkheid voor het kwantificeren van de onzekerheid van een schatting. Behalve een puntschatter levert deze aanpak immers ook de a posteriori verdeling. Deze verdeling is precies de uitdrukking van de onzekerheid die we over de parameterwaarde bezitten na het doen van de waarnemingen. De parameterwaarde wordt opgevat als een stochastische vector die verdeeld is volgens de a posteriori verdeling. Willen we onze onzekerheid uitdrukken door middel van een marge of gebied rond een puntschatting, dan is een logische keus een gebied dat kans 1 − α onder de a posteriori verdeling bezit. Dit is niet eenduidig bepaald, maar over het algemeen zullen we een symmetrisch gebied of een zo klein mogelijk gebied met deze eigenschap kiezen. Deze manier van construeren van een onzekerheidsmarge is totaal verschillend van de eerder besproken methoden, en er is geen garantie dat een dergelijk Bayesiaans gebied ook een betrouwbaarheidsgebied is in de zin van Definitie 6.1. Om dit verschil tot uiting te brengen spreekt men daarom van een Bayesiaans overdekkinggebied (Engels: credibility region) in plaats van een betrouwbaarheidsgebied. Wel kan worden aangetoond dat in veel gevallen een Bayesiaans gebied gebaseerd op een grote steekproef bij benadering een gewoon betrouwbaarheidsgebied is. De onderliggende reden van dit fenomeen is dat Bayesiaanse schatters asymptotisch normaal verdeeld zijn, en dat het verschil met maximum likelihood-schatters verdwijnt met toenemende aantallen waarnemingen. Een Bayesiaans overdekkinggebied is daarom asymptotisch hetzelfde als het betrouwbaarheidsgebied gebaseerd op de maximum likelihood-schatter, besproken in Paragraaf 6.3. De basis stelling die dit verklaart is de Bernsteinvon Mises stelling, volgens welke de a posteriori verdeling asymptotisch een normale verdeling is, gecentreerd op de maximum likelihood-schatter. Voor de eenvoud beperken we ons weer tot het geval dat de waarneming X = (X1 , . . ., Xn ) een steekproef is van deelwaarnemingen Xi met kansdichtheid pθ , voor θ ∈ Θ ⊂ Rk . Zij Θn een stochastische grootheid verdeeld volgens de a priori verdeling, zodat de a posteriori verdeling gelijk is aan de voorwaardelijke verdeling van Θn gegeven X1 , . . ., Xn . Stelling 6.23 (Bernstein-von Mises). Veronderstel dat de afbeelding θ 7→ pθ (x) differentieerbaar is voor alle x en dat de Fisher-informatiematrix iθ bestaat en eindig is. Veronderstel dat de a priori kansverdeling continu is met strikt positieve dichtheid op Θ. Zij θˆn de maximum likelihood-schatter voor θ. Dan geldt, onder zekere voorwaarden, dat 1 lim sup Eθ sup P Θn ∈ B| X1 , . . ., Xn − Nk θˆn , i−1 (B) = 0. θ n n→∞ B De notatie Nk staat voor de k-dimensionale normale verdeling, zie Appendix 10, en Nk (µ, Σ)(B) is de kans dat een Nk (µ, Σ)-verdeelde stochast
6.6: Bayesiaanse Betrouwbaarheidsgebieden
201
een waarde in B aanneemt. In de stelling wordt het supremum genomen over alle eventualiteiten (verzamelingen) B ⊂ Rk , van een absoluut verschil van twee kansen. Dit verschil kan worden gezien als een afstand tussen de a posteriori verdeling en een zekere normale verdeling, die via de maximum likelihood-schatter θˆn eveneens van de waarnemingen afhangt. De stelling zegt dat de verwachting van deze afstand naar 0 convergeert. De variantie van de benaderende normale verdeling is precies de (limiet) variantie van de maximum likelihood-schatter. Door geschikte keuze van eventualiteit B, kunnen we de uitspraak omzetten in een uitspraak over een Bayesiaans overdekkinggebied. We maken dit precies voor het geval van het schatten van een re¨eelwaardige parameter g(θ) op basis van een steekproef uit de dichtheid pθ . Dan is een natuurlijk Bayesiaans credibility interval het interval tussen twee symmetrisch gekozen kwantielen van de a posteriori verdeling van g(θ). Als Fg(Θn )|X1 ,. . .,Xn de verdelingsfunctie van deze a posteriori verdeling is, en n o Qg(Θn )|X1 ,. . .,Xn (α) = inf x: Fg(Θn )|X1 ,. . .,Xn (x) ≥ α de corresponderende kwantielfunctie, dan wordt dit betrouwbaarheidsinterval gegeven door α h α i Qg(Θn )|X1 ,. . .,Xn , Qg(Θn )|X1 ,. . .,Xn 1 − . 2 2
We kunnen dit vergelijken met het betrouwbaarheidsinterval gebaseerd op de maximum likelihood-schatter, dat gegeven wordt door h
g(θˆn ) −
ξ1−α/2 q 0 −1 0 T ξ1−α/2 q 0 −1 0 T i √ gθˆ iθˆ (gθˆ ) , g(θˆn ) + √ gθˆ iθˆ (gθˆ ) , n n n n n n n n
vergelijk Stelling 6.14. De eindpunten van de twee intervallen komen asymptotisch overeen. Stelling 6.24. In de situatie van de voorgaande stelling geldt voor een differentieerbare functie g, dat √ ξ1−α q 0 −1 0 T gθˆ iθˆ (gθˆ ) = oPθn (1/ n). Qg(Θn )|X1 ,. . .,Xn (1 − α) − g(θˆn ) − √ n n n n Net als bij het toepassen van Bayesiaanse schattingsmethoden ligt de zwakte van de Bayesiaanse betrouwbaarheidsgebieden in de keuze van de a priori verdeling. Deze keuze kan grote invloed hebben op de vorm van de a posteriori verdeling. Een “verkeerde” a priori verdeling kan derhalve aanleiding geven tot “verkeerde” betrouwbaarheidsgebieden. De voorgaande stelling laat zien dat dit probleem klein is als voldoende waarnemingen beschikbaar zijn. In dat geval wordt een mogelijk verkeerde a priori keuze gecorrigeerd door de waarnemingen.
202
6: Betrouwbaarheidsgebieden
0
2
4
6
8
10
Voorbeeld 6.25 (Binomiale verdeling). Veronderstel dat de waarneming X binomiaal verdeeld is met parameters n (bekend) en θ (onbekend). In Voorbeeld 4.36 hebben we berekend dat de a posteriori verdeling ten opzichte van de B`eta-verdeling met parameters α en β gelijk is aan een B`eta-verdeling met parameters X + α en n − X + β. Een Bayesiaans betrouwbaarheidsinterval met onbetrouwbaarheid α0 ten opzicht van een B`eta a priori verdeling is dus het interval tussen het α0 /2 en (1 − α0 /2)-kwantiel van de B`eta-verdeling met parameters X + α en n − X + β. In Figuur 6.6 is een realisatie van de a posteriori dichtheid gegeven, met daarbij het betrouwbaarheidsinterval aangegeven door een dubbele pijl.
0.0
0.2
0.4
0.6
0.8
1.0
Figuur 6.6. Realisatie van de a posteriori dichtheid (doorgetrokken) gebaseerd op een waarneming uit de binomiale verdeling met parameters 100 en 21 ten opzichte van de a priori dichtheid gelijk aan de B` eta-dichtheid met parameters α = 25 en β = 5 (gestippeld). Het Bayesiaanse 95 % betrouwbaarheidsinterval is aangegeven met een dubbele pijl.
Opgaven 1. In een laboratorium tracht men een bepaalde grootheid θ te meten. Bij deze metingen treden normaal verdeelde meetfouten op met bekende standaardafwijking 2.3 en met verwachting 0. Men voert 25 onafhankelijke metingen uit en vindt de gemiddelde waarde 18,61. Bepaal een (numeriek) betrouwbaarheidsinterval voor θ met een onbetrouwbaarheid 0.01. 2. Als in de voorgaande opgave de standaardafwijking niet bekend mag worden verondersteld, en de steekproefstandaardafwijking S bedraagt 2.3, hoe is dan het (numeriek) betrouwbaarheidsinterval voor θ met onbetrouwbaarheid 0.01?
6: Opgaven
203
3. Veronderstel dat X1 , . . ., Xm en Y1 , . . ., Yn onafhankelijke aselecte steekproeven zijn uit een normale N (µ, σ 2 ) respectievelijk N (ν, σ 2 )-verdeling. Bepaal een betrouwbaarheidsinterval voor µ − ν met onbetrouwbaarheid α (i) als σ 2 bekend is; (ii) als σ 2 onbekend is. 4. Veronderstel dat X1 , . . ., Xn een steekproef is uit de N (µ, σ 2 )-verdeling. Bepaal een betrouwbaarheidsinterval voor σ 2 gebaseerd op een geschikte pivot. 5. Als men in 100 onafhankelijke Bernoulli-proeven met onbekende kans p op succes 36 successen vindt, bepaal dan een (benaderend) numeriek betrouwbaarheidsinterval voor p met onbetrouwbaarheid 0.05. 6. Veronderstel dat X1 , . . ., Xm en Y1 , . . ., Yn twee onafhankelijke aselecte steekproeven zijn uit een normale N (µ, σ 2 ) respectievelijk N (ν, τ 2 )-verdeling. Bepaal een betrouwbaarheidsinterval voor σ 2 /τ 2 met onbetrouwbaarheid α. 7. Veronderstel dat X1 , . . ., Xn een steekproef is uit de exponenti¨ele verdeling met parameter λ. (i) Bepaal een exact betrouwbaarheidsinterval voor λ gebaseerd op een geschikte pivot; (ii) Bepaal een benaderend betrouwbaarheidsinterval voor λ gebaseerd op de maximum likelihood-schatter en de grote steekproevenmethode. 8. Veronderstel dat X1 , . . ., X10 een steekproef is uit de Poisson-verdeling met onbekende verwachting θ. Men vindt x1 = x3 = x6 = x8 = x9 = 0, x2 = x5 = x10 = 1, x4 = 2 en x7 = 3. (i) Bepaal een exact (numeriek) betrouwbaarheidsinterval voor θ met onbetrouwbaarheid 0.1. (ii) Bepaal een benaderend (numeriek) betrouwbaarheidsinterval voor θ met onbetrouwbaarheid 0.1 gebaseerd op de maximum likelihood-schatter door de grote steekproefmethode toe te passen. 9. De kwadratische lengte van het betrouwbaarheidsinterval voor µ gebaseerd op een steekproef uit de normale verdeling N (µ, σ 2 ) als σ 2 bekend is uit Voor2 beeld 6.2 is gelijk aan 4(σ 2 /n)ξ1−α/2 . Vergelijk deze lengte met de verwachte kwadratische lengte van het interval uit Voorbeeld 6.4 voor het geval dat σ onbekend is. 10. Veronderstel dat X1 , .., Xn een steekproef is uit de geometrische verdeling met parameter p. (i) Bepaal de Fisher-informatie voor p; (ii) Bepaal de waargenomen informatie; (iii) Bepaal een benaderend betrouwbaarheidsinterval voor p gebaseerd op de maximum likelihood-schatter met onbetrouwbaarheid α (iv) Wat is de realisatie van dit interval als x1 + ... + x40 = 100 als α = 0.05? 11. Veronderstel dat X1 , .., Xn een steekproef is uit de alternatieve verdeling met parameter p. (i) Bepaal de Fisher-informatie voor p; (ii) Bepaal de waargenomen informatie; (iii) Bepaal een benaderend betrouwbaarheidsinterval voor p gebaseerd op de maximum likelihood-schatter met onbetrouwbaarheid α. (iv) Wat is de realisatie van dit interval als x1 + ... + x100 = 32 als α = 0.05?
204
6: Betrouwbaarheidsgebieden
12. Veronderstel dat X1 , . . ., Xn een rij onafhankelijke stochastische variabelen is met kansdichtheid pθ gegeven door pθ (x) = θ 2 xe−θx voor x ≥ 0, waarbij θ > 0 een onbekende parameter is. (i) Bepaal de maximum likelihood-schatter voor θ. (ii) Bereken de plug-in schatter voor iθ . (iii) Bereken de waargenomen (Fisher) informatie voor θ. (iv) Geef een benaderend betrouwbaarheidsinterval voor θ op basis van de maximum likelihood-schatter voor θ, met onbetrouwbaarheid α. 13. Veronderstel dat X1 , . . ., Xn een aselecte steekproef is uit de kansverdeling met dichtheid pλ (x) = xλ−2 e−x/λ 1x>0 , waarin λ > 0 een onbekende parameter. (i) Bepaal de maximum likelihood-schatter voor λ. (ii) Bepaal een benaderend betrouwbaarheidsinterval voor λ met onbetrouwbaarheid α gebaseerd op de maximum likelihood-schatter. (iii) Vergelijk dit interval met het interval voor θ = 1/λ uit de vorige opgave. 14. Men voert 25 onafhankelijke Bernoulli-proeven uit, elk met onbekende kans p op succes. Men vindt 18 successen. Neem onbetrouwbaarheid 0.05. (i) Bereken een exact betrouwbaarheidsinterval voor p. (ii) Bereken een benaderend betrouwbaarheidsinterval voor p gebaseerd op de grote steekproefmethode. Is 25 in dit verband te beschouwen als “groot”? 15. Veronderstel dat X1 , . . ., Xn een rij onafhankelijke stochastische variabelen is met kansdichtheid pθ gegeven door pθ (x) = θ 2 xe−θx voor x ≥ 0, waarbij θ > 0 een onbekende parameter is. (i) Bepaal de likelihood-ratiostatistiek, λn , voor het toetsen van de nulhypothese H0 : θ = θ0 tegen de alternatieve hypothese H1 : θ 6= θ0 . (ii) Bepaal een benaderend betrouwbaarheidsinterval met onbetrouwbaarheid α voor θ op basis van de likelihood-ratiostatistiek. 16. Veronderstel dat X1 , . . ., Xn een rij onafhankelijke stochastische variabelen is √ −θ x θ met kansdichtheid pθ gegeven door pθ (x) = 2√ voor x ≥ 0, waarbij e x θ > 0 een onbekende parameter is. (i) Bepaal de maximum likelihood-schatter voor θ. (ii) Bepaal de likelihood-ratiostatistiek, λn , voor het toetsen van de nulhypothese H0 : θ = θ0 tegen de alternatieve hypothese H1 : θ 6= θ0 . (iii) Bepaal een benaderend betrouwbaarheidsinterval met onbetrouwbaarheid α voor θ op basis van de likelihood-ratiostatistiek. 17. Veronderstel dat X1 , . . ., Xn een steekproef is uit de N (θ, θ 2 )-verdeling voor θ > 0 onbekend. Bepaal een benaderend betrouwbaarheidsinterval voor θ gebaseerd op de likelihood-ratiostatistiek. 18. Een fabrikant van weegschalen beweert dat door hem gefabriceerde weegschalen een nauwkeurigheid hebben van 2 promille. Dat betekent dat als X het gewicht voorstelt van een object van 1000 mg gemeten met een willekeurige weegschaal van de fabrikant, de variantie van X gelijk is aan 22 = 4 mg2 . We willen onderzoeken of de fabrikant gelijk heeft. Daartoe nemen we een object van 1000 mg en bepalen de massa van dit object met behulp van 100 willekeurige weegschalen van de fabrikant. De verschillende metingen worden genoteerd met X1 , . . ., X100 . We veronderstellen dat de waarnemingen X1 , . . ., X100 onderling onafhankelijk en normaal verdeeld zijn met verwachting
6: Opgaven
205
µ en onbekende variantie σ 2 . De waargenomen steekproefvariantie is gelijk aan 4.8. (i) Construeer een betrouwbaarheidsinterval voor σ 2 met onbetrouwbaarheid 0.05 onder de aanname dat µ = 1000 mg bekend is. (ii) Construeer een betrouwbaarheidsinterval voor σ 2 met onbetrouwbaarheid 0.05 onder de aanname dat µ onbekend is. (iii) Beschrijf een toets om te toetsen of σ 2 significant afwijkt van de door de fabrikant opgegeven variantie. Doe dit zowel voor het geval dat µ bekend als onbekend is. Geef de nulhypothese. Deze toets mag je uitvoeren met behulp van het betrouwbaarheidsinterval in het vorige onderdeel, een kritiek gebied of een overschrijdingskans. Neem de onbetrouwbaarheidsdrempel gelijk aan 0.05. 19. Veronderstel dat X en Y onafhankelijk en binomiaal verdeeld zijn met parameters (200, p1 ) en (725, p2 ) respectievelijk. (i) Construeer een benaderend betrouwbaarheidsinterval voor p1 − p2 met onbetrouwbaarheid 0.05. (ii) Toets, met behulp van het betrouwbaarheidsinterval uit het vorige onderdeel, de nulhypothese H0 : p1 = p2 bij een onbetrouwbaarheidsdrempel van 0.05 als is waargenomen x = 121 en y = 391. 20. Zij X(n) het maximum van een steekproef ter grootte n uit de homogene verdeling op [0, θ]. Bepaal getallen c en d zodanig dat de lengte van het interval [X(n) /d, X(n) /c] minimaal is en het interval tevens een 1 − α betrouwbaarheidsinterval is. 21. Veronderstel dat X en Y onafhankelijke binomiale verdeelde variabelen zijn parameters, respectievelijk, (n1 , p1 ) en (n2 , p2 ). Bepaal de profile likelihoodfunctie voor parameter g(p1 , p2 ) = p1 /p2 .
HET SALK VACCIN Polio (of kinderverlamming) is een epidemische ziekte die in de tweede helft van de twintigste eeuw in de westerse landen vrijwel uitgebannen is door vaccinatie. De eerste vaccins tegen polio werden ontwikkeld en getest in de jaren 1950. Het vaccin van Jonas Salk was daarvan het meest veelbelovende. Na onderzoek in het laboratorium werd door de Public Health Service van de Verenigde Staten in 1954 besloten dit vaccin te onderzoeken door een groot experiment onder de Amerikaanse bevolking uit te voeren. Dit experiment bestond uit het vaccineren van een groot aantal kinderen met ofwel het Salk vaccin ofwel een placebo (een onwerkzame stof ), en vervolgens een statistische vergelijking te maken van de mate van besmetting door het poliovirus in de twee groepen. Het gebruik van een placebo is een standaard procedure bij “clinical trials” van dit type en heeft als bedoeling mogelijke (meestal gunstige) effecten op een pati¨ent ten gevolge van de suggestie te worden behandeld uit te sluiten. Noch de behandelde kinderen, noch de behandelende dokters waren op de hoogte of een placebo of het vaccin werd toegediend: het experiment was “double-blind”. De samenstelling van de groep van “cases” (de kinderen behandeld met het vaccin) en de controle-groep (de kinderen behandeld met het placebo) leidde tot de nodige complicaties. Een belangrijk probleem was dat een groot aantal ouders geen toestemming gaf voor deelname aan het experiment. Omdat het niet uitgesloten was, en zelfs verwacht werd, dat een positieve samenhang bestond tussen toestemming tot deelname en vatbaarheid voor polio, werd besloten eerst een groep kinderen samen te stellen waarvan de ouders toestemming gaven tot deelname, en pas daarna te besluiten tot indeling in case- of controle-groep. De laatste toewijzing kwam tot stand door volledige randomisatie, dat wil zeggen ieder kind werd met kans 1/2 aan ´e´en van de twee groepen toegewezen, onafhankelijk van de andere kinderen. De resultaten waren als volgt. Voor een groep van ongeveer 750 000 kinderen gaven de ouders van 401 974 kinderen toestemming voor deelname aan de studie. Van deze kinderen kregen 200 745 het vaccin toegediend en 201 229 het placebo. Van de kinderen behandeld met het vaccin kregen 57 toch polio, terwijl in de placebo groep 142 kinderen polio kregen. Deze gegevens lijken aan te tonen dat het Salk Vaccin het optreden van polio beduidend vermindert. Hoe hard kunnen we deze conclusie maken? Tenslotte kregen ook 57 van de behandelde kinderen polio. Kunnen we zeggen dat het Salk vaccin de kans om polio te krijgen met bijna een factor 2.5 (≈ (142/201229)/(57/200745)) verkleint? Zelfs voor een nauwkeurig geplande studie zijn deze vragen geenszins triviaal. De factor 2.5 die we op het eerste gezicht in de data zien, vereist wel de meeste slagen om de arm, maar ook de bewering “het Salk vaccin werkt” vereist nadere uitleg. Wat bedoelen we met “werkt”? In principe beogen we een causale conclusie: zoals een bewegende biljartbal die een andere stil liggende biljartbal raakt de oorzaak is dat die tweede bal in beweging
6: Het Salk Vaccin
207
komt, zo zouden we willen zeggen dat het Salk vaccin de oorzaak is van het veel kleinere aantal polio gevallen. Een clinical trial zoals hier uitgevoerd is, wordt als de best mogelijke methode gezien voor een dergelijke conclusie, maar tot op zekere hoogte blijft het spreken in termen van oorzaken wellicht een kwestie van taal. Door de opzet van het experiment is in ieder geval bereikt dat zoveel mogelijk andere verklaringen van het waargenomen verschil zijn uitgeschakeld. Merk overigens op dat het experiment nauwelijks kwantitatieve informatie oplevert over kinderen wier ouders geen toestemming verlenen voor het toedienen van een vaccin. Het is bijvoorbeeld mogelijk, dat deze groep precies samenvalt met de groep waarvoor het vaccin niet werkt. Nu is dit op medische gronden zeer onwaarschijnlijk, maar we moeten zeker de factor 2.5 niet zonder meer van toepassing beschouwen voor deze groep kinderen. Het blijkt bijvoorbeeld dat rijkere ouders vaker deelname weigeren, en men vermoedt dat kinderen van rijkere ouders vatbaarder zijn voor polio, omdat ze door grotere hygi¨ene op jongere jaren minder weerstand opbouwen. De bijdrage van de statistiek is het analyseren van de data uitgaande van een statistisch model. Het gaat dan in grote lijnen om de vraag: stel we herhalen het hele experiment nog eens, zouden we dan soortgelijke resultaten vinden (inclusief de factor 2.5), of was dit toeval? Welk statistisch model moeten we gebruiken? Het lijkt ondoenlijk om een statistisch model op te stellen waarin ook is opgenomen de mogelijkheid dat een ouder (van een willekeurig gekozen kind?) deelname weigert. Het gemakkelijkst lijkt het om ons te beperken tot de groep van 401 974 deelnemende kinderen. Weliswaar mogen we onze conclusies dan niet zomaar betrekken op andere kinderen, maar zo’n generalisatie lijkt redelijk. Laat p1 (respectievelijk p2 ) de kans zijn dat een willekeurig gekozen kind uit de gegeven 401 974 kinderen polio krijgt als het gevaccineerd wordt (respectievelijk een placebo krijgt). Voor ieder kind i = 1, 2, . . ., n = 401 974 nemen we nu het paar (Ci , Pi ) waar, waarin Ci =
1, 2,
als case, als controle,
Pi =
0, 1,
als geen polio, als wel polio.
De marginale verdeling van Ci is P(Ci = 1) = P(Ci = 2) = 21 , vanwege de opzet van het experiment: ieder kind werd met gelijke kans toegewezen aan de case- of controle-groep. De voorwaardelijke verdeling van P i gegeven Ci = j is Bernoulli(pj ) voor j = 1, 2, vanwege de definitie van p1 en p2 . Dit legt de kansverdeling van (Ci , Pi ) volledig vast. De simultane kansverdeling van (C1 , P1 ), . . ., (Cn , Pn ) leggen we nu verder vast door te postuleren dat deze vectoren onafhankelijk zijn. Dit is een slechte aanname, want polio is besmettelijk en treedt dus niet onafhankelijk bij verschillende kinderen op. We maken de aanname toch, bij gebrek aan beter. De waarnemingen C1 , . . ., Cn zijn het resultaat van de randomisatie en niet informatief over de parameters p1 en p2 . De relevante informatie in de
208
6: Betrouwbaarheidsgebieden
waarnemingen P1 , . . ., Pn is (intu¨ıtief ) bevat in X X X= Pi , Y = Pi . i:Ci =1
i:Ci =2
Dit zijn de aantallen gevallen van polio in de case- en de controle-groep. Gegeven de vector (C1 , . . ., Cn ) zijn X en Y onafhankelijk en binomiaal verdeeld met parameters (M1 : = #{i: Ci = 1}, p1 ) en (M2 : = #{i: Ci = 2}, p2 ), respectievelijk. Het eenvoudigste is om de statistische analyse nu uit te voeren voorwaardelijk de waargenomen waarden m1 en m2 van M1 en M2 . In dat geval hebben we het probleem gereduceerd tot het statistische model: neem waar onafhankelijke stochastische grootheden X en Y met binomiale verdelingen met parameters (m1 , p1 ) en (m2 , p2 ). Om te toetsen of het vaccin een beschermende werking heeft, willen we de nulhypothese H0 : p1 ≥ p2 toetsen tegen de alternatieve hypothese H1 : p1 < p2 . Binnen bovenstaand statistisch model bestaat een standaard toets, de toets van Fisher voor de (2 × 2)-tabel, gebaseerd op het feit dat X gegeven X + Y onder de nulhypothese een hypergeometrische verdeling bezit. We bespreken deze hier niet. Omdat de aantallen waarnemingen hier zeer groot zijn, kunnen we volstaan met een benaderende toets. De voor de hand liggende schatter voor p1 − p2 is X/m1 − Y /m2 . Deze bezit verwachting p1 − p2 en variantie X Y p1 (1 − p1 ) p2 (1 − p2 ) − + . var = m1 m2 m1 m2
Deze variantie kunnen we schatten door p1 en p2 te vervangen door X/m1 en Y /m2 . Vanwege de Centrale Limietstelling (Stelling 9.28) is, onder p1 = p2 , de statistische grootheid T =q
X/m1 − Y /m2
X/m1 (1−X/m1 ) m1
+
Y /m2 (1−Y /m2 ) m2
bij benadering standaard normaal verdeeld, zie Paragraaf 9.6. Als we T als toetsingsgrootheid gebruiken om bovenstaande nulhypothese te toetsen, dan vinden we als linker overschrijdingskans 9.09 × 10−9 , wat kleiner is dan elke interessante onbetrouwbaarheidsdrempel van de toets. De conclusie is dat het vaccin daadwerkelijk een beschermend effect heeft. Om iets te zeggen over de grootte van het effect p1 − p2 , schatten we dit verschil en leiden een 95% betrouwbaarheidsinterval af. Als bijna-pivot gebruiken we X/m1 − Y /m2 − (p1 − p2 ) q , X/m1 (1−X/m1 ) /m2 ) + Y /m2 (1−Y m1 m2
welke bij benadering standaard normaal verdeeld is. Voor de gegeven data uit het Salk experiment wordt p1 − p2 geschat met −0.000422 en is het benaderend 95% betrouwbaarheidsinterval gelijk aan −0.000422 ± 0.000137.
6: Het Salk Vaccin
209
Omdat zowel p1 als p2 klein is, ligt het voor de hand te onderzoeken wat de relatieve grootte p1 /p2 is. Een redelijke schatter is (X/m1 )/(Y /m2 ). We kunnen op soortgelijke wijze als voor het verschil een betrouwbaarheidsinterval voor p1 /p2 afleiden, maar dit vereist meer kennis van “asymptotische methoden” dan we hier willen introduceren, en laten we achterwege.
7 Optimaliteitstheorie
Dit hoofdstuk is gewijd aan optimaliteitstheorie voor schatters en toetsen. In het algemeen zijn er veel mogelijke keuzes voor schatters en toetsingsgrootheden. Als we op zoek zijn naar de beste schatter of toets, zou het handig zijn als we de verzameling van mogelijke schatters en toetsingsgrootheden kunnen verkleinen. Dit kan door de waarneming vooraf te reduceren door irrelevante informatie over de parameter eruit weg te filteren. De schatter of de toetsingsgrootheid baseren we dan op de gereduceerde waarneming. Dit is het onderwerp van Paragraaf 7.1. In Paragraaf 7.2 buigen we ons over de vraag hoe we de beste schatters kunnen vinden en hoe goed de beste schatter is, gemeten in de kwaliteitsmaat die we in Hoofdstuk 4 hebben besproken, de verwachte kwadratische fout. Tenslotte komt de kwaliteit van toetsen aan bod in Paragraaf 7.3. In Hoofdstuk 5 hebben we verschillende toetsen middels ad hoc argumenten geconstrueerd. Intu¨ıtief zijn de meeste van deze toetsen best redelijk, maar zijn het ook de best mogelijke toetsen? In de laatste paragraaf van dit hoofdstuk zullen we laten zien dat sommige van de besproken toetsen uniform meest onderscheidend zijn; dat wil zeggen dat het onderscheidend vermogen van deze toetsen onder de alternatieve hypothese maximaal is.
7.1
Voldoende Statistieken
Als we in plaats van de gehele waarneming X alleen de waarde van een statistiek V (X) te zien krijgen, hebben we in principe informatie P verloren. n Bijvoorbeeld, X = (X1 , . . ., Xn ) is meer informatief dan V (X) = i=1 Xi . We noemen een statistiek V voldoende als, gegeven het model, geen relevante informatie omtrent de onbekende parameter verloren gaat.
7.1: Voldoende Statistieken
211
Voorbeeld 7.1 (Alternatieve verdeling). Bij een kwaliteitscontrole worden uit een grote partij aselect n artikelen getrokken en gekeurd. We nemen X = (X1 , . . ., Xn ) waar met 0 als het ie artikel afgekeurd is, Xi = 1 als het ie artikel goedgekeurd is. Het resultaat van de keuring is dus een rij symbolen bestaande uit nullen en enen. De onbekende fractie p van defecte artikelen in de grote partij heeft P duidelijk effect op het aantal V = ni=1 Xi waargenomen enen (het aantal goedgekeurde artikelen in de steekproef), maar intu¨ıtief heeft de volgorde waarin we die nullen enP enen te zien krijgen weinig van doen met de grootte van p. Intu¨ıtief is V = ni=1 Xi daarom voldoende. De technische definitie van een voldoende statistiek in het geval dat X discreet verdeeld is, is als volgt.
Definitie 7.2. Veronderstel dat het statistische model voor X bestaat uit discrete kansverdelingen die van de parameter θ afhangen. Een statistiek V = V (X) heet voldoende (Engels: sufficient) als de voorwaardelijke kansen P(X = x| V = v) niet van θ afhangen, voor alle mogelijke waarden van x en v. Merk op dat de eigenschap in de definitie echt bijzonder is. De verdeling van X hangt af van de onbekende parameter θ, en de simultane verdeling van (X, V ) dus ook. Voor een algemene statistiek V die niet voldoende is, zullen de voorwaardelijke kansen Pθ (X = x| V = v) eveneens van θ afhangen. Dat een voldoende grootheid alle relevante informatie over θ bezit, kunnen we op de volgende manier intu¨ıtief aannemelijk maken. Een waarneming x zouden we kunnen genereren in twee stappen: - Genereer eerst v uit de marginale verdeling van V ; hiervoor is de “ware” parameter θ nodig; - Gegeven v genereer nu x uit de voorwaardelijke verdeling van X gegeven V = v; mits V voldoende is, is hiervoor de ware θ niet nodig. Het resultaat van deze twee stappen is te beschouwen als een trekking uit de verdeling van X, want er geldt altijd X Pθ (X = x) = Pθ (X = x| V = v)Pθ (V = v), v
waarbij de voorwaardelijke kansen Pθ (X = x| V = v) niet van θ afhangen als V voldoende is. Het resultaat is dus net zo informatief als een rechtstreekse waarneming van X in het oorspronkelijke experiment. Blijkbaar is alle relevante informatie over θ bevat in V . Desgewenst kunnen we v immers altijd “omzetten” in x, door de tweede stap van de voorgaande procedure te volgen. Kennis van de parameter is hiervoor niet nodig.
212
7: Optimaliteitstheorie
Voorbeeld 7.3 (Alternatieve verdeling, vervolg)P . In Voorbeeld 7.1 is n intu¨ıtief duidelijk gemaakt dat de grootheid V = i=1 Xi voldoende is. Om dit precies te maken moeten we het onderliggende statistische model precies maken. We nemen aan dat X1 , . . ., Xn onderling onafhankelijk en alternatief verdeeld zijn met parameter p. Dan geldt, voor xi ∈ {0, 1} en v ∈ {0, 1, . . ., n}, Pp X1 = x1 , . . ., Xn = xn , V = v Pp X1 = x1 , . . ., Xn = xn | V = v = Pp (V = v) v n−v P p (1 − θ) als ni=1 xi = v n v n−v = p (1 − p) v anders 0 Pn n −1 als i=1 xi = v v = 0 anders.
Omdat de laatste uitdrukking niet van p afhangt, is V inderdaad voldoende. Merk op dat we, voor de veiligheid, links wel de p hebben geschreven. Pas aan het eind van de berekening, waar in de tussenstappen p wel een rol speelt, blijkt dat we p ook weg mogen laten.
7.1.1
Factorisatiestelling
Hoe bepaalt men voldoende statistische grootheden? De definitie is daartoe niet handig, want men moet eerst raden welke statistische grootheid V voldoende zou kunnen zijn, en vervolgens soms nogal lastige voorwaardelijke kansen berekenen. De volgende stelling biedt uitkomst. Stelling 7.4 (Factorisatiestelling). Veronderstel dat het statistische model voor X bestaat uit discrete verdelingen. Een statistiek V = V (X) is voldoende dan en slechts dan als functies gθ en h bestaan zodanig dat, voor alle x en θ, pθ (x) = gθ V (x) h(x) waar pθ de kansdichtheid van X is.
Bewijs. Veronderstel dat V voldoende is. Dan geldt Pθ (X = x) = Pθ X = x, V = V (x) = P X = x| V = V (x) Pθ V = V (x) .
De eerste term aan de rechterkant hangt niet af van θ, want V is voldoende. Deze term wordt daarom als h(x) gedefinieerd. De tweede hangt wel van θ af, maar alleen via V (x) en kan daarom worden gedefinieerd als gθ V (x) .
7.1: Voldoende Statistieken
213
Veronderstel omgekeerd dat functies gθ en h als vereist bestaan. De voorwaardelijke kans Pθ X = x 0 , V = v Pθ X = x 0 | V = v = Pθ (V = v)
is gelijk aan 0 als V (x0 ) 6= v. In het andere geval, dat V (x0 ) = v, is de uitdrukking gelijk aan gθ V (x0 ) h(x0 ) Pθ (X = x0 ) =P Pθ (V = v) x:V (x)=v Pθ (V = v|X = x)Pθ (X = x) gθ V (x0 ) h(x0 ) =P x:V (x)=v gθ V (x) h(x) gθ v h(x0 ) P = gθ v x:V (x)=v h(x) =P
h(x0 )
x:V (x)=v
h(x)
.
De laatste uitdrukking, noch de voorwaarde V (x0 ) = v, hangt af van θ. Dus is V voldoende. Voorbeeld 7.5 (Alternatieve verdeling). Voor de situatie in Voorbeeld 7.3 geldt dat Pn Pn Pθ (X1 = x1 , . . ., Xn = xn ) = θ i=1 xi (1 − θ)n− i=1 xi . Pn s Dit is een functie van i=1 xi . We kunnen h(x) ≡ 1 nemen Pnen gθ (s) = θ (1− n−s θ) . Volgens de Factorisatiestelling is de grootheid i=1 Xi voldoende. Het is wiskundig lastig de voorgaande definitie van voldoendheid uit te breiden tot continu verdeelde stochastische grootheden X, omdat dan de definitie van de voorwaardelijke kansverdeling van X gegeven V (X) wiskundig niet eenvoudig is. Om deze moeilijkheid te vermijden kiezen we de factorisatieformule als definitie. Definitie 7.6. Een statistiek V (X) heet voldoende (Engels: sufficient) voor de waarneming X met kansdichtheid pθ als functies gθ en h bestaan zodanig dat, voor alle θ en x, pθ (x) = gθ V (x) h(x). Voor discreet verdeelde waarnemingen hebben we nu twee definities van voldoendheid, maar deze komen overeen vanwege de Factorisatiestelling. Deze stelling of de laatste definitie zegt, dat een statistiek V voldoende
214
7: Optimaliteitstheorie
is als de likelihood-functie (gebaseerd op de waarneming X) afhangt van θ alleen via V (X). Ook dit suggereert dat het waarnemen van V “voldoende” is. Voldoende statistieken zijn geenszins uniek. De waarneming X zelf is bijvoorbeeld altijd voldoende, maar dit is geen interessante voldoende statistiek. Een interessante voldoende statistiek is een “eenvoudige, laagdimensionale” voldoende statistiek, een statistiek die voldoende is, maar de data zoveel mogelijk reduceert. We noemen een voldoende statistiek V minimaal voldoende als V een functie van iedere andere voldoende statistiek is. In dat geval is de waarde van V bekend zodra de waarde van een voldoende statistiek bekend is; V is dus minder informatief. Het volgende lemma laat zien dat dit een zinvolle definitie is. Het is een gevolg van de Factorisatiestelling (of de definitie). Het bewijs van het lemma is eenvoudig en is daarom achterwege gelaten. Lemma 7.7. Veronderstel dat V een voldoende statistiek is en dat V = f (V ∗ ) voor een afbeelding f . Dan is V ∗ eveneens voldoende. Als f een 11-duidige functie is, dan geldt dat V = f (V ∗ ) voldoende is dan en slechts dan als V ∗ voldoende is. Voorbeeld 7.8 (Normale verdeling). Veronderstel dat de waarnemingen X1 , . . ., Xn een steekproef uit de N (µ, σ 2 )-verdeling zijn met µ en σ 2 onbekende parameters. We nemen de natuurlijke parameterruimte voor de parameter θ = (µ, σ 2 ): Θ = R × (0, ∞). De simultane dichtheid van X1 , . . ., Xn is gelijk aan n Y
i=1
√
Pn 1 n 2 2 1 1 e− 2σ2 (xi −µ) = √ e− 2σ2 i=1 (xi −µ) 2πσ 2 2πσ 2 Pn 2 µ Pn 1 n 2 1 n = √ e− 2σ2 µ e− 2σ2 i=1 xi + σ2 i=1 xi . 2πσ 2 1
De waarnemingen X1 , . . ., Xn af via P dichtheid P hangt dus alleenPvan de P ( ni=1 xi , ni=1 x2i ). De vector ( ni=1 Xi , ni=1 Xi2 ) is dus voldoende. 2 ) heeft een 1-1-duidig verband met deze voldoende De vector (X, SX vector, en is derhalve zelf ook voldoende. Bij een aselecte steekproef uit de normale verdeling bevatten het steekproefgemiddelde en de steekproef2 variantie dus alle informatie over µ en σ 2 . Overigens is ook (X, SX , X1 ) voldoende, maar niet minimaal voldoende! Voorbeeld 7.9 (Homogene verdeling). Veronderstel dat X1 , . . ., Xn onderling onafhankelijk hom[0, θ]-verdeeld zijn met onbekende parameter θ > 0. De simultane dichtheid van X1 , . . ., Xn wordt gegeven door pθ (x1 , . . ., xn ) =
n Y 1
i=1
θ
1{0≤xi ≤θ} =
1 n θ
1{x(n) ≤θ} .
7.1: Voldoende Statistieken
215
Kennelijk is X(n) voldoende: de grootste waarneming bevat alle informatie over de parameter θ. Voor het geval van discreet verdeelde waarnemingen hebben we via een gedachtenexperiment (in twee stappen genereren van de waarneming) intu¨ıtief aannemelijk gemaakt, dat een voldoende statistiek inderdaad alle informatie over de parameter bevat. We zullen de “voldoendheid” van een voldoende statistiek ook precies formuleren en wiskundig bewijzen. Zo laat de Stelling van Rao-Blackwell (Stelling 7.14) in Paragraaf 7.2 zien dat voor iedere schatter T = T (X) een schatter T ∗ = T ∗ (V ) bestaat die alleen van voldoende grootheid V afhangt en minstens even goed is als T (gemeten in verwachte kwadratische fout). De “voldoendheid” van een voldoende statistiek, is moeilijker te formuleren en te bewijzen in het geval van toetsingstheorie. De kwaliteit van een toets wordt vastgelegd door het onderscheidend vermogen. We willen dus bewijzen dat voor iedere toets gebaseerd op X een toets gebaseerd op V bestaat met een minstens zo goed onderscheidend vermogen. Dit is alleen waar als we ook “gerandomiseerde toetsingsgrootheden” toelaten. * 7.1.2
Gerandomiseerde Statistieken
Het bewijs dat een voldoende statistiek alle relevante informatie bevat in het geval van toetsingstheorie vereist de definitie van gerandomiseerde toetsingsgrootheden. Definitie 7.10. Een gerandomiseerde statistiek T = T (X, U ) is een stochastische vector die alleen van X en een onafhankelijk gegenereerde hom[0, 1] grootheid U afhangt. Iedere “gewone” statistiek is ook een gerandomiseerde statistiek. Een gerandomiseerde statistiek mag behalve van de waarneming ook afhangen van een toevalsgetal U dat onafhankelijk van het echte experiment en de parameter moet worden gegenereerd. Dit toevalsgetal bevat dus geen enkele informatie over de parameter. Zonder deze op het eerste gezicht nutteloze handeling toe te laten zou de volgende stelling echter niet waar zijn. De reden is precies dat wat “overblijft” van X nadat de voldoende statistiek V bekend is, ook geen relevante informatie bevat, en dus werkt als een toevalsgenerator. In de volgende stelling is U nodig om deze irrelevante bron van toeval te matchen. Overigens kan men laten zien dat, indien de kwaliteit van schatters middels de verwachte kwadratische fout gemeten wordt, randomisering voor schatters nooit zin heeft: er is altijd een nietgerandomiseerde schatter met een kleinere verwachte kwadratische fout R1 (namelijk 0 T (X, u) du). Voor toetsen kan randomiseren echter wel zin hebben.
216
7: Optimaliteitstheorie
Stelling 7.11. Zij V = V (X) voldoende voor de waarneming X. Dan bestaat voor iedere gerandomiseerde statistiek T = T (X, U ) een gerandomiseerde statistiek T ∗ (V, U ) gebaseerd op alleen V (en randomisatie U ) zodanig dat de kansverdelingen van T ∗ en T hetzelfde zijn onder iedere parameter θ. We laten het bewijs van deze stelling achterwege. We kunnen de stelling toepassen zowel op het schattingsprobleem als het toetsingsprobleem, en verkrijgen dan de volgende gevolgen. We laten hierin zien dat met kennis van alleen V even goede schatters (gemeten volgens de verwachte kwadratische fout) en even goede toetsen (gemeten volgens het onderscheidend vermogen) kunnen worden geconstrueerd als met de hele waarneming X. Gevolg 7.12. Zij V = V (X) voldoende voor de waarneming X. Voor iedere schatter T = T (X) bestaat een schatter T ∗ = T ∗ (V, U ) gebaseerd op alleen V (en randomisatie U ) met MSE(θ; T ) = MSE(θ; T ∗ ) onder iedere parameter θ. Gevolg 7.13. Zij V = V (X) voldoende voor de waarneming X. Voor iedere toetsingsgrootheid T = T (X) bestaat een toetsingsgrootheid T ∗ = T ∗ (V, U ) gebaseerd op alleen V (en randomisatie U ) zodanig dat de toetsen {T ≥ c} en {T ∗ ≥ c} hetzelfde onderscheidend vermogen bezitten: Pθ (T ≥ c) = Pθ (T ∗ ≥ c) voor iedere c en onder iedere parameter θ. Bewijzen. Zowel een verwachte kwadratische fout als een onderscheidend vermogen hangt alleen af van de kansverdeling van de statistieken T of T ∗ . Bijvoorbeeld, in het geval van een toets geldt (als T continu verdeeld is) Pθ (T ≥ c) =
Z
∞ c
pTθ (t) dt,
met pTθ de kansdichtheid van T . Gelijkheid in kansverdeling impliceert ge∗ lijkheid in dichtheid pTθ = pTθ en dus gelijkheid in onderscheidend vermogen. Volgens de stelling kunnen de kansverdelingen van T en T ∗ gelijk worden gekozen, dus ook het onderscheidend vermogen en de verwachte kwadratische fout. De toepassing van de stelling op het schattingsprobleem is eigenlijk onnodig, omdat de Stelling van Rao-Blackwell (Stelling 7.14) de “voldoendheid” van voldoende statistieken in het schattingsprobleem al overtuigend aantoont. Merk echter op dat het bewijs van het erste gevolg doorgaat voor ieder schattingscriterium, dus ook voor andere criteria dan de verwachte kwadratische fout.
7.2: Schattingstheorie
7.2
217
Schattingstheorie
Met de definitie van voldoende statistiek V uit de vorige paragraaf kunnen we nu laten zien dat voor iedere schatter T = T (X) voor g(θ) een schatter T ∗ = T ∗ (V ) voor g(θ) bestaat die alleen van V afhangt en minstens even goed is als T in de zin dat MSE(θ; T ∗ ) ≤ MSE(θ; T ) voor alle θ. In het geval dat de verdeling van X discreet is, kunnen we T ∗ expliciet construeren: gegeven de schatter T defini¨eren we X T ∗ (v) = E(T | V = v) = T (x)P(X = x| V = v). x
Omdat V voldoende is, mogen we θ in het subscript van Eθ en Pθ inderdaad weglaten. Dus T ∗ is inderdaad een schatter; het is een functie van de waarnemingen en niet van de onbekende parameter θ. Stelling 7.14 (Rao-Blackwell). Zij V = V (X) een voldoende statistiek en T = T (X) een willekeurige re¨eelwaardige schatter voor g(θ). Dan bestaat een schatter T ∗ = T ∗ (V ) voor g(θ) die alleen van V afhangt, zodanig dat Eθ T ∗ = Eθ T en varθ T ∗ ≤ varθ T voor alle θ. In het bijzonder geldt dat MSE(θ; T ∗ ) ≤ MSE(θ; T ). Deze ongelijkheid is strikt, tenzij de kans Pθ (T ∗ = T ) = 1. Bewijs. We geven het bewijs alleen voor het geval dat de verdeling van X discreet is. We defini¨eren T ∗ = E(T | V ). In de alinea voorafgaand aan deze stelling hebben we al gezien dat T ∗ niet van de parameter θ afhangt; en dus een schatter voor g(θ) is. Vanwege de regels voor voorwaardelijke verwachtingen geldt X X Eθ T ∗ = T ∗ (v)Pθ (V = v) = E(T | V = v)Pθ (V = v) = Eθ T. v
v
∗
Dit bewijst de bewering dat Eθ T = Eθ T . Verder geldt X Eθ T T ∗ = E(T T ∗| V = v)Pθ (V = v) v
=
X v
=
X
T ∗ (v)E(T | V = v)Pθ (V = v)
T ∗ (v)2 Pθ (V = v)
v
= Eθ (T ∗ )2 . Dit impliceert dat Eθ T 2 = Eθ (T − T ∗ )2 + 2Eθ (T − T ∗ )T ∗ + Eθ (T ∗ )2 = Eθ (T − T ∗ )2 + 0 + Eθ (T ∗ )2 ≥ Eθ (T ∗ )2 .
218
7: Optimaliteitstheorie
Aangezien T en T ∗ dezelfde verwachting hebben, volgt hier direct uit dat varθ T ∗ ≤ varθ T . De ongelijkheid in het voorgaande display is strikt tenzij Eθ (T −T ∗)2 = 0. Dit is equivalent aan: T = T ∗ met kans 1. Een schatter T0 voor g(θ) zou absoluut de beste schatter zijn als MSE(θ; T0 ) ≤ MSE(θ; T ),
voor alle T, θ.
Zo’n schatter T0 bestaat echter niet. We kunnen dit inzien door te bedenken dat ook een triviale schatter T (X) = g(θ0 ), voor een vaste θ0 , een schatter is. Deze schatter heeft verwachte kwadratische fout voor het schatten van g(θ) gelijk aan 0 in θ = θ0 (maar is heel slecht voor g(θ) ver van g(θ0 )). Een absoluut beste schatter zou dus ook verwachte kwadratische fout 0 moeten bezitten, in iedere θ, hetgeen onmogelijk is zodra er twee verschillende waarden g(θ) zijn. Het probleem is dat de maat θ 7→ MSE(θ; T ) voor de kwaliteit van een schatter een functie is van de (onbekende) parameter, die we voor “alle” parameters willen minimaliseren. Dit gaat niet. Voor de keuze van een schatter is het noodzakelijk extra criteria te gebruiken. We geven drie voorbeelden. Als basis criterium voor kwaliteit nemen we weer de verwachte kwadratische fout, alhoewel de voornaamste theorie ook doorgaat voor andere kwaliteits maten, zoals Eθ T − g(θ) . Het Bayes-criterium hebben we al besproken in Paragraaf 4.5. Voor een gegeven a priori dichtheid π op Θ, zoeken we de schatter T die Z MSE(θ; T ) π(θ) dθ minimaliseert. Dit is per definitie de Bayes-schatter behorend bij π, welke werd gevonden in Stelling 4.32. Het minimax criterium neemt als maat het maximum van de verwachte kwadratische fout, sup MSE(θ; T ). θ∈Θ
Een schatter T heet minimax als T dit maximum risico minimaliseert over alle schatters. Net als het Bayes-criterium reduceert het minimax criterium de functie θ 7→ MSE(θ; T ) tot een getal. Een “beste” schatter kan dan worden gevonden door dit getal te minimaliseren over T . Dat is in principe bijna altijd mogelijk. Voorbeeld 7.15 (Binomiale verdeling). Veronderstel dat de waarneming X de bin(n, p)-verdeling bezit. Dan is de minimax schatter voor p gelijk aan √ X + 21 n √ . T (X) = n+ n
7.2: Schattingstheorie
219
We kunnen dit afleiden uit het feit dat T een Bayes-schatter is met een verwachte kwadratische fout MSE(p; T ) die constant is in p ∈ [0, 1] (zie Voorbeeld 4.36). Het bewijs is uit het ongerijmde. Was T niet minimax, dan was er een schatter S met een kleiner maximum risico en er zou gelden MSE(p; S) ≤ sup MSE(q; S) ≤ sup MSE(q; T ) = MSE(p; T ), 0≤q≤1
0≤q≤1
voor alle 0 ≤ p ≤ 1. De eerste ongelijkheid volgt uit de definitie van het supremum, de tweede ongelijkheid drukt het kleinere maximum risico van S uit en de gelijkheid volgt uit het feit dat MSE(p; T ) constant is in p. Samenvattend hebben we MSE(p; S) ≤ MSE(p; T ) voor p ∈ [0, 1]. Daaruit volgt dat het Bayes-risico van S voor iedere a priori dichtheid kleiner dan of gelijk is aan het Bayes-risico van T , omdat het Bayes-risico een gewogen versie van de verwachte kwadratische fout is. Aangezien T de Bayes-schatter √ √ is voor p voor de B`eta-( 21 n, 12 n)-a priori verdeling, minimaliseert T het Bayes-risico voor deze a priori verdeling over alle schatters. Het Bayes-risico van S kan derhalve niet kleiner zijn, en dus zijn de Bayes-risico’s voor beide schatters gelijk en is S ook een Bayes-schatter voor p ten opzichte van dezelfde a priori verdeling. Stelling 4.32 impliceert dan dat S = T . Een derde criterium, dat we uitgebreid zullen behandelen in de volgende paragraaf, is het criterium van zuivere minimum variantie schatters. Het idee is een beste schatter te zoeken binnen de klasse van alle zuivere schatters. Aangezien de verwachte kwadratische fout van zuivere schatters gelijk is aan de variantie, betekent dit dat we zoeken naar een zuivere schatter met minimale variantie. 7.2.1
UMVZ-schatters
In deze paragraaf gaan we op zoek naar de zogenaamde UMVZ-schatters in een schattingsprobleem. Definitie 7.16. Een schatter T heet uniform minimum variantie zuiver of UMVZ (Engels: uniformly minimum variance unbiased of UMVU) voor g(θ) als T een zuivere schatter voor g(θ) is en varθ T ≤ varθ S voor alle θ en voor alle andere zuivere schatters S voor g(θ). Hoe bepalen we UMVZ-schatters? Omdat een voldoende statistiek alle informatie over de parameter bevat, kunnen we ons beperken tot zuivere schatters die alleen van een voldoende statistiek afhangen (zie Stelling 7.14). Stel nu eens dat voor een gegeven voldoende statistiek V maar ´e´en schatter T = T (V ) bestaat die gebaseerd is op V en zuiver is. Dan is T automatisch UMVZ. Deze methode, die gebaseerd is op het vinden van een bijzondere voldoende statistiek, werkt in een groot aantal gevallen. De bijzondere eigenschap van de voldoende statistiek is volledigheid.
220
7: Optimaliteitstheorie
Definitie 7.17. Een voldoende statistiek V heet volledig (Engels: complete) als Eθ f (V ) = 0 voor alle θ ∈ Θ alleen mogelijk is voor functies f zodanig dat Pθ f (V ) = 0 = 1 voor alle θ ∈ Θ.
De betekenis van een volledige statistiek is vrij ondoorzichtig. Het kan echter bewezen worden dat als een minimaal voldoende statistiek bestaat, de volledige statistiek tevens minimaal voldoende is (zie Opgave 7.10). In dat geval bevat de volledige statistiek alle noodzakelijke, maar geen overbodige, informatie uit de data om de modelparameter te schatten (zie Voorbeeld 7.19). Stelling 7.18. Veronderstel dat V voldoende en volledig is en dat T = T (V ) een zuivere schatter voor g(θ) is die alleen van V afhangt. Dan is T een UMVZ-schatter voor g(θ). Bewijs. Volgens de Stelling van Rao-Blackwell bestaat voor iedere zuivere schatter S voor g(θ) een zuivere schatter S ∗ = S ∗ (V ) die alleen van V afhangt en een kleinere of gelijke variantie bezit. Nu is S ∗ − T een statistiek die alleen van V afhangt met Eθ (S ∗ − T ) = Eθ S ∗ − Eθ T = 0 voor alle θ, omdat beide schatters zuiver zijn. Vanwege de volledigheid geldt Pθ (S ∗ − T = 0) = 1 voor alle θ. Dus T = S ∗ met kans 1 en varθ T ≤ varθ S. Voorbeeld 7.19 (Homogene verdeling). Zij X1 , . . ., Xn een steekproef uit de hom[0, θ]-verdeling. In Voorbeeld 7.9 hebben we gezien dat het maximum X(n) voldoende is. Als de parameterverzameling gelijk is aan Θ = (0, ∞), dan is X(n) ook volledig. Veronderstel maar dat 0 = Eθ f (X(n) ) =
Z
θ
f (x) 0
1 nxn−1 dx, θn
voor alle θ > 0.
Rθ Dit impliceert dat 0 f (x)xn−1 dx = 0 voor alle θ > 0. Als f continu is, dan kunnen we deze gelijkheid differenti¨eren naar θ en vinden f (θ)θ n−1 = 0 voor alle θ. Dus f ≡ 0. Voor niet-continue f is dezelfde conclusie juist, maar de afleiding vereist maattheorie in plaats van calculus. Dus X(n) is volledig. Aangezien (n + 1)/nX(n) een zuivere schatter is voor θ en alleen van de voldoende en volledige grootheid X(n) afhangt, volgt onmiddellijk uit Stelling 7.18 dat deze schatter een UMVZ-schatter voor θ is. Dit is een mooi resultaat, dat aangeeft dat we geen betere zuivere schatter kunnen vinden dan (n + 1)/nX(n) . De onzuivere schatter (n + 2)/(n + 1)X(n) bezit echter een iets kleinere verwachte kwadratische fout (zie Voorbeeld 4.5), en verdient daarom de voorkeur boven de UMVZ-schatter. Het verschil in verwachte kwadratische fout tussen deze twee schatters is echter verwaarloosbaar klein. Merk op dat ook de statistiek W = (X(n) , X) voldoende is en dat 2X een zuivere schatter voor θ is die gebaseerd is op W . We kunnen nu
7.2: Schattingstheorie
221
niet concluderen dat 2X UMVZ is, want W is niet volledig. Bijvoorbeeld, Eθ f (W ) = 0 voor alle θ > 0 voor f (w) = (n + 1)w1 /n − 2w2 . Het bewijs dat een gegeven statistiek volledig is, is niet altijd gemakkelijk op een directe manier te geven. De volgende stelling is toepasbaar op veel van de standaard modellen. Het betreft kansdichtheden die behoren tot een “exponenti¨ele familie” van kansdichtheden. Definitie 7.20. Een familie kansdichtheden pθ die afhangt van een parameter θ heet een k-dimensionale exponenti¨ele familie als functies c, h, Qj en Vj bestaan zodanig dat Pk Q (θ)Vj (x) pθ (x) = c(θ)h(x) e j=1 j . Het volgt onmiddellijk uit de Factorisatiestelling dat de statistiek V = (V1 , . . ., Vk ) in een gegeven exponenti¨ele familie voldoende is. Deze statistiek is tevens volledig mits de parameterverzameling “voldoende rijk” is (zie volgende stelling). Stelling 7.21. Veronderstel dat het statistisch model wordt gegeven door een k-dimensionale exponenti¨ele familie zodanig dat de verzameling n o Q1 (θ), . . ., Qk (θ) : θ ∈ Θ ⊂ Rk een inwendig punt bevat. Dan is V = (V1 , . . ., Vk ) voldoende en volledig.
We bewijzen deze stelling niet. De voorwaarde van de stelling eist indirect dat de parameterverzameling van Θ rijk genoeg is. Dit is een logische voorwaarde, omdat volledigheid betekent dat het stelsel vergelijkingen Eθ f (V ) = 0,
voor alle θ ∈ Θ
slechts ´e´en oplossing in f bezit, namelijk f ≡ 0. Zijn er te “weinig” θ, dan zijn er te weinig vergelijkingen om f uniek te bepalen, en is V niet volledig. De voorwaarde van de stelling is soepel: het bestaan van een willekeurig kleine open verzameling in het bereik van Q is voldoende. Voorbeeld 7.22 (Binomiale verdeling). De binomiale kansdichtheid kan worden geschreven als n x log(p/(1−p)) n x e . p (1 − p)n−x = (1 − p)n x x Dit statistisch model vormt derhalveeen eendimensionale exponenti¨ele familie, met c(p) = (1 − p)n , h(x) = nx , V (x) = x en Q(p) = log(p/(1 − p)).
222
7: Optimaliteitstheorie
Nemen we de parameterverzameling voor p gelijk aan [0, 1], dan is de collectie Q(p): 0 ≤ p ≤ 1 = log p/(1 − p) : 0 ≤ p ≤ 1
als in de voorgaande stelling gelijk aan R, en bevat zeker een inwendig punt. De statistiek V (X) = X is dus voldoende `en volledig. De schatter X/n voor p is zuiver en alleen gebaseerd op de voldoende en volledige stochastische grootheid, en is volgens Stelling 7.18 dus een UMVZ-schatter. Ook geldt, om dezelfde reden, dat (X/n)2 een UMVZ-schatter is voor Ep (X/n)2 = p(1 − p)/n + p2 . Kun je hieruit een UMVZ-schatter voor p2 afleiden?
Voorbeeld 7.23 (Poisson-verdeling). De kansdichtheid van een steekproef X = (X1 , . . ., Xn ) uit de Poisson(θ)-verdeling kan worden geschreven als n −θ xi Pn Y e θ 1 e i=1 xi log θ . = e−nθ Qn xi ! i=1 xi ! i=1 We concluderen dat dit model een ele familie Pn Qneendimensionale exponenti¨ vormt, met c(θ) = e−nθ , h(x) = ( i=1 xi !)−1 , V (x) = i=1 xi en Q(θ) = log θ. De verzameling Q(θ): θ > 0 = log θ: θ > 0 = (−∞, ∞) Pn bevat een inwendig punt. De som V (X) = i=1 Xi is dus voldoende en volledig. De schatter X voor θ is zuiver en alleen gebaseerd op de voldoende en volledig stochastische grootheid, en is een UMVZ-schatter voor θ (zie Stelling 7.18).
Voorbeeld 7.24 (Normale verdeling). De kansdichtheid van een steekproef X = (X1 , . . ., Xn ) uit de N (µ, σ 2 )-verdeling kan worden geschreven als n Y
i=1
√
Pn Pn 2 1 n µ 2 2 1 n 1 e− 2σ2 µ e σ2 i=1 xi − 2σ2 i=1 xi . e− 2σ2 (Xi −µ) = √ 2πσ 2 2πσ 2 1
Nemen we de natuurlijke parameterruimte Θ = R × (0, ∞) voor de parameter θ = (µ, σ 2 ), dan is de verzameling als in de voorgaande stelling gelijk aan n µ −1 o 2 : µ ∈ R, σ > 0 = R × (−∞, 0), , σ 2 2σ 2
en zeker een inwendig punt. We concluderen dat de statistiek Pnbevat P n ( i=1 Xi , i=1 Xi2P ) voldoende en volledig is. Omdat de steekproefvariantie n 2 2 SX = (n − 1)−1 ( i=1 Xi2 − n(X)2 ), volgt er onmiddellijk dat X en SX 2 UMVZ-schatters voor µ en σ zijn.
223
7.2: Schattingstheorie
Voorbeeld 7.25 (Gekromd normale verdeling). Veronderstel dat X = (X1 , . . ., Xn ) een steekproef is uit de N (θ, θ 2 )-verdeling. De simultane dichtheid wordt dan gegeven door n Y
i=1
√
1 2πθ2
1
e− 2 (Xi −θ)
2
/θ 2
=
√
1 2πθ2
n
1
e− 2 n e
Pn
i=1
1 Pn xi /θ− 2
i=1
x2i /θ 2
.
Deze kansdichtheid behoort tot de tweedimensionale exponenti¨ele familie, met 1 1 Q(θ) = ,− 2 θ 2θ P P en V (X) = ( ni=1 Xi , ni=1 Xi2 ). Er is echter niet voldaan aan de voorwaarde van Stelling 7.21. Voor θ vari¨erend over R is θ 7→ Q(θ) een “eendimensionale kromme” in R2 en deze bevat, als deelverzameling van R2 , geen inwendig punt. De voorgaande en andere voorbeelden geven een groot aantal interessante gevallen waarin een UMVZ-schatter bestaat en redelijk is. Het UMVZcriterium is daarom zeer aantrekkelijk. Toch maken we enkele kanttekeningen: - soms bestaat er geen enkele zuivere schatter; - als er (vele) zuivere schatters bestaan, dan hoeft er nog geen UMVZschatter te bestaan; - er kan een niet-zuivere schatter bestaan met een overal kleinere verwachte kwadratische fout dan die van de UMVZ-schatter; - de eigenschap van zuiverheid is niet invariant onder niet-lineaire transformaties: is T UMVZ voor θ, dan is g(T ) als regel niet zuiver voor g(θ), en dus ook niet UMVZ. Met andere woorden: het altijd (alleen maar) naar UMVZ-schatters zoeken is niet verstandig, en kan soms betekenen dat naar een niet bestaande schatter gezocht wordt. Het UMVZ-criterium is daarom niet het antwoord op alle vragen. Helaas is er geen criterium in de statistiek dat altijd “werkt” en waar iedereen blij mee is. In de praktijk is het verstandig meerdere redelijk lijkende methoden toe te passen. Als de resultaten niet te zeer uiteenlopen kan men met een gerust hart zijn favoriete criterium gebruiken. Anders is er een probleem, dat mogelijk niet op een objectieve manier oplosbaar is. 7.2.2
Cram´ er-Rao ondergrenzen
In plaats van te zoeken naar een beste schatter volgens een bepaald criterium, kunnen we ook proberen een ondergrens te geven voor de verwachte kwadratische fout van een willekeurige schatter. Voor een gegeven schatter kunnen we dan de verwachte kwadratische fout vergelijken met de ondergrens en is duidelijk hoeveel deze schatter eventueel nog verbeterd zou kunnen worden. Zo’n ondergrens mag dan dus alleen van het gegeven statistische model afhangen.
224
7: Optimaliteitstheorie
Zulke ondergrenzen leiden natuurlijk aan hetzelfde euvel als “beste schatters”: tenzij we de klasse van schatters inperken is de absolute ondergrens voor de verwachte kwadratische fout gelijk aan 0, en dus zinloos. De ondergrens van Cram´er-Rao is beperkt tot zuivere schatters. Beschouw eerst het geval van een re¨eelwaardige parameter θ. Als p θ de kansdichtheid van de (hele) waarneming X is, `θ = log pθ en `˙θ = ∂/∂θ log pθ = p˙θ /pθ de score-functie, dan is de Fisher-informatie gedefini¨eerd als Iθ = varθ `˙θ (X). In afwijking van de notatie in Hoofdstuk 6 hebben noteren we de Fisherinformatie met een hoofdletter Iθ . Dit is om onderscheid te kunnen maken tussen de Fisher-informatie in de gehele waarneming en in deelwaarnemingen. Stelling 7.26 (Cram´ er-Rao-ongelijkheid). Veronderstel dat θ 7→ p θ (x) differentieerbaar is voor iedere x. Onder regulariteitsvoorwaarden geldt voor de variantie van iedere zuivere schatter T van g(θ) ∈ R dat varθ T ≥
g 0 (θ)2 , Iθ
met g 0 de afgeleide functie van g. Bewijs. We schrijven de formules onder de aanname dat X continu verdeeld is. (Voor een discrete kansdichtheid vervangen we de integralen door sommen.) Aangezien g(θ) = Eθ T voor alle θ geldt Z Z ∂ T (x)pθ (x) dx = T (x)p˙ θ (x) dx ∂θ Z = T (x)`˙θ (x)pθ (x) dx = Eθ T `˙θ (X) .
g 0 (θ) =
Dat de volgorde van differentiatie en integratie mag worden verwisseld maakt deel uit van de regulariteitsvoorwaarden. (In de calculus, of beter de maattheorie, worden concrete voorwaarden gegeven.) In Lemma 6.9 hebben we al gezien dat Eθ `˙θ (X) = 0. Combinatie van deze twee gelijkheden geeft g 0 (θ) = Eθ (T `˙θ (X)) − Eθ T Eθ `˙θ (X) = covθ T, `˙θ (X) . Nu geldt volgens de ongelijkheid van Cauchy-Schwarz dat covθ T, `˙θ (X)
2
≤ varθ T varθ `˙θ (X) = varθ T Iθ .
De ongelijkheid gegeven door de stelling volgt door links covθ T, `˙θ (X) te vervangen door g 0 (θ)2 , en vervolgens door Iθ te delen.
2
7.2: Schattingstheorie
225
Het getal g 0 (θ)2 /Iθ heet de Cram´er-Rao-ondergrens voor het schatten van g(θ). Voor het schatten van θ reduceert deze natuurlijk tot 1/Iθ . De ondergrens noemen we scherp als er een zuivere schatter T bestaat waarvan de variantie gelijk is aan de ondergrens. In dat geval is T automatisch een UMVZ-schatter voor g(θ). Immers, T is een zuivere schatter voor g(θ) en heeft minimale variantie. Hoe groter de Fisher-informatie is, hoe kleiner de Cram´er-Raoondergrens. Bovenstaande stelling suggereert dat in dat geval het schatten van θ nauwkeuriger kan. Omdat de ondergrens niet altijd scherp is, is deze suggestie niet geheel correct. We zullen echter aan het eind van het hoofdstuk zien dat bij (oneindig) grote steekproeven de grens wel scherp is. De stelling kan worden uitgebreid tot hogerdimensionale parameters θ. In dat geval is de Fisher-informatie geen getal, maar een matrix, de Fisher-informatiematrix Iθ =
∂ ∂ . `θ (X), `θ (X) covθ ∂θi ∂θj i,j=1,. . .k
We blijven ons beperken tot re¨eelwaardige functies g, en noteren de gradi¨ent van g in θ met g 0 (θ) (een rijvector). Dan geldt voor iedere zuivere schatter T van g(θ), dat varθ T ≥ g 0 (θ)Iθ−1 g 0 (θ)T . In het bijzonder is de ondergrens voor de eerste co¨ ordinaat g(θ) = θ1 gelijk aan het (1,1)-element van Iθ−1 , want de gradi¨ent is in dat geval de vector g 0 (θ) = (1, 0, . . ., 0). Wanneer de gehele waarneming X bestaat uit onafhankelijke deelwaarnemingen X1 , . . ., Xn dan kunnen we gebruiken dat de informatie additief is. Lemma 7.27. Veronderstel dat X en Y onafhankelijk zijn. Dan is de Fisher-informatie in de waarneming (X, Y ) gelijk aan de som van de informatie in X en Y afzonderlijk. Bewijs. We geven het bewijs alleen voor het geval dat de parameter θ re¨eelwaardig is. De (simultane) dichtheid van (X, Y ) is het product (x, y) 7→ pθ (x)qθ (y) van de (marginale) dichtheden van X en Y . De Fisher-informatie in (X, Y ) is de variantie van de score-functie ∂ ∂ ∂ log pθ (x)qθ (y) = log pθ (x) + log qθ (y). ∂θ ∂θ ∂θ Vanwege de onafhankelijkheid is deze variantie de som van de varianties van de twee termen aan de rechterkant. Dit zijn de Fisher-informaties in X en Y .
226
7: Optimaliteitstheorie
In het bijzonder is de Fisher-informatie in een vector X = (X1 , . . ., Xn ) van onafhankelijke, identiek verdeelde waarnemingen X1 , . . ., Xn gelijk aan n keer de Fisher-informatie in ´e´en Xi : Iθ = niθ , als iθ de Fisher-informatie in ´e´en waarneming voorstelt. De Cram´er-Rao-ongelijkheid wordt dan: voor iedere zuivere schatter van g(θ) gebaseerd op X1 , . . ., Xn geldt varθ Tn ≥
0 T g 0 (θ)i−1 θ g (θ) . n
Voorbeeld 7.28 (Normale verdeling). De Fisher-informatie voor µ in ´e´en waarneming uit de N (µ, σ 2 )-verdeling (met σ 2 bekend) is gelijk aan iµ = varµ
i X − µ ∂ h 1 1 2 2 1 1 = 2. = varµ log √ e− 2 (X1 −µ) /σ 2 ∂µ σ σ σ 2π
De Cram´er-Rao-ondergrens voor het schatten van µ gebaseerd op een steekproef ter grootte n uit de N (µ, σ 2 )-verdeling is dus σ2 1 = . niµ n Dit is precies de variantie van de zuivere schatter X voor µ. In dit geval is de Cram´er-Rao-ondergrens dus scherp. We hebben nu nogmaals bewezen dat X een UMVZ-schatter is voor µ, onafhankelijk van de theorie van voldoende en volledige statistieken van paragrafen 7.1 en Stelling 7.18. 2 De schatter X − σ 2 /n is zuiver voor µ2 (en een schatter omdat we σ 2 bekend veronderstellen), en een functie van de voldoende, volledige grootheid X, dus UMVZ. Enig rekenwerk geeft 2 σ 2 4µ2 σ 2 2σ 4 + 2 . varµ X − = n n n
De Cram´er-Rao-ondergrens voor de variantie van een zuivere schatter van µ2 is gelijk aan 2 (µ2 )0 4µ2 σ 2 = . niµ n Deze ondergrens wordt in dit geval dus niet bereikt. De extra term 2σ 4 /n2 is echter klein, en verwaarloosbaar ten opzichte van de eerste term als n → ∞. Voorbeeld 7.29 (Binomiale verdeling). De Fisher-informatie voor p in een bin(n, p)-verdeelde waarneming X is gelijk aan X − np ∂ h n i n = varp varp log pX (1 − p)n−X = . ∂p X p(1 − p) p(1 − p)
7.2: Schattingstheorie
227
De Cram´er-Rao-ondergrens voor de variantie van een zuivere schatter van p gebaseerd op X is dus p(1 − p) . n Dit is precies de variantie van de zuivere schatter X/n. De Cram´er-Raoondergrens is in dit geval dus scherp, en we kunnen concluderen dat X/n een UMVZ-schatter is voor p. Voorbeeld 7.30 (Homogene verdeling). Veronderstel dat X1 , . . ., Xn een steekproef is uit de homogene verdeling op het interval [0, θ]. De schatter (n + 1)/nX(n) is zuiver en heeft een variantie varθ
θ2 n+1 X(n) = . n n(n + 2)
Voor grote n (en iedere gegeven θ) is deze variantie veel kleiner dan een grens van de vorm 1/(niθ ). De Cram´er-Rao-ondergrens is in dit geval dus niet geldig. De reden is dat de dichtheid niet op een differentieerbare manier afhangt van de parameter. Een uitdrukking als `˙θ (x) is niet gedefini¨eerd voor alle x. Uit nadere beschouwing blijkt dat de Cram´er-Rao-ondergrens zelden scherp is. We besluiten deze paragraaf echter met de zeer belangrijke vaststelling, dat de Cram´er-Rao-ondergrens, in een bepaalde zin, asymptotisch scherp is, en dat de grens dan gehaald wordt door de maximum likelihoodschatter. Dit blijkt op de volgende wijze. We weten al uit Stelling 6.8, dat onder θ de maximum likelihood-schatter θˆn gebaseerd op een steekproef ter grootte n uit een dichtheid die differentieerbaar van de parameter afhangt, voldoet aan √ n(θˆn − θ) N (0, i−1 θ ). Een ruwe interpretatie van dit resultaat is dat, voor grote n, de stochas√ √ tische vector n(θˆn − θ) normaal verdeeld is met Eθ n(θˆn − θ) ≈ 0 en √ varθ n(θˆn − θ) ≈ i−1 θ . Hieruit volgt onmiddellijk Eθ θˆn ≈ θ,
varθ θˆn ≈
i−1 θ . n
Met andere woorden, de maximum likelihood-schatter is (asymptotisch) zuiver voor θ met (asymptotische) variantie gelijk aan de Cram´er-Raoondergrens, dus gelijk aan de minimale variantie voor zuivere schatters. Conclusie: maximum likelihood-schatters zijn asymptotisch UMVZ. Dit resultaat is een krachtige motivatie voor het gebruik van maximum likelihoodschatters. Maximum likelihood-schatters zijn echter niet de enige soort schatters die asymptotisch UMVZ zijn. Zo volgt uit de Bernstein-von Mises stelling,
228
7: Optimaliteitstheorie
Stelling 6.23, dat de mediaan van de a posteriori verdeling dezelfde asymptotische verdeling bezit, mits de a priori dichtheid overal op de parameterruimte Θ positief is. Omdat de a posteriori verdeling volgens deze stelling asymptotisch normaal en daarom symmetrisch is, volgt bovendien dat, onder voorwaarden, ook de meeste Bayes-schatters asymptotisch normaal zijn. Op grond van deze asymptotische argumenten, kan derhalve geen voorkeur worden uitgesproken voor maximum likelihood-schatters boven Bayes-schatters, of andersom. Aan de andere kant tonen deze argumenten wel aan dat deze twee klassen schatters de voorkeur verdienen boven momentenschatters, welke in het algemeen niet asymptotisch effici¨ent zijn. De momentenmethode is interessant vanwege zijn eenvoud, en ook in gevallen waarin de theoretische momenten wel kunnen worden gespecifeerd, maar de volledige kansdichtheid niet. In het laatste geval is het immers niet mogelijk maximum likelihood- of Bayes-schatters te implementeren.
7.3
Toetsingstheorie
Volgens de theorie besproken in Hoofdstuk 5 heeft een goede toets een onbetrouwbaarheid kleiner dan of gelijk aan de gegeven onbetrouwbaarheidsdrempel en een zo groot mogelijk onderscheidend vermogen. Een toets is “uniform meest onderscheidend” (bij een gegeven onbetrouwbaarheidsdrempel) als het onderscheidend vermogen in alle mogelijke parameterwaarden onder de alternatieve hypothese maximaal is. In deze paragraaf bespreken we een aantal speciale, maar belangrijke gevallen, waarin een uniform meest onderscheidende toets bestaat. 7.3.1
Enkelvoudige Hypothesen
Een “enkelvoudige” hypothese is een hypothese die uit slechts ´e´en parameterwaarde bestaat. Voor het toetsen van een enkelvoudige nulhypothese tegen een enkelvoudig alternatief bestaat in de meeste gevallen een optimale toets, dat wil zeggen, een toets met een maximaal onderscheidend vermogen in de parameterwaarde onder de alternatieve hypothese. Dit is de inhoud van het volgende “fundamentele lemma” van de toetsingstheorie. Veronderstel dat, voor gegeven parameterverzameling Θ = {θ0 , θ1 }, pθ0 en pθ1 de twee mogelijke kansdichtheden van de waarneming X zijn, en definieer L(θ1 , θ0 ; X) = pθ1 (X)/pθ0 (X) als het quoti¨ent van deze dichtheden, ge¨evalueerd in de waarneming. Stelling 7.31 (Neyman-Pearson) . Veronderstel dat een getal cα0 bestaat met Pθ0 L(θ1 , θ0 ; X) ≥ cα0 = α0 . Dan is de toets met kritiek gebied K = {x: L(θ1 , θ0 ; x) ≥ cα0 } meest onderscheidend bij onbetrouwbaarheidsdrempel α0 voor het toetsen van H0 : θ = θ0 tegen H1 : θ = θ1 .
7.3: Toetsingstheorie
229
Bewijs. Vanwege de veronderstelde eigenschap van het getal cα0 is de onbetrouwbaarheid van de toets met het vermelde kritieke gebied K precies gelijk aan α0 . Veronderstel dat K 0 een ander kritiek gebied is met onbetrouwbaarheid hoogstens α0 , dat wil zeggen Pθ0 (X ∈ K 0 ) ≤ α0 . We moeten nu bewijzen dat Pθ1 (X ∈ K 0 ) ≤ Pθ1 (X ∈ K). We beweren dat, voor alle x, 1K 0 (x) − 1K (x) pθ1 (x) − cα0 pθ0 (x) ≤ 0.
Immers als x ∈ K, dan geldt 1K 0 (x) − 1K (x) = 1K 0 (x) − 1 ≤ 0 en pθ1 (x) − cα0 pθ0 (x) ≥ 0 vanwege de definitie van K. Als x ∈ / K, dan gelden beide ongelijkheden in omgekeerde richting. In beide gevallen is de uitdrukking aan de linkerkant van het ongelijkteken het product van een niet-positieve en een niet-negatieve term, en dus niet-positief. De integraal van deze niet-positieve functie over de uitkomstenruimte (of de som in het geval de verdelingen discreet zijn) is dan eveneens nietpositief. Dit kunnen we schrijven als Z Z 1K 0 (x) − 1K (x) pθ0 (x) dx 1K 0 (x) − 1K (x) pθ1 (x) dx ≤ cα0 = cα0 (Pθ0 (X ∈ K 0 ) − Pθ0 (X ∈ K))
0
≤ cα0 (α0 − α0 ) = 0.
Hieruit volgt dat Pθ1 (X ∈ K ) ≤ Pθ1 (X ∈ K) en dus is de toets met kritiek gebied K meest onderscheidend bij onbetrouwbaarheidsdrempel α0 . De toets uit de voorgaande stelling is intu¨ıtief redelijk omdat de toets de nulhypothese H0 : θ = θ0 verwerpt ten gunste van het alternatief H1 : θ = θ1 als de dichtheid pθ1 (X) in de waarneming onder het alternatief groot is ten opzichte van de dichtheid pθ0 (X) onder de nulhypothese. De motivatie hiervoor is dezelfde als voor de likelihood-ratiotoets. We beschouwen pθ (x) als maat voor de kans van het optreden van realisatie x als θ de ware parameter is, en een kleine waarde van pθ (x) betekent dat het onwaarschijnlijk is dat θ de ware parameter is. (Mits cα0 ≥ 1 reduceert de toets uit de voorgaande stelling ook precies tot de likelihood-ratiotoets.) Toetsen van de vorm als in de voorgaande stelling worden zowel likelihood-ratio- als Neyman-Pearson-toetsen genoemd. Voorbeeld 7.32 (Gauss-toets). Veronderstel dat X = (X1 , . . ., Xn ) een steekproef is uit de normale verdeling met onbekende verwachting µ en bekende variantie σ 2 . We willen de enkelvoudige nulhypothese H0 : µ = µ0 toetsen tegen het enkelvoudige alternatief H1 : µ = µ1 . Het Neyman-Pearson Lemma zegt dat de toets met toetsingsgrootheid n n 1 X 1 X 2 (X − µ ) + (Xi − µ0 )2 i 1 2 2 2σ i=1 2σ i=1 2 2 = exp nX(µ1 − µ0 )/σ + n(µ0 − µ21 )/(2σ 2 )
L(µ1 , µ0 ; X) = exp −
230
7: Optimaliteitstheorie
en kritiek gebied K = {x = (x1 , . . ., xn ): L(µ1 , µ0 ; x) ≥ cα0 } met cα0 zodanig dat Pµ0 (L(µ1 , µ0 ; X) ≥ cα0 ) = α0 de meest onderscheidende toets bij onbetrouwbaarheidsdrempel α0 is voor het toetsen van bovenstaande nulhypothese. De nulhypothese wordt verworpen voor grote waarden van L(µ1 , µ0 ; X) of wel voor grote waarden van X(µ1 − µ0 ). Dat betekent dat als µ1 > µ0 de nulhypothese wordt verworpen √ voor grote waarden van X of equivalent, voor grote waarden van T = n(X − µ0 )/σ. De meest onderscheidende toets is dus de toets die de nulhypothese √ n(X − µ )/σ groter dan een verwerpt voor 0 √ √ waarde dα0 zodanig dat Pµ0 ( n(X − µ0 )/σ ≥ dα0 ) = α0 . Aangezien n(X − µ0 )/σ onder µ = µ0 de standaard normale verdeling √ heeft, geldt dat dα0 = ξ1−α0 en de nulhypothese verworpen wordt voor n(X − µ0 )/σ ≥ ξ1−α0 . Dit is precies de Gauss-toets uit Voorbeeld 5.11. De conclusie is dat de Gauss-toets de meest onderscheidende toets voor het toetsen van de enkelvoudige nulhypothese H0 : µ = µ0 tegen het enkelvoudige alternatief H1 : µ = µ1 is op basis van een steekproef uit de normale verdeling met onbekende verwachting µ en bekende variantie σ 2 . Aan de voorwaarde van de stelling dat een getal cα0 bestaat zodanig dat Pθ0 L(θ1 , θ0 ; X) ≥ cα0 = α0 is altijd voldaan als de likelihoodratiostatistiek L(θ1 , θ0 ; X) een continue verdelingsfunctie bezit, onder de nulhypothese. De voorwaarde is immers equivalent aan de voorwaarde dat deze verdelingsfunctie van L(θ1 , θ0 ; X) gelijk is aan 1 − α0 in cα0 . De onbetrouwbaarheid van de optimale toets is dan precies α0 . Als de verdelingsfunctie van L(θ1 , θ0 ; X) sprongen bezit dan zal niet voor iedere α0 een waarde cα0 beschikbaar zijn. De uitspraak van de voorgaande stelling kan dan onjuist zijn. Het idee dat een optimale toets kan worden gebaseerd op de likelihood-ratiostatistiek L(θ1 , θ0 ; X) blijft echter wel juist. In alle gevallen kunnen we een waarde cα0 vinden zodanig dat Pθ0 L(θ1 , θ0 ; X) > cα0 ≤ α0 ≤ Pθ0 L(θ1 , θ0 ; X) ≥ cα0 .
Zijn deze ongelijkheden strikt, dan heeft de toets met kritiek gebied K = {x: L(θ1 , θ0 ; x) > cα0 } onbetrouwbaarheid strikt kleiner dan α0 en de toets met kritiek gebied K = {x: L(θ1 , θ0 ; x) ≥ cα0 } onbetrouwbaarheid strikt groter dan α0 . De tweede toets is dan ontoelaatbaar, maar de eerste toets is niet noodzakelijkerwijze meest onderscheidend omdat we het kritieke gebied nog groter zouden kunnen maken. We kunnen een meer onderscheidende toets construeren door soms ook te verwerpen als L(θ1 , θ0 ; x) = cα0 . In sommige voorbeelden kan de verzameling {x: L(θ1 , θ0 ; x) = cα0 } worden opgesplitst in twee deelverzamelingen R1 en R2 en is de toets die verwerpt als L(θ1 , θ0 ; X) > cα0 en als L(θ1 , θ0 ; X) = cα0 en X ∈ R1 meest onderscheidend. In zijn algemeenheid kunnen we de vorige stelling uitbreiden tot likelihood-ratiostatistieken met sprongen in de verdelingsfunctie door generalisering van het begrip toets.
7.3: Toetsingstheorie
231
Definitie 7.33 (Lotingstoets). Een lotingstoets is een statistiek ψ met waarden in [0, 1]. Als x is waargenomen, dan verwerpen we H0 met kans ψ(x). Het onderscheidend vermogen van de lotingstoets ψ is per definitie gelijk aan π(θ; ψ) = Eθ ψ(X) en de onbetrouwbaarheid is gelijk aan supθ∈Θ0 π(θ; ψ). Een toets met kritiek gebied K is een speciaal geval van een lotingstoets, via de identificatie ψ(x) = 1K (x). Als we lotingstoetsen toelaten, dan bestaat altijd een meest onderscheidende toets. Het bewijs van de volgende stelling is analoog aan dat van de voorgaande stelling. Stelling 7.34 (Neyman-Pearson). Er bestaan getallen cα0 en δ ∈ [0, 1] zodanig dat Pθ0 L(θ1 , θ0 ; X) > cα0 + δPθ0 L(θ1 , θ0 ; X) = cα0 = α0 . Voor iedere keuze van deze getallen is de lotingstoets
ψ = 1{x:L(θ1 ,θ0 ;x)>cα0 } + δ1{x:L(θ1 ,θ0 ;x)=cα0 } meest onderscheidend bij onbetrouwbaarheidsdrempel α0 voor het toetsen van H0 : θ = θ0 tegen H1 : θ = θ1 . Zoals uit de stelling blijkt gebruikt de optimale toets het loten alleen om bij waarnemingen in het “randgebied” {x: pθ1 (x)/pθ0 (x) = cα0 } soms wel en soms niet te verwerpen. Als de likelihood-ratio L(θ1 , θ0 ; X) strikt groter is dan cα0 , dan verwerpen we altijd, en als de ratio strikt kleiner is dan verwerpen we nooit. In het tussenliggende geval verwerpen we met kans δ. Het loten met een constante waarschijnlijkheid δ als in de stelling is ´e´en manier om het randgebied “op te splitsen”, en vaak is de optimale toets wat dit aspect betreft niet uniek. De lotingstoets heeft vooral theoretische betekenis. In de praktijk zal men zelden een lotingstoets uitvoeren. Voorbeeld 7.35 (Binomiale verdeling). Veronderstel dat X binomiaal verdeeld is met parameters n en onbekende kans p ∈ [0, 1]. De likelihoodratio voor het toetsen van de enkelvoudige hypothese H0 : p = p0 tegen H1 : p = p1 wordt gegeven door X n p X 1 − p n−X n−X 1 1 X p1 (1 − p1 ) = . L(p1 , p0 ; X) = n X n−X p 1 − p p (1 − p ) 0 0 0 0 X
In dit voorbeeld nemen we aan dat p1 > p0 , zodat L(p1 , p0 ; x) stijgend is in x. Een grote waarde voor X impliceert dus een grote waarde van L(p1 , p0 ; X) (en andersom). De vraag is nu voor welke waarden van X de nulhypothese moet worden verworpen.
232
7: Optimaliteitstheorie
Neem aan dat n = 100, p0 = 1/2 en α0 = 0.05. Dan geldt P0.5 (X ≥ 59) = 0.044 en P0.5 (X ≥ 58) = 0.067, zie Voorbeeld 5.10. Hieruit volgt dat de toets gegeven door het kritieke gebied {59, 60, . . ., 100} van niveau 0.05 is, terwijl de toets die verwerpt voor X ≥ 58 niet toelaatbaar is bij deze onbetrouwbaarheidsdrempel. De onbetrouwbaarheid van de gevonden toets, 0.044, is strikt kleiner dan de onbetrouwbaarheidsdrempel α0 = 0.05. Dit betekent dat het Neyman-Pearson-Lemma (Stelling 7.31) niet toepasbaar is en de toets mogelijk niet optimaal is. De lotingstoets gedefinieerd als ψ(x) = 1{x≥59} + 0.26 1{x=58} heeft daarentegen wel precies een onbetrouwbaarheid gelijk aan 0.05: E0.5 ψ(X) = P0.5 (X ≥ 59) + 0.26P0.5(X = 58) = 0.05. Volgens Stelling 7.34 is de lotingstoets ψ nu meest onderscheidend voor het toetsen van H0 : p = 1/2 tegen H1 : p = p1 voor p1 > 1/2. Merk op dat in dit voorbeeld slechts wordt aangenomen dat p1 > p0 ; een aanname betreffende de exacte waarde van p1 wordt niet gemaakt. Voorbeeld 7.36 (Homogene verdeling). De likelihood-ratio voor het toetsen van de nulhypothese H0 : θ = θ0 tegen de alternatieve hypothese H1 : θ = θ1 voor θ1 > θ0 gebaseerd op een steekproef X = (X1 , . . ., Xn ) uit de homogene verdeling op [0, θ] wordt gegeven door ( n θ0 (1/θ1 )n 1{X(n) ≤θ1 } , als X(n) ≤ θ0 , θ1 L(θ1 , θ0 ; X) = = n (1/θ0 ) 1{X(n) ≤θ0 } ∞, als θ0 < X(n) ≤ θ1 . Onder de nulhypothese bevinden we ons altijd in het eerste van de twee gevallen, en bezit de likelihood-ratio een gedegeneerde kansverdeling; alle kansmassa ligt in het punt (θ0 /θ1 )n . De waarde cα0 uit Stelling 7.34 is daarom gelijk aan de constante waarde (θ0 /θ1 )n van de likelihood-ratio, en de verzamelingen van waarden van de waarneming waarvoor de likelihoodratio strikt groter dan of gelijk zijn aan cα0 zijn gelijk aan, respectievelijk, de verzamelingen {(x1 , . . ., xn ): x(n) > θ0 } en {(x1 , . . ., xn ): x(n) ≤ θ0 }. Volgens Stelling 7.34 is de lotingstoets ψ(X1 , . . ., Xn ) = 1{X(n) >θ0 } + δ1{X(n) ≤θ0 } optimaal, waarbij de lotingswaarde δ zo moet worden bepaald dat de onbetrouwbaarheid gelijk is aan α0 . Aangezien de onbetrouwbaarheid gelijk is aan Pθ0 (X(n) > θ0 ) + δPθ0 (X(n) ≤ θ0 ) = δPθ0 (X(n) ≤ θ0 ) en dat Pθ0 (X(n) ≤ θ0 ) = 1 volgt dat δ = α0 . Deze toets komt neer op verwerpen in het geval dat X(n) een waarde aanneemt die onmogelijk is onder de nulhypothese (namelijk als X(n) > θ0 ) en altijd loten met kans α0 als X(n) een onder H0 mogelijke waarde aanneemt. Het eerste is heel natuurlijk, maar het loten lijkt intu¨ıtief niet redelijk. De optimale toets is niet uniek. In het bijzonder kunnen we het loten vermijden door als kritiek gebied te nemen K = {(x1 , . . ., xn ): x(n) > dα0 },
7.3: Toetsingstheorie
233
√ met dα0 = θ0 n 1 − α0 zodat de onbetrouwbaarheid van de toets gelijk is aan α0 . Deze toets en de lotingstoets als eerder beschreven hebben beide het onderscheidend vermogen 1 − (1 − α0 )(θ0 /θ1 )n in θ1 . Het loten met kans α0 als X√ (n) ∈ [0, θ0 ] hebben we dan vervangen door altijd verwerpen als X(n) ∈ [θ0 n 1 − α0 , θ0 ]. (Merk op dat beide toetsen altijd verwerpen als L(θ1 , θ0 ; X) = ∞ en met kans α0 verwerpen als L(θ1 , θ0 ; X) = (θ0 /θ1 )n . In termen van de likelihood-ratio is de optimale toets dus wel uniek.)
7.3.2
Monotone Likelihood-Ratio
In de vorige paragraaf hebben we gezien dat voor het toetsen van enkelvoudige hypothesen altijd een optimale toets bestaat. Voor algemene hypothesen is dit helaas niet het geval. Een toets is optimaal voor een samengestelde alternatieve hypothese als de toets uniform meest onderscheidend is, in de zin van de onderstaande definitie. Definitie 7.37. Een toets met onderscheidend vermogen θ 7→ π(θ; K) heet uniform meest onderscheidend (Engels: uniformly most powerful of UMP) bij onbetrouwbaarheidsdrempel α0 voor het toetsen van H0 : θ ∈ Θ0 tegen H1 : θ ∈ Θ1 als supθ∈Θ0 π(θ; K) ≤ α0 en voor het onderscheidend vermogen θ 7→ π(θ; K 0 ) van iedere andere toets met supθ∈Θ0 π(θ; K 0 ) ≤ α0 geldt dat π(θ; K) ≥ π(θ; K 0 ) voor alle θ ∈ Θ1 . De kwalificatie “uniform” in “uniform meest onderscheidend” verwijst naar het feit dat het onderscheidend vermogen van een optimale toets voor iedere parameterwaarde onder de alternatieve hypothese maximaal moet zijn: een uniform meest onderscheidende toets voor H0 : θ ∈ Θ0 tegen H1 : θ ∈ Θ1 moet meest onderscheidend zijn voor het toetsen van H0 : θ ∈ Θ0 tegen H1 : θ = θ1 voor alle θ1 ∈ Θ1 . Naarmate de alternatieve hypothese groter is, wordt dit een steeds zwaardere eis. Toch bestaan in een aantal belangrijke voorbeelden wel uniform meest onderscheidende toetsen. Beschouw eerst het geval van het toetsen van een enkelvoudige nulhypothese H0 : θ = θ0 tegen een samengestelde alternatieve hypothese H1 : θ ∈ Θ1 . Een toets van niveau α0 voor dit samengestelde probleem is ook een toets van niveau α0 voor ieder van de enkelvoudige toetsingsproblemen H0 : θ = θ0 tegen H1 : θ = θ1 , voor iedere θ1 ∈ Θ1 . Volgens Stellingen 7.31 en 7.34 is de meest onderscheidende toets voor een dergelijk enkelvoudig probleem de Neyman-Pearson-toets gebaseerd op de likelihood-ratio pθ1 (X)/pθ0 (X). Uit het daar gegeven bewijs volgt ook dat de Neyman-Pearson-toets de unieke meest onderscheidende toets is in het geval de likelihood-ratiostatistiek een continue verdelingsfunctie heeft. We concluderen hieruit dat in het geval dat de Neyman-Pearson-toetsen voor verschillende alternatieven θ1 ∈ Θ1 verschillend zijn, geen uniform meest onderscheidende toets kan bestaan.
234
7: Optimaliteitstheorie
Andersom kunnen we deze redenatie ook in positieve richting toepassen, en concluderen dat indien de Neyman-Pearson-toets voor H0 : θ = θ0 tegen H1 : θ = θ1 voor iedere θ1 ∈ Θ1 hetzelfde is, dan is deze toets automatisch uniform meest onderscheidend. Nu lijkt op het eerste gezicht de Neyman-Pearson-toets, met toetsingsgrootheid pθ1 (X)/pθ0 (X), altijd van θ1 af te hangen. De schijn bedriegt hier echter, omdat ook de kritieke waarde bij deze toets van θ1 zal afhangen, en deze twee afhankelijkheden elkaar kunnen opheffen. Voorbeeld 7.38 (Gauss-toets, vervolg). Veronderstel dat X1 , . . ., Xn een steekproef is uit de normale verdeling met onbekende verwachting µ en bekende variantie σ 2 . We zijn nu op zoek naar de uniform meest onderscheidende toets voor het toetsen van de enkelvoudige nulhypothese H0 : µ = µ0 tegen het samengestelde alternatief H1 : µ > µ0 . In Voorbeeld 7.32 hebben we al gezien dat voor een enkelvoudige nulen een enkelvoudige alternatieve hypothese de Gauss-toets meest onderscheidend is. In dit voorbeeld zullen we laten zien dat dit ook geldt voor bovenstaande samengestelde hypothese. De meest onderscheidende toets voor het toetsen van √ H0 : µ = µ0 tegen H1 : µ = µ1 voor µ1 > µ0 verwerpt de nulhypothese voor n(X − µ0 )/σ > ξ1−α0 . Dit criterium is niet afhankelijk van de waarde µ1 en deze toets is dus meest onderscheidend voor elke waarde van µ1 ∈ (µ0 , ∞). We concluderen dat de Gauss-toets uniform meest onderscheidend is voor het toetsen van H0 : µ = µ0 tegen H1 : µ > µ0 . Voorbeeld 7.39 (Binomiale verdeling, vervolg). Veronderstel dat X binomiaal verdeeld is met parameters n en onbekende kans p ∈ [0, 1]. In Voorbeeld 7.35 is afgeleid dat voor n = 100 en α0 = 0.05 de meest onderscheidende toets voor het toetsen van de enkelvoudige hypothesen H0 : p = 1/2 tegen H1 : p = p1 met p1 > 1/2 gelijk is aan de lotingstoets die verwerpt als X ≥ 59 en met kans 0.26 verwerpt als X = 58. In dat voorbeeld hebben we al opgemerkt dat de toets niet afhangt van de waarde van p1 zolang p1 > p0 = 1/2. Hieruit kunnen we direct concluderen dat bovenstaande lotingstoets uniform meest onderscheidend is voor het toetsen van H0 : p = 1/2 tegen H1 : p > 1/2. Voorbeeld 7.40 (Homogene verdeling, vervolg). In √ Voorbeeld 7.36 bleek de toets die verwerpt als X(n) ≥ dα0 voor dα0 = θ0 n 1 − α0 meest onderscheidend voor het toetsen van H0 : θ = θ0 tegen H1 : θ = θ1 voor iedere θ1 > θ0 . Deze toets hangt niet van θ1 af. We concluderen dat de toets uniform meest onderscheidend is voor het toetsen van H0 : θ = θ0 tegen H1 : θ > θ 0 . Met een soortgelijke redenatie kunnen we soms ook een uniform meest onderscheidende toets voor een samengestelde nulhypothese afleiden uit
7.3: Toetsingstheorie
235
uniform meest onderscheidende toetsen voor enkelvoudige nulhypothesen. Het relevante criterium is hier de onbetrouwbaarheid. Een toets die uniform meest onderscheidend is voor het toetsen van H0 : θ = θ0 tegen H1 : θ ∈ Θ1 voor een gegeven θ0 ∈ Θ0 is ook uniform meest onderscheidend voor het toetsen van H0 : θ ∈ Θ0 tegen H1 : θ ∈ Θ1 , mits de toets van niveau α0 is voor dit probleem, zodat de toets toelaatbaar is. Dit laatste is niet noodzakelijkerwijze het geval, omdat de onbetrouwbaarheid voor de nulhypothese H0 : θ ∈ Θ0 (een supremum over Θ0 ) groter is dan voor een enkelvoudige hypothese H0 : θ = θ0 . Het is echter voldoende als de redenatie voor ´e´en parameterwaarde θ0 ∈ Θ0 gerechtvaardigd kan worden, namelijk die waarde waarin het supremum wordt aangenomen. Voorbeeld 7.41 (Gauss-toets, vervolg). In Voorbeeld 7.38 hebben we al gezien dat de Gauss-toets een uniform meest onderscheidende toets is voor een enkelvoudige nul- en een samengestelde alternatieve hypothese. In dit voorbeeld zullen we zien dat ook als de nulhypothese samengesteld is, de Gauss-toets uniform meest onderscheidend blijft. Beschouw nu de hypothesen H0 : µ ≤ µ0 tegen het alternatief H1 : µ > µ0 . We hoeven nu alleen aan te tonen dat de onbetrouwbaarheid van de Gauss-toets gelijk is aan α0 : sup Pµ
µ≤µ0
√ X − µ √ X − µ 0 0 n n ≥ ξ1−α0 = Pµ0 ≥ ξ1−α0 = α0 , σ σ
zoals we al eerder gezien hadden in Voorbeeld 5.11. Voorbeeld 7.42 (Binomiale verdeling, vervolg). Veronderstel dat X binomiaal verdeeld is met parameters n en onbekende kans p ∈ [0, 1]. In Voorbeeld 7.39 werd een uniform meest onderscheidende lotingstoets gegeven voor het toetsen van de enkelvoudige nulhypothese H0 : p = 1/2 tegen het samengestelde alternatief H1 : p > 1/2. In dit voorbeeld laten we zien dat deze lotingstoets ook uniform meest onderscheidend is voor het toetsen van de samengestelde nulhypothese H0 : p ≤ 1/2 tegen het alternatief H1 : p > 1/2. Daartoe moeten we aantonen dat de lotingstoets ook voor deze nulhypothese niveau α0 = 0.05 heeft; ofwel we moeten laten zien dat supp≤1/2 Ep ψ(X) ≤ 0.05 voor ψ(x) = 1{x≥59} + 0.26 1{x=58} . De onbetrouwbaarheid van de toets wordt gegeven door sup Ep ψ(X) = sup Pp (X ≥ 59) + 0.26Pp (X = 58) . p≤1/2
p≤1/2
Het supremum wordt aangenomen in p = 1/2 (zie Voorbeeld 5.10) en E0.5 ψ(X) = 0.05 (zie Voorbeeld 7.35). Voorbeeld 7.43 (Homogene verdeling, vervolg). De onbetrouwbaarheid √ van de toets uit Voorbeeld 7.36, die verwerpt als X(n) ≥ dα0 = θ0 n 1 − α0 ,
236
7: Optimaliteitstheorie
voor het toetsen van de nulhypothese H0 : θ ≤ θ0 wordt gegeven door sup Pθ (X(n) ≥ dα0 ) = Pθ0 (X(n) ≥ dα0 ) = α0 ,
θ≤θ0
vanwege de constructie van dα0 . We concluderen dat de toets uniform meest onderscheidend is voor het toetsen van H0 : θ ≤ θ0 tegen H1 : θ > θ0 . De voorgaande argumenten kunnen worden gebruikt om aan te tonen dat uniform meest onderscheidende toetsen bestaan voor het toetsen van eenzijdige hypothesen bij eendimensionale exponenti¨ele families. Volgens Definitie 7.20 behoort een familie van kansdichtheden pθ tot een eendimensionale exponenti¨ele familie als er functies c, h en Q bestaan, zodat de dichtheid in de familie de volgende vorm bezit: pθ (x) = c(θ)h(x)eQ(θ)V (x) , voor een eendimensionale voldoende statistiek V (X). In de volgende stelling nemen we aan dat de dichtheid van de waarneming X de bovenstaande vorm bezit. Stelling 7.44 (Exponenti¨ ele familie). Veronderstel dat de dichtheid van X tot een eendimensionale familie behoort met voldoende statistiek V = V (X) en dat een getal dα0 bestaat met Pθ0 V (X) > dα0 = α0 . Dan is de toets met kritiek gebied K = {x: V (x) > dα0 } uniform meest onderscheidend bij onbetrouwbaarheidsdrempel α0 voor het toetsen van H0 : Q(θ) ≤ Q(θ0 ) tegen H1 : Q(θ) > Q(θ0 ). Bewijs. De Neyman-Pearson-toets voor het toetsen van de enkelvoudige nulhypothese H0 : θ = θ0 tegen de alternatieve hypothese H1 : θ = θ1 is gebaseerd op de likelihood-ratio L(θ1 , θ0 ; x) =
c(θ1 ) (Q(θ1 )−Q(θ0 ))V (x) e . c(θ0 )
Volgens Stelling 7.34 is de meest onderscheidende toets voor het probleem H0 : θ = θ0 tegen H1 : θ = θ1 de lotingstoets ψ(x) = 1{L(θ1 ,θ0 ;x)>cα0 } + δ1{L(θ1 ,θ0 ;x)=cα0 } voor constantes cα0 en δ zodanig dat de onbetrouwbaarheid van de toets gelijk is aan α0 , d.w.z. Pθ0 (L(θ1 , θ0 ; X) > cα0 )+δPθ0 (L(θ1 , θ0 ; X) = cα0 ) = α0 . Voor Q(θ1 ) > Q(θ0 ) is de likelihood-ratio L(θ1 , θ0 ; x) een strikt stijgende functie van V (x) waardoor de lotingstoets ψ equivalent is aan de toets ψ 0 (x) = 1{V (x)>dα0 } + δ1{V (x)=dα0 } , voor dα0 zodanig dat de onbetrouwbaarheid van de toets gelijk is aan α0 . Uit de aanname dat er een getal dα0 bestaat met Pθ0 V (X) > dα0 = α0
7.3: Toetsingstheorie
237
volgt dat we δ = 0 kunnen kiezen. Omdat deze toets niet afhangt van het alternatief θ1 , zolang Q(θ1 ) > Q(θ0 ), is de toets automatisch uniform meest onderscheidend voor het toetsingsprobleem H0 : θ = θ0 tegen H1 : Q(θ) > Q(θ0 ). Iedere toets van niveau α0 voor het probleem H0 : Q(θ) ≤ Q(θ0 ) tegen H1 : Q(θ) > Q(θ0 ) is ook een toets van niveau α0 voor het probleem H0 : Q(θ) = Q(θ0 ) tegen H1 : Q(θ) > Q(θ0 ). Zijn onderscheidend vermogen is daarom niet groter dan het onderscheidend vermogen van de beste toets voor dit probleem, de toets ψ 0 uit de voorgaande alinea. Het is nu voldoende te bewijzen dat deze laatste toets onbetrouwbaarheid α0 bezit voor de nulhypothese H0 : Q(θ) ≤ Q(θ0 ). De dichtheid pθ (x) = c(θ)h(x) exp(Q(θ)V (x)) is exponentieel in V (x). De vorm van deze verdeling hangt af van Q(θ). Een grotere waarde van Q(θ) legt relatief meer kansmassa op grote waarden van V (x) en minder kansmassa op kleine waarden van V (x). Dit impliceert dat voor iedere d de kans Pθ (V ≥ d) stijgt als Q(θ) groter wordt. Ofwel, voor elke parameterwaarde θ met Q(θ) ≤ Q(θ0 ) geldt dat Pθ (V (X) ≥ d) ≤ Pθ0 (V (X) ≥ d) voor iedere d. In het bijzonder is dit waar voor d = dα0 , waarmee de toets ψ 0 onbetrouwbaarheid α0 heeft voor de nulhypothese H0 : Q(θ) ≤ Q(θ0 ). Dit voltooit het bewijs van de stelling. Voorbeeld 7.45 (Gauss-toets, vervolg). Veronderstel dat X1 , . . ., Xn een steekproef is uit de normale verdeling met onbekende verwachting µ en bekende variantie σ 2 . Als σ 2 bekend verondersteld wordt, dan is het statistisch model een eendimensionale exponenti¨ele familie met voldoende grootheid X. Volgens Stelling 7.44 bestaat een uniform meest onderscheidende toets voor het probleem H0 : µ ≤ µ0 tegen H1 : µ > µ0 , en deze verwerpt voor grote waarden van X. We vinden opnieuw de Gauss-toets uit Voorbeeld 5.11. Het bewijs van de voorgaande stelling gebruikt de exponenti¨ele familie structuur eigenlijk alleen maar omdat deze impliceert dat een eendimensionale voldoende grootheid V bestaat waarvan de verdelingen onder de verschillende parameterwaarden stochastisch geordend zijn. De redenatie voor het bestaan van een uniform meest onderscheidende toets voor de homogene verdeling in Voorbeeld 7.43 heeft dezelfde structuur. We kunnen de twee gevallen verenigen door het begrip “monotone likelihood-ratiofamilie”. We zeggen dat een statistisch model {pθ : θ ∈ Θ ⊂ R} een familie met monotone likelihood-ratio is als een re¨eelwaardige statistiek V en voor alle θ 0 ≤ θ1 in Θ een monotoon stijgende functie gθ0 ,θ1 bestaan zodanig dat pθ1 (x) = gθ0 ,θ1 V (x) . pθ0 (x)
De statistiek V is dan voldoende vanwege de factorisatiestelling. Bovendien impliceert de monotonie van de functie gθ0 ,θ1 en het Lemma van Neyman en Pearson, dat een meest onderscheidende toets voor H0 : θ = θ0 tegen
238
7: Optimaliteitstheorie
H1 : θ = θ1 voor gegeven θ0 < θ1 kan worden gebaseerd op V , waarbij de toets verwerpt voor grote waarden van V . Preciezer: er bestaat een meest onderscheidende lotingstoets van de vorm, voor zekere dα0 en δ, (7.1)
ψ = 1{x:V (x)>dα0 } + δ1{x:V (x)=dα0 } .
Dit leidt tot de volgende stelling, waarvan het bewijs analoog is aan dat van de voorgaande stelling. Stelling 7.46 (Monotone likelihood-ratio). Voor het toetsen van de hypothese H0 : θ ≤ θ0 tegen H1 : θ > θ0 gebaseerd op een waarneming uit een familie met monotone likelihood-ratio bestaat een uniform meest onderscheidende lotingstoets, voor iedere gegeven onbetrouwbaarheidsdrempel α0 . Deze toets kan worden genomen in de vorm (7.1), voor V de voldoende grootheid van de familie. Voorbeeld 7.47 (Binomiale verdeling, vervolg). Neem aan dat X een binomiaal(n, p) verdeelde stochastische grootheid is. Dan is de likelihoodratio voor H0 : p ≤ p0 tegen H1 : p > p0 gelijk aan p X 1 − p n−X 1 1 L(p1 , p0 ; X) = p0 1 − p0
(zie Voorbeeld 7.35), welke stijgend is in X als p1 > p0 . Volgens de vorige stelling bestaat er nu een uniform meest onderscheidende lotingstoets van de vorm (7.1). Deze lotingstoets hadden we ook al gevonden in Voorbeeld 7.42.
7.3.3
Optimaliteit van de t-Toets
Voor statistische modellen zonder eendimensionale voldoende grootheid bestaat in het algemeen geen uniform meest onderscheidende toets. Dit betreft in het bijzonder alle modellen met een tweedimensionale parameter. Het probleem komt al naar voren bij het toetsen van de verwachtingsparameter voor de normale verdeling als de variantie σ 2 onbekend is. In deze paragraaf veronderstellen we dat X = (X1 , . . ., Xn ) een steekproef is uit de normale verdeling met verwachting µ en variantie σ 2 . In de vorige paragraaf hebben we al gezien dat als σ 2 bekend verondersteld wordt de Gauss-toets de uniform meest onderscheidende toets voor het probleem H0 : µ ≤ µ0 tegen H1 : µ > µ0 is. Deze toets hangt af van σ en is dus onbruikbaar als σ onbekend is. Een intu¨ıtief redelijke oplossing is om de onbekende parameter σ te vervangen door de steekproef standaarddeviatie SX . Dit leidt tot de √ t-toets, welke de nulhypothese verwerpt als n(X −µ0 )/SX ≥ tn−1,1−α0 . In deze paragraaf zullen we bewijzen dat de t-toets uniform meest onderscheidend is onder de zuivere toetsen, voor het toetsingsprobleem H0 : µ ≤ µ0 tegen H1 : µ > µ0 .
7.3: Toetsingstheorie
239
Definitie 7.48. Een toets is zuiver voor het toetsen van H0 : θ ∈ Θ0 tegen H1 : θ ∈ Θ1 bij een gegeven onbetrouwbaarheidsdrempel α0 als het onderscheidend vermogen π van de toets voldoet aan π(θ0 ) ≤ α0 ≤ π(θ1 ) voor alle θ0 ∈ Θ0 en θ1 ∈ Θ1 . De lotingstoets ψ ≡ α0 , die verwerpt met kans α0 ongeacht de waarde van de waarneming, is zuiver. Omdat een uniform meest onderscheidende toets, als deze bestaat, ook deze toets moet domineren, volgt dat een uniform meest onderscheidende toets automatisch zuiver is. Men kan echter bewijzen dat er geen uniform meest onderscheidende toets bestaat onder alle toetsen bij onbetrouwbaarheidsdrempel α0 < 1/2. (Verrassend genoeg is het omgekeerde waar als α0 > 1/2, maar zulke grote onbetrouwbaarheidsdrempels zijn niet interessant vanuit een praktisch oogpunt.) Dit betekent dat de t-toets, hoewel meest onderscheidend onder de zuivere toetsen, niet de meest onderscheidende toets is onder alle toetsen. Er bestaan niet-zuivere toetsen die in bepaalde alternatieve waarden µ > µ0 een hoger onderscheidend vermogen hebben dan de t-toets. Stelling 7.49. De t-toets is uniform meest onderscheidend onder de zuivere toetsen voor het toetsen van H0 : µ ≤ µ0 tegen H1 : µ > µ0 . Bewijs. Zonder beperking van de algemeenheid veronderstellen we dat µ0 = 0. Immers, als µ0 6= 0, kunnen we de toets baseren op de waarnemingen X1 − µ0 , . . ., Xn − µ0 met verwachting ν = µ − µ0 . De nieuwe, maar equivalente, hypothese wordt dan H0 : ν ≤ 0 tegen H1 : ν > 0. Veronderstel dat ψ een zuivere (lotings)toets is die toelaatbaar is bij onbetrouwbaarheidsdrempel α0 . De zuiverheid impliceert dat het onderscheidend vermogen (µ, σ 2 ) 7→ Eµ,σ2 ψ(X) minstens α0 is op de verzameling parameters {(µ, σ 2 ): µ > 0, σ 2 > 0}, terwijl de toelaatbaarheid impliceert dat deze functie hoogstens α0 is op de verzameling parameters {(µ, σ 2 ): µ ≤ 0, σ 2 > 0}. Vanwege de continu¨ıteit van de normale verdeling in zijn parameters is het onderscheidend vermogen automatisch continu in (µ, σ 2 ) en is het onderscheidend vermogen op de grens tussen de twee bovenstaande parametergebieden, d.w.z. de verzameling parameters {(0, σ 2 ): σ 2 > 0}, precies gelijk aan α0 . We concluderen dat, voor iedere σ 2 > 0, α0 = E0,σ2 ψ(X) = E0,σ2 E0 ψ(X)| X 2 .
De familie kansverdelingen van X = (X1 , . . ., Xn ) met de Xi ’s onafhankelijk en N (0, σ 2 ) verdeeld met σ 2 > 0 is een eendimensionale exponenti¨ele familie, met voldoende en volledige grootheid X 2 . De voldoendheid recht vaardigt dat we de voorwaardelijke verwachting E0 ψ(X)| X 2 alleen door de parameter µ = 0 hebben ge¨ındiceerd, want de voorwaardelijke verdeling van X gegeven X 2 is onafhankelijk van σ 2 . Uit bovenstaande vergelijkingen volgt dat E0,σ2 E0 ψ(X)−α0 | X 2 = 0 voor alle σ 2 > 0. De volledigheid van X 2 impliceert nu dat P(E0 (ψ(X) −
240
7: Optimaliteitstheorie
α0 | X 2 ) = 0) = 1, ofwel dat voor bijna alle y, (7.2) E0 ψ(X)| X 2 = y = α0 .
Met andere woorden, de toets ψ is noodzakelijkerwijze een toets met onbetrouwbaarheid α0 voor het toetsen van H0 : µ = 0 tegen H1 : µ > 0 gebaseerd op een waarneming X uit de voorwaardelijke verdeling van X gegeven X 2 = y, voor iedere y. Beschouw nu een gegeven vaste y en een vaste parameter (µ, σ 2 ) met µ > 0 uit de alternatieve hypothese, en beschouw het probleem van het vinden van een toets die voldoet aan (7.2) en die het voorwaardelijk onderscheidend vermogen Eµ,σ2 ψ(X)| X 2 = y in (µ, σ 2 ) maximaliseert. Op het eerste gezicht zal deze toets afhangen van de gekozen waarden y en (µ, σ 2 ), maar we zullen laten zien dat dit niet het geval is. Omdat Z X2 Eµ,σ2 ψ(X) = Eµ,σ2 ψ(X)| X 2 = y dPµ,σ 2 (y) 2
X 2 onder (µ, σ 2 ), geldt automatisch dat met Pµ,σ 2 de verdelingsfunctie van X de gevonden toets ψ de laatste uitdrukking eveneens maximaliseert over de klasse toetsen die aan (7.2) voldoen. Omdat alle zuivere toetsen voldoen aan (7.2) is de gevonden toets dan uniform meest onderscheidend onder de zuivere toetsen. Om het bewijs van de stelling af te maken is het dus voldoende te laten zien dat voor iedere y de toets die Eµ,σ2 ψ(X)| X 2 = y maximaliseert over alle toetsen die voldoen aan (7.2) niet van y afhangt en precies de t-toets is. We zullen dit doen door gebruikmaking van Stelling 7.44. Omdat het paar (X, X 2 ) voldoende is, mogen we zonder verlies van de algemeenheid aannemen dat de toets ψ slechts van dit paar afhangt. Voor een vaste waarde van X 2 = y is de toets ψ dan een functie van X alleen. We tonen nu aan dat de voorwaardelijke verdeling van X gegeven X 2 = y de vorm van een exponenti¨ele familie van kansverdelingen aanneemt. 2 Volgens Stelling 5.25 zijn X en SX onafhankelijke, continu verdeelde 2 2 /n+X ) variabelen. De kansdichtheid van het paar (X, X 2 ) = (X, (n−1)SX vinden we met behulp van de transformatiestelling uit de kansrekening als x−µ 2 2 (X,(n−1)SX /n /n) (n−1)SX (X,X 2 ) √ pσ (y − x2 ). (x, y − x2 ) = φ pµ,σ2 (x, y) = pµ,σ2 σ/ n
Als functie van x, voor vaste y, is deze uitdrukking proportioneel aan de voorwaardelijke dichtheid van X gegeven X 2 = y. Alleen de eerste van de twee termen van het product aan de rechterkant bevat de parameter µ en deze term kan worden gefactoriseerd als exp(nµx/σ 2 ) exp(−nµ2 /2σ 2 ) vermenigvuldigd met een functie die niet van µ afhangt. We concluderen hieruit dat, voor vaste y en σ 2 , de familie van voorwaardelijke verdelingen van X gegeven X 2 = y met parameter µ een eendimensionale exponenti¨ele
7: Opgaven
241
familie vormt, met voldoende grootheid X en natuurlijke parameter Q(µ) = nµ/σ 2 . Volgens Stelling 7.44 verwerpt de uniform meest onderscheidende toets voor het toetsen van H0 : µ ≤ 0 tegen H1 : µ > 0 in deze exponenti¨ele familie voor waarden van X groter dan een bepaalde kritieke waarde cα0 (y, σ 2 ), die in de huidige opzet wel van y en σ 2 kan afhangen. Omp dat de functie x 7→ x/ y − x2 monotoon stijgend in x is (op het interval √ √ [− y, y]) is deze toets equivalent aan verwerpen voor grote waarden van √ √ 2 nX/SX = nX/(y − X )1/2 als X 2 = y. De kritieke waarde dient te worden gekozen zodanig dat de onbetrouwbaarheid van de toets gelijk is aan verworpen als √ α0 . In de huidige2 situatie betekent dit dat H0 wordt nX/SX ≥ dα0 (y, σ √ ), voor de kritieke waarde dα0 (y, σ 2 ) bepaald door de vergelijking P0,σ2 nX/SX ≥ dα0 (y, σ 2 )| X 2 = y = α0 . Als laatste bewijzen we dat dα0 (y, σ 2 ) = tn−1,1−α0 .√ Omdat onder µ = 0 de grootheid nX/SX een tn−1 -verdeling bezit, is het voldoende te bewijzen dat X/SX en X 2 onafhankelijk zijn. Dit is een gevolg van Stelling van Basu. Stelling 7.50 (Stelling van Basu). Als V = V (X) voldoende en volledig is en T = T (X) is een statistiek waarvan de verdeling niet afhangt van de parameter, dan zijn V en T stochastisch onafhankelijk. Bewijs. Voor iedere gebeurtenis B geldt dat P(T ∈ B) = Eθ P(T ∈ B| V ) niet afhankelijk is van de parameter. Vanwege de voldoendheid van V is de voorwaardelijke kans P(T ∈ B| V ) evenmin afhankelijk van de parameter. De volledigheid van V impliceert vervolgens dat P(T ∈ B| V ) = P(T ∈ B) met kans 1. Dit impliceert dat T en V onafhankelijk zijn.
Opgaven 1. Zij X1 , . . ., Xn een aselecte steekproef uit de exponenti¨ele verdeling met onbekende parameter λ > 0. Bepaal een voldoende statistische grootheid. 2. Zij X1 , . . ., Xn een aselecte steekproef uit de Poisson-verdeling met onbekende parameter θ > 0. Bepaal een voldoende statistische grootheid. 3. Zij X1 , . . ., Xn een aselecte steekproef uit een verdeling met kansdichtheid pθ (x) = θxθ−1 1(0,1) (x). Hierin is θ > 0 een onbekende parameter. Bepaal een voldoende statistische grootheid. 4. Zij X1 , . . ., Xn een aselecte steekproef uit de homogene verdeling op [θ1 , θ2 ]. Hierin is θ = (θ1 , θ2 ) een onbekende parameter. Toon aan dat (X(1) , X(n) ) een voldoende statistische vector is.
242
7: Optimaliteitstheorie
5. Zij X1 , . . ., Xn een aselecte steekproef uit de N (θ, θ 2 ) verdeling. Hierin is θ > 0 een onbekende parameter. Bepaal een voldoende tweedimensionale vector. 6. Zij X1 , . . ., Xn een aselecte steekproef uit een verdeling met kansdichtheid pλ,µ (x) = λx−λ(x−µ) 1{x>µ} . Hierin zijn λ > 0 en µ ∈ R onbekende parameters. Bepaal een voldoende statistische vector. 7. Laat zien: als V voldoende is, dan hangt de maximum likelihood-schatter (gebaseerd op X) alleen af van V . 8. Laat zien: als V voldoende is, dan hangt de Bayes-schatter (gebaseerd op X relatief ten opzichte van een gegeven a priori verdeling) alleen af van V . 9. Laat zien: als V voldoende is, dan hangt de likelihood-ratiostatistiek (gebaseerd op X) alleen af van V . 10. Veronderstel dat X = (X1 , . . ., Xn ) een steekproef is uit een verdeling met dichtheid pθ met θ onbekend, dat U een volledige statistiek is en dat T een minimaal voldoende statistiek is. Laat zien dat U tevens minimaal voldoende is. [Hint: Geef een bewijs uit het ongerijmde. Stel dat U niet minimaal voldoende is, dan bestaat er een functie ψ waarvoor geldt dat Pθ (ψ(U ) 6= E[ψ(U )|T ]) > 0.] 11. Vormt de familie van geometrische verdelingen met parameter p een exponenti¨ele familie? 12. Onderzoek of de familie van multinomiale kansverdelingen met parameters n en p een exponentı¨ele familie vormt voor n vast. 13. Zij X1 , . . ., Xn een steekproef uit de exponenti¨ele-verdeling met parameter λ. Bepaal een UMVZ-schatter voor 1/λ. 14. Vind een UMVZ-schatter voor p2 op basis van een bin(n, p)-waarneming X (n ≥ 2, 0 ≤ p ≤ 1).
15. Vind een UMVZ-schatter voor µ2 op basis van een steekproef X1 , . . ., Xn uit de N (µ, σ 2 )-verdeling. 16. Zij X1 , . . ., Xn een steekproef uit de Poisson-verdeling met parameter θ. Bepaal een UMVZ-schatter voor θ 2 .
17. Zij X1 , . . ., Xn een steekproef uit de kansverdeling met dichtheid pθ (x) = θx−2 1{x>θ} . Hierin is θ > 0 een onbekende parameter. (i) Bepaal een voldoende en volledige statistiek. (ii) Bepaal een UMVZ-schatter voor θ. 18. Zij X1 , . . ., Xn een steekproef uit de homogene verdeling op [0, θ]. Bepaal een UMVZ-schatter voor θ 2 . 19. Zij X1 , . . ., Xn een steekproef uit de B`eta-verdeling, met dichtheid pα,β (x) = B(α, β)−1 xα−1 (1 − x)β−1 1{0<x<1} . (i) Vormt de familie van kansverdeling van X = (X1 , . . ., Xn ) een exponenti¨ele familie?
7: Opgaven
243
(ii) Bepaal een voldoende en volledige statistiek. (iii) Bepaal een UMVZ-schatter voor Eα,β log X1 . 20. Veronderstel dat X1 , . . ., Xm en Y1 , . . ., Yn onafhankelijke steekproeven zijn uit de alternatieve verdelingen met parameters p1 , respectievelijk p2 . Hierin zijn p1 en p2 onbekende parameters in [0, 1]. Bepaal een UMVZ-schatter voor p1 − p2 . 21. Veronderstel dat X1 , . . ., Xn een steekproef is uit de N (µ, σ 2 )-verdeling, met σ 2 bekend en µ ∈ R onbekend. (i) Laat zien dat X voldoende en volledig is. 2 (ii) Laat zien dat (X, SX ) niet volledig is. 22. Zij X1 , . . ., Xn een steekproef uit de hom[−θ, θ]-verdeling. (i) Laat zien dat (X(1) , X(n) ) voldoende is. (ii) Laat zien dat (X(1) , X(n) ) niet volledig is. (iii) Onderzoek of (X(1) , X(n) ) minimaal voldoende is. 23. Veronderstel dat X1 , . . ., Xn een steekproef is uit de kansverdeling met Pθ (Xi = x) = 2−x/θ voor x = θ, θ + 1, θ + 2, . . .. Hierin is θ > 0 een onbekende parameter. (i) Bepaal een voldoende statistiek. (ii) Onderzoek of de familie kansverdelingen van (X1 , . . ., Xn ) een exponenti¨ele familie vormt. 24. Zij X1 , . . ., Xm een aselecte steekproef uit een N (µ, σ 2 )-verdeling en Y1 , . . ., Yn een daarvan onafhankelijke steekproef uit een N (µ, τ 2 )-verdeling, waarbij µ, σ 2 en τ 2 onbekend zijn. (i) Toon aan dat voor iedere α ∈ R de schatter αX + (1 − α)Y een zuivere schatter is voor µ. 2 (ii) De vector (X, Y , SX , SY2 ) is voldoende en 21 X + 21 Y is een zuivere schatter voor µ. Volgt op grond van Stellingen 7.18 en 7.21 dat deze schatter UMVZ is? (iii) Bepaal die α waarvoor de variantie van de gegeven schatter zo klein mogelijk is. (iv) Is de situatie verschillend als we σ 2 en τ 2 a priori gelijk veronderstellen? 25. Vind de Cram´er-Rao-ondergrens voor de variantie van zuivere schatters van θ gebaseerd op een steekproef uit de Poisson(θ)-verdeling. Is de grens scherp? 26. Veronderstel dat Y1 , . . ., Yn onderling onafhankelijk zijn en Yi bezit een N (xi θ, 1)-verdeling voor bekende constanten x1 , . . ., xn . (i) Bepaal de Fisher-informatie voor θ in Yi . (ii) Bepaal de Fisher-informatie voor θ in (Y1 , . . ., Yn ). (iii) Bepaal de Cram´er-Rao-ondergrens voor het schatten van θ. (iv) Is deze ondergrens scherp? 27. Zij X1 , . . ., Xn een steekproef uit de N (θ, θ)-verdeling met θ > √ 0 onbekend. Bepaal de Cram´er-Rao-ondergrens voor het schatten van g(θ) = θ. 28. Zij X1 , . . ., Xn een steekproef uit de exponenti¨ele verdeling met onbekende parameter λ > 0. (i) Bepaal de Cram´er-Rao-ondergrens voor het schatten van g(λ) = 1/λ. (ii) Laat zien dat deze grens in dit geval scherp is.
244
7: Optimaliteitstheorie
29. Zij X1 , . . ., Xn een steekproef uit de Gamma-verdeling met parameters k en λ. Hierin is k bekend en λ > 0 onbekend. (i) Bepaal de Cram´er-Rao-ondergrens voor het schatten van g(λ) = 1/λ. (ii) Laat zien dat deze grens in dit geval scherp is. 30. Veronderstel dat X1 , . . ., Xn een steekproef is uit een kansdichtheid pθ die tot een exponenti¨ele familie behoort. Laat zien dat de familie kansverdelingen van X = (X1 , . . ., Xn ) ook tot een exponenti¨ele familie behoort. 31. Veronderstel dat X1 , . . ., Xn een aselecte steekproef is uit een kansverdeling met dichtheid pθ (x) = θ exp x − θ(ex − 1) , voor x > 0 en 0 anders en met θ een onbekende parameter is. (i) Bepaal een meest onderscheidende toets voor H0 : θ = 1 tegen H1 : θ = 2 bij onbetrouwbaarheidsdrempel α0 = 0.05. (ii) Bepaal een meest onderscheidende toets voor H0 : θ = 1 tegen H1 : θ = 3 bij onbetrouwbaarheidsdrempel α0 = 0.05
32. Zij X1 , . . ., Xn een aselecte steekproef uit een kansverdeling met dichtheid pθ (x) = 2θ 2 x−3 1x>θ , waarin θ > 0 een onbekende parameter is. (i) Bepaal een meest onderscheidende toets voor H0 : θ = 1 tegen H1 : θ = 2 bij onbetrouwbaarheidsdrempel α0 = 0.05. (ii) Bepaal een meest onderscheidende toets voor H0 : θ = 1 tegen H1 : θ = 1/2 bij onbetrouwbaarheidsdrempel α0 = 0.05. 33. Zij X1 , . . ., Xn een aselecte steekproef uit een discrete kansverdeling met kansdichtheid pθ (x) = 1/θ als x ∈ {1, 2, . . ., θ}, voor θ ∈ N. (i) Bepaal een meest onderscheidende toets voor H0 : θ = 2 tegen H1 : θ = 3 bij onbetrouwbaarheidsdrempel α0 = 0.05. (ii) Bepaal een uniform meest onderscheidende toets voor H0 : θ = 2 tegen H1 : θ > 2 bij onbetrouwbaarheidsdrempel α0 = 0.05. 34. Veronderstel dat X1 , . . ., Xm normaal N (µ, 1) verdeeld zijn, en Y1 , . . ., Yn normaal N (ν, 1) verdeeld zijn en dat alle stochastische grootheden onafhankelijk zijn. Zij µ1 > ν1 en zij ξ0 = mµ1 /(m + n) + nν1 /(m + n). (i) Bepaal de meest onderscheidende toets voor de nulhypothese H0 : µ = ν = ξ0 tegen H1 : µ = µ1 , ν = ν1 bij onbetrouwbaarheidsdrempel α0 . (ii) Bepaal een uniform meest onderscheidende toets voor de nulhypothese H0 : µ ≤ ν tegen H1 : µ > ν bij onbetrouwbaarheidsdrempel α0 . 35. Zij X hypergeometrisch verdeeld met parameters m, r en N . We willen toetsen H0 : r ≤ r0 tegen H1 : r > r0 . Definieer pr (x) = P (X = x). (i) Laat zien dat voor r1 > r0 het quoti¨ent pr1 /pr0 een stijgende functie is van x. (ii) Bepaal een uniform meest onderscheidende toets voor bovenstaand toetsingsprobleem. 36. Veronderstel dat X1 , . . ., Xn de inkomens zijn van n personen aselect gekozen uit een zekere populatie. Veronderstel dat Xi een Pareto-verdeling volgt, d.w.z.
7: Opgaven
245
Xi heeft kansdichtheid pθ (x) = cθ θx−(1+θ) 1{x>c} , waarbij θ > 1 en c > 0. We veronderstellen c bekend en θ onbekend. (i) Druk de verwachting µ van Xi uit in θ (en c) (ii) Bepaal een uniform meest onderscheidende toets voor H0 : µ ≤ µ0 tegen H1 : µ > µ0 bij onbetrouwbaarheidsdrempel α0 .
HOOGWATER IN LIMBURG
1000
1200
1400
1600
1800
Figuur 7.1 toont de waterdoorvoer (in m3 /s) in de Maas bij Borgharen gedurende een periode van 15 opeenvolgende dagen in December 1965. In de 20e eeuw is de waterdoorvoer in totaal 70 keer boven het niveau 1250 m 3 /s uitgekomen, en van ieder van de 70 keer is het patroon van de waterdoorvoer (zoals in Figuur 7.1) over de tijd bekend. De vorm van de extreme pieken is van belang voor de gevolgen van de hoge waterdoorvoer. Een langdurige hoge doorvoer betekent bijvoorbeeld een langdurige blootstelling van de dijken aan hoogwater, met saturatie als gevolg, en een grotere kans op doorbraak of overstroming. We zullen ons hier echter beperken tot een analyse van de maxima van de golven. Het maximum van de golf in Figuur 7.1 is 1892.
2
Figuur 7.1. December 1965.
4
6
8
10
12
14
Waterdoorvoeren (in m3 /s) in Borgharen op 15 opeenvolgende dagen in
De 70 waargenomen maxima zijn weergegeven in Figuur 2.4 in de volgorde waarin ze zijn opgetreden, en Figuur 7.2 geeft een histogram van de maximum doorvoeren. Het histogram laat een aantal extreem grote waarden zien. Zoals uit Voorbeeld 2.8 blijkt, zijn we zeer ge¨ınteresseerd in de kans op het optreden van nog extremere maxima. Om enig houvast bij de analyse te hebben, zullen we als werkhypothese aannemen dat de 70 waargenomen maximum doorvoeren kunnen worden opgevat als realisaties van onderling onafhankelijke, identiek verdeelde stochastische grootheden. Deze werkhypothese is zeker aanvechtbaar. Omdat de hoge waterdoorvoeren gescheiden in de tijd plaatsvinden, vaak in verschillende jaren, is de onafhankelijkheid van de maxima niet onredelijk. Een zekere trend in de tijd, met bijvoorbeeld een langzaam veranderende verdeling voor de maxima, kan echter niet worden uitgesloten. We kunnen hierbij denken aan een klimaateffect, maar vooral ook aan het effect van toenemende kanalisering en bouwactiviteiten langs de Maas, die de loop van
247
0
5
10
15
20
25
7: Hoogwater in Limburg
1500
2000
2500
3000
Figuur 7.2. Maximum waterdoorvoeren boven 1250 m3 /s in Borgharen in de twintigste eeuw.
deze rivier hebben be¨ınvloed. Tot op zekere hoogte kunnen we een tijdseffect in de data onderzoeken. We komen hier later op terug. Voor het vinden van een passende kansverdeling voor de maximum doorvoeren kunnen we als uitgangspunt een theoretisch resultaat uit de kansrekening gebruiken. Deze enigszins verrassende stelling geeft een benadering voor de verdeling van een maximum max(Y1 , . . ., Ym ) van een groot aantal onafhankelijke identiek verdeelde stochastische grootheden Y i . Omdat ieder van de 70 maximum waterdoorvoeren het maximum is van een patroon van hoge waterdoorvoeren als in Figuur 7.1, is het niet geheel onredelijk de maximum waterdoorvoeren te beschouwen als maxima van minder extreme doorvoeren. Stelling 7.51. Veronderstel dat voor zekere getallen am en bm en onafhankelijke, identiek verdeelde grootheden Y1 , Y2 , . . . geldt dat, voor een zekere verdelingsfunctie G, x ∈ R. lim P am max(Y1 , . . ., Ym ) − bm ≤ x = G(x), m→∞
Dan geldt dat G tot de locatie-schaal familie behoort van ´e´en van de volgende drie typen verdelingen: −x (i) Gumbel: G(x) = e−e −(1/xα ) (ii) Fr´echet: G(x) = e 1{x>0} , voor α > 0 α (iii) Negatief Weibull: G(x) = e−(−x) 1{x<0} + 1{x≥0} , voor α > 0. Deze stelling is een wiskundig limietresultaat, en is zeker geen afdoende aanwijzing dat de maximum waterdoorvoeren volgens ´e´en van de gegeven verdelingen moeten zijn gegenereerd. We kunnen de stelling echter wel als motivatie gebruiken om de passendheid van de drie typen verdelingen voor de doorvoeren te onderzoeken.
248
7: Optimaliteitstheorie
De drie families extreme waardenverdelingen kunnen formeel worden gezien als ´e´en familie met een parameter ξ ∈ R. De verdelingsfunctie van deze familie is Gµ,σ,ξ (x) = e−(1+ξ(x−µ)/σ)
−1/ξ
11+ξ(x−µ)/σ>0 .
De limiet voor ξ → 0 correspondeert met de Gumbel-verdeling, ξ > 0 met de Fr´echet-verdelingen en ξ < 0 met de negatief Weibull-verdelingen. De parameter α in de laatste twee verdelingen komt overeen met 1/ξ. Afgezien van de onbekende locatie- en schaalparameter is ook de parameter α voor de tweede en derde familie onbekend. Voor een onderzoek van de passendheid van ´e´en van deze families door middel van een QQ-plot zouden we derhalve voor iedere waarde van α een QQ-plot moeten maken. Figuur 7.3 toont een aantal van deze QQ-plots. Het is duidelijk uit deze figuren dat de negatief Weibull-verdelingen (type (iii)) niet goed passen. Een Gumbel-verdeling (type (i)) of een Fr´echet-verdeling met grote waarde van α (in de range 4 tot 10) lijkt wel redelijk bij de data te passen. De onderste rij van Figuur 7.3 geeft QQ-plots tegen standaard (niet-extreme waarden) verdelingen. We kunnen concluderen dat ook een exponenti¨ele of andere Gamma-verdeling met een kleine vormparameter niet a priori uitgesloten hoeft te worden. We kiezen hier voor een Fr´echet-verdeling.
-5
-4
-3
-2
-1
0
2500 1500
2000
2500 2000 1500
1500
2000
2500
3000
gumbel
3000
neg weibull 4
3000
neg weibull 1
-1.4
-1.2
-1.0
-0.8
-0.6
-0.4
-1
1.4
1.6
2.5
3.0
3.5
0
2
4
8
10
12
3000 1500
2000
2500
3000 2000 2
6
exponentieel
1500 1
5
3000 2.0
2500
3000 2500 2000
0
4
2000 1.5
gamma 3
1500
-1
3
1500 1.0
normaal
-2
2
2500
3000 2500 1500 1.2
1
frechet 2
2000
2500 2000 1500
1.0
0
frechet 4
3000
frechet 10
2
4
6
8
0
1
2
3
4
5
Figuur 7.3. QQ-plots van de maximum doorvoeren tegen een selectie van verdelingen.
Een volgende stap in de analyse is om de onbekende parameters te schatten. De Fr´echet-familie heeft drie onbekende parameters, namelijk de
7: Hoogwater in Limburg
249
vormparameter α, locatie en schaal. We kunnen deze drie parameters schatten met de maximum likelihood-methode, onder de aanname dat de maxima onderling onafhankelijk zijn. De likelihood-functie, met µ en σ de locatieen schaalparameter, voor de Fr´echet-familie is: (µ, σ, α) 7→
n Y
−α σα α e−((Xi −µ)/σ) 1{X(1) >µ} . α+1 (X − µ) i i=1
Het vinden van het punt van maximum van deze functie vereist een numerieke optimalisatiemethode, zoals de Newton-Raphson (of Fisherscoring) methode. De resultaten zijn weergegeven in Tabel 7.1.
$par.ests: xi sigma mu 0.2547994 841.5019 688.243
$par.ses: xi sigma mu 0.1067921 134.9498 358.8003 $varcov: [,1]
[,2]
[,3]
0.01140456
-10.27103
37.34548
[2,] -10.27102594 18211.43840 [3,] 37.34547593 -40949.98636
-40949.98636 128737.68042
[1,]
$converged: [1] T $nllh.final: [1] 496.5184
Tabel 7.1. Parameterschattingen voor het fitten van een extreme waardenverdeling aan de maximum waterdoorvoeren. De parameter xi is gelijk aan 1/α. De getallen onder par.ses zijn de standaardfouten behorend bij de schattingen.
De standaardfout 0.10 bij de schatting ξˆ = 0.25 interpreteren we als een benaderend betrouwbaarheidsinterval ξ = 0.25 ± 2 ∗ 0.10. De Gumbelverdeling met ξ = 0 en de negatief Weibull-verdelingen met ξ < 0 lijken dus niet in aanmerking te komen. Gegeven de schatting ξˆ = 1/ˆ α = 0.25 kunnen we onze interpretatie van de QQ-plots uit Figuur 7.3 controleren. QQ-plots van enkele steekproeven ter grootte 70 uit de Fr´echet-verdeling met vormparameter ξ = 0.25 worden
250
7: Optimaliteitstheorie
2.0 1.0
1.0
1.0
1.5
2.0
2.0
2.5
3.0
3.0
3.0
gegeven in Figuur 7.4 tezamen met de QQ-plot van de data. Deze laatste QQ-plot is dezelfde als “frechet 4” in Figuur 7.3. Omdat de vorm van de QQ-plot van de data niet afwijkt van de andere QQ-plots, is de aanname van een Fr´echet-verdeling zeker verenigbaar met de QQ-plots. Eventueel zouden we de aanname van een Fr´echet-verdeling nog verder kunnen bevestigen door middel van een aanpassingstoets.
2.0
2.5
3.0
3.5
1.0
1.5
2.0
2.5
3.0
3.5
1.0
1.5
2.0
2.5
3.0
3.5
1.0
1.5
2.0
2.5
3.0
3.5
1.5
2.0
2.5
3.0
3.5
1.0
1.5
2.0
2.5
3.0
3.5
2500
1.0
1500
1.5
2000
2.0
3.0 2.0 1.0
1.0
3000
1.5
2.5
1.0
Figuur 7.4. QQ-plot van 5 steekproeven gesimuleerd uit de Fr´ echet-verdeling met vormparameter ξ = 0.25 en de maximum doorvoeren (rechtsonder) tegen de kwantielen van de Fr´ echet-verdeling met vormparameter ξ = 0.25.
Veronderstel dat we ge¨ınteresseerd zijn in de drempel h zodanig dat de kans dat een maximum doorvoer X groter dan of gelijk is aan h, gelijk is aan p. Als X Fr´echet-verdeeld is, dan leidt dit tot de vergelijking 1 − exp −((h − µ)/σ)−α = p, ofwel h=µ+
σ . (− log(1 − p))ξ
De maximum likelihood-schatter voor h wordt verkregen door de onbekenden µ, σ en ξ door hun maximum likelihood-schatters te vervangen. Voor ˆ = 9483, een waarde die (uiteraard) p = 0.0001 levert dit bijvoorbeeld h ver boven de gemeten maxima ligt. De aanname van een Fr´echet-verdeling speelt een essenti¨ele rol voor het extrapoleren van de data naar veel extremere waarden. De standaardfout van de schatter voor h kan op grond van de getallen in Tabel 7.1 met behulp van de zogenaamde Delta-methode worden benaderd. (Een alternatief is de berekening van de profile likelihood ˆ − h wordt dan lineair benaderd als functie van de voor h.) Het verschil h verschillen µ ˆ − µ, σ ˆ − σ en ξˆ − ξ, dat wil zeggen ˆ−h≈µ h ˆ−µ+
σ log(− log(1 − p)) ˆ 1 (ˆ σ − σ) − (ξ − ξ). (− log(1 − p))ξ (− log(1 − p))ξ
7: Hoogwater in Limburg
251
De constanten waarmee de drie verschillen worden vermenigvuldigd zijn de drie parti¨ele afgeleiden van h gezien als functie h = h(µ, σ, ξ) van de drie parameters. We berekenen nu een benadering voor de standaardfout van ˆ h door de variantie van het linkerlid uit te drukken in de covarianties van de verschillen in het rechterlid, welke (bij benadering) worden gegeven in de uitvoer $varcov van Tabel 7.1. De nog resterende onbekende waarden van ξ en σ in de multiplicatieve constanten vervangen we door hun schattingen ξˆ en σ ˆ . Dit geeft de standaardfout 3512, en dus een betrouwbaarheidsinterval van de vorm h = 9483 ± 1.96 ∗ 3512 voor h. Het interval is extreem breed, hetgeen aangeeft dat het zeer moeilijk is om op een betrouwbare wijze zover in de toekomst te extrapoleren. De interpretatie van dit interval is dat, als de aanname van een Fr´echet-verdeling correct is, en we zouden het hele experiment van meten van waterdoorvoeren onder dezelfde omstandigheden 100 keer herhalen en steeds het betrouwbaarheidsinterval op bovenstaande wijze berekenen, dan zouden ongeveer 95 van de 100 intervallen de gevraagde drempel h inderdaad bevatten. Het “herhalen” is in dit geval een zuiver gedachtenexperiment. De beperking dat de “Fr´echet-verdeling correct is” is belangrijk, want het betrouwbaarheidsinterval geeft geen enkele controle over een mogelijke systematische fout in onze analyse. Voor een dergelijke systematische fout zijn helaas wel argumenten aan te voeren. Met “correctheid” van de Fr´echet-verdeling in het voorgaande bedoelen we dat de maximum doorvoeren kunnen worden opgevat als een steekproef uit een extreme waardenverdeling. Op grond van onze eerdere analyses is de extreme waarden aanname niet onredelijk, mits we de data inderdaad als een (aselecte) steekproef uit een verdeling kunnen opvatten. In het bijzonder zou geen tijdsafhankelijkheid in de data mogen bestaan, een afhankelijkheid die voor dit type data goed denkbaar is. We denken hierbij vooral aan een trend in de tijd. Stochastische afhankelijkheid tussen opeenvolgende jaren lijkt minder voor de hand te liggen. Enerzijds zijn de 70 maxima tamelijk homogeen verspreid over de eeuw. Anderzijds suggereren ook plots van de steekproef auto-correlatiefunctie geen afhankelijkheden (zie Figuur 7.5). Een trend in de data wordt gesuggereerd in Figuur 7.6, waarin de maximum doorvoeren in de tijd zijn uitgezet, met zowel de best passende (kleinste kwadraten) lineaire functie als het voortschrijdend gemiddelde (gemiddeld over periodes van 10 jaar). Het voortschrijdend gemiddelde geeft voor ieder jaar het gemiddelde over de voorgaande 10 jaar. Het lijkt alsof de maxima in de loop van de eeuw enigszins zijn gestegen. We kunnen deze hypothese bijvoorbeeld onderzoeken door middel van een trendtoets, waarvan de toetsingsgrootheid gelijk is aan het aantal indices i zodanig dat het maximum op tijdstip i groter is dan het maximum op tijdstip i−1. Bij een strikt stijgende trend zou dit aantal gelijk zijn aan 69, terwijl voor een aselecte steekproef het aantal gelijk zou zijn aan het aantal stijgingen in een random permutatie
252
7: Optimaliteitstheorie
0.0
0.2
ACF 0.4
0.6
0.8
1.0
Series : log(maxima)^(-0.25)
-0.2
-0.2
0.0
0.2
ACF 0.4
0.6
0.8
1.0
Series : log(maxima)
0
5
10
15
0
5
10
Lag
15
Lag
1500
2000
2500
3000
Figuur 7.5. Steekproef auto-correlatiefuncties van twee transformaties van de maximum doorvoeren.
20
40
60
80
100
Figuur 7.6. Maximum doorvoeren uitgezet als functie in de tijd, tezamen met de best passende lineaire functie en een voortschrijdend gemiddelde (gemiddeld over periodes van 10 jaar).
van de indices 1, . . ., 70. Het waargenomen aantal stijgingen van 31 bevestigt de indruk van een trend niet. Dit aantal is zelfs zeer gering (rechter overschrijdingskans ongeveer 89 %). Een andere mogelijke toets, met een hoger onderscheidend vermogen, is een tweesteekproeventoets met de eerste helft van de maxima als eerste steekproef en de tweede helft als tweede steekproef. Omdat de maxima duidelijk niet normaal verdeeld zijn, gebruiken we de Wilcoxon-toets. De tweezijdige toets geeft een p-waarde van 3%, hetgeen het vermoeden bevestigt dat van een verandering in de tijd sprake zou kunnen zijn. Het verschil in mediaan van de twee steekproeven is 158. Boxplots van de twee halve steekproeven
7: Hoogwater in Limburg
253
1500
2000
2500
3000
bevestigen het beeld van de verschuiving (Figuur 7.7), alhoewel ook sprake is van een grote overlap tussen de twee steekproeven.
Figuur 7.7. Boxplots van de eerste, respectievelijk, tweede 35 maximum waterdoorvoeren.
1500
2000
2500
3000
Indien met een verandering in de tijd rekening moet worden gehouden, dan is het ook mogelijk dat de vorm van de verdeling in de loop der tijd is veranderd. Een empirische QQ-plot, waarin de ordestatististieken van de eerste helft van de waarnemingen zijn uitgezet tegen de ordestatistieken van de tweede helft, geeft een aanwijzing voor een mogelijk verschil in verdeling tussen de twee helften. Op het eerste gezicht lijkt Figuur 7.8 inderdaad op een verschil te duiden. Echter deze figuur is misleidend, zoals gesimuleerde data (Figuur 7.9) laten zien. De QQ-plot in Figuur 7.8 wijkt niet essenti¨eel af van de QQ-plots in Figuur 7.9, waarvoor de twee gesimuleerde steekproeven (ter grootte 35) steeds beide uit dezelfde Fr´echet-verdeling zijn gesimuleerd.
1500
2000
2500
3000
Figuur 7.8. Empirische QQ-plot van de eerste 35 maximum doorvoeren tegen de tweede 35 doorvoeren.
254
1.5 1.0
1
1.0
2
1.5
3
4
2.0
5
2.5
6
2.0
3.0
7: Optimaliteitstheorie
1.5
2.0
2.5
1.0
1.5
2.0
1.0
1.5
2.0
2.5
1
1.0
2
2
1.5
3
4
2.0
4
2.5
6
5
3.0
6
8
1.0
0.8
1.0
1.2
1.4
1.6
1.8
2.0
2.2
1.0
1.5
2.0
2.5
3.0
1.0
1.5
2.0
2.5
Figuur 7.9. Empirische QQ-plots van zes onafhankelijke gegenereerde paren van onafhankelijke steekproeven ter grootte 35 uit de Fr´ echet-verdeling met parameter 0.25.
Het idee dat de eerste helft en de tweede helft van de maxima in verdeling zouden kunnen verschillen, kunnen we ook binnen de context van het Fr´echet-model toepassen, door de parameters van dit model afzonderlijk voor de twee helften te schatten. De resultaten worden weergegeven in Tabellen 7.2 en 7.3. De schattingen verschillen aanzienlijk, maar niet alle verschillen zijn statistisch significant. Bij dit laatste moet worden bedacht, dat de schattingen gebaseerd zijn op slechts 35 waarnemingen en daarom relatief grote onbetrouwbaarheidsmarges bezitten. De betrouwbaarheidsintervallen voor µ zijn bijvoorbeeld µ1 = 1224 ± 2 ∗ 107 en µ2 = −652 ± 2 ∗ 2789, en overlappen elkaar. $par.ests: xi
sigma
mu
0.5071954 247.5221 1224.711 $par.ses: xi
sigma
mu
0.2202697 77.24913 107.5586
Tabel 7.2. Parameterschattingen en standaardfouten voor het fitten van een extreme waardenverdeling aan de eerste 35 maximum doorvoeren.
7: Hoogwater in Limburg
255
$par.ests: xi
sigma
mu
0.1280529 2253.632 -652.592 $par.ses: xi sigma mu 0.1539483 544.23 2789.63
Tabel 7.3. Parameterschattingen en standaardfouten voor het fitten van een extreme waardenverdeling aan de tweede 35 maximum doorvoeren.
Om te zien hoe eventuele verschillen doorwerken in de schatting van de drempel h, kunnen we deze drempel afzonderlijk schatten gebaseerd op de eerste en tweede helft van de data, volgens dezelfde methode als eerder toegepast op de volledige data. Dit geeft de twee betrouwbaarheidsintervallen 27672 ± 1.96 ∗ 12838 en 6677 ± 1.96 ∗ 6357. Het interval gebaseerd op de eerste helft van de data heeft een breedte van ongeveer 50000 en is dus buitengewoon onnauwkeurig. De verschillen in de twee puntschattingen voor h onderling en met de schatting gebaseerd op de volledige data behoeven we dus niet al te serieus te nemen.
8 Regressiemodellen
Het woord regressie heeft in het hedendaagse taalgebruik een negatieve lading, hoewel het in de statistiek de standaard aanduiding is voor het verklaren van een variabele Y met behulp van een variabele X. Een afhankelijke variabele Y wordt “teruggebracht” op een verklarende variabele X, die in deze context ook wel de onafhankelijke variabele wordt genoemd. Een greep uit de vele voorbeelden van toepassingen is: - het voorspellen van de opbrengst van een biochemisch proces als functie van temperatuur, hoeveelheid katalysator, etc. - het voorspellen van de prijs van onroerend goed als functie van grootte, ligging, aanwezige infrastructuur, etc. - het voorspellen van resterende levensduur als functie van leeftijd, sekse, zwaarte van een medische ingreep, gezondheidsindicatoren, etc. - het voorspellen van de respons op een mailing als functie van postcode, opleidingsniveau, inkomen, etc. - het voorspellen van het nationaal product uit macro-economische variabelen als beroepsbevolking, rentestand, begrotingstekort, inflatie, etc. - het voorspellen van studieduur als functie van eindexamencijfer, studieprofiel, etc. - het voorspellen van de eindlengte van een kind op basis van de lengte van de ouders en het geslacht van het kind - het voorspellen van een aandeelprijs over 10 dagen uit de aandeelkoers van vandaag, gisteren, etc. Omdat de verklarende variabele X op vele wijzen invloed kan hebben op de afhankelijke variabele Y en de kansverdeling van Y niet voor elke toepassing dezelfde zal zijn, bestaan verschillende soorten regressiemodellen. Paragrafen 8.1, 8.2 en 8.3 behandelen de meest gebruikelijke regressiemodellen, waarin de variabele Y een re¨eelwaardige stochastische grootheid is. De Paragrafen 8.4 en 8.5 beschrijven, daarentegen, modellen voor toepassingen specifiek in de classificatie (Y is een 0-1 variabele) en de levensduuranalyse
8: Regressiemodellen
257
(Y is een levensduur). Alle genoemde toepassingen hebben gemeen dat geen perfecte relatie tussen de variabelen X en Y bestaat, hoewel we wel een zeker verband verwachten. We verwachten bijvoorbeeld dat de grootte en de leeftijd van een pand, de ligging en mogelijk nog andere factoren, de prijs van het pand zullen be¨ınvloeden, maar het zal in het algemeen niet mogelijk zijn de prijs perfect te voorspellen uit een aantal van zulke indicatoren. Dit zou te wijten kunnen zijn aan een gebrek aan informatie (sommige relevante variabelen zijn nog onbekend), of aan toevallige factoren. In beide gevallen is het niet onredelijk om (x, y) te beschouwen als realisatie van een stochastische vector (X, Y ). Het verband tussen x en y kunnen we vervolgens onderzoeken middels de kansverdeling van de vector (X, Y ). Daarbij zijn we vooral ge¨ınteresseerd in de voorwaardelijke verdeling van Y gegeven X = x, en minder in de marginale verdeling van X. In sommige gevallen is de waarde van de verklarende variabele X onder controle. Bijvoorbeeld, bij het bepalen van optimale productieomstandigheden worden de verschillende instellingen x systematisch gevarieerd, waarna de opbrengsten y worden geanalyseerd. In een dergelijk geval is het niet redelijk de verklarende variabele als realisatie van een stochastische grootheid te beschouwen, maar beschouwen we alleen de afhankelijke variabele Y als een stochastische variabele. In het geval dat X wel stochastisch is, wordt meestal de voorwaardelijke verdeling van Y gegeven X = x gemodelleerd. Daarom maakt het voor de verschillende regressiemodellen praktisch niet veel uit of we X nu wel of niet stochastisch veronderstellen. In de volgende paragrafen zal worden aangegeven of X wel of niet stochastisch wordt verondersteld. We gaan steeds uit van beschikbare data (x1 , y1 ), . . ., (xn , yn ) als realisaties van ofwel de stochastische vector (X, Y ) ofwel als realisaties van de stochastische variabele Y in combinatie met gemeten niet-stochastische waarnemingen (x1 , . . ., xn ). In de toepassing aan het einde van dit hoofdstuk wordt uitgebreid ingegaan op het begrip causaliteit. Omdat causaliteit een belangrijk onderwerp is binnen de context van regressie, bespreken we hier alvast twee korte voorbeelden waarin dit begrip wordt ge¨ıllustreerd. Het eerste voorbeeld gaat over het fabeltje dat baby’s gebracht worden door de ooievaar. In sommige gebieden is er inderdaad een positieve correlatie waargenomen in de schommelingen van de ooievaarspopulatie en het geboortecijfer; in periodes waarin het slecht ging met de ooievaarspopulatie daalde het geboortecijfer en op momenten dat de grootte van de ooievaarspopulatie steeg, nam ook het geboortecijfer toe. Dit is een opmerkelijk resultaat aangezien we er al lange tijd van overtuigd zijn dat baby’s niet door de ooievaar gebracht worden. Ondanks de correlatie is het niet te verwachten dat als in deze gebieden de grootte van de ooievaarspopulatie kunstmatig opgehoogd wordt, door bijvoorbeeld extra ooievaars uit te zetten, het geboortecijfer zal stijgen. Het tweede voorbeeld gaat over de positieve correlatie tussen inkomen en uitgaven: mensen die meer verdienen geven in het algemeen ook meer
258
8: Regressiemodellen
uit. In dit geval is het veelal wel zo dat als een persoon meer gaat verdienen zijn uitgaven ook omhoog gaan. Wat is het verschil tussen deze twee voorbeelden? In beide gevallen kunnen we zeggen dat de verklarende variabele (aantal ooievaars en inkomen) voorspellende waarde heeft voor de afhankelijke variabele (geboortecijfer en uitgaven). Echter, in het ooievaarsvoorbeeld kunnen we niet zeggen dat er een causaal verband is, terwijl dat in het inkomensvoorbeeld wel het geval is: het kunstmatig ophogen van het aantal ooievaars zal geen effect hebben op het geboortecijfer, terwijl zo’n effect waarschijnlijk wel waar te nemen is in het inkomensvoorbeeld. Waarom in sommige gebieden het geboortecijfer en de grootte van de ooievaarspopulatie positief gecorreleerd zijn, is niet geheel duidelijk. Mogelijk zijn beide afhankelijk van de industri¨ele ontwikkeling: meer industrie betekent enerzijds meer rijkdom en dat veroorzaakt traditiegetrouw een afname in het geboortecijfer, en anderzijds toenemende luchtvervuiling en onrust in het gebied, waardoor ooievaars wegtrekken.
8.1
Lineaire Regressie
Het lineaire model, de basis voor lineaire regressie en variantie-analyse, is het werkpaard van de “klassieke” statistiek, enerzijds omdat het, met enig verstand van zaken, breed toepasbaar is, en anderzijds omdat de benodigde berekeningen op eenvoudige matrixalgebra zijn gebaseerd. Hoewel moderne rekenmiddelen de toepassing van veel flexibelere modellen mogelijk hebben gemaakt, is het lineaire model nog steeds van veel waarde. De theorie voor het lineaire model is gebaseerd op de multivariaatnormale verdeling, welke besproken wordt in Appendix 10. In deze paragraaf bespreken we lineaire regressiemodellen en in de volgende paragraaf komt variantie-analyse aan bod. Variantie-analyse is in feite een speciaal geval van lineaire regressie. Het standaard lineaire regressiemodel veronderstelt dat, gegeven X = x = (x1 , . . ., xp ), de variabele Y normaal verdeeld is, met conditionele verwachting en variantie E(Y |X = x) =
p X i=1
βi xi ,
var(Y |X = x) = σ 2 ,
waarbij deze laatste onafhankelijk van x is. Wanneer X niet stochastisch is, heeft Y bij verklarende variabelen (x1 , . . ., xp ) (onvoorwaardelijk) bovenstaande verwachting en variantie. In de rest van deze paragraaf gaan we ervan uit dat de verklarende variabele X niet stochastisch is, zodat we de conditionering achterwege kunnen laten. Het model bevat p + 1 re¨eelwaardige parameters, die we in de parametervector θ = (β1 , . . ., βp , σ 2 ) samen kunnen nemen.
8.1: Lineaire Regressie
259
In het lineaire regressiemodel beschikken we naast de meting Y ook over de verklarende variabele x, die we gebruiken om de verwachte waarde van de afhankelijke variabele Y te modelleren. Als we een “meetfout” Pp defini¨eren door e = Y − i=1 βi xi , dan kunnen we schrijven Y =
p X
βi xi + e.
i=1
In het standaard regressiemodel zijn de meetfouten onderling onafhankelijk en normaal verdeeld met verwachting 0 en variantie σ 2 . De variabele heeft PY p dan eveneens een normale verdeling, maar nu met verwachting i=1 βi xi en variantie σ 2 . We kunnen het lineaire regressiemodel beschouwen als een uitbreiding van het meetfoutenmodel van Voorbeeld 2.4. Het lineaire regressiemodel maakt een aantal specifieke keuzes: - de verwachting van Y is afhankelijk van x, maar de variantie niet. - de verwachting van Y is een lineaire functie van x. - de meetfout is normaal verdeeld. In een verrassend groot aantal toepassingen is aan deze keuzes voldaan, maar natuurlijk niet altijd. Hierbij moet worden bedacht dat de variabelen vaak door “preprocessing” in een vorm worden gebracht, die aansluit bij het lineaire regressiemodel. Zo kan de regressie worden uitgevoerd na transformatie van de afhankelijke variabele Y (bijvoorbeeld door het nemen van de logaritme, log Y ), en kunnen in het bijzonder de verklarende variabelen op vele manieren worden bewerkt. Wanneer bijvoorbeeld in het geval van een eendimensionale variabele x een polynomiaal verband tussen x en Y wordt verwacht, dan kan de regressie worden uitgevoerd met de verklarende variabele (1, x, x2 , . . ., xk ) in plaats van x. Wanneer men in het geval van een tweedimensionale variabele x = (x1 , x2 ) een simultaan kwadratisch verband verwacht tussen de variabelen (x1 , x2 ) en Y , dan kan de vector (1, x1 , x2 , x21 , x22 , x1 x2 ) in het model worden opgenomen, etc. Hier zien we dat de lineariteit van het lineaire regressiemodel betrekking heeft op de lineariteit in de regressieparameters, en niet zozeer in de onafhankelijke variabelen. In veel gevallen wordt er een intercept aan het model toegevoegd. In de praktijk komt dit er op neer dat de eerste verklarende variabele x1 gelijk aan 1 wordt gesteld, en de gemeten verklarende variabelen worden opgenomen in x2 , . . ., xp . Een lineair regressiemodel met intercept ziet er dus als volgt uit: Y = β1 + β2 x2 + . . . + βp xp + e. De regressieparameter β1 wordt het intercept genoemd en is de verwachting van Y in het geval dat de regressieparameters β2 , . . ., βp gelijk aan nul zijn. Het kan zinvol zijn de aannames van het regressiemodel te verzachten. In plaats van normaliteit van de meetfout zouden we alleen kunnen veronderstellen dat de meetfouten verwachting 0 bezitten, en ook de variantie
260
8: Regressiemodellen
van de meetfouten kan worden gemodelleerd als een functie van x. Deze modellen worden in dit boek niet besproken.
Enkelvoudige lineaire regressie
8.1.1
Stel dat de variabele Y afhangt van een eendimensionale re¨eelwaardige verklarende variabele x en dat we n waarnemingen (x1 , y1 ), . . ., (xn , yn ) hebben verkregen. Met behulp van een scatterplot van de waarnemingen (x1 , y1 ), . . ., (xn , yn ) kan inzicht verkregen worden in de relatie tussen x en Y . Indien deze relatie lineair lijkt te zijn, dan kunnen de waarnemingen gemodelleerd worden met een zogenaamd enkelvoudig lineair regressiemodel. Het enkelvoudige lineaire regressiemodel met intercept, wordt dan beschreven door (8.1)
Yi = α + βxi + ei ,
i = 1, . . ., n,
waarin de “meetfouten” e1 , . . ., en onderling onafhankelijke N (0, σ 2 )verdeelde, niet-waarneembare stochastische grootheden zijn. Onder deze aanname zijn de variabelen Y1 , . . ., Yn eveneens onderling onafhankelijk en normaal verdeeld, waarbij de variabele Yi verwachtingswaarde α + βxi en variantie σ 2 heeft. De waarnemingen zijn dus niet identiek verdeeld. Wanneer er geen meetfouten zouden worden gemaakt, dan zou een exact lineair verband tussen Y en x bestaan. We nemen de parameterverzameling voor de parameter θ = (α, β, σ 2 ) zo groot mogelijk: (α, β) ∈ R2 en σ 2 > 0. 8.1.1.1
Schatten
Door de parameters α en β te schatten kunnen we het (lineaire) verband tussen Y en x achterhalen. Stelling 8.1. De maximum likelihood-schatters voor α, β en σ 2 in het enkelvoudige lineaire regressiemodel (8.1) zijn gelijk aan sY βˆ = rx,Y , sx
ˆ α ˆ = Y − βx,
n
σ ˆ2 =
1X ˆ i )2 , (Yi − α ˆ − βx n i=1
waar sx , sY en rx,Y de steekproefstandaardafwijkingen en de steekproefcorrelatie zijn (zie Notatie 3.9). Bewijs. De log likelihood-functie voor het model in (8.1) wordt gegeven door 2
(α, β, σ ) 7→ log
n Y
i=1
√
1 2πσ 2
1
e− 2 (Yi −α−βxi )
2
/σ 2
= − 21 n log 2π − 21 n log σ 2 −
n 1 X (Yi − α − βxi )2 . 2σ 2 i=1
8.1: Lineaire Regressie
261
Net als in Voorbeeld 4.16 gaat het maximaliseren van de log likelihoodfunctie in twee stappen. Maximalisatie van deze functie P naar (α, β) is equivalent met minimalisatie van de kwadratische vorm ni=1 (Yi − α − βxi )2 naar (α, β). Nulstellen van de parti¨ele afgeleiden van de som naar α en β geeft het stelsel vergelijkingen n X i=1
(8.2)
n X i=1
ˆ i ) = 0, (Yi − α ˆ − βx
ˆ i )xi = 0. (Yi − α ˆ − βx
Met enig rekenwerk zijn de schatters voor α en β hieruit op te lossen: ˆ α ˆ = Y − βx, Pn Pn xi (Yi − Y ) (x − x)(Yi − Y ) sY i=1 ˆ Pn i β = Pn = i=1 = rx,Y , 2 sx x) x) x (x − (x − i=1 i i i=1 i
Dat deze oplossing een minimum geeft voor de kwadratische vorm voor iedere waarde van σ 2 > 0, is na te gaan door bijvoorbeeld de Hessiaanˆ Substitueren we de gevonden waarden van α matrix te berekenen in (ˆ α, β). ˆ ˆ en β in de log likelihood-functie en maximaliseren we deze functie vervolgens naar σ 2 dan vinden we n 1X ˆ i )2 (Yi − α ˆ − βx σ ˆ2 = n i=1 als maximum likelihood-schatter voor σ 2 .
De gevonden schatters voor α en β zijn zogenaamde kwadratenPkleinste n schatters (KK-schatters), omdat ze de kwadraatsom i=1 (Yi − α − βxi )2 minimaliseren. Meetkundig komt dit neer op het minimaliseren van de som van de kwadratische verticale afstanden van de meetpunten (xi , Yi ) tot de beoogde regressielijn y = α + βx, zie Figuur 8.1; vandaar de naam. De KK-schatters α ˆ en βˆ zijn zuivere schatters voor het schatten van α en β (ook wanneer de aanname van normaal verdeelde meetfouten niet gemaakt wordt). Bovendien zijn er eenvoudige uitdrukkingen voor de verwachte kwadratische fouten (zie Opgave 8.2 en Paragraaf 8.1.2). Pn De KK-schatters α ˆ en βˆ zijn gevonden door de kwadraatsom i=1 (Yi − α − βxi )2 te minimaliseren en voldoen derhalve aan de likelihoodvergelijkingen in (8.2). Meer algemeen kunnen schatters voor α en β gevonden worden door de vergelijkingen n X i=1
ˆ i )w(xi ) = 0, ψ(Yi − α ˆ − βx
n X ˆ i )xi w(xi ) = 0, ψ(Yi − α ˆ − βx i=1
262
8: Regressiemodellen • • •
15
•
•
•
•
•
•
10
• • • • • • •
•
•
5
•
0
•
0
2
4
6
8
10
Figuur 8.1. Een collectie meetpunten (xi , yi ) met de kleinste kwadratenlijn.
ˆ voor geschikte functies ψ en w. Dit leidt in het op te lossen naar (ˆ α, β) algemeen tot andere schatters. De rol van de functie ψ en de gewichten w is vaak om de invloed van mogelijke extreme waarden van de residuen ˆ i of de variabelen xi te verkleinen, dan wel om de effici¨entie van Yi − α ˆ − βx de schatters te vergroten. Dit heet robuuste regressie. De maximum likelihood-schatter voor σ 2 kan worden geschreven als σ ˆ2 =
n n n X 1X 1 X ˆ i )2 = 1 (Yi − α ˆ − βx (Yi − Y )2 − βˆ2 (xi − x)2 . n i=1 n i=1 n i=1
Als a priori bekend zou zijn dat β = 0, dan hangt Yi niet van xi af, en zou de maximum likelihood-schatter van σ 2 gegeven worden door de eerste term aan de rechterkant. In het huidige model weten we niet of β gelijk is aan 0 en is de maximum likelihood-schatter voor σ 2 kleiner (tenzij βˆ = 0). Dit is intu¨ıtief redelijk: een deel van de variatie in Y is nu het gevolg van de variatie in x, en derhalve is de steekproefvariantie van de Yi een overschatting van σ2 . Definitie 8.2. De uitdrukkingen SStot =
n X i=1
(Yi − Y )2
en
SSres =
n X i=1
ˆ i )2 (Yi − α ˆ − βx
heten de totale kwadraatsom (Engels: total sum of squares) en de residuele kwadraatsom (Engels: residual sum of squares) of, meer volledig, de “residuele kwadraatsom na lineaire regressie op x”. De determinatieco¨effici¨ent is gelijk aan SSres 1− . SStot
8.1: Lineaire Regressie
263
Pn 2 De totale kwadraatsom SStot is het minimum van i=1 (Yi − α) over Pn α, terwijl de 2 residuele kwadraatsom SSres het minimum is van i=1 (Yi − α − βxi ) over (α, β) samen. Het tweede minimum is natuurlijk kleiner. Pn Als SSres ongeveer even groot is als SStot , dan ligt SStot − SSres = βˆ2 i=1 (xi − x)2 vlakbij 0 (dat wil zeggen, βˆ is ongeveer gelijk aan 0 bij genormaliseerde xi ) en heeft xi weinig voorspellende waarde voor Yi . De determinatieco¨effici¨ent geeft de fractie door regressie op x verklaarde variantie (Engels: explained variance) weer en is te schrijven als Pn (xi − x)2 SSres 2 1− = βˆ2 Pni=1 = rx,Y . 2 SStot (Y − Y ) i=1 i
Als de determinatieco¨effici¨ent bijna gelijk aan 1 is, betekent dit dat de punten (xi , yi ) vrij behoorlijk op een rechte lijn liggen. Bij een determinatieco¨effici¨ent van bijvoorbeeld 0.2, liggen de punten ofwel sterk verspreid rond een rechte lijn, of het lineaire regressiemodel is niet zinvol, omdat het verband tussen x en Y sterk niet-lineair is. De interpretatie van een determinatieco¨effici¨ent is daarom niet eenvoudig. Merk op dat de schaal van de co¨effici¨ent kwadratisch is, hetgeen moeilijk te verdedigen is. De determinatieco¨effici¨ent kan wel worden beschouwd als een zinvolle samenvatting van de data, en wordt standaard bij de rapportage van een regressie-analyse vermeld. ˆ Deze lijn kan worden gebruikt De geschatte regressielijn is y = α ˆ + βx. om de y-waarde bij een bepaalde x te voorspellen. Na invullen van de formules voor α ˆ en βˆ kunnen we de lijn herschrijven in de prettige vorm y−Y x−x = rx,Y . SY sx Aangezien |rx,Y | ≤ 1 vanwege de ongelijkheid van Cauchy-Schwarz, met strikte ongelijkheid tenzij de meetfouten exact 0 zijn, betekent dit dat, gemeten in standaarddeviaties, de voorspelde y dichter bij Y ligt dan de instelwaarde x bij x. Dit noemt men regressie naar het gemiddelde, in het bijzonder in het geval dat de standaarddeviaties van de twee variabelen ongeveer gelijk zijn. Is x de intelligentie van een vader en y de intelligentie van een zoon, dan leidde men hier ooit uit af dat de mensheid steeds middelmatiger wordt. Een verklaring voor “regressie naar het gemiddelde” is als volgt. We kunnen een x-waarde van een willekeurig geselecteerd individu uit een populatie (zoals de intelligentie van de vader) beschouwen als opgebouwd uit een toevallige en een systematische component. Als de x-waarde extreem groot is, dan is het een redelijke veronderstelling dat de toevallige component tot die relatieve grootte heeft bijgedragen. Bij het voorspellen van de afgeleide y-waarde is het verstandig hiermee rekening te houden: we voorspellen dat de y-waarde relatief minder extreem in de populatie van y-waarden zal liggen dan de x-waarde in de populatie van x-waarden. Deze interpretatie
264
8: Regressiemodellen
-1
0
y
1
2
3
van “regressie naar het gemiddelde” binnen het kader van voorspellen wordt ondersteund door Figuur 8.2. Deze figuur laat twee regressielijnen zien. De gestippelde lijn lijkt de puntenwolk het best te volgen, maar de doorgetrokken lijn is de kleinste kwadratenlijn. De richtingsco¨effici¨ent van de gestippelde lijn is sy /sx , terwijl de kleinste kwadratenlijn de kleinere richtingsco¨effici¨ent rx,y sy /sx bezit. Dat de kleinste kwadratenlijn een betere voorspeller is, is te zien in het gebied tussen de twee verticale lijnen. De kleinste kwadratenlijn deelt de punten in deze strip (net als in iedere andere verticale strip) in ruwweg gelijke aantallen, terwijl de gestippelde lijn te hoog ligt.
-3
-2
-1
0
1
2
3
x
Figuur 8.2. De kleinste kwadratenlijn en “regressie naar het gemiddelde”.
8.1.1.2
Toetsen en betrouwbaarheidsintervallen
Omdat β in het algemeen de meest interessante parameter is in een enkelvoudig lineair regressiemodel worden in deze paragraaf toetsen en betrouwbaarheidsintervallen voor β afgeleid. Toetsen en betrouwbaarheidsintervallen voor de regressieparameter α kunnen op analoge wijze worden bepaald. In deze paragraaf beschrijven we de veel gebruikte t-toets en de likelihood-ratiotoets. Om te bepalen of de onafhankelijke variabele x van lineaire invloed is op Y , toetsen we de nulhypothese H0 : β = 0. De gebruikelijke toetsingsgrootheid voor de meer algemene nulhypothese H0 : β = β0 is βˆ − β0 T =q , var c βˆ
waar βˆ de maximum likelihood-schatter voor β is en waar de variantie van
8.1: Lineaire Regressie
βˆ geschat wordt met var c βˆ =
1 n−2
Pn
i=1 P n
ˆ i )2 (Yi − α ˆ − βx
i=1 (xi
− x)2
265
.
Deze laatste schatter wordt verkregen door βˆ te schrijven als Pn Pn (xi − x)Yi (x − x)(Yi − Y ) Pn i Pi=1 = , βˆ = i=1 n 2 2 i=1 (xi − x) i=1 (xi − x) Pn te gebruiken dat var Yi = σ 2 en vervolgens σ 2 te schatten met i=1 (Yi − α ˆ− 2 ˆ βxi ) /(n − 2). (Merk op dat deze schatter een factor n/(n − 2) afwijkt van de maximum likelihood-schatter voor σ 2 .) In Paragraaf 8.1.2.3 wordt in een algemener model bewezen dat de toetsingsgrootheid T onder H0 : β = β0 een tn−2 -verdeling heeft; het aantal vrijheidsgraden is gelijk aan het aantal waarnemingen minus het aantal geschatte regressieco¨efficienten. De nulhypothese wordt dan verworpen als |T | ≥ tn−2,1−α0 /2 waar α0 de onbetrouwbaarheidsdrempel van de toets is. Gebaseerd op deze t-toets kan een betrouwbaarheidsinterval voor β met onbetrouwbaarheid α0 worden bepaald: q ˆ β = βˆ ± tn−2,1−α0 /2 var c β.
De hypothese H0 : β = 0 kan ook met de likelihood-ratiotoets uit Paragraaf 5.6 worden getoetst. De teller van de likelihood-ratiostatistiek is de waarde van de likelihood-functie in de maximum likelihood-schatter ˆ σ (ˆ α, β, ˆ 2 ). In het bijzonder is σ ˆ 2 = SSres /n. In de noemer wordt de likelihood gemaximaliseerd over de beperkte parameterruimte met β = 0. Onder de nulhypothese H0 : β = 0 zijn de waarnemingen Y1 , . . ., Yn onderling onafhankelijk en N (α, σ 2 )-verdeeld, en is de likelihood-functie maximaal in (ˆ α0 , βˆ0 , σ ˆ02 ) = (Y , 0, SStot /n), zie Voorbeeld 4.16. Daarmee wordt de likelihood-ratiostatistiek gelijk aan SSres SStot 2 log λn (Y1 , . . ., Yn ) = −n log σ ˆ2 − + n log σ ˆ02 + σ ˆ2 σ ˆ02 SSres /n = −n log SStot /n 2 = −n log(1 − rxY ),
Aangezien de waarnemingen niet identiek verdeeld zijn, is Stelling 5.38 niet direct toepasbaar. De stelling kan echter wel tot dit geval worden uitgebreid en geeft dan een χ21 -limietverdeling voor 2 log λn , aangezien k −k0 = 3−2 = 1, met k en k0 als in Stelling 5.38. We verwerpen de nulhypothese dat β = 0 dus als 2 log λn groter dan of gelijk is aan χ21,1−α0 , voor α0 de onbetrouwbaarheid van de toets. De toets verwerpt de nulhypothese dus eveneens voor grote waarden van |rxy |. De transformatie van deze grootheid middels de functie r 7→ − log(1 − r 2 ) kan worden begrepen als een manier om de verdeling van de toetsingsgrootheid bij benadering tot een standaard verdeling te transformeren, namelijk een chikwadraat-verdeling.
266
8.1.2
8: Regressiemodellen
Meervoudige Lineaire Regressie
In het meervoudige lineaire regressiemodel is de onafhankelijke variabele meerdimensionaal in plaats van eendimensionaal zoals in het enkelvoudige lineaire regressiemodel. Het meervoudige lineaire regressiemodel voor n afhankelijke variabelen Y1 , . . ., Yn met corresponderende p-dimensionale verklarende variabelen (x1,1 , . . ., x1,p ), . . ., (xn,1 , . . ., xn,p ) wordt beschreven door p X βj xi,j + ei , i = 1, . . ., n, Yi = j=1
waarin e1 , . . ., en onderling onafhankelijke normaal verdeelde stochastische grootheden zijn met verwachting 0 en eindige variantie σ 2 . De verklarende variabelen worden wederom niet stochastisch verondersteld, zodat de waarden xi,1 , . . ., xi,p als bekende constanten kunnen worden beschouwd. Het is handig om dit model in matrixnotatie weer te geven. De waarneming is een vector Y = (Y1 , . . ., Yn )T in Rn en de regressieco¨effici¨enten vormen een vector β = (β1 , . . ., βp )T in Rp . Defini¨eren we de (n × p)-matrix X als de matrix met (i, j)-element xi,j , dan kunnen we het model schrijven als (8.3)
Y = Xβ + e,
waarin e = (e1 , . . ., en )T in Rn de foutenvector is. De matrix X wordt de design matrix genoemd. Merk op dat de notatie X hier gebruikt wordt voor een niet-stochastische matrix. In modellen met een intercept worden de elementen in de eerste kolom van de design matrix gelijk aan 1 verondersteld. De onbekende modelparameters zijn de regressieco¨effici¨enten β = (β1 , . . ., βp ) en de variantie σ 2 . 8.1.2.1
Keuze van de variabelen
In de praktijk zijn vaak veel mogelijke verklarende variabelen voorhanden om in de regressie te betrekken. De vraag is dan welke variabelen wel en welke niet opgenomen dienen te worden om een “best passend” model te krijgen. Zo zijn voor de prijs van een huis de ligging en inhoud informatief, net als het aantal vierkante meters en het bouwjaar. Met welke variabelen kan de verkoopprijs goed worden ingeschat? Of, in het geval van een ziekte, geven twee specifieke genen een goede beschrijving van de genetische component van een ziekte of is het verstandig alle ca. 20000 genen in de regressievergelijking te betrekken? Deze vragen zijn complexer dan ze lijken. Behalve dat de vragen op zeer uiteenlopende situaties betrekking hebben, lijkt ook het doel van de vragen uiteen te lopen. De vraag over de prijs van een huis is waarschijnlijk afkomstig van de belastingdienst of een makelaar, welke een eenvoudige formule zoekt om op een enigszins objectieve manier een prijs vast te stellen. Best passend is dan het model dat de beste voorspellingen levert. De vraag uit de genetica is vermoedelijk causaal bedoeld: bepaalde genen zullen via biologisch-chemische processen
8.1: Lineaire Regressie
267
invloed hebben op de vatbaarheid voor een bepaalde ziekte, andere genen niet. Als het alleen om het voorspellen van een ziekte gaat, is het niet zo erg ook enkele genen uit die tweede groep in de vergelijking op te nemen (ze kunnen samenhangen met genen die wel directe invloed hebben en toch voorspellende waarde hebben), maar voor het begrijpen van het ontstaan van de ziekte (causale verklaring) is een scherp onderscheid tussen de twee groepen genen essentieel. De gekozen verklarende variabelen kunnen zowel re¨eelwaardig als categorisch zijn. Een categorische verklarende variabele, ook wel nominale variabele genoemd, is een variabele waarvan de waarden een klassenindeling weergeven in plaats van een relevante numerieke grootte. Zo kunnen de waarden 0 en 1 voor man en vrouw gebruikt worden of kan een code staan voor een bepaalde regio. Om naast re¨eelwaardige variabelen ook categorische variabelen in een lineair regressiemodel op te nemen, is het gebruik van dummy-variabelen een standaard techniek. Een dummy-variabele is een indicatorvariabele en kan slechts de waarden 0 en 1 aannemen. Wanneer de categorische verklarende variabele k mogelijke klassen heeft, dan worden er k verklarende dummy-variabelen x1 , . . ., xk aan het regressiemodel (zonder intercept) toegevoegd. Wanneer de categorische variabele behoort tot klasse i, dan wordt de dummy-variabele xi gelijk gesteld aan 1, en de overige dummy-variabelen aan 0. Met deze k verklarende dummy-variabelen corresponderen in het lineaire regressiemodel k regressieparameters β1 , . . ., βk . Voor een waarneming Y behorende bij een verklarende variabele die tot de ie klasse behoort komt alleen de parameter βi in het regressiemodel, zie Tabel 8.1. x
x 1 x2 · · · x k
“1” “2” .. .
1 0 ··· 0 0 1 ··· 0
“k”
0 0 ··· 1
Pk
i=1
βi xi
β1 β2 .. . βk
Tabel 8.1. Definitie van dummy-variabelen x1 , . . ., xk voor regressie op een categorische variabele x met k klassen met labels “1”, . . ., “k”.
Op deze manier is de parameter βi in feite het intercept voor de klasse i. Er wordt dan ook geen extra intercept meer toegevoegd aan het model. Wanneer men toch een intercept wil opnemen in het model, dient het aantal dummy-variabelen een minder te zijn dan het aantal klassen. Dan wordt bijvoorbeeld de dummy-variabele voor de eerste klasse eruit gelaten. De parameter β1 is dan het gebruikelijke intercept en de parameter βi (i = 2, . . ., k) geeft het effect van klasse i op de afhankelijke variabele Y weer ten opzichte van klasse 1. Ook in het geval van twee categorische verklarende variabelen (bijvoorbeeld wanneer zowel regio als geslacht in het model wordt
268
8: Regressiemodellen
opgenomen) wordt voor de tweede variabele een dummy-variabele minder dan het aantal bijbehorende klassen opgenomen in het model. Dit is nodig om de design matrix volle rang te laten behouden, zie Paragraaf 8.1.2.2. Hoewel het gebruikelijk is om voor een dummy-variabele alleen de waarden 0 en 1 toe te laten, ligt het in sommige situaties voor de hand aangepaste waarden te hanteren. Zo is in Voorbeeld 2.7 een dummy-variabele in het model opgenomen die de waarden -1 en 1 aanneemt. De keuze voor de waarden van de dummy-variabele evenals het wel of niet opnemen van een intercept hangt af van de gewenste interpretatie van de parameters βi . Wanneer er alleen categorische variabelen zijn, is het model voor variantieanalyse uit paragraaf 8.2 van toepassing. 8.1.2.2
Schatten
De volgende stelling geeft de maximum likelihood-schatters voor de parameters in het meervoudige lineaire regressiemodel. Stelling 8.3. Wanneer de design matrix X in het meervoudige lineaire regressiemodel (8.3) volle rang heeft, worden de maximum likelihoodschatters voor β en σ 2 gegeven door βˆ = (X T X)−1 X T Y,
σ ˆ2 =
ˆ 2 kY − X βk . n
Bewijs. De log likelihood-functie voor het meervoudige lineaire regressiemodel wordt gegeven door Pp n 1 Y 1 βj xi,j )2 /σ 2 − (Y − j=1 √ e 2 i (β, σ 2 ) 7→ log 2 i=1 2πσ 1 = − 21 n log 2π − 21 n log σ 2 − 2 kY − Xβk2 , 2σ waar k · k de notatie voor de Euclidische norm is. Geheel analoog aan het geval van enkelvoudige lineaire regressie wordt eerst de schatter voor β afgeleid voor willekeurige σ 2 en daarna de schatter voor σ 2 . De maximum likelihood-schatter voor β is de KK-schatter βˆ die de functie β 7→ kY − Xβk2 , β ∈ Rp
minimaliseert. Voor iedere β behoort de vector Xβ tot het bereik (de kolommenruimte) van de matrix X, gezien als afbeelding X: Rp → Rn . De KKschatter βˆ die kY − Xβk2 minimaliseert, is derhalve de vector zodanig dat X βˆ het element van het bereik van X is dat zo dicht mogelijk bij de vector Y ligt. In de lineaire algebra heet X βˆ de projectie van Y op het bereik van X. De projectie ten opzichte van de Euclidische norm voldoet aan de orthogonaliteitsrelatie ˆ Xγi = γ T X T (Y − X β) ˆ = 0, hY − X β,
∀γ ∈ Rp .
8.1: Lineaire Regressie
269
Met andere woorden, het “residu” Y − X βˆ staat loodrecht op ieder willekeurig element in de kolommenruimte van X, dat in algemene vorm geschreven kan worden als Xγ voor een γ ∈ Rp . De eis dat dit gelijk aan nul ˆ = 0. Dit is de moet zijn voor willekeurige γ ∈ Rp betekent dat X T (Y −X β) zogenaamde normaalvergelijking. Uit de aanname dat X volle rang heeft, volgt dat X T X inverteerbaar is, en daarmee volgt dat βˆ = (X T X)−1 X T Y . Dan is X βˆ gelijk aan X(X T X)−1 X T Y , hetgeen inderdaad de projectie van Y op de kolommenruimte van X is, omdat X(X T X)−1 X T de projectiematrix is die projecteert op deze ruimte. In de tweede stap wordt βˆ voor β in de log likelihood-functie gesubˆ 2 /n als stitueerd. Het is eenvoudig na te gaan dat dit σ ˆ 2 = kY − X βk 2 maximum likelihood-schatter voor σ oplevert. De maximum likelihood-schatter βˆ is zuiver: Eβˆ = (X T X)−1 X T EY = (X T X)−1 X T Xβ = β. De verwachte kwadratische fout van βˆ is Cov βˆ = (X T X)−1 X T Cov Y X(X T X)−1 = σ 2 (X T X)−1 , (zie Appendix 10) aangezien de fouten e1 , . . ., en ongecorreleerd zijn en daarmee ook Y1 , . . ., Yn . De matrix X T X staat bekend als de hat-matrix. De inverse van de hat-matrix geeft derhalve een indicatie van de precisie van de KK-schatters. In het bijzonder zijn de diagonaalelementen na vermenigvuldiging met σ 2 gelijk aan de verwachte kwadratische fout van de KK-schatters βˆj voor de regressieco¨effici¨enten βj . De aanname dat X volle rang heeft, is noodzakelijk voor het bestaan van de inverse van X T X. Door eventueel kolommen weg te laten of te combineren kan de design matrix altijd van volle rang worden gekozen. Lineaire afhankelijkheid van de kolommen van X zou resulteren in niet eenduidig gedefinieerde regressieco¨effici¨enten; de afhankelijke kolommen zijn dan collineair. Dit is de reden waarom men in een model met dummy-variabelen op moet passen met een intercept (zie Paragraaf 8.1.2.1); de combinatie van een intercept en voor iedere klasse een dummy-variabele leidt tot een design matrix die geen volle rang heeft, en moet derhalve vermeden worden. Definitie 8.4. De residuen van de regressie van Y op X zijn de co¨ ordinaten ˆ De uitdrukkingen van de vector Y − X β. SStot = kY − Y 1k2
en
ˆ 2, SSres = kY − X βk
met Y 1 = (Y , . . ., Y ), heten de totale kwadraatsom en de residuele kwadraatsom. De determinatieco¨effici¨ent is gelijk aan 1−
SSres . SStot
270
8: Regressiemodellen
De determinatieco¨effici¨ent neemt, net als in het geval van enkelvoudige lineaire regressie, waarden aan tussen 0 en 1. Dit kan als volgt worden ingezien. De vector Y 1 = (Y , . . ., Y ) is de beste voorspelling van Y in een model bestaande uit alleen een geschat intercept. Het is de projectie van Y op de eendimensionale lineaire ruimte opgespannen door de vector 1: = (1, 1, . . ., 1). Omdat we voor een model met intercept hebben gekozen, is deze ruimte bevat in de kolommenruimte van X. Daarom staat ˆ 1i = 0. Daarmee de residuvector Y −X βˆ loodrecht op de vector 1, hY −X β, ˆ volgt ook dat hY − X β, Y 1i = 0. Verder hadden we voor iedere γ in Rp ˆ Xγi = 0, dus in het bijzonder hY − X β, ˆ X βi ˆ = 0. Hieruit dat hY − X β, ˆ volgt dat Y − X βˆ loodrecht staat op zowel de vector Y 1 als de vector X β. Daarmee staan de vectoren Y − X βˆ en X βˆ − Y 1 loodrecht op elkaar. Met de regel van Pythagoras volgt nu dat het kwadraat van de lengte van de ˆ + (X βˆ − Y 1), gelijk is aan som van deze twee vectoren, Y − Y 1 = (Y − X β) ˆ 2 + kX βˆ − Y 1k2 . kY − Y 1k2 = kY − X βk Het linkerlid in deze vergelijking is gelijk aan SStot en de eerste term in het rechterlid is gelijk aan SSres . We zien dat 0 ≤ SSres ≤ SStot en dat de determinatieco¨effici¨ent tussen 0 en 1 ligt. Men kan laten zien dat, analoog 2 aan 1 − SSres /SStot = rx,Y in het enkelvoudige lineaire regressiemodel, 2 voor het meervoudige model geldt dat 1 − SSres /SStot = rX ˆ . β,Y Wanneer men geen intercept in het model opneemt, moet ook in de berekening van de totale kwadraatsom niet uitgegaan worden van een intercept. In dat geval hanteert men SStot = kY k2 . 8.1.2.3
Toetsen
Net als in het enkelvoudige lineaire regressiemodel, zijn er twee belangrijke soorten toetsen om de invloed van ´e´en of meerdere onafhankelijke variabelen op de afhankelijke variabele Y te bepalen in het geval van een meervoudig lineair regressiemodel. In deze paragraaf bespreken we de likelihoodratiotoets en de F -toets. Voor de likelihood-ratiotoets blijkt het handig te zijn om het meervoudige lineaire regressiemodel te beschouwen als een speciaal geval van het algemene lineaire model. Wanneer de design matrix X volle rang heeft, is de kolommenruimte van X een p-dimensionale lineaire deelruimte V ⊂ Rn . Het meervoudige lineaire regressiemodel kan daarom worden gezien als een model voor de n-dimensionaal normaal verdeelde waarneming Y met verwachtingsvector µ in de lineaire deelruimte V . Dit is de algemene vorm van een lineair model. De covariantiematrix Σ van Y nemen we gelijk aan Σ = σ 2 I. Het model is dan geparametriseerd door de parameter θ = (µ, σ 2 ) ∈ V × (0, ∞).
8.1: Lineaire Regressie
271
De log likelihood-functie wordt gegeven door 2
(µ, σ ) 7→ log
n Y
i=1
=−
√
1 2πσ 2
1
e− 2 (yi −µi )
2
/σ 2
n kY − µk2 n log 2π − log σ 2 − . 2 2 2σ 2
Maximalisatie van de log likelihood over µ ∈ V is equivalent aan minimalisatie van de functie µ 7→ kY − µk2 over µ ∈ V . Op analoge wijze als in Paragraaf 8.1.2.2 wordt dit minimum bereikt in µ ˆ = PV Y met PV Y de orthogonale projectie van Y op de ruimte V . De kwadratische afstand kY − µ ˆk2 = k(I −PV )Y k2 van Y tot zijn projectie is dan precies de residuele kwadraatsom. Maximalisatie van de likelihood over σ 2 geeft vervolgens de maximum likelihood-schatter σ ˆ 2 = k(I − PV )Y k2 /n. De nulhypothese dat ´e´en of meerdere verklarende variabelen geen invloed op de afhankelijke variabele Y hebben is nu te beschouwen als een speciaal geval van de nulhypothese H0 : µ ∈ V0 , met V0 een p0 -dimensionale lineaire deelruimte van V . De log likelihood-ratiostatistiek is gebaseerd op de maximum likelihood-schatters onder de nulhypothese en het gehele model. Analoog aan de eerdere berekening worden de maximum likelihoodschatters voor µ en σ 2 onder de nulhypothese gegeven door µ ˆ0 = PV0 Y en σ ˆ02 = k(I − PV0 )Y k2 /n. Tweemaal de log likelihood-ratiostatistiek wordt dan k(I − PV )Y k2 k(I − PV0 )Y k2 + n log σ ˆ02 + 2 σ ˆ σ ˆ02 k(I − PV0 )Y k2 = n log k(I − PV )Y k2
2 log λn (Y ) = −n log σ ˆ2 −
(ga na). We zien dat de teller van de likelihood-ratiostatistiek gelijk is aan de residuele kwadraatsom onder de nulhypothese, terwijl in de noemer de residuele kwadraatsom onder het gehele model staat. Wanneer de teller veel groter dan de noemer is, is dat een indiciatie dat de nulhypothese onjuist is. We verwerpen de nulhypothese dan ook voor grote waarden van de statistiek. Om precies te zijn, we verwerpen de nulhypothese bij onbetrouwbaarheidsdrempel α0 als 2 log λn (Y ) ≥ χ2p−p0 ;1−α0 . In de F -toets wordt een andere, maar verwante ratio van kwadraatsommen gehanteerd: F =
k(PV − PV0 )Y k2 /(p − p0 ) . k(I − PV )Y k2 /(n − p)
Omdat de ruimte V0 een deelruimte is van V is (PV − PV0 )Y een element in V . Verder staat (I − PV )Y loodrecht op V en dus ook op (PV − PV0 )Y . De lengte van de som van deze vectoren, (I − PV )Y + (PV − PV0 )Y = (I − PV0 )Y , kan daarom worden gevonden met de stelling van Pythagoras,
272
8: Regressiemodellen
k(I−PV0 )Y k2 = k(I−PV )Y k2 +k(PV −PV0 )Y k2 . Los van de factor 1/(p−p0 ) is de teller van F dus gelijk aan het verschil in residuele kwadraatsom onder de nulhypothese en onder het gehele model, terwijl (n − p) maal de noemer gelijk is aan de residuele kwadraatsom onder het gehele model. Wederom duidt een grote waarde van de statistiek op grotere residuen onder de nulhypothese dan onder het gehele model en we zien dat verwerpen voor grote waarden van 2 log λn (Y ) equivalent is met verwerpen voor grote waarden van F . Vanwege Cochrans stelling, Stelling 10.8, bezit F onder de nulhypothese een F -verdeling met p − p0 en n − p vrijheidsgraden. We verwerpen de nulhypothese bij onbetrouwbaarheidsdrempel α0 als de F toetsingsgrootheid groter is dan of gelijk is aan het (1 − α0 )-kwantiel van de Fp−p0 ,n−p -verdeling, genoteerd als Fp−p0 ,n−p;1−α0 . Een veel voorkomende nulhypothese bij het meervoudige lineaire regressiemodel is H0 : βj = 0 voor een zekere j ∈ {1, . . ., p}. Als βj = 0 heeft de j e verklarende variabele geen invloed op de afhankelijke variabele Y . Onder de nulhypothese kan het regressiemodel daarom worden vereenvoudigd door deze verklarende variabele uit het model weg te laten. Dit betekent concreet dat de j e kolom uit de design matrix verwijderd wordt, evenals de j e co¨ ordinaat van β. De nieuwe design matrix noteren we met X−j en de verkorte vector met regressieparameters met β−j . De maximum likelihood-schatter voor β−j wordt op analoge wijze als de schatter voor T T β afgeleid en is gelijk aan βˆ−j = (X−j X−j )−1 X−j Y . De projectiematrices PV en PV0 gedefinieerd voor het algemene lineaire model zijn dan gelijk aan T T X(X T X)−1 X T en X−j (X−j X−j )−1 X−j en de toetsingsgrootheid voor de likelihood ratio-toets wordt 2 log λn (Y ) = n log
T T k(I − X−j (X−j X−j )−1 X−j )Y k2 . k(I − X(X T X)−1 X T )Y k2
De nulhypothese dat βj = 0 wordt verworpen als 2 log λn (Y ) ≥ χ21,1−α0 . De F -toetsingsgrootheid bij H0 : βj = 0 wordt gevonden door de uitdrukkingen voor de projectiematrices in te vullen en heeft onder de nulhypothese een F -verdeling met 1 en n − p vrijheidsgraden. Een toets equivalent aan deze F -toets wordt gebaseerd op de toetsingsgrootheid T =
ˆ
σ ˆ2
βj (X T X)−1
, j,j
waarvoor men kan laten zien dat T 2 = F . De grootheid T volgt onder de nulhypothese een t-verdeling met n − p vrijheidsgraden. Er geldt dat F ≥ F1,n−p;1−α0 dan en slechts dan als |T | ≥ tn−p;1−α0 /2 aangezien F1,n−p;1−α0 = (tn−p;1−α0 /2 )2 . In het bijzonder geldt voor het enkelvoudige lineaire regressiemodel met p = 2 dat F het kwadraat is van de toetsingsgrootheid T in Paragraaf 8.1.1.2 behorende bij H0 : β = β0 met β0 = 0.
8.1: Lineaire Regressie
273
Voorbeeld 8.5 (Lichaamslengte). In Voorbeeld 2.7 wordt een meervoudig lineair regressiemodel beschreven voor het schatten van de eindlengte van een kind op basis van de lichaamslengte van de (biologische) ouders en het geslacht van het kind. De regressieparameters voor de verklarende variabelen “lichaamslengte van de vader” en “lichaamslengte van de moeder” zijn in dat voorbeeld gelijk aan 1/2 genomen, zodat het geschatte model gemakkelijk te interpreteren is. In deze paragraaf zullen we deze aanname achterwege laten en een meervoudig lineair regressiemodel schatten op basis van onze eigen data. Voor Y de eindlengte van een kind, x2 de lengte van de vader, x3 de lengte van de moeder en x4 een variabele voor het geslacht van het kind, ziet het meervoudige lineaire regressiemodel er als volgt uit Y = β1 + β2 x2 + β3 x3 + β4 x4 + e, met e een normaal verdeelde stochastische variabele met verwachting 0 en variantie σ 2 . De eerste verklarende variabele, x1 , hebben we gelijk aan 1 genomen, zodat het model een intercept heeft. De verklarende variabele x4 geeft aan of het kind een jongen of een meisje is. Omdat er een intercept in het model is, hebben we aan een dummy-variabele genoeg. We willen dat β4 gelijk is aan de helft van het gemiddelde verschil in lengte tussen mannen en vrouwen en kiezen daarom x4 voor een meisje gelijk aan -1 en voor een jongen aan 1. Aangezien gemiddeld genomen jongens langer zullen worden dan meisjes, zal β4 positief zijn. Onze data bestaan uit de eindlengtes van 111 jong-volwassenen (44 mannen en 67 vrouwen), zijn of haar geslacht en de lengte van hun ouders. Voor elk van de regressieparameters toetsen we of de waarde significant van nul afwijkt met de t-toets zoals beschreven staat in de vorige paragraaf. De onbetrouwbaarheid van de toetsen wordt gelijk aan 0.05 genomen. Alle toetsen worden verworpen en het uiteindelijke model met geschatte regressieparameters wordt gegeven door: Y = 2.52 + 0.46x2 + 0.55x3 + 6.27x4 + e, waarbij e normaal verdeeld verondersteld wordt met verwachting nul en (geschatte) variantie 25.78. De determinatieco¨efficient van het model is 0.69. Om te onderzoeken of de normaliteitsaanname plausibel is, kan men scatterplots tekenen en eventueel aanvullende toetsen uitvoeren. Bovendien is het verstanding om te onderzoeken of het redelijk is om een lineair verband te veronderstellen. Ondanks dat de geschatte regressieparameters in bovenstaand model niet overeenkomen met de schattingen in de Vierde Landelijke Groeistudie (zie (2.1)) liggen de verwachte eindlengtes niet ver van elkaar. Zo zijn de streeflengtes van kinderen van een man van 180 cm en een vrouw van 172 cm in bovenstaand model gelijk aan 186.2 cm (zoon) en 173.7 cm (dochter), terwijl deze lengtes volgens het regressiemodel in (2.1) 187 cm en 174 cm zijn.
274
8: Regressiemodellen
In bovenstaand model is de invloed van de lengte van de moeder op de eindlengte van het kind groter dan die van de lengte van de vader. Aangezien het meer voor de hand ligt dat de invloeden gelijk zijn, kunnen we eveneens het volgende regressiemodel schatten: Y = β1 + β2 (x2 + x3 ) + β4 x4 + e. De geschatte regressieparameters voor dit model zijn βˆ1 = 3.47, βˆ2 = 0.50 en βˆ4 = 6.30. Ook voor dit tweede geschatte model is de determinatieco¨effici¨ent gelijk aan 0.69. Dit model komt meer overeen met het model in (2.1). De geschatte waarden voor β1 en β4 zijn evenwel iets lager in ons geschatte model waardoor de voorspelde eindlengtes op basis van ons model wat lager zijn dan op basis van het model in (2.1). Een mogelijke oorzaak voor het verschil tussen de geschatte modellen is dat wij slechts gegevens hebben van 111 jongvolwassenen, terwijl het model dat in de Vierde Landelijke Groeistudie is geschat gebaseerd is op veel meer gegevens. De geschatte modellen in dit voorbeeld zijn dus minder betrouwbaar.
8.2
Variantie-Analyse
Variantie-analyse (Engels: analysis of variance of ANOVA) is een techniek gericht op het onderzoeken van de invloed van discrete experimentele variabelen, factoren genoemd, op een gegeven continue afhankelijke variabele. We zullen ons hier richten op variantie-analyse met twee factoren, hoewel de techniek hier zeker niet toe beperkt is. De klassieke variantie-analyse is ontstaan voor het analyseren van experimenten in de landbouw, waarbij men wilde onderzoeken welk type kunstmest, welke manier van irrigatie, gecombineerd met welke verschillende plantengeslachten, de hoogste opbrengst opleverde. Ieder van de variabelen kunstmest, bewatering en geslacht wordt aangeduid als een factor, en “opbrengst” is de afhankelijke variabele. Kenmerkend is dat de factoren categorische variabelen zijn en slechts een klein aantal verschillende waarden aannemen, welke doorgaans niet geordend zijn. De waarden van de factoren worden v´ oo ´r het experiment vastgelegd en worden beschouwd als bekende constanten. De waarneming is een vector met als co¨ ordinaten de gemeten opbrengsten bij verschillende combinaties van de factoren. In Tabel 8.2 staat een voorbeeld van data geclassificeerd naar twee factoren met respectievelijk twee en drie categorie¨en. Twee factoren met, respectievelijk, I en J verschillende niveaus, kunnen op IJ mogelijke manieren worden gecombineerd. Per combinatie (i, j) kunnen er meerdere waarnemingen zijn, zoals in Tabel 8.2. We parametriseren het model met de verwachtswaardes µij voor de verschillende combinaties (i, j) van de twee factoren. Een basis aanname bij variantie-analyse is
8.2: Variantie-Analyse A
B
275
C
L
101 80
78 85
68 74
80 77
82 87
42 52
41 32
23 53
19 67
37 47
100 83 101 80 106 73 106 102 109 105
N
94 92
71 86
93 103 81 72
87 87
34 36
52 69
42 82
44 49
58 32
117 99
81 83 91 105
91 127 91 118
Tabel 8.2. Data voor variantie-analyse met twee factoren. De eerste factor heeft I = 2 niveaus (“L” en “N”), de tweede factor heeft J = 3 niveaus “A”, “B” en “C”. Per combinatie van de factoren zijn er K = 10 waarnemingen. De data zijn verreden kilometers per dag met huurauto’s van 3 klassen gehuurd in Leiden of Noordwijk.
dat de waarneming bij combinatie (i, j) normaal verdeeld is met verwachting µij en variantie σ 2 . Verder worden alle waarnemingen onafhankelijk verondersteld zodat de waarnemingsvector een meerdimensionaal normaal verdeelde vector is. Het doel is te analyseren hoe µij afhangt van de twee factoren. Bij variantie-analyse worden de verwachtingen µij doorgaans uitgedrukt in zogenaamde hoofd- en interactie-effecten, (8.4)
µij = µ + αi + βj + γij .
De parameter µ is het algemeen gemiddelde over alle combinaties van factoren. De hoofdeffecten αi en βj geven de afwijkingen ten opzichte van het algemeen gemiddelde als de factoren op i en j worden ingesteld. De parameters γij zijn de gedeelten van de verwachtingen µij die niet door de factoren afzonderlijk kunnen worden verklaard, maar wel gezamenlijk, en worden aangeduid als interactie-effecten. Zonder nadere voorwaarden op de parameters µ, αi , βj en γij is het model niet identificeerbaar, omdat er nu 1 + I + J + IJ parameters zijn voor de IJ verwachtingen. De gebruikelijke voorwaarden voor de parameters zijn X X αi = 0, βj = 0, i
(8.5)
I X
γij = 0 voor j = 1, . . ., J,
i=1
j
J X
γij = 0
voor i = 1, . . ., I.
j=1
Het is eenvoudig na te gaan dat de parameters die aan (8.5) voldoen eveneens voldoen aan µ = µ.. , (8.6)
αi = µi. − µ, βj = µ.j − µ,
γij = µij − µ − αi − βj = µij − µi. − µ.j + µ.. .
276
8: Regressiemodellen
In deze formules betekent eenP punt · een gemiddelde over de betreffende J index, bijvoorbeeld µi. = J −1 j=1 µij . Omgekeerd kan worden nagegaan dat de gedefinieerde parameters µ, αi , βj , γij in (8.6) de enige parameters zijn die aan alle eisen in (8.4) en (8.5) voldoen. We kunnen het model dus zowel in termen van de parameters µij als de parameters µ, αi , βj , γij beschrijven. Een voordeel van de herparametrisatie is dat de belangrijke hypothesen gemakkelijk kunnen worden geformuleerd in termen van hoofd- en interactie-effecten. De hypothese van geen interactie is H0 : γij = 0, i = 1, . . ., I, j = 1, . . ., J, terwijl de hypothesen H0 : αi = 0, i = 1, . . ., I en H0 : βj = 0, j = 1, . . ., J inhouden dat de eerste of tweede factor van het experiment geen rol speelt voor de hoogte van de waarneming. Uiteraard kunnen ook meer specifieke hypothesen over de effecten interessant zijn. 8.2.1
Schatten
Wanneer er per combinatie (i, j) van de factoren Kij waarnemingen zijn, beschikken we over een waarnemingsvector Y = (Yijk ) van lengte n = P K . Het model wordt dan gegeven door ij i,j (8.7)
Yijk = µ + αi + βj + γij + eijk
waar de fouten eijk onderling onafhankelijk en normaal verdeeld zijn met verwachting 0 en variantie σ 2 voor i = 1, . . ., I, j = 1, . . ., J en k = 1, . . ., Kij . De log likelihood-functie wordt gegeven door (µ, α, β, γ, σ 2 ) 7→ −
n 1 X log(2πσ 2 ) − 2 (Yijk − µ − αi − βj − γij )2 , 2 2σ i,j,k
waar de vector (µ, α, β, γ) de parametervector is die alle effecten bevat. Net als bij lineaire regressie zijn de maximum likelihood-schatters voor de verwachtingsparameters (hier: de effecten) gelijk aan de KK-schatters. De likelihood-vergelijkingen voor de effecten zijn Kij I X J X X i=1 j=1 k=1
Kij J X X j=1 k=1
Kij I X X i=1 k=1
Kij X
k=1
(Yijk − µ − αi − βj − γij ) = 0, (Yijk − µ − αi − βj − γij ) = 0 voor i = 1, . . ., I, (Yijk − µ − αi − βj − γij ) = 0 voor j = 1, . . ., J, (Yijk − µ − αi − βj − γij ) = 0 voor i = 1, . . ., I, j = 1, . . ., J.
8.2: Variantie-Analyse
277
Gebruikmakend van de relaties in (8.5) vinden we de volgende schatters µ ˆ = Y... , α ˆ i = Yi.. − Y... , βˆj = Y.j. − Y... ,
γˆij = Yij. − Yi.. − Y.j. + Y... . waar een punt · weer staat voor middelen over de betreffende index. De schatter voor de variantie wordt gevonden door bovenstaande schatters in de likelihood-functie in te vullen en deze vervolgens te maximaliseren naar σ2 : 1X σ ˆ2 = (Yijk − µ ˆ−α ˆi − βˆj − γˆij )2 . n i,j,k
Tot slot merken we op dat uit bovenstaande volgt dat de maximum likelihood-schatter voor µij gelijk is aan µ ˆ ij = µ ˆ+α ˆi + βˆj + γˆij = Yij. . Dit resultaat is natuurlijk niet verwonderlijk; wanneer de herparametrisatie achterwege wordt gelaten en de parameter µij zelf wordt geschat, zouden we precies deze schatter hebben gekregen. 8.2.2
Toetsen
De interessante nulhypothesen om te toetsen bij variantie-analyse zijn H0 : αi = 0, i = 1, . . ., I en H0 : βj = 0, j = 1, . . ., J waarmee de men hoofdeffecten kan onderzoeken en H0 : γij = 0, i = 1, . . ., I, j = 1, . . ., J waarmee de significantie van de interactie-effecten onderzocht kan worden. De analyse is bijzonder attractief indien voor iedere combinatie (i, j) eenzelfde aantal Kij = K > 1 replicaties beschikbaar is, een zogenaamd “gebalanceerd design met replicaties”. De waarnemingsvector Y = (Yijk ) is dan een n = IJK-dimensionale multivariaat-normaal verdeelde stochastische vector. In de rest van deze paragraaf gaan we uit van een gebalanceerd design met K replicaties. Niet alle hypothesen kunnen op een zinvolle manier worden getoetst, afhankelijk van de beschikbare data. Verzamelt men bijvoorbeeld slechts ´e´en waarneming per combinatie (i, j) van factoren, dan beschikt men per “vrije” parameter µij over ´e´en waarneming (nog afgezien van een extra variantieparameter). Het is intu¨ıtief duidelijk dat in zo’n geval geen zinvolle conclusies over de interactieparameters γij mogelijk zijn. Het is dan noodzakelijk ofwel meer data te verzamelen, ofwel een aantal a priori veronderstellingen te maken. Een populaire veronderstelling is bijvoorbeeld dat de interactiefactoren γij gelijk aan 0 zijn. Het resulterende additieve model µij = µ + αi + βj bezit slechts I + J − 1 parameters, en kan wel zinvol aan de data worden gefit, mits de a priori veronderstelling van “geen interactie” correct is. Helaas is dit laatste zelden aantoonbaar (zonder meer data).
278
8: Regressiemodellen
Het blijkt handig en inzichtelijk om variantie-analyse te zien als een speciaal geval van het algemene lineaire model (zie Paragraaf 8.1.2.3). Daarvoor bestuderen we eerst de design matrix. Beschouw voor het gemak het geval waarin I = 2 en J = 3, als in Tabel 8.2. De verwachtingsvector (µ ij ) voor een enkele replicatie kan dan worden geschreven als µ11 µ 1 1 1 0 1 0 0 1 0 1 α1 µ12 1 1 1 1 −1 −1 −1 −1 µ 13 β1 (8.8) = . 0 −1 0 β2 µ21 1 −1 1 1 −1 0 1 0 −1 µ22 γ11 1 −1 −1 −1 1 1 µ23 γ12
Aan de rechterkant staan IJ = 6 parameters (µ, α1 , β1 , β2 , γ11 , γ12 ). In deze parametrisatie zijn de parameters (α2 , β3 , γ13 , γ21 , γ22 , γ23 ) uitgedrukt in de andere parameters met behulp van de relaties (8.5). Bijvoorbeeld µ23 = µ + α2 + β3 + γ23 = µ − α1 − β1 − β2 − γ13 = µ − α1 − β1 − β2 + γ11 + γ12 .
De 6 parameters aan de rechterkant en daarmee de 6 kolommen van de design matrix vallen in vier groepen uiteen, corresponderend met het algemeen gemiddelde (kolom 1), het α-hoofdeffect (kolom 2), het β-hoofdeffect (kolommen 3 en 4), en de interactie-effecten (kolommen 5 en 6). Inspectie van de design matrix leert dat de vier lineaire ruimtes opgespannen door deze groepen kolommen loodrecht op elkaar staan. Deze eigenschap van de design matrix geldt ook voor algemene waarden van I en J. Het aantal kolommen per groep is gelijk aan 1 (algemeen gemiddelde), I − 1 (α-hoofdeffecten), J − 1 (β-hoofdeffecten) en (I − 1)(J − 1) (interactieeffecten). Het totaal aantal kolommen in de design matrix, en daarmee het aantal parameters, is dus gelijk aan IJ. Dit aantal parameters is gelijk aan het aantal parameters voordat we de herparametrisatie (8.4) hebben ingevoerd, ofwel het aantal verwachtingswaarden µij . In het geval van een gebalanceerd design met K replicaties kan de verwachtingsvector voor de gehele waarnemingsvector Y van lengte IJK worden verkregen door K verwachtingsvectoren van lengte IJ voor 1 replicatie van alle combinaties onder elkaar te plakken. De design matrix behorende bij deze gehele waarnemingsvector wordt verkregen door de design matrix in (8.8) K maal onder elkaar te plaatsen. De verdeling van de kolommen in vier orthogonale groepen (algemeen gemiddelde, α-hoofdeffect, β-hoofdeffect en interactieeffecten) blijft in deze samengestelde design matrix uiteraard behouden. Bovenstaande verdeling in orthogonale kolomgroepen van de design matrix is van belang voor de toepassing van de F -toets uit Paragraaf 8.1.2.3 op de relevante nulhypothesen bij variantie-analyse. De maximum likelihood-schatter voor de verwachtingsvector EY in een gebalanceerd design wordt gegeven door PV Y als V de lineaire deelruimte van Rn
8.2: Variantie-Analyse
279
is opgespannen door de kolommen van de samengestelde design matrix. Omdat V opgespannen wordt door vier orthogonale kolomgroepen is de projectie PV gelijk aan de som van de vier orthogonale projecties, ieder corresponderend met een kolomgroep, (8.9)
PV Y = Pµ Y + Pα Y + Pβ Y + Pγ Y,
waar Pµ , Pα , Pβ en Pγ de orthogonale projecties van Rn op de vier deelruimtes zijn. De dimensies van de ruimtes waarom Pµ , Pα , Pβ en Pγ projecteren zijn gelijk aan het aantal kolommen in de corresponderende kolomgroep in de design matrix, ofwel 1, I − 1, J − 1 en (I − 1)(J − 1) respectievelijk. De nulhypothesen aangaande de interactie- en hoofdeffecten zijn lineair in de parameters en kunnen daarom worden begrepen als uitspraken dat de verwachtingsvector EY tot een bepaalde lineaire deelruimte van de n-dimensionale ruimte behoort. Zo correspondeert met de nulhypothese van geen interactie H0 : γij = 0, i = 1, . . ., I, j = 1, . . ., J de lineaire deelruimte V0 opgespannen door de drie kolomgroepen uit de design matrix behorende bij Pµ , Pα en Pβ . De term PV0 Y in de F -toetsingsgrootheid is in dat geval gelijk aan PV0 Y = Pµ Y + Pα Y + Pβ Y . Om de kwadraatsommen in de teller en noemer van de F -toetsingsgrootheid uit te kunnen rekenen bekijken we de projecties in (8.9) nader. De vier projecties in het rechterlid van (8.9) staan loodrecht op elkaar en loodrecht op (I − PV )Y . Daarom volgt met de stelling van Pythagoras dat
2 kY k2 −kPµ Y k2 = kPα Y k2 +kPβ Y k2 +kPγ Y k2 + (I−Pµ −Pα −Pβ −Pγ )Y .
Met enig rekenwerk kan men laten zien dat de verschillende termen in deze decompositie te schrijven zijn als kY k2 − kPµ Y k2 = 2
kPα Y k = (8.10)
kPβ Y k2 = 2
kPγ Y k =
X
i,j,k
X
i,j,k
X
i,j,k
X
i,j,k
(Yijk − Y... )2 , (Yi.. − Y... )2 = JK (Y.j. − Y... )2 = IK
X
α ˆ 2i ,
i
X
βˆj2 ,
j
(Yij. − Yi.. − Y.j. + Y... )2 = K
X
2 γˆij .
i,j
Definitie 8.6. De totale kwadraatsom (Engels: total sum of squares) is gelijk aan X SStot = (Yijk − Y... )2 . i,j,k
280
8: Regressiemodellen
De kwadraatsommen van de eerste en de tweede factor zijn gelijk aan X SSα = (Yi.. − Y... )2 , i,j,k
SSβ =
X
i,j,k
(Y.j. − Y... )2 .
De kwadraatsom van de interactie is gelijk aan X SSγ = (Yij. − Yi.. − Y.j. + Y... )2 . i,j,k
De residuele kwadraatsom (Engels: residual sum of squares) is gelijk aan X SSres = (Yijk − Yij. )2 . i,j,k
Met behulp van bovenstaande definities volgt SStot = SSα + SSβ + SSγ + SSres . De F -toetsingsgrootheden blijken quoti¨enten van deze kwadraatsommen, die ook wel “varianties” worden genoemd. Dit verklaart de naam “variantieanalyse”. De volgende stelling volgt uit de vergelijkingen in (8.10), Definitie 8.6 en Cochrans stelling (Stelling 10.8). Stelling 8.7. Veronderstel dat de fouten eijk in (8.7) onderling onafhankelijk en normaal verdeeld zijn met verwachting 0 en variantie σ 2 . Dan geldt (i) onder H0 : αi = 0, i = 1, . . ., I volgt Fα =
SSα /(I − 1) SSres /(IJ(K − 1))
een F -verdeling met I − 1 en IJ(K − 1) vrijheidsgraden. (ii) onder H0 : βj = 0, j = 1, . . ., J volgt Fβ =
SSβ /(J − 1) SSres /(IJ(K − 1))
een F -verdeling met J − 1 en IJ(K − 1) vrijheidsgraden. (iii) onder H0 : γij = 0, i = 1, . . ., I, j = 1, . . ., J volgt Fγ =
SSγ /((I − 1)(J − 1)) SSres /(IJ(K − 1))
een F -verdeling met (I − 1)(J − 1) en IJ(K − 1) vrijheidsgraden. Deze stelling tezamen met (8.10) laat zien dat de nulhypothese van geen invloed van de eerste factor wordt verworpen voor grote waarden voor
8.2: Variantie-Analyse
281
P
α ˆ 2i , hetgeen intu¨ıtief duidelijk is. Een vergelijkbare bewering geldt voor het tweede hoofdeffect en de interactie-effecten. De resultaten van deze drie toetsen worden doorgaans vermeld in een variantie-analysetabel. In het geval van een niet-gebalanceerd design met replicaties kunnen de toetsingsgrootheden op analoge wijze worden berekend volgens de algemene theorie. De lineaire ruimte corresponderend met de effecten zijn echter niet noodzakelijk orthogonaal. De kwadraatsommen corresponderend met de hypothesen tellen dan niet op tot de totale kwadraatsom en Stelling 8.7 is dan niet geldig. Voorbeeld 8.8. We passen bovenstaande theorie toe op de data uit Tabel 8.2. De aantallen verreden kilometers worden bij benadering normaal verdeeld verondersteld. De resultaten van zowel het model met interactie als het additieve model worden besproken. Voor beide modellen geldt I=2 en J=3 en het betreft een gebalanceerd design met K=10. Voor het model met interactie worden de schattingen voor het algemeen gemiddelde en de hoofd- en interactie-effecten gegeven in Tabel 8.3. Het is gemakkelijk na te gaan dat de relaties in (8.5) gelden voor de geschatte effecten. Grand mean 75.95 stad Leiden Noordwijk -2.95
2.95
klasse A B 7.95 -30.40
C 22.45
stad:klasse klasse stad Leiden
A B C 0.25 -1.30 1.05
Noordwijk -0.25
1.30 -1.05
Tabel 8.3. Maximum likelihood-schattingen voor het algemeen gemiddelde en de hoofden interactie-effecten voor de data uit Tabel 8.2.
De resultaten van de drie F -toetsen uit Stelling 8.7 staan in de variantie-analysetabel in Tabel 8.4. De kwadraatsommen SSα , SSβ , SSγ en SSres staan achtereenvolgens in de kolom “Sum Sq”. In de kolom “Df” staan de bijbehorende vrijheidsgraden. De kolom “Mean Sq” geeft het quoti¨ent van de kwadraatsom en het aantal vrijheidsgraden. De waarden van Fα , Fβ
282
8: Regressiemodellen Df
Sum Sq Mean Sq F value
1
klasse stad:klasse
2 29827.3 14913.7 84.5028 < 2e-16 2 57.1 28.5 0.1618 0.85105
Residuals
54
522.2
9530.3
522.2
Pr(>F)
stad
2.9586 0.09115
176.5
Tabel 8.4. Variantie-analysetabel voor het toetsen van hoofd- en interactie-effecten voor de data uit Tabel 8.2 in een variantie-analysemodel met twee factoren met interactie.
Df stad klasse Residuals
Sum Sq Mean Sq F value
Pr(>F)
1 522.2 522.2 3.0499 0.08623 2 29827.3 14913.7 87.1106 < 2e-16 56
9587.4
171.2
Tabel 8.5. Variantie-analyse tabel voor het toetsen van de hoofdeffecten voor de data uit Tabel 8.2 in een additief variantie-analysemodel met twee factoren.
en Fγ staan achtereenvolgens in de kolom “F value” en de laatste kolom geeft de overschrijdingskansen behorende bij deze toetsingsgrootheden. Het resultaat van de toetsen is dat de nulhypothese van geen interactie niet verworpen wordt. Het hoofdeffect van de factor stad is niet significant voor een onbetrouwbaarheidsdrempel van 0.05, terwijl het hoofdeffect van de factor klasse duidelijk wel significant is. De conclusie van de toetsen is dat de klasse van invloed is op het aantal verreden kilometers, terwijl invloed van de factor stad niet duidelijk aanwezig is. Wanneer we a priori veronderstellen dat er geen interactie-effecten zijn, kunnen we het additieve model schatten. De schattingen voor de hoofdeffecten zijn gelijk aan die voor het model met interactie in Tabel 8.3. De variantie-analysetabel voor het additieve model staat in Tabel 8.5. De conclusies omtrent de significantie van de hoofdeffecten zijn gelijk als in het model met interactie. Merk op dat de residuele kwadraatsom en het bijbehorend aantal vrijheidsgraden groter zijn dan bij het (uitgebreidere) model met interactie. De overschrijdingskansen van de twee toetsen zijn daardoor anders dan in het model met interactie.
8.3
Niet-lineaire en niet-parametrische regressie
In het lineaire regressiemodel is de voorwaardelijke verwachting van de afhankelijke variabele Y gegeven de verklarende variabele X = x, x 7→ E(Y | X = x), een lineaire functie van de parameter β. Deze regressiefunctie
8.3: Niet-lineaire en niet-parametrische regressie
283
kan worden vervangen door een algemenere functie, E(Y | X = x) = f (x). Bovenstaande vergelijking wordt ook wel de regressievergelijking genoemd. Als f = fθ bekend is op de parameter θ na en fθ een niet-lineaire functie is van θ, dan spreken we van niet-lineaire regressie. Net als bij lineaire regressie kan de parameter θ geschat worden met de kleinste kwadratenmethode. De KK-schatter voor θ minimaliseert het criterium θ 7→
n X i=1
2 Yi − fθ (xi ) .
Veelal is een numeriek algoritme noodzakelijk voor de bepaling van de kleinste kwadratenschatting. Wanneer de meetfouten in het model Y = fθ (x) + e normaal verdeeld zijn, is de KK-schatter voor θ tevens de maximum likelihood-schatter. Een voorbeeld van een geparametriseerd niet-lineair regressiemodel is de tijdscurve E(Y | X = x) = gθ (x) = θ0 + θ1 x + θ2 e−θ3 x . Bij waarnemingen y1 , . . ., yn op tijdstippen x1 , . . ., xn wordt de KK-schatter voor θ = (θ0 , θ1 , θ2 , θ3 ) gevonden door n X i=1
yi − θ0 − θ1 xi − θ2 e−θ3 xi
2
te minimaliseren naar θ. Als de vorm van de functie f a priori niet nader bepaald wordt, spreken we van niet-parametrische regressie. Aan de hand van de waarnemingen wordt dan een geschikt type functie bepaald. Verschillende methoden voor approximatie van functies kunnen hierbij worden benut, waaronder Fourierreeksen, wavelets, spline functies, en neurale netwerken. Een (vrijwel) willekeurig functie f (x) = E(Y | X = x) op het interval [0, 2π] kan bijvoorbeeld worden gerepresenteerd als Fourierreeks f (x) =
∞ X
n=0
an cos(nx) + bn sin(nx) ,
voor zekere constanten an en bn die van f afhangen. Door deze constanten uit de data te schatten en in de formule in te vullen (waarbij de som wordt afgeknot na een eindig aantal termen) vinden we een schatter voor f . Zogenaamde wavelets zijn soortgelijke reeksontwikkelingen met aantrekkelijke eigenschappen.
284
8: Regressiemodellen
Een tussenvorm zijn de zogenaamde additieve modellen, waarin de voorwaardelijke verwachting E(Y | X = x) met een vectorwaardige verklarende variabele X = (X1 , . . ., Xk ) wordt gemodelleerd als E(Y | X = x) = f1 (x1 ) + f2 (x2 ) + · · · + fk (xk ),
-0.02 -0.06 -0.10
lo(radiation)
0.02
voor a priori niet nader omschreven functies f1 , . . ., fk . De keuze voor lineaire functies fi zou weer terug leiden tot het lineaire regressiemodel. Figuur 8.3 illustreert de mogelijkheden met een model dat deels additief en deels niet-parametrisch is.
0
100
200
300
lo(wind, temperature) -0.1 0 0.1 0.2
radiation
90
20
8 tem 0 pe ra
7 tur 0 e
15 60
5
10 d win
Figuur 8.3. Niet-lineaire en additieve regressie van ozonconcentratie op straling, temperatuur en windsnelheid. Gefit is het model E(Y | X = x) = f (x1 ) + g(x2 , x3 ), waarin Y de derdemachtswortel uit de ozonconcentratie is en X = (X1 , X2 , X3 ) de verklarende variabelen straling, temperatuur en windsnelheid bevat. De bovenste figuur geeft de schatting van f , de onderste de schatting van g.
De dimensionaliteit van de verklarende variabele speelt bij regressieproblemen een belangrijke rol. Zonder veel a priori informatie of extreem veel data is het verband tussen een variabele Y en een hoogdimensionale verklarende variabele X nauwelijks vast te stellen. Zelfs het “schatten” van bijvoorbeeld 10 onbekende parameters β1 , . . ., β10 in een lineair regressiemodel kan in de praktijk problemen opleveren. Tenzij het aantal datapunten groot is ten opzichte van het aantal onbekende parameters is het onmogelijk de onbekenden op een betrouwbare manier te schatten. Bij een lineair regressiemodel is het aantal onbekende parameters relatief klein (het aantal
8.4: Classificatie
285
βi en de onbekende σ 2 ), maar bij een niet-parametrisch model is het aantal onbekenden in theorie oneindig groot. Een zekere a priori restrictie op het model is daarom noodzakelijk. Hier is sprake van een afweging (Engels: trade-off) die we ook in ander verband tegengekomen zijn. Gebruiken we een klein model met weinig onbekende parameters (bijvoorbeeld een lineair model), dan zijn deze parameters redelijk goed te bepalen op grond van de beschikbare data. Het risico is echter groot dat het model onjuist is, wat ertoe kan leiden dat de toepassing ervan (bijvoorbeeld om te voorspellen) desastreus kan uitpakken. Een groot model (bijvoorbeeld een niet-parametrisch model, of een lineair model met daarin naast iedere verklarende variabele Xi ook Xi2 , Xi3 , . . . en kruisproducten Xi Xj , Xi Xj2 , . . .) heeft de potentie de werkelijkheid beter te omschrijven, maar de hoeveelheid beschikbare data kan te klein zijn om op een betrouwbare manier de parameters nauwkeurig te schatten.
8.4
Classificatie
Voor het bepalen van “kredietrisico” van klanten maken verzekeringsmaatschappijen gebruik van achtergrondvariabelen als leeftijd, woonsituatie, inkomen, aantal claims in het laatste jaar, grootte van de claims, etc. Op grond van deze gegevens wil de verzekeringsmaatschappij inschatten of de klant in de naaste toekomst een grote claim zal indienen of niet. Dit is een voorbeeld van een classificatieprobleem. Op grond van de gegevens x = (x1 , . . ., xm ) willen we voorspellen of een bepaalde gebeurtenis wel of niet zal plaatsvinden. Coderen we deze twee mogelijkheden met Y = 1 en Y = 0 respectievelijk dan is het probleem de Y -waarde van een individu te voorspellen op basis van de gemeten “input” x. Deze instelwaarden x worden vaak covariaten genoemd. Bij gegeven x kan de afhankelijke variabele Y gezien worden als output. In tegenstelling tot de aanname in Paragraaf 8.1 gaan we in deze paragraaf uit van een stochastische verklarende variabele X en beschouwen de waargenomen (x, y) als realisatie van een stochastische vector (X, Y ). We zijn nu op zoek naar de voorwaardelijke verdeling van Y gegeven X = x. In de meeste gevallen zal geen perfecte relatie bestaan tussen x enerzijds en Y gegeven X = x anderzijds. Een model uitgedrukt in kansen ligt dan voor de hand en we zijn daarom ge¨ınteresseerd in de voorwaardelijke kans P(Y = 1| X = x) = 1 − P(Y = 0| X = x) dat een willekeurig individu waarvan de waarde van de verklarende variabele X = x bekend is een Y -waarde van 1 bezit. De grootte van deze kans geeft aan hoe sterk het verband is tussen input x en output Y .
286
8: Regressiemodellen
In deze opzet bestaat een statistisch model uit een nadere omschrijving van de kansverdeling van (X, Y ). In het bijzonder is een nadere omschrijving van de genoemde voorwaardelijke kansen van belang. Een klassiek model is het logistische regressiemodel, waarin (8.11)
P(Y = 1| X = x) = 1+e
−
1 Pm
j=1
βj xj
.
In dit model be¨ınvloedt de waarde van de verklarende variabele x = (x1 , . . ., xm ) de kansverdeling P van de afhankelijke variabele Y door middel van een lineaire combinatie m effici¨enten β1 , . . ., βm , j=1 βj xj , voor zekere co¨ die het relatieve belang van de verschillende gegevens uitdrukken. De functie x 7→ Ψ(x) = + e−x )−1 is de logistieke verdelingsfunctie en beeldt de P(1 m re¨ele getallen j=1 βj xj af in het interval [0, 1], zodat de functiewaarden inderdaad het karakter van een kans kunnen bezitten. De keuze voor deze functie blijkt handig voor berekeningen, maar is verder nogal willekeurig. De normale verdelingsfunctie wordt ook vaak gebruikt, en men spreekt dan van probit-regressie. In dat geval is P(Y = 1| X = x) = Φ
m X j=1
βj xj .
0.0
0.2
0.4
0.6
0.8
1.0
Figuur 8.4 laat zien dat Ψ(x) ≈ Φ(x/1.8) zodat beide functies tot vrijwel identieke resultaten zullen leiden, op een schalingsconstante van β na.
-6
-4
-2
0
2
4
6
Figuur 8.4. De logistieke functie (doorgetrokken lijn) en de normale verdelingsfunctie met standaardafwijking 1.8 (gestippeld).
De variabelen X1 , . . ., Xm kunnen min of meer losstaande aspecten van de individuen meten, maar kunnen ook gerelateerd zijn. Als het verband tussen de afhankelijke variabele Y en de verklarende variabele X1 kwadratisch is in plaats van lineair (bijvoorbeeld als zowel kleine als grote waarden van X1 leiden tot een grote kans dat Y = 1, terwijl tussenwaarden meestal Y = 0 geven), dan is het verstandig naast x1 ook x21 in het model voor
287
8.4: Classificatie
de voorwaardelijke kans op te nemen. Net als bij lineaire regressie nemen we dan bijvoorbeeld x2 = x21 . Logaritmische en exponenti¨ele transformaties worden eveneens vaak toegepast. Interacties tussen afhankelijke variabelen kunnen in het regressiemodel worden gemodelleerd door ook producten als x1 x2 op te nemen. Categorische verklarende variabelen die geclassificeerd zijn in eindig veel klassen, zoals regio-indelingen, kunnen we met behulp van dummy-variabelen in het model opnemen, op vergelijkbare wijze als bij lineaire regressie (zie Paragraaf 8.1.2.1). Naast polynomen bestaan er nog vele andere mogelijkheden om de kansen P(Y = 1| X = x) te modelleren, bijvoorbeeld met behulp van wavelets of neurale netwerken. Het achterliggende idee blijft echter hetzelfde: in een klasse van mogelijkheden voor de kansen P(Y = 1| X = x) bepalen we de mogelijkheid die het best past bij de waargenomen data (x1 , y1 ), . . ., (xn , yn ), en gebruiken deze vervolgens voor classificatie van nieuwe gevallen. In de machine learning literatuur wordt het geheel van de waargenomen data ook wel het training sample genoemd en het vinden van het best passende element in het model training of learning. Hier houden we echter vast aan de statistische termen “waargenomen data” en “schatten”. 8.4.1
Schatten
In deze paragraaf beperken we ons tot een eendimensionale variabele X en leiden we vergelijkingen af voor de maximum likelihood-schatters voor het classificatieprobleem Pα,β (Y = 1|X = x) =
1 1+
e−α−βx
,
waar α en β de onbekende parameters zijn. De parameters kunnen geschat worden op basis van een steekproef van waarden (x1 , y1 ), . . ., (xn , yn ). Vervolgens kunnen we het geschatte model gebruiken voor de voorspelling van een output Y op basis van nieuwe input x in de toekomst. Veronderstel dat Y1 , . . ., Yn gegeven X1 , . . ., Xn onderling onafhankelijke stochastische grootheden zijn met waarden in {0, 1}, verdeeld volgens de kansverdelingen hierboven. Dan kan de kansverdeling van Yi gegeven Xi equivalent genoteerd worden als yi 1−yi 1 1 Pα,β (Yi = yi |Xi = xi ) = , 1 − 1 + e−α−βxi 1 + e−α−βxi voor i = 1, . . ., n. Met andere woorden, Yi gegeven Xi = xi is alternatief verdeeld en de kans op “succes” is een zekere functie van de inputwaarde xi . De likelihood-functie wordt gegeven door L(α, β; Y1 , . . ., Yn ) =
n Y
i=1
Yi 1− −α−βxi 1
1+e
1 1 + e−α−βxi
1−Yi
.
288
8: Regressiemodellen
Nulstellen van de parti¨ele afgeleiden naar α en β van de log likelihoodfunctie leidt na enig rekenwerk tot de vergelijkingen, n X i=1
n X i=1
ˆ i) Yi − Ψ(ˆ α + βx ˆ i ) = 0, α + βx Ψ0 (ˆ ˆ ˆ Ψ(ˆ α + βxi ) 1 − Ψ(ˆ α + βxi )
Yi − Ψ(ˆ α + βxi ) ˆ i )xi = 0. α + βx Ψ0 (ˆ ˆ ˆ i) Ψ(ˆ α + βxi ) 1 − Ψ(ˆ α + βx
waar Ψ(x) = (1 + e−x )−1 . Hieruit zijn α ˆ en βˆ niet expliciet oplosbaar. Dit is echter in de praktijk geen probleem, omdat het eenvoudig is de vergelijkingen numeriek, met een iteratief algoritme, op te lossen. Dit geldt ook in het geval van een meerdimensionale inputvariabele X. De voorgaande likelihood-vergelijkingen gelden ook bij het gebruik van een andere “link” functie dan de logistieke functie Ψ. In probitregressie bijvoorbeeld, waar in plaats van Ψ de normale verdelingsfunctie Φ wordt gekozen vindt men dezelfde vergelijkingen met Ψ vervangen door Φ. De logistieke verdelingsfunctie Ψ heeft het rekenkundig voordeel dat Ψ0 = Ψ(1 − Ψ), waardoor de likelihood-vergelijkingen sterk kunnen worden vereenvoudigd. Ze blijven echter niet-lineair. 8.4.2
Toetsen
In het logistische regressiemodel met een meerdimensionale afhankelijke variabele X is het interessant om te toetsen of een bepaalde component van de verklarende variabele invloed heeft op de respons. Dit is bijvoorbeeld een interessante hypothese wanneer de afhankelijke variabele Y staat voor het al dan niet indienen van een schadeclaim bij een verzekeringsmaatschappij in de afgelopen twee jaar en de eerste co¨ ordinaat X1 van de verklarende variabele de leeftijd van de verzekerde aangeeft. Wanneer de verzekeringsmaatschappij wil weten of de leeftijd inderdaad verklarende waarde heeft voor het indienen van claims, kan de nulhypothese H0 : β1 = 0 dat de eerste co¨ ordinaat van de parametervector β = (β1 , . . ., βm ) nul is, getoetst worden tegen het alternatief H1 : β1 6= 0. Om een nulhypothese van de vorm H0 : (βj : j ∈ J) = 0 te toetsen wordt vaak de likelihood-ratiotoets toegepast. Hoewel er geen analytische uitdrukking voor de likelihood-ratiostatistiek bestaat, is de waarde van de likelihood-ratiostatistiek gemakkelijk numeriek te bepalen door middel van een iteratief algoritme. Voor waargenomen (x1,1 , . . ., x1,m , y1 ), . . ., (xn,1 , . . ., xn,m , yn ) is de waarde van de likelihood te berekenen als L(β, y1 , . . ., yn ) =
n Y
i=1
1+e
−
1 Pm
j=1
βj xi,j
yi
1−
1+e
−
1 Pm
j=1
βj xi,j
1−yi
,
zie Paragraaf 8.4.1. Voor het berekenen van de likelihood-ratiostatistiek volstaat het dus om de maximum likelihood-schatters te bepalen onder
8.4: Classificatie
289
het volledige model, en onder de nulhypothese. In Paragraaf 8.4.1 is een bijzonder geval van deze berekening besproken. Standaard computersoftwarepakketten rapporteren de likelihood-ratiostatistiek veelal niet direct, maar door middel van een zogenaamde (residual) deviance. Deze is gelijk aan twee keer de log likelihood-ratiostatistiek, 2 log λn , voor het toetsen van de nulhypothese dat het model klopt, dat wil zeggen dat er een vector β ∈ Rm bestaat zodanig dat (8.11) correct is, binnen het omvattende model dat Y1 , . . ., Yn onafhankelijke Bernoullivariabelen zijn met mogelijk allemaal verschillende succeskansen pi = P(Yi = 1). De deviance geeft derhalve een maat voor de fit van het logistische regressiemodel. Bovendien is het verschil van de deviance voor het gehele model (8.11) en de deviance voor een submodel (zoals het model onder H0 : (βj : j ∈ J) = 0) gelijk aan tweemaal de log likelihood-ratiostatistiek voor het toetsen van het submodel. Een alternatief voor de likelihood-ratiotoets is de Wald-toets (zie Paragraaf 5.7), waarvoor de overschrijdingskansen doorgaans in computeroutput worden vermeld. 8.4.3
Betrouwbaarheidsgebieden
Betrouwbaarheidsgebieden voor de parameter β kunnen worden bepaald met behulp van de Fisher-informatiematrix. In deze paragraaf beperken we ons weer tot een eendimensionale verklarende variabele, zoals in Paragraaf 8.4.1, 1 Pα,β (Y = 1|X = x) = . 1 + e−α−βx Veronderstel dat (X1 , Y1 ), . . ., (Xn , Yn ) onderling onafhankelijke en identiek verdeelde stochastische vectoren zijn met Yi ∈ {0, 1} en dat de simultane kansverdeling van X en Y wordt gegeven door Pα,β (X = x, Y = y) = Pα,β (Y = y|X = x)pX (x) y 1−y 1 1 = pX (x), 1 − 1 + e−α−βx 1 + e−α−βx voor onbekende parameters (α, β). Hierin staat pX voor de marginale dichtheid (of kansmassafunctie) van X. De parameters α en β kunnen worden geschat met hun maximum likelihood-schatters (zie Paragraaf 8.4.1). De score-functie van het model wordt gegeven door y − Ψ(α + βx) 1 Ψ0 (α + βx) . `˙α,β (x, y) = x Ψ(α + βx) 1 − Ψ(α + βx)
De Fisher-informatiematrix wordt derhalve gegeven door (zie Paragraaf 6.3.1) Z Ψ0 (α + βx)2 1 x pX (x)dx iα,β = x x2 Ψ(α + βx) 1 − Ψ(α + βx)
290
8: Regressiemodellen
waar de integraal over alle mogelijke uitkomsten van X genomen wordt. We kunnen deze matrix schatten door de integraal te vervangen door een som over de waarnemingen en de marginale dichtheid pX te vervangen door 1/n voor iedere waarneming. Ofwel we schatten de marginale verdeling van X met de empirische marginale verdeling van X. Verder gebruiken we het idee van de plug-in schatter voor de Fisher-informatie en vervangen α en β door hun maximum likelihood-schatters. Dit geeft n ˆ i )2 1X Ψ0 (ˆ α + βx 1 xi . id = α,β ˆ i ) 1 − Ψ(ˆ ˆ i) xi x2i n Ψ(ˆ α + βx α + βx i=1
Een benaderend betrouwbaarheidsgebied voor (α, β) met onbetrouwbaarheid α0 wordt dan gegeven door de verzameling o n α−α ˆ 2 d ˆ ≤ χ (α, β): ( α − α ˆ β − β ) niα,β 2,1−α0 . β − βˆ
* 8.5
Cox-regressiemodel
In de levensduuranalyse is men ge¨ınteresseerd in de kansverdeling van tijdsduren. Hierbij kan men denken aan de levensduur van een apparaat, de incubatietijd van een ziekte, tijd tot overlijden na een zware operatie, de tijdsduur dat een ex-gedetineerde op vrije voeten is totdat hij opnieuw de fout in gaat (zie de toepassing na Hoofdstuk 2), maar ook aan de tijdsduur tot het optreden van de volgende bug in een computerprogramma (“reliability analysis”). Modellen in de levensduuranalyse (Engels: survival analysis) worden vaak in termen van de risicofunctie of de hazard-functie gesteld. De hazardfunctie behorende bij een kansdichtheid f is gedefini¨eerd als λ(t) =
f (t) , 1 − F (t)
waarin F de bijbehorende verdelingsfunctie is. Interpreteren we f (t) dt als de kans dat een levensduur T in het interval [t, t + dt) valt, dan heeft λ(t) dt de interpretatie λ(t) dt ≈
P(t ≤ T < t + dt) = P(t ≤ T < t + dt| T ≥ t). P(T ≥ t)
De waarde λ(t) is derhalve de voorwaardelijke kans op “overlijden” net na tijdstip t gegeven dat op tijdstip t de persoon of het product nog “in leven” is. Het is deze interpretatie als een “instantane kans” die de hazard-functie aantrekkelijk maakt om als handvat voor modellering te dienen.
8.5: Cox-regressiemodel
291
De hazard-functie t 7→ λ(t) is de afgeleide van t 7→ − log(1 − F (t)) naar t. Gegeven de hazard-functie λ, kan de verdelingsfunctie F worden teruggevonden met de formule F (t) = 1 − e−Λ(t) , voor Λ de cumulatieve hazard-functie, dat is de primitieve van λ met Λ(0) = 0 (als F (0) = 0). De dichtheid f is dan gelijk aan f (t) = λ(t)e−Λ(t) . Een populair model in de medische statistiek is het Cox-model, door Cox voorgesteld in de jaren ’70 van de vorige eeuw. In dit model wordt een levensduur T (de afhankelijke variabele) gerelateerd aan een vector X van verklarende variabelen, zoals leeftijd, gewicht, bloeddruk, prognose, etc. Het Cox-model postuleert dat de hazard-functie van een pati¨ent met “covariaatvector” x gelijk is aan λT |X=x (t) = eβ
T
x
λ(t).
Hierin is λ de hazard-functie van een pati¨ent met verklarende variabele x = 0, de zogenaamde “baseline hazard”. Het Cox-model postuleert dus dat de hazard-functies van twee pati¨enten met verklarende variabelen x1 en x2 proportioneel zijn: T λT |X=x1 (t) = eβ (x1 −x2 ) , T |X=x 2 λ (t)
onafhankelijk van t. Dit geeft een eenvoudige interpretatie aan de parameter β: deze bepaalt de grootte van de relatieve risico’s verbonden aan bepaalde verklarende variabelen. Bijvoorbeeld, als x het gewicht is, T de leeftijd bij overlijden en β = 1.4, dan is het risico om nu te overlijden voor iemand met een gewicht van 120 kg een factor e1.4∗(120−90) zo groot als voor iemand met een gewicht van 90 kg. Dat dit relatieve risico onafhankelijk is van de tijd (en hier dus van leeftijd) vergemakkelijkt de interpretatie, maar is niet altijd een redelijke aanname. Daarom zijn veel variaties op het Cox-model bedacht. In het Cox-model wordt de hazard-functie λ niet nader gespecificeerd. Het model heeft daarom als parameter het paar θ = (β, λ), bestaande uit een vector β en een functie λ. Beide parameters worden uit de beschikbare data, bijvoorbeeld een steekproef (T1 , X1 ), . . ., (Tn , Xn ) van levensduren en verklarende variabelen, geschat. Het is ook mogelijk als model te postuleren dat λ een specifieke vorm bezit. De aanname dat de functie t 7→ λ(t) constant is, correspondeert bijvoorbeeld met de aanname dat als de variabele x gelijk aan 0 is, de levensduurverdeling de exponenti¨ele verdeling is. Deze aanname, die de interpretatie heeft van “nieuw is even goed of slecht als gebruikt”, is over het algemeen weinig realistisch in de medische statistiek, maar kan (helaas) realistisch zijn voor het aantal resterende bugs in reliability theory. De Weibull -familie, waarvoor de functie λ een machtsfunctie λ(t) = βtα is, is een andere mogelijke familie. Het voordeel van het Cox-model zonder enige specificatie van de hazard-functie λ boven deze mogelijkheden is dat het de
292
8: Regressiemodellen
willekeurigheid van een keuze voor een bepaald type functie vermijdt, zodat de parameters die met het Cox-model worden geschat vaker een goede benadering voor de data zullen geven. Aan de andere kant, als gegronde redenen aanwezig zijn dat een specifieke vorm van de hazard-functie te verwachten is, dan is het beter niet het Cox-model te gebruiken, omdat dat meer a priori onzekerheid bevat. Een moeilijk aspect bij levensduuranalyse is dat vaak niet alle levensduren worden waargenomen. Op het moment dat we conclusies uit de data willen trekken, zijn bijvoorbeeld nog niet alle individuen “overleden”, en is van deze levensduren slechts een ondergrens bekend. Bij medische toepassingen komt het ook veelvuldig voor dat pati¨enten niet tot hun dood gevolgd kunnen worden door bijvoorbeeld een verhuizing, of doordat ze komen te overlijden aan een andere doodsoorzaak dan onderwerp van studie is. Ook in die gevallen wordt slechts een ondergrens voor de levensduren waargenomen. Men spreekt dan van gecensureerde data. Langere levensduren zullen vaker gecensureerd zijn dan kortere. De reden hiervoor is dat een verhuizing, sterfte door een andere oorzaak, of het einde van de studie met grotere kans in een lang interval plaatsvindt dan in een kort interval. Het zou daarom verkeerd zijn de gecensureerde data te negeren, omdat dan relatief veel langere levensduren zouden worden genegeerd. Dit zou tot een onderschatting van de levensduurverdeling leiden. Een correcte benadering is om een statistisch model voor alle waarnemingen te gebruiken. 8.5.1
Schatten
In het ongecensureerde Cox-model met een eendimensionale verklarende variabele X gaan we uit van een steekproef (T1 , X1 ), . . ., (Tn , Xn ) Dit model is gespecificeerd door de voorwaardelijke hazard-functie λT |X=x (t) = eβx λ(t). Deze correspondeert met een voorwaardelijke dichtheid van de vorm f T |X=x (t) = eβx λ(t)e−e
βx
Λ(t)
,
en voorwaardelijke verdelingsfunctie F T |X=x (t) = 1 − e−e
βx
Λ(t)
,
met Λ de cumulatieve hazard-functie. Voor de maximum likelihood-schatter voor de parameter (β, λ) is de likelihood-functie nodig. Deze wordt gegeven door (β, λ) 7→
n Y
f T |Xi (Ti )pX (Xi ) =
i=1
=
n Y
i=1 n Y i=1
eβXi λ(Ti )e−e e
βXi
λ(Ti )e
βXi
Λ(Ti )
−eβXi Λ(Ti )
pX (Xi ) n Y
j=1
pX (Xj )
8.5: Cox-regressiemodel
293
waar pX de marginale dichtheid van de verklarende variabele voorstelt. Omdat het niet voor de hand ligt dat deze Q verdeling informatie over de parameters bevat, kunnen we de term nj=1 pX (Xj ) in de likelihood buiten beschouwing laten bij het maximaliseren naar (β, λ). De maximum likelihood-schatter voor (β, λ) is derhalve de waarde die de functie (β, λ) 7→
n Y
eβXi λ(Ti )e−e
βx
Λ(Ti )
i=1
maximaliseert over alle mogelijke parameterwaarden (β, λ). Helaas heeft dit probleem geen oplossing (een punt van maximum bestaat niet en het supremum over alle mogelijke parameterwaarden is oneindig), omdat de parameterverzameling voor λ, de verzameling van alle hazard-functies, te groot is (net als in Voorbeeld 4.22). De meest gebruikte modificatie van het probleem is om het probleem te stellen in termen van (β, Λ) in plaats van (β, λ). De factor λ(Ti ) wordt daarbij vervangen door de sprong ∆Λ(Ti ) in de cumulatieve hazard-functie in Ti . Met andere woorden, ˆ Λ) ˆ dat de functie we zoeken naar het paar (β, (β, Λ) 7→
n Y
eβXi ∆Λ(Ti )e−e
βXi
Λ(Ti )
i=1
maximaliseert over alle mogelijke parameterwaarden (β, Λ) bestaande uit een scalar β en een rechtscontinue, monotoon stijgende functie Λ: [0, ∞) 7→ [0, ∞) met Λ(0) = 0. Dit probleem heeft wel een oplossing, welke bekend staat als de Cox-schatter. Voor berekening van deze schatter in de praktijk is een iteratief algoritme nodig. Dit is standaard ge¨ımplementeerd in computerpakketten voor levensduuranalyse. Een schatting voor β is een getal, terwijl een schatting voor Λ een functie is. Vaak wordt niet de schatting voor Λ zelf gerapporteerd, maar de bijbehorende baseline survival functie, 1−F T |X=0(t) = e−Λ(t) . In Figuur 8.5 staat een voorbeeld getekend. 8.5.2
Toetsen en Betrouwbaarheidsintervallen
Stel dat we de nulhypothese H0 : β = β0 willen toetsen tegen het alternatief H1 : β 6= β0 . Deze hypothese kan worden getoetst met de likelihoodratiotoets. In de teller wordt de likelihood gemaximaliseerd over de gehele parameterruimte. In de noemer, daarentegen, wordt maximalisatie beperkt tot de kleinere parameterruimte met β = β0 . In de vorige subparagraaf hebben we een (aangepaste) likelihood-functie van het algemene Cox-model voor levensduuranalyse gegeven: (β, Λ) 7→
n Y
i=1
e
βXi
∆Λ(Ti )e
−eβXi Λ(Ti )
n Y
j=1
pX (Xj ).
8: Regressiemodellen
0.0
0.2
0.4
0.6
0.8
1.0
294
0
1
2
3
4
5
6
7
Figuur 8.5. Schatting van de baseline survival functie in het Cox-model λ T |X=x (t) = eβx λ(t) gebaseerd op 50 waarnemingen, gegenereerd volgens de standaard Weibull-baseline hazard λ, eendimensionale verklarende variabele x uit de homogene verdeling op [−5, 5], en parameter β = −0.3. De stippellijn is de ware baseline survival functie 1−F T |X=0 (t) = e−Λ(t) .
Qn De term j=1 pX (Xj ) komt zowel in de teller als in de noemer van de likelihood-ratiostatistiek voor. Als de verdeling pX niet van de parameter (β, λ) afhangt, vallen het product in de teller en in de noemer tegen elkaar weg. Opnieuw volstaat het dus om de functie
L(β, λ; T1 , X1 , . . ., Tn , Xn ) =
n Y
eβXi ∆Λ(Ti )e−e
βXi
Λ(Ti )
.
i=1
te maximaliseren naar (β, λ) onder H0 en onder H1 . Bovenstaande likelihood-functie is een voorbeeld van een “semiparametrische likelihood-functie” omdat de parameter Λ niet door een eindig dimensionale ruimte varieert, maar door een functieruimte. Men kan echter laten zien dat de likelihood-ratiostatistiek voor het toetsen van H0 : β = β0 asymptotisch een chikwadraat-verdeling met 1 vrijheidsgraad heeft. Als β meerdimensionaal is, dan is het aantal vrijheidsgraden van de chikwadraat-verdeling gelijk aan de dimensie van β. De profile likelihood kan daarom worden gebruikt om een betrouwbaarheidsinterval voor β te construeren op exact dezelfde manier als voor parametrische modellen; modellen waarin alle parameters eindig dimensionaal zijn. Hoewel geen analytische uitdrukking bestaat voor de maximum ˆ kan de profile likelihood wel exact worden berekend likelihood-schatter β, (zie Paragraaf 6.5). Men gaat allereerst na dat voor vaste β de likelihood Λ 7→ L(β, Λ; T1 , X1 , . . ., Tn , Xn ) gemaximaliseerd wordt door een functie Λ met sprongen in ieder van de punten Ti , maar constant is op ieder van de intervallen [T(i−1) , T(i) ), met T(i) de ie ordestatistiek. Gegeven de sprongg-
8.5: Cox-regressiemodel
295
roottes λi = ∆Λ(Ti ) wordt de likelihood-functie gegeven door (β, λ1 , . . ., λn ) 7→
n Y
eβXi λi e
−eβXi
i=1
P
j:Tj ≤Ti
λj
.
Deze uitdrukking kunnen we maximaliseren naar (λ1 , . . ., λn ) in [0, ∞)n op de gebruikelijke wijze, door eerst de logaritme te nemen en vervolgens de parti¨ele afgeleiden naar de λi gelijk te stellen aan 0. De resulterende likelihood-vergelijkingen kunnen worden geschreven in de vorm 1 = λi
X
eβXk .
k:Tk ≥Ti
De profile likelihood wordt verkregen door deze waarden in de likelihood te substitueren, en is daarom gelijk aan L1 (β; T1 , X1 , . . ., Tn , Xn ) = sup L(β, Λ; T1 , X1 , . . ., Tn , Xn ) Λ
=
n Y
i=1
Deze uitdrukking volgt uit n Y
i=1
e
−eβXi
P
j:Tj ≤Ti
λj
=e
−
=e
−
P
eβXi j:Tj ≥Ti
Pn P
j:Tj ≤Ti
j=1
i:Ti ≥Tj
i=1
Pn P
eβXj
e−1 .
eβXi λj
eβXi λj
=
n Y
e−1 ,
j=1
waar de laatste gelijkheid volgt na het invullen van de uitdrukking voor λj . De profile likelihood kan middels een numeriek algoritme worden gemaximaliseerd over β, om zo de maximum likelihood-schatter βˆ te vinden. De waarden β waarvoor de logaritme van de profile likelihood dichter dan 21 χ21,1−α0 bij de maximale waarde van de logaritme van de profile likelihood is, vormen een betrouwbaarheidsgebied voor β met betrouwbaarheid ongeveer gelijk aan 1 − α0 .
8: Regressiemodellen
-1400
-1200
-1000
-800
296
-2.0
-1.5
-1.0
-0.5
0.0
0.5
1.0
Figuur 8.6. Drie realisaties van de profile likelihood voor β voor het Cox-model λT |X=x (t) = eβx λ(t) gebaseerd op 100 waarnemingen, gegenereerd volgens standaard Weibullbaseline hazard λ, eendimensionale verklarende variabele x gegenereerd uit de homogene verdeling op [−5, 5] en ware parameter β = −0.3.
Opgaven 1. Men wil onderzoeken of er verband is tussen (gemiddelde) eindexamencijfers en studieduur (in maanden). De volgende gegevens, betrekking hebbend op een steekproef van in 1965 in Nijmegen aangekomen wiskundestudenten, zijn beschikbaar. cijfer studieduur
8 82
7 80
7 66
7 77
7.5 79
7 75
6.5 58
9 46
7 58
9 56
8 70
7.5 55
(i) Bepaal schattingen voor de regressieco¨effici¨enten in het lineaire regressiemodel m.b.v. de methode der kleinste kwadraten. (ii) Bereken de fractie verklaarde variantie. (iii) Maak een plaatje met daarin de waarnemingen en de aangepaste rechte lijn. 2. Beschouw het lineaire regressiemodel van Paragraaf 8.1. (i) Laat zien dat voor de regressieco¨effici¨enten lineaire combiP de schatters P naties α ˆ= µi Yi en βˆ = λi Yi van de waarnemingen zijn. (ii) Laat zien dat α ˆ en βˆ zuivere schatters van α enβ zijn. ˆ = σ 2 / (n − 1)s2x . (iii) Laat zien dat MSE(α, β, σ 2 ; β) (iv) Veronderstel dat de waarden x1 , . . ., xn door de onderzoeker kunnen worden ingesteld binnen een gegeven interval [a, b]. Wat is dan een optimale instelling om de beste schatting van β te krijgen? (v) Zie je een reden om in de praktijk toch deze optimale instelling niet te kiezen? (vi) Laat zien dat MSE(α, β, σ 2 ; α) ˆ = σ 2 /n + x2 σ 2 / (n − 1)s2x .
3. Beschouw het regressiemodel Yi = α + βxi + ei , waarin α en β onbekende parameters zijn, x1 , . . ., xn bekende constanten en e1 , . . ., en onderling onafhankelijk normaal verdeeld zijn met Eei = 0 en Ee2i = zi σ 2 voor bekende
8: Opgaven
297
positieve getallen z1 , . . ., zn . Een dergelijk model met fouten van verschillende nauwkeurigheid noemt men heteroskedastisch. Bepaal de maximum likelihoodschatters van α en β. 4. Beschouw het standaard lineaire regressiemodel, maar veronderstel dat a priori bekend is dat α = 0. (i) Bepaal de kleinste kwadratenschatter voor β. (ii) Ga na of deze schatter zuiver is. (iii) Bepaal de variantie van deze schatter. 5. Beschouw het standaard lineaire regressiemodel. Men wil op grond van de waarnemingen Y1 , . . ., Yn en x1 , . . ., xn de verwachte waarde voorspellen van een Y behorend bij een gegeven x. Bepaal een zuivere schatter voor deze waarde. 6. Implementeer een MCMC schema om de parameter β in het lineaire regressiemodel Yi = βXi +ei te schatten, waarbij wordt aangenomen dat X1 , . . ., Xn en e1 , . . ., en onafhankelijk van elkaar worden gegenereerd uit een normale verdeling, en waar we aannemen dat we alleen Y1 , . . ., Yn and Xm+1 , . . ., Xn waarnemen voor een gegeven m ≥ 2. (Neem bijvoorbeeld n = 10, m = 5.)
7. Beschouw het lineaire regressiemodel van Paragraaf 8.1. Vind een zo klein mogelijke voldoende vector voor (α, β, σ 2 ). 8. Beschouw het lineaire regressiemodel in Paragraaf 8.1. (i) Laat zien dat dit model een exponenti¨ele familie vormt. (ii) Laat zien dat de kleinste kwadratenschatters α ˆ en βˆ UMVZ zijn. (iii) Vind een UMVZ-schatter voor σ 2 . 9. Werk Paragraaf 8.4 uit in detail: controleer de uitdrukking voor de Fisherinformatiematrix en geef een uitdrukking voor een benaderend betrouwbaarheidsinterval voor β.
10. Zwaarlijvige mensen die op dieet worden gezet vertonen een exponenti¨ele afname van hun vetweefsel gedurende de periode van het dieet. Om te onderzoeken hoe lang iemand op een bepaald dieet gezet zou moeten worden, wordt van n proefpersonen gedurende een maand dagelijks het gewichtsverlies gemeten terwijl hij het dieet volgt. Formuleer een geschikt statistisch model voor de gewichtsafname. (Meerdere modellen zijn mogelijk!) 11. Mensen met een hartklepaandoening krijgen veelal een nieuwe hartklep. Er bestaan twee soorten vervangende hartkleppen: biologische en mechanische. Bij een onderzoek naar de levensduur van de biologische klep worden n pati¨enten gevolgd vanaf hun operatie totdat de klep het begeeft, de pati¨ent overlijdt of het onderzoek wordt afgesloten. Men heeft het vermoeden dat de leeftijd, het gewicht en het geslacht van de pati¨ent invloed hebben op de levensduur van de klep. (i) Formuleer een geschikt statistisch model. (ii) Men is ook ge¨ınteresseerd in de levensduur van de mechanische klep en met name welke klep, de biologische of de mechanische klep, het langste meegaat. Voor dit onderzoek worden nog eens m pati¨enten met een mechanische klep gevolgd vanaf hun operatie. Formuleer opnieuw een geschikt statistisch model voor bovenstaande onderzoeksvraag. Welke aannames doe je?
298
8: Regressiemodellen
12. Veronderstel dat de stochastische grootheid T kansdichtheid f en hazardfunctie λ bezit. Laat zien dat f (t) = λ(t)e−Λ(t) . 13. Laat zien dat de hazard-functie van een stochastische grootheid X constant is dan en slechts dan als X exponentieel verdeeld is.
REGRESSIEMODELLEN EN CAUSALITEIT Regressiemodellen kwantificeren het verband tussen een output variabele Y en een input variabele X, en kunnen worden gebruikt voor het voorspellen van Y uit X. Soms zouden we het regressiemodel ook willen gebruiken om Y te “verklaren” uit X. Van een causale verklaring is sprake als X kan worden gezien als een oorzaak voor Y . Een verandering in de waarde van X wordt dan noodzakelijkerwijze gevolgd door een verandering in Y , waarvan de grootte door het regressiemodel wordt bepaald. Zeker niet alle regressiemodellen mogen in causale zin worden ge¨ınterpreteerd. De “prijs van een woonhuis” kan bijvoorbeeld ten dele worden voorspeld uit het inkomen van de bewoners van de wijk; “inkomen” is echter zeker geen oorzaak voor prijs. Ook de “rentestand in de laatste weken” kan moeilijk als oorzaak worden aangemerkt voor de “rentestand morgen”, hoewel de historische koers zeker kan worden gebruikt bij het doen van voorspellingen. Aan de andere kant kunnen we “temperatuur” waarschijnlijk wel als oorzaak aanmerken voor de “snelheid van een chemische reactie”. Stel nu dat we “aantal dagen werkloos” door regressie verklaren uit onder meer “hoogst genoten opleiding”, waarbij de regressieco¨effici¨ent negatief blijkt te zijn. Betekent dit dat meer opleiding een oorzaak is voor korter werkloos zijn? Het causaliteitsbegrip behoort eerder tot de filosofie dan de statistiek, maar het is van grote betekenis voor de interpretatie van regressiemodellen. Willen we het regressiemodel alleen gebruiken voor het voorspellen van Y op basis van een x die verzameld is onder dezelfde omstandigheden als de data waarop het regressiemodel gefit is, dan is causaliteit niet van veel belang. Anders is het als we de uitkomsten van een regressie-analyse willen gebruiken voor een “interventie”. Als meer opleiding inderdaad een oorzaak is voor een kortere werkloosheid, dan is het uit sociaal-economisch oogpunt zinvol om mensen meer opleiding te geven; de werkloosheid moet dan immers gaan dalen. Een causaal verband kan in het algemeen worden onderzocht door op deze manier naar de effecten van een interventie te kijken. Stel dat we de X-waarde van een object zouden kunnen veranderen, met gelijk houden van alle andere relevante factoren, geeft invullen van de nieuwe X-waarde in het regressiemodel dan een correcte voorspelling van de Y -waarde die bij het object hoort? Is dit het geval, dan is het gerechtvaardigd om X als een oorzaak voor Y te zien. Behalve van de praktische situatie hangt de mogelijkheid van een causale interpretatie sterk af van de manier waarop de data zijn verzameld. Veronderstel bijvoorbeeld dat we ge¨ınteresseerd zijn in de vraag of scholen van christelijke signatuur beter onderwijs leveren dan openbare scholen. Om dit te onderzoeken nemen we een steekproef van scholieren uit de Nederlandse populatie en vergelijken de gemiddelde CITO-toetsscore van de leerlingen op christelijke scholen met de gemiddelde score van leerlingen op openbare scholen. Een causale verklaring van een waargenomen ver-
300
8: Regressiemodellen
schil uit een kwaliteitsverschil tussen de twee typen scholen is zeker niet te verdedigen. Het is bijvoorbeeld heel goed denkbaar dat de scholieren op de twee typen scholen niet vergelijkbaar zijn, en dat andere verschillen verantwoordelijk zijn voor het gemeten verschil in CITO-score. Kinderen op christelijke scholen zouden bijvoorbeeld vaker goed opgeleide en/of Nederlands sprekende ouders kunnen hebben. Om de invloed van dergelijke alternatieve variabelen (Engels: confounding factors) uit te schakelen, zouden we eigenlijk een gerandomiseerd experiment (Engels: randomized trial) willen opzetten: we selecteren een groep vierjarige kinderen aselect uit de populatie en bepalen vervolgens voor ieder kind door loting welk schooltype het kind zal doorlopen. In dat geval zouden de twee groepen kinderen vergelijkbaar zijn, en een mogelijk verschil in CITO-score zou redelijkerwijze alleen door het schooltype kunnen worden verklaard. Helaas is een dergelijk experiment niet uitvoerbaar. Onze data zullen noodzakelijkerwijze observationele data zijn: het schooltype wordt bepaald door factoren buiten onze controle, en we nemen een steekproef kinderen uit de populatie zoals die buiten onze inmenging is ontstaan. Bij dit soort observationele studies is er zodoende sprake van onbedoelde (en vanuit statistisch oogpunt ongewenste) selectie. Het probleem van onbedoelde selectie uit een populatie bij observationele studies speelt ook sterk bij statistisch onderzoek naar medische behandelingen. Een medische behandeling (bijvoorbeeld het toedienen van een medicijn, of een operatie) is een interventie, en we zouden het effect causaal willen interpreteren. Een regressiemodel gebaseerd op een steekproef van behandelde en niet behandelde personen kan echter een verkeerde indruk geven als de steekproef geen rekening houdt met andere mogelijke verklarende variabelen. Vergelijken we bijvoorbeeld de resterende levensduur van behandelde en niet behandelde pati¨enten, maar hadden mensen met een slechte algemene gezondheid een grotere kans behandeld te worden (bijvoorbeeld omdat ze voor een andere aandoening bij de dokter kwamen die vervolgens een algemeen gezondheidsonderzoek uitvoerde), dan zullen de resultaten van een regressieanalyse misleidend zijn. Behandelde mensen zullen korter leven, maar dat komt omdat ze in het geheel ongezonder zijn, niet omdat ze behandeld zijn. Hoewel in het geval van de CITO-scores een causale interpretatie op basis van een gevonden verband tussen CITO-score (Y ) en schooltype (X) binnen onze observationele context onjuist is, kan een geschat regressiemodel wel voorspellende waarde hebben. Veronderstel dat het verband, gekwantificeerd door middel van een regressiemodel, werkelijk aanwezig is. We moeten de voorspellende waarde zo begrijpen: zouden we een nieuwe scholier op dezelfde manier selecteren als onze oorspronkelijke steekproef, dan geeft het regressiemodel een redelijke voorspelling voor zijn CITO-score. Zouden we echter, als interventie, besluiten de scholen met slechter presterende leerlingen (christelijk of openbaar) te sluiten, dan is er helemaal geen garantie dat de schoolprestaties in het algemeen omhoog gaan. De realisatie dat andere factoren, zoals de opleiding van de ouders, het gemeten verschil in CITO-score zouden kunnen verklaren, motiveert om te
8: Regressiemodellen en Causaliteit
301
proberen voor deze factoren te corrigeren (“controleren”) in onze analyse. We zouden de ouders bijvoorbeeld in vier verschillende opleidingsgroepen kunnen verdelen, en voor iedere groep een aselecte steekproef van scholieren kunnen trekken. We analyseren vervolgens ieder van de vier groepen apart in een regressie-analyse (bijvoorbeeld E(Y |X = x) = α + βx met X een dummy-variabele voor schooltype). Vinden we dan dezelfde regressievergeˆ dan conlijking voor de vier groepen (d.w.z. gelijke waarden voor α ˆ en β), cluderen we dat “opleiding ouders” kennelijk geen belangrijke factor voor “CITO-score” is. Verdwijnt het verschil in CITO-scores tussen de twee schooltypen (d.w.z. βˆ ≈ 0 in iedere groep), dan concluderen we dat juist “opleiding ouders” de verklarende factor is. Uiteraard kunnen we deze conclusies alleen trekken als we veronderstellen dat er niet nog andere factoren zijn, die op een ingewikkelde manier met de uitkomst Y en inputgegevens X samenhangen. Het opsplitsen van de gegevens in voldoende deelgroepen zou het probleem van observationele data in principe kunnen oplossen. We zullen echter zien dat dit opsplitsingsidee in de praktijk niet haalbaar is. Relevant is hier Simpsons paradox: waargenomen effecten bij een overall analyse kunnen heel goed verdwijnen of zelfs omslaan in het tegenovergestelde bij een analyse in deelgroepen. Beschouw als voorbeeld Tabel 8.3, die de gemiddelde scores op de CITO-eindtoets voor scholieren in groep 8 in 2005 geeft, uitgesplitst naar 7 “schoolgroepen”, voor heel Nederland (eerste regel) en voor de vier grote steden apart (tweede regel). Volgens deze tabel behalen de leerlingen in de grote steden gemiddeld een 2.3 punten lagere score (eerste kolom). Uitgesplitst naar schoolgroep doen zij het echter vaak gemiddeld beter en op zijn hoogst 1.4 punt slechter (in groep 4). Zit er een fout in de tabel? In het geheel niet. Het toch wel een beetje verbazende resultaat is het gevolg van het feit dat in grote steden veel meer kinderen uit de hogere groepen 7, 6, . . . wonen, welke gemiddeld duidelijk lager scoren. Het overall gemiddelde is een gewogen gemiddelde van de 7 scores, gewogen naar het aantal kinderen per schoolgroep. Het overall gemiddelde in de grote steden is daarom lager dan het landelijk gemiddelde. Een na¨ıeve (en domme) statisticus zou uit het lagere overall gemiddelde in de grote steden concluderen dat het onderwijs in die steden matig is in vergelijking met andere scholen in het land. De uitsplitsing suggereert echter eerder het omgekeerde. Deze uitsplitsing lost het probleem van observationele data echter nog maar gedeeltelijk op. Mogelijk zijn er nog andere factoren in het geding, die niet in de tabel zijn meegenomen. Een causale verklaring is niet te verdedigen zolang we niet meer inzicht in deze situatie hebben, en misschien zelfs helemaal niet. Om voor een aantal alternatieve verklaringen te corrigeren, is het nodig de populatie in veel deelgroepen te verdelen, zodat iedere deelgroep een constante waarde voor de alternatieve variabelen heeft. Om uit iedere deelgroep een niet te kleine steekproef te kunnen trekken vereist deze aanpak meer data dan in de praktijk haalbaar is. Het opsplitsingsidee is daarom maar
302
8: Regressiemodellen
landelijk G4
gem.
1
2
3
4
5
6
7
534.5 532.2
537.5 541.0
536.0 537.3
534.0 534.0
531.8 530.4
532.1 531.4
529.6 529.6
528.4 528.5
Tabel 8.3. Eindtoets CITO voor scholieren in groep 8 in 2005. De kolom ‘gem.’ geeft het overall gemiddelde. De kolommen 1 tot en met 7 geven gemiddelde scores voor scholen met een toenemend aantal leerlingen van niet-Nederlandse achtergrond. De regels landelijk en G4 geven de scores voor, respectievelijk, heel Nederland en de vier grote steden.
beperkt bruikbaar. In plaats daarvan wordt vaak geprobeerd voor alternatieve verklaringen te corrigeren door mogelijke “confounding variables” in de regressievergelijking op te nemen. In ons voorbeeld verrichten we bijvoorbeeld regressie van CITO-score Y op een vector (X, Z) = (X, Z1 , . . ., Zk ) waarin X “schooltype” is, Z1 “opleiding ouders”, Z2 “woonsituatie”, etc. De regressievergelijking wordt dan E(Y |X = x, Z = z) = f (x, z). Dit is een stap in de goede richting, maar het is zeker nog niet de oplossing van alle problemen. Allereerst is er de vraag hoe de functie f er uit moet zien, ofwel hoe de verschillende variabelen Zi in de regressievergelijking opgenomen moeten worden: additief ? met interacties? etc. Ten tweede is het niet duidelijk dat het probleem van observationele data met deze aanpak is opgelost. Voor het eerste probleem (het opstellen van een correct regressiemodel) bestaan veel hulpmiddelen, waarvan een aantal in dit hoofdstuk aan bod zijn gekomen. We gaan er hier van uit dat een goed fittend model voorhanden is. Het tweede probleem (observationele data) kunnen we scherper stellen door invoering van zogenaamde counterfactual variables. Iedere persoon kan in principe naar zowel schooltype “0” als “1” gaan. In de praktijk kan maar ´e´en van de twee mogelijkheden worden gerealiseerd, maar laten we met Y 0 en Y1 de CITO-scores aangeven die zouden worden behaald bij gebruikmaking van type “0” en “1” respectievelijk. De schoolkeuze zelf wordt gecodeerd in de variabele X en mogelijke confounding variabelen in de vector Z. De waargenomen CITO-score Y is Y0 , als X = 0, . Y = Y1 , als X = 1. We willen de vraag beantwoorden of schooltype een causaal effect heeft op CITO-score. In de voorgaande notatie is het effect van schooltype “1” in plaats van “0” te meten door het verschil Y1 − Y0 . Van het paar (Y0 , Y1 ) wordt echter steeds slechts ´e´en waargenomen, namelijk de variabele gerealiseerd in Y . In die zin is het paar (Y0 , Y1 ) “counterfactual” en lijkt zinloos voor het oplossen van het probleem. De counterfactual variabelen geven echter een zinvol denkkader, mits we meer structuur aannemen. We bestuderen eerst het eenvoudige geval waarin we aannemen dat iedere persoon aselect aan ´e´en van de schooltypen wordt toegewezen, als in een gerandomiseerde studie. In termen van de counterfactual variabelen correspondeert dit met de aanname dat de schoolindicator X onafhankelijk is van het paar (Y0 , Y1 ). Voor ieder individu zijn
8: Regressiemodellen en Causaliteit
303
dan bij geboorte twee mogelijke uitkomsten Y0 en Y1 beschikbaar, en een loting (“genereer X”) bepaalt welke van de twee gerealiseerd gaat worden: Y 0 als X = 0 en Y1 als X = 1. De verwachting van Yi is dan ook onafhankelijk van de schoolkeuze: bij geboorte bestaat een verwaching van de CITO-score voor beide schooltypen, onafhankelijk van welk schooltype gekozen zal worden. (Deze aanname is niet realistisch omdat er confounding factoren Z zijn die zowel de keuze van schooltype als de hoogte van de CITO-score be¨ınvloeden, maar de berekeningen voor dit eenvoudige geval dienen als basis voor de berekeningen waarin we wel corrigeren voor de informatie in Z.) Voor het eenvoudige geval geldt dat (8.12)
EYi = E(Yi | X = i) = E(Y | X = i),
i = 0, 1,
waarbij we voor de eerste gelijkheid de onafhankelijkheid gebruiken, en voor de tweede de relatie tussen Y en Y0 , Y1 , X. Het gemiddelde schooleffect EY1 − EY0 wordt derhalve gegeven door (8.13)
EY1 − EY0 = E(Y | X = 1) − E(Y | X = 0).
Dit kan uit de data geschat worden door (bijvoorbeeld) de gemiddelde CITOscore van leerlingen uit schooltype “1” te verminderen met de gemiddelde CITO-score van leerlingen uit schooltype “0”. De schatting in (8.13) is alleen correct als er sprake is van een gerandomiseerd experiment, zonder invloed van confounding variabelen. Het is duidelijk dat we zo’n experiment met betrekking tot schoolkeuze niet zelf kunnen uitvoeren, en het is irrealistisch te hopen dat het “natuurlijke leven” zelf zo’n experiment voor ons zal orkestreren. Om voor de confounding variabelen in Z te corrigeren, kunnen we het idee van de deelgroepen weer gebruiken. De deelgroepen worden gegeven door gelijke waarden van de vector Z. Als Z alle relevante achtergrondinformatie voor de uitkomst van de CITO-score en de schoolkeuze bevat, is het redelijk om te veronderstellen dat gegeven Z de variabele X onafhankelijk is van (Y0 , Y1 ). Het conditioneren op Z komt overeen met het maken van de onafhankelijkheidsaanname per deelgroep. Stel dat de enige variabele in Z het opleidingsniveau van de ouders is. Dan betekent deze aanname dat binnen een opleidingsgroep de school-indicator X onafhankelijk is van de vector (Y0 , Y1 ). Ofwel, binnen de opleidingsgroep heeft men bij geboorte twee mogelijke uitkomsten Y 0 en Y1 beschikbaar, en de loting (“genereer X”) bepaalt weer welke van de twee scores gerealiseerd gaat worden. Zowel Yi als het lotingsproces X is afhankelijk van het opleidingsniveau van de ouders, maar binnen de deelgroepen is deze invloed voor alle individuen identiek. Wanneer Z alle relevante achtergrondinformatie bevat zou de onafhankelijkheidsaanname moeten gelden; de variatie in CITO-scores tussen individuen met een vaste waarde van Z is dan immers gebaseerd op “irrelevante” factoren, en moet het product van “achtergrondruis” zijn. Laten we aannemen dat we een geschikte Z hebben gevonden. De vergelijking (8.12) geldt nu niet meer, omdat deze gebaseerd
304
8: Regressiemodellen
is op de aanname van onvoorwaardelijke onafhankelijkheid (het geval dat Z leeg is). In plaats daarvan geldt Z Z EYi = E(Yi | Z = z) pZ (z) dz = E(Yi | X = i, Z = z) pZ (z) dz Z (8.14) = E(Y | X = i, Z = z) pZ (z) dz. De eerste gelijkheid is de algemene uitdrukking van een verwachting in voorwaardelijke verwachtingen (met pZ de marginale dichheid van Z); voor de tweede gelijkheid gebruiken we de aanname van voorwaardelijke onafhankelijkheid van (Y0 , Y1 ) en X gegeven Z, en bij de derde de relatie tussen Y en Y0 , Y1 , X. Het gemiddelde schooleffect wordt derhalve gegeven door (8.15) Z E(Y | X = 1, Z = z) − E(Y | X = 0, Z = z) pZ (z) dz. EY1 − EY0 =
Een eerste conclusie is dat dit effect in principe uit de waargenomen data (Y, X, Z) is te schatten: hoewel aan de linkerkant de niet-waarneembare “counterfactual” variabelen Y0 , Y1 staan, betreffen de uitdrukkingen aan de rechterkant alleen de waarneembare data. Een tweede conclusie is dat de uitdrukking in (8.13) voor het causale effect EY1 −EY0 niet meer van kracht is. Daar gingen we uit van een gerandomiseerde studie waarin gemiddelde CITO-scores van de kinderen in schooltypen “1” en “0” worden vergeleken. De verwachte gemiddelde CITO-scores per schooltype hebben in de huidige deelgroepenanalyse de vorm Z E(Y | X = i) = E(Y | X = i, Z = z)pZ|X (z| i) dz. Als X en Z onafhankelijk zijn, dan geldt pZ|X = pZ , en reduceert dit tot de laatste uitdrukking in (8.14). In dat geval (bijvoorbeeld als Z leeg is) komen de twee uitdrukkingen voor het causale effect overeen. Zijn X en Z niet onafhankelijk, dan zijn de uitdrukkingen in (8.13) en (8.15) in het algemeen ongelijk. Het verschil tussen de eerste en tweede analyse is alleen het conditioneren op de vector Z. In feite is de tweede analyse precies gelijk aan de eerste toegepast op ieder van de deelgroepen gedefinieerd door een vaste waarde van Z, waarna de geschatte effecten in (8.15) worden gemiddeld over de deelgroepen, gewogen met de marginale dichtheid p Z van Z. Het geschatte effect E(Y | X = 1, Z) − E(Y | X = 0, Z) binnen de deelgroepen wordt gegeven door een simultaan regressiemodel van Y op (X, Z). Zolang we een correct regressiemodel kennen, en een confounding variabele Z waarvoor de aanname van voorwaardelijke onafhankelijkheid van X en (Y 0 , Y1 ) correct is, is het schatten van een causaal effect niet moeilijk. Helaas zijn deze premissen minder onschuldig dan ze lijken.
9 Appendix A: Elementen uit de Kansrekening
Deze appendix bevat een aantal onderdelen uit de kansrekening die van belang zijn bij het lezen van dit boek. Het doel is om deze stof kort weer te geven. Voor nadere toelichting, inclusief bewijzen van stellingen, voorbeelden en toepassingen, wordt verwezen naar tekstboeken over waarschijnlijkheidsrekening, zoals S. Ross, A First Course in Probability, Prentice-Hall en R. Meester, A Natural Introduction to Probability Theory, Birkh¨ auser.
9.1
Verdelingen
De basis van alle statistische procedures is een waarneming X waarbij onzekerheid, toeval of een andere vorm van willekeur een rol speelt. Net als in de kansrekening wordt in de statistiek de onzekerheid wiskundig vertaald door aan X een kansverdeling toe te kennen, Definitie 9.1. Een stochastische variabele (of stochastische grootheid, of stochast) is een waarneming onderhevig aan onzekerheid, beschreven door een kansverdeling. De verzameling van alle mogelijke uitkomsten van X wordt de uitkomstenruimte genoemd en wordt genoteerd als Ω. Een kansverdeling is een voorschrift dat aangeeft wat de kans is om de waarneming X in A te vinden voor (bijna) iedere deelverzameling A ⊆ Ω, P(X ∈ A). Kansverdelingen hebben drie eigenschappen (i) P(Ω) = 1, (ii) 0 ≤ P(A) ≤ 1 voor alle A ⊆ Ω,
306
9: Appendix A: Elementen uit de Kansrekening
(iii) (σ-additiviteit) voor A1 , A2 , . . ., ⊆ Ω disjunct (Ai ∩ Aj = ∅ als i 6= j), geldt ∞ ∞ X [ P(X ∈ Ai ). Ai ) = P(X ∈ i=1
i=1
Uit deze drie eigenschappen kunnen alle andere algemeen geldende eigenschappen van een kansverdeling direct worden afgeleid. Een voorbeeld is de eigenschap P(X ∈ A) ≤ P(X ∈ B) voor A, B ⊆ Ω met A ⊆ B. Voor andere eigenschappen van kansverdelingen wordt verwezen naar de boeken over kansrekening, zoals eerder genoemd. In sommige gevallen zijn we niet ge¨ınteresseerd in de stochast X zelf, maar in een functie g van deze stochast, bijvoorbeeld g(X) = X 2 . In veel gevallen is de functie g gedefinieerd op de hele re¨ele rechte en is g(X) daarom goed gedefinieerd voor alle re¨eelwaardige stochastische grootheden X ] . Stel dat de kansverdeling van X bekend is, dan ligt de verdeling van Y = g(X) vast door P(Y ∈ A) = P(g(X) ∈ A) = P(X ∈ g −1 (A)) waarbij g −1 (A) het volledig origineel van A onder g genoemd wordt: g −1 (A) = {x: g(x) ∈ A}. (De notatie g −1 zou kunnen suggereren dat de inverse van g vereist is voor de definitie van het volledig origineel. Dat is echter niet zo; in het geval dat g niet inverteerbaar is, is de verzameling in het rechterlid toch goed gedefinieerd.) 9.1.1
Discrete en continue verdelingen
Er bestaan twee basis soorten kansverdelingen: discrete verdelingen en continue verdelingen. Een discrete kansverdeling wordt gekenmerkt door een eindige of aftelbare verzameling van mogelijke uitkomsten van de stochastische variabele, terwijl een stochast met een continue verdeling uitkomsten kan hebben in een interval van de re¨ele rechte. Met zowel iedere discrete als continue verdeling correspondeert een kansdichtheid (of dichtheid) en een verdelingsfunctie. In het geval van een discrete verdeling kent de kansdichtheid aan iedere mogelijke uitkomst een gewicht (kansmassa) toe, gelijk aan de kans op die uitkomst. Deze gewichten zijn niet-negatief en sommeren tot 1. De kans op een uitkomst in A, een deelverzameling van de uitkomstenruimte Ω, is gelijk aan X P(X ∈ A) = p(ω) ω∈A
] De voorwaarde dat X met kans 1 ligt in het domein van g zorgt er in het algemene geval voor dat g(X) goed gedefinieerd is. Strikt genomen bestaat er een voorwaarde voor g (meetbaarheid), maar in dit boek komen niet-meetbare functies niet aan de orde.
9.1: Verdelingen
307
waar p(ω) = P(X = ω). Voorbeelden van veelgebruikte discrete verdelingen zijn de Bernoulli-, de binomiale, de Poisson-, de geometrische, de hypergeometrische en de negatief binomiale verdeling. Als X continu verdeeld is over (een deel van) de re¨ele rechte, hanteren we een kansdichtheidsfunctie f : R → R, die we ook kortweg kansdichtheid noemen. De sommatie bij discrete verdelingen wordt vervangen door integratie bij continue verdelingen. De kans op een uitkomst in A ⊆ R van de continu verdeelde stochastische variabele X met kansdichtheid f wordt gegeven door Z P(X ∈ A) =
f (x) dx.
A
Voorbeelden van bekende continue verdelingen zijn de uniforme, de normale, de exponenti¨ele, de Cauchy-, de chikwadraat-, de t-, de Gamma- en de B`eta-verdeling. 9.1.2
Verdelingsfuncties
Kansdichtheden vormen een manier om een verdeling te specificeren. Een andere, equivalente manier om dit te doen, is door middel van een zogenaamde verdelingsfunctie. Definitie 9.2. Zij X een stochastische variabele, verdeeld volgens een bepaalde kansverdeling. De verdelingsfunctie F behorende bij die kansverdeling wordt gedefinieerd door F (x) = P(X ≤ x). De verdelingsfunctie is een monotoon stijgende functie, dat wil zeggen, als x ≤ y dan is F (x) ≤ F (y). De definitie van de verdelingsfunctie is in bovenstaande vorm geldig voor zowel discreet als continu verdeelde stochastische grootheden die re¨eelwaardig zijn. Voor een re¨eelwaardige, discreet verdeelde stochastische grootheid X kan de relatie tussen de kansdichtheid p en de verdelingsfunctie F als volgt worden uitgedrukt: X F (x) = P(X ≤ x) = p(ω). ω≤x
De verdelingsfunctie vertoont sprongen in alle punten die tot de mogelijke uitkomsten van X behoren. Tussen deze sprongen in is de verdelingsfunctie constant. De grootte van de sprong in het punt ω is gelijk aan p(ω). Discrete verdelingen kunnen zodoende op twee manieren worden gespecificeerd: ofwel met de kansdichtheid p (de verdelingsfunctie F wordt gevonden door sommatie), ofwel met de verdelingsfunctie F (de kansdichtheid p volgt uit de spronggroottes).
308
9: Appendix A: Elementen uit de Kansrekening
Voor een continu verdeelde stochastische grootheid X kan de relatie tussen de kansdichtheid f en de verdelingsfunctie F als volgt worden uitgedrukt: Z x
F (x) = P(X ≤ x) =
f (u) du.
−∞
De verdelingsfunctie F kan daarom worden opgevat als de primitieve van de kansdichtheid f . Omgekeerd is f de afgeleide van F , f (x) = F 0 (x). Hieruit blijkt dat continue verdelingen eveneens kunnen worden vastgelegd op twee manieren: ofwel door de kansdichtheid f (de verdelingsfunctie F volgt uit integratie), ofwel door de verdelingsfunctie F (de kansdichtheid volgt uit differentiatie). Met de verdelingsfunctie is het eenvoudig om kansen voor intervallen van de vorm (c, d] uit te rekenen, P(c < X ≤ d) = P(X ≤ d) − P(X ≤ c) = F (d) − F (c). Voor discrete verdelingen is het van belang of het interval open, gesloten of halfopen gekozen wordt. De kans P(c ≤ X ≤ d) is bijvoorbeeld groter dan P(c < X ≤ d) wanneer P(X = c) > 0, omdat P(c ≤ X ≤ d) = P(c < X ≤ d) + P(X = c). Aangezien voor continu verdeelde stochasten geldt dat P(X = c) = 0 voor alle c, speelt de keuze van open of gesloten intervallen daar geen rol.
9.2
Verwachting en variantie
De verwachting en variantie van een verdeling zijn eigenschappen die respectievelijk de locatie en de spreiding van de verdeling weergeven. De locatie is een punt waaromheen de verdeling zich centreert, terwijl de spreiding een maat is voor de breedte van de verdeling rondom zijn locatie. Er zijn meerdere eigenschappen die als locatie- of spreidingsbegrip kunnen dienen. Verwachting en variantie zijn voorbeelden die veel gebruikt worden. De verwachtingswaarde (of verwachting) E(X) van een stochastische grootheid X correspondeert met het begrip van gewogen gemiddelde. De wegingsfactoren zijn gebaseerd op de kansdichtheid. Wanneer er geen verwarring kan optreden schrijven we kortweg EX voor de verwachting. Voor een discreet verdeelde stochastische grootheid X met kansdichtheid p wordt EX gegeven door X EX = ω p(ω), ω∈Ω
9.3: Standaard verdelingen
309
Voor een continu verdeelde stochastische grootheid X met kansdichtheid f is de verwachtingswaarde gedefinieerd door Z ∞ EX = x f (x) dx. −∞
De verwachting van g(X), voor g een functie, is Z ∞ g(x) f (x) dx. E(g(X)) = −∞
De verwachtingswaarde van X of g(X) is niet altijd goed gedefinieerd. Het is mogelijk dat de integraal of som niet convergeert. De verwachting van een Cauchy-verdeelde stochastische grootheid bestaat bijvoorbeeld niet. In dit boek zullen we veronderstellen dat alle integralen die we gebruiken ook daadwerkelijk bestaan. De variantie is de verwachting van het kwadraat van de afstand van X tot zijn verwachtingswaarde, var(X) = E(X − EX)2 . Het is eenvoudig na te gaan dat de variantie te schrijven is als var(X) = E(X 2 ) − (EX)2 . Deze schrijfwijze is in veel gevallen handig in de berekening van de variantie van een stochastische grootheid. De verwachting E(X 2 ) wordt gevonden uit E(g(X)) met g(X) = X 2 . De variantie is groot indien X met relatief grote kans op aanzienlijke afstand van EX aangetroffen wordt. Dit karakteriseert het spreidingsbegrip. De covariantie van twee stochastische grootheden X en Y is gelijk aan cov(X, Y ) = E (X − EX)(Y − EY ) = E(XY ) − EXEY. Uit de definities van verwachtingswaarde en variantie kunnen de volgende rekenregels worden afgeleid E(a + bX) = a + b EX var(a + bX) = b2 var(X) E(X + Y ) = EX + EY var(X + Y ) = var(X) + var Y + 2 cov(X, Y ).
9.3
Standaard verdelingen
In deze paragraaf worden voorbeelden gegeven van discrete en continue verdelingen die vaak voorkomen.
310
9.3.1
9: Appendix A: Elementen uit de Kansrekening
Discrete verdelingen
Voorbeeld 9.3 (Bernoulli-verdeling). De stochastische grootheid X heeft de Bernoulli-verdeling (of alternatieve verdeling) met parameter p ∈ [0, 1] als P(X = 0) = 1 − p
en
P(X = 1) = p.
Deze kansmassafunctie is ook te schrijven als P(X = x) = px (1 − p)1−x
x ∈ {0, 1}.
De verwachtingswaarde en variantie zijn in dat geval gelijk aan EX = p en Var(X) = p(1 − p). Als X1 , . . ., Xn onderling onafhankelijke Bernoulliverdeelde stochasten zijn met parameter p, dan is X1 + . . . + Xn binomiaal verdeeld met parameters n en p. Voorbeeld 9.4 (Binomiale verdeling). De stochastische grootheid X heeft de binomiale verdeling met parameters n ∈ N en p ∈ [0, 1] als n k p (1 − p)n−k P(X = k) = k
voor k ∈ {0, 1, . . ., n}. De verwachtingswaarde en variantie zijn in dat geval gelijk aan EX = np en Var(X) = np(1 − p). De binomiale verdeling met parameters n = 1 en p ∈ [0, 1] is gelijk aan de Bernoulli-verdeling met parameter p. Als X1 en X2 twee onafhankelijke binomiaal verdeelde stochasten zijn met respectievelijk parameters (n, p) en (m, p), dan is X1 + X2 weer binomiaal verdeeld, met parameters (n + m, p). Voorbeeld 9.5 (Multinomiale verdeling). De stochastische grootheid X = (X1 , . . ., Xr ) heeft de multinomiale verdelingPmet parameters r (n, p1 , . . ., pr ) waar n ∈ N, pi ∈ [0, 1] voor i = 1, . . ., r en i=1 pi = 1 als P(X1 = k1 , . . ., Xr = kr ) =
n pk1 · · · pkr r k1 · · · kr 1
voor ki ∈ {0, 1, . . ., n} voor i = 1, . . ., r met
n k1 · · · kr
=
Pr
i=1
ki = n waar
n! . k1 ! · · · kr !
In het geval r = 2 reduceert de multinomiale verdeling tot de binomiale verdeling met parameters n en p1 .
9.3: Standaard verdelingen
311
Voorbeeld 9.6 (Poisson-verdeling). De stochastische grootheid X heeft de Poisson-verdeling met parameter λ > 0 als P(X = k) =
λk e−λ k!
voor k ∈ {0, 1, . . .}. De verwachtingswaarde en variantie zijn in dat geval gelijk aan EX = λ en Var(X) = λ. Als X1 en X2 twee onafhankelijke Poisson-verdeelde stochasten zijn met respectievelijk parameters λ en µ dan is X1 + X2 weer Poisson-verdeeld, met parameter λ + µ. Voorbeeld 9.7 (Geometrische verdeling). De stochastische grootheid X heeft de geometrische verdeling met parameter p ∈ [0, 1] als P(X = k) = p(1 − p)k−1 voor k ∈ {1, 2, . . .}. De verwachtingswaarde en variantie zijn in dat geval gelijk aan EX = 1/p en Var(X) = (1 − p)/p2 . Als X1 , . . ., Xr onderling onafhankelijke geometrisch verdeelde stochasten zijn met parameter p, dan is X1 + . . . + Xr negatief binomiaal verdeeld met parameters r en p. Voorbeeld 9.8 (Negatief binomiale verdeling). De stochastische grootheid X heeft de negatief binomiale verdeling met parameters r ∈ N en p ∈ [0, 1] als k−1 r P(X = k) = p (1 − p)k−r r−1 voor k ∈ {r, r + 1, . . .}. De verwachtingswaarde en variantie zijn in dat geval gelijk aan EX = r/p en Var(X) = r(1 − p)/p2 . De negatief binomiale verdeling met parameters r = 1 en p ∈ [0, 1] is gelijk aan de geometrische verdeling met parameter p. Voorbeeld 9.9 (Hypergeometrische verdeling). De stochastische grootheid X heeft de hypergeometrische verdeling met parameters N, m, n ∈ N, met n, m < N , als m N −m P(X = k) =
k
n−k N n
voor k ∈ {0, 1, . . ., n}. De verwachtingswaarde en variantie zijn in dat geval gelijk aan EX = nm/N en Var(X) = n(m/N )(1 − m/N )(N − n)/(N − 1).
312
9.3.2
9: Appendix A: Elementen uit de Kansrekening
Continue verdelingen
Voorbeeld 9.10 (Uniforme verdeling). De stochastische grootheid X heeft de (continue) uniforme verdeling op het interval [a, b] als de dichtheid van X gelijk is aan 1 f (x) = 1[a,b] (x). b−a
De waarde van de indicatorfunctie 1[a,b] (x) = 1 als x ∈ [a, b] en 0 anders. De verwachtingswaarde en variantie worden in dat geval gegeven door EX = (a + b)/2 en Var(X) = (b − a)2 /12. In het geval dat a = 0 en b = 1 is de dichtheid gelijk aan f (x) = 1[0,1] (x), de verwachting gelijk aan 1/2 en de variantie gelijk aan 1/12. Voorbeeld 9.11 (Normale verdeling). De stochastische grootheid X heeft de normale verdeling met parameters µ ∈ R en σ 2 > 0 als de dichtheid van X gelijk is aan 2 1 (x−µ) 1 e− 2 σ 2 . f (x) = √ 2 2πσ De verwachtingswaarde en variantie worden in dat geval gegeven door EX = µ en Var(X) = σ 2 . De standaard normale verdeling is de normale verdeling met parameters µ = 0 en σ 2 = 1. De dichtheid en de verdelingsfunctie van de standaard normale verdeling worden respectievelijk genoteerd als φ en Φ. Als X1 en X2 twee onafhankelijke normaal verdeelde stochasten zijn met respectievelijk parameters (µ, σ 2 ) en (ν, τ 2 ) dan is X1 + X2 weer normaal verdeeld, met parameters (µ + ν, σ 2 + τ 2 ). Voorbeeld 9.12 (Exponenti¨ ele verdeling). De stochastische grootheid X heeft de exponenti¨ele verdeling met parameter λ > 0 als de dichtheid van X gelijk is aan f (x) = λe−λx , x ≥ 0. De verwachtingswaarde en variantie worden in dat geval gegeven door EX = 1/λ en Var(X) = 1/λ2 . Als X1 , . . ., Xn onderling onafhankelijke exponentieel verdeelde stochasten zijn met parameter λ, dan is de som X1 + . . . + Xn Gamma-verdeeld met vormparameter n en inverse schaalparameter λ. Voorbeeld 9.13 (Gamma-verdeling). De stochastische grootheid X heeft de Gamma-verdeling met vormparameter α > 0 en inverse schaalparameter λ > 0 (of schaalparameter 1/λ) als de dichtheid van X gelijk is aan xα−1 λα e−λx f (x) = , x ≥ 0, Γ(α)
9.3: Standaard verdelingen
313
waar Γ de zogenaamde Gamma-functie is, Z ∞ Γ(α) = xα−1 e−x dx. 0
Wanneer α ∈ N, dan geldt Γ(α) = (α − 1)!. De verwachtingswaarde en variantie van X worden gegeven door EX = α/λ en Var(X) = α/λ2 . De Gamma-verdeling met parameters α = 1 en λ > 0 is gelijk aan de exponenti¨ele verdeling met parameter λ. Als X1 en X2 twee onafhankelijke Gamma-verdeelde stochasten zijn met respectievelijk parameters (α, λ) en (β, λ) dan is X1 + X2 weer Gamma-verdeeld, met parameters α + β en λ. Voorbeeld 9.14 (B` eta-verdeling). De stochastische grootheid X heeft de B`eta-verdeling met parameters α > 0 en β > 0 als de dichtheid van X gelijk is aan xα−1 (1 − x)β−1 , x ∈ [0, 1], f (x) = B(α, β) waar B de zogenaamde B`eta-functie is, Z 1 B(α, β) = xα−1 (1 − x)β−1 dx. 0
Er geldt B(α, β) = Γ(α)Γ(β)/Γ(α + β) en B(α + 1, β)/B(α, β) = α/(α + β). De verwachting van X is als volgt te berekenen Z Z 1 α−1 B(α + 1, β) 1 x(α+1)−1 (1 − x)β−1 x (1 − x)β−1 dx = dx x B(α, β) B(α, β) B(α + 1, β) 0 0 α , = α+β
waar de laatste gelijkheid volgt uit het feit dat de integraal in de voorlaatste uitdrukking gelijk is aan 1. De variantie van X wordt gegeven door Var(X) = αβ/((α + β)2 (α + β + 1)). Voorbeeld 9.15 (Cauchy-verdeling). De stochastische grootheid X heeft de Cauchy-verdeling met locatieparameter θ als de dichtheid van X gelijk is aan 1 . f (x) = π(1 + (x − θ)2 ) Wanneer θ = 0 heeft X de standaard Cauchy-verdeling. Van de Cauchyverdeling bestaan de verwachtingswaarde en de variantie niet. Voorbeeld 9.16 (Chikwadraat-verdeling). De stochastische grootheid X heeft de chikwadraat-verdeling met n vrijheidsgraden als X dezelfde verPn deling heeft als i=1 Zi2 voor Z1 , . . ., Zn onderling onafhankelijke standaard normaal verdeelde stochasten. De verwachtingswaarde en variantie van X worden gegeven door EX = n en Var(X) = 2n. De chikwadraat-verdeling met n vrijheidsgraden wordt genoteerd als χ2n .
314
9: Appendix A: Elementen uit de Kansrekening
Voorbeeld 9.17 (t-verdeling). De stochastische grootheid X bezit de tverdeling (of Student-verdeling) met n vrijheidsgraden, als X dezelfde verp deling heeft als Z/ Y /n waar Y en Z onafhankelijke stochastische grootheden zijn, Z een standaard normaal verdeling volgt en Y een χ2n -verdeelde stochast is. De t-verdeling met n vrijheidsgraden wordt genoteerd als tn . Voorbeeld 9.18 (F -verdeling). Een stochastische grootheid X bezit de F -verdeling met m en n vrijheidsgraden, als X dezelfde verdeling heeft als (U/m)/(V /n) waar U en V onafhankelijke chikwadraat-verdeelde stochastische grootheden zijn met respectievelijk m en n vrijheidsgraden. De F -verdeling met m en n vrijheidsgraden wordt genoteerd als Fm,n .
9.4
Multivariate en marginale verdelingen
In veel gevallen is men niet ge¨ınteresseerd in een enkele waarneming, maar wil men meerdere gemeten grootheden tegelijk beschouwen. In de kansrekening worden voor dergelijke situaties stochastische vectoren gebruikt. Het eenvoudigste geval is dat van twee stochasten X en Y die samengevoegd worden tot een vector (X, Y ). Noteer de uitkomstenruimtes van X en Y als ΩX en ΩY respectievelijk. De mogelijke uitkomsten van (X, Y ) zijn punten (x, y) ∈ Ω = ΩX × ΩY . Wanneer X en Y re¨eelwaardig zijn is de gezamenlijke uitkomstenruimte Ω gelijk aan (een deel van) het vlak, dat is Ω ⊆ R2 . De simultane verdeling van X en Y beschrijft de kansen van de vorm P (X, Y ) ∈ A , waarbij A een deelverzameling van Ω is. Ook bij stochastische vectoren is er onderscheid tussen discrete en continue verdelingen. Als de vector (X, Y ) een discrete verdeling heeft, dan ligt die verdeling vast door de simultane kansdichtheid p(ω1 , ω2 ), waar p(ω1 , ω2 ) = P (X, Y ) = (ω1 , ω2 ) , voor alle mogelijke uitkomsten (ω1 , ω2 ) ∈ Ω. In dat geval is de kans op een uitkomst binnen een deelverzameling A van Ω gelijk aan de som X P (X, Y ) ∈ A = p(ω1 , ω2 ). (ω1 ,ω2 )∈A
Wanneer de vector (X, Y ) continu verdeeld is, hanteren we een multivariate kansdichtheidsfunctie f : R2 → R, kortweg ook multivariate kansdichtheid genoemd. De kans op een uitkomst binnen een verzameling A is in dat geval gegeven door de integraal Z P (X, Y ) ∈ A = f (x, y) dx dy. A
9.5: Onafhankelijkheid en conditionering
315
Voorbeelden van multivariate dichtheden en berekeningen daarmee zijn te vinden in de tekstboeken, zoals eerder genoemd. Uit de multivariate verdeling van de stochastische vector (X, Y ) kunnen de marginale verdelingen van X en Y verkregen worden. Een marginale verdeling wordt vastgelegd door de bijbehorende marginale kansdichtheid. In het geval van discrete stochasten wordt de marginale kansdichtheid van X, pX , als volgt berekend uit de multivariate kansdichtheid, p: X p(ω, ω2 ). pX (ω) = ω2 ∈ΩY
Voor continue stochasten wordt de sommatie vervangen door integratie, en wordt de marginale kansdichtheidsfunctie fX van X berekend uit de multivariate kansdichtheid f , Z ∞ fX (x) = f (x, y) dy. −∞
Voor de marginale verdeling van Y gelden soortgelijke formules. Voor stochastische vectoren (X1 , . . ., Xn ) met n > 2 laat het bovenstaande zich gemakkelijk generaliseren. In dat geval wordt de marginale dichtheid van X1 bijvoorbeeld gevonden door de multivariate dichtheid te integreren over x2 , . . ., xn . In Appendix 10 wordt de multivariate normale verdeling behandeld.
9.5
Onafhankelijkheid en conditionering
Onafhankelijkheid en conditionering van stochastische grootheden speelt binnen de statistiek een grote rol. Vanwege de analogie wordt een aantal definities en belangrijke stellingen omtrent onafhankelijke en conditionele eventualiteiten hieronder eveneens gegeven. Definitie 9.19. De eventualiteiten A en B, A, B ⊆ Ω, heten onafhankelijk wanneer geldt P A ∩ B = P(A) P(B).
Definitie 9.20. Twee stochastische grootheden X en Y heten onafhankelijk wanneer voor alle eventualiteiten A ⊆ ΩX en B ⊆ ΩY geldt P X ∈ A, Y ∈ B = P(X ∈ A) P(Y ∈ B).
De volgende stelling laat zien hoe onafhankelijkheid van twee stochasten in de simultane verdeling tot uiting komt. Voor het bewijs van deze stelling en van Stelling 9.23 wordt verwezen naar de tekstboeken.
316
9: Appendix A: Elementen uit de Kansrekening
Stelling 9.21. Als de stochasten X en Y een discrete simultane verdeling hebben met kansdichtheid p, dan zijn X en Y onafhankelijk dan en slechts dan als p(ω1 , ω2 ) = pX (ω1 ) pY (ω2 ), voor alle ω1 , ω2 . Als (X, Y ) een continue simultane verdeling hebben met kansdichtheid f , dan zijn X en Y onafhankelijk dan en slechts dan als f (x, y) = fX (x) fY (y),
voor alle x, y.
Onafhankelijkheid van X en Y betekent dat informatie over de realisatie van Y geen invloed heeft op de verdeling van X en vice versa. Deze heuristische interpretatie kan worden onderbouwd door voorwaardelijke kansen te beschouwen. Definitie 9.22. Voor eventualiteiten A en B, A, B ⊆ Ω met P(B) > 0 is de voorwaardelijke kans op A gegeven B gelijk aan P(A ∩ B) . P A B = P(B)
Stelling 9.23 (Regel van Bayes). Veronderstel Sn dat A1 , . . ., An een partitie is van Ω, ofwel Ai ∩ Aj = ∅ voor i 6= j en i=1 Ai = Ω, en dat P(Ai ) > 0 voor alle i. Dan geldt voor een willekeurige eventualiteit B met P(B) > 0 Ai P Ai P B . P Ai B = Pn j=1 P B Aj P Aj
Definitie 9.24. Voor de stochasten X en Y is de voorwaardelijke kans op X ∈ A gegeven Y ∈ B gedefinieerd door P X ∈ A, Y ∈ B , P X ∈A Y ∈B = P Y ∈B voor A ⊆ ΩX , B ⊆ ΩY en P Y ∈ B > 0.
Voor onafhankelijke stochastische grootheden X en Y vereenvoudigt de kans op X ∈ A gegeven Y ∈ B tot P X∈A Y ∈B =P X ∈A ,
voor alle A ⊆ ΩX en B ⊆ ΩY , omdat de productvorm uit Definitie 9.20 in dat geval geldt. Deze berekening laat zien dat, als het gebruik van extra informatie over Y door conditionering de verdeling van X niet be¨ınvloedt, dan zijn X en Y onafhankelijk.
9.6: Limietstellingen en de normale benadering
317
Definitie 9.25. Voor continu verdeelde stochasten X en Y is de voorwaardelijke dichtheid van X gegeven Y gelijk aan f (x, y) . fY (y)
fX|Y (x|y) =
Ook hier geldt dat als X en Y onafhankelijk zijn, de voorwaardelijke dichtheid van X gegeven Y vereenvoudigt: fX|Y (x|y) = fX (x) voor willekeurige y. De verwachtingswaarde en variantie van de som van twee onafhankelijke stochastische grootheden zijn gelijk aan E(X + Y ) = EX + EY var(X + Y ) = var(X) + var(Y ) omdat in dat geval Cov(X, Y ) = E(XY ) − EXEY = 0. Bovenstaande uitdrukkingen zijn eenvoudig uit te breiden naar sommen van n stochastische grootheden. Veronderstel dat X1 , . . ., Xn stochastische grootheden zijn met eindige verwachting µ, dan is E
n X
Xi
i=1
n X = EXi = nµ. i=1
2
Als X1 , . . ., Xn eindige variantie σ hebben ´en onderling onafhankelijk zijn, dan geldt tevens dat var
n X i=1
n X var Xi = nσ 2 . Xi = i=1
De verwachting en de variantie van het steekproefgemiddelde n
X=
1X Xi n i=1
zijn dan gelijk aan 1 X E Xi = µ, n i=1 n
EX =
X σ 2 1 Xi = var . n2 n i=1 n
var X =
318
9.6
9: Appendix A: Elementen uit de Kansrekening
Limietstellingen en de normale benadering
In het geval van onderling onafhankelijke en identiek continu verdeelde stochasten X1 , X2 , . . ., Xn met marginale kansdichtheid fX , is de simultane kansdichtheid f gelijk aan het product van de marginale dichtheden f (x1 , . . ., xn ) =
n Y
fX (xi ).
i=1
Deze simultane dichtheid komt veelvuldig voor in statistische vraagstukken. De volgende belangrijke stellingen uit de kansrekening zijn op rijen van onderling onafhankelijke en identiek verdeelde stochasten van toepassing. Aangezien de limietstellingen de limiet voor n → ∞ betreffen, wordt het steekproefgemiddelde X in deze paragraaf genoteerd met X n waarin de afhankelijkheid van n expliciet naar voren komt. Stelling 9.26. (Zwakke wet van de grote aantallen) Stel dat X1 , X2 , . . . onderling onafhankelijk en identiek verdeeld zijn volgens een marginale verdeling met eindige verwachtingswaarde µ. Dan geldt voor iedere ε > 0 lim P |X n − µ| > ε = 0. n→∞
Stelling 9.27. (Sterke wet van de grote aantallen) Stel dat X1 , X2 , . . . onderling onafhankelijk en identiek verdeeld zijn volgens een marginale verdeling met eindige verwachtingswaarde µ. Dan geldt P lim X n = µ = 1. n→∞
Stelling 9.28. (Centrale Limietstelling) Stel dat X1 , X2 , . . . onderling onafhankelijk en identiek verdeeld zijn volgens een marginale verdeling met eindige verwachtingswaarde µ en eindige variantie σ 2 . Dan geldt √n(X − µ) n √ ≤ z = Φ(z), lim P n→∞ σ2 waar Φ de verdelingsfunctie van de standaard normale verdeling is.
De Centrale Limietstelling als zodanig kan niet in de praktijk worden toegepast omdat we nooit over oneindig veel data beschikken. Voor grote waarden van n is de kans in het linkerlid echter bij benadering gelijk aan de kans in het rechterlid. Hoe groot n precies moet zijn voor een redelijke benadering is onder andere afhankelijk van de scheefheid van de marginale verdeling. De stochastische grootheid in het linkerlid kan op een andere manier worden geschreven √ n(X n − µ) Xn − µ X n − EX n √ = p = p . σ 2 /n σ2 var X n
9.6: Limietstellingen en de normale benadering
319
Met de Centrale Limietstelling volgt dus dat het gestandaardiseerde steekproefgemiddelde bij benadering de standaard normale verdeling volgt als het aantal waarnemingen groot is. Voorbeeld 9.29 (Normale benadering van de binomiale verdeling). Veronderstel dat X1 , . . ., Xn een steekproef is uit de Bernoulli-verdeling met parameter p. De corresponderende verwachtingswaarde en variantie zijn beide eindig, respectievelijk p en p(1−p). Met de Centrale Limietstelling volgt voor grote waarden van n, dat X n − EX n Xn − p p =p p(1 − p)/n var X n
bij benadering standaard normaal verdeeld is. Het steekproefgemiddelde is dus bij benadering N (p, p(1 − p)/n) verdeeld.PHieruit kunnen we tevens n een benadering voor de verdeling van Y = i=1 Xi , dat is de binomiale verdeling met parameters n en p, afleiden. Als X n bij benadering de N (p, p(1 − p)/n)-verdeling volgt, dan volgt Y = nX n bij benadering de N (np, np(1 − p))-verdeling. Deze benadering is redelijk als n niet te klein is en p niet te dicht bij 0 of 1 in de buurt ligt. Als vuistregel hanteert men de eis np(1 − p) ≥ 5. Aangezien de binomiale verdeling discreet is en de normale verdeling continu, past men in de regel een continu¨ıteitscorrectie toe om de benadering te verbeteren. De kansmassa op Y = i in de discrete verdeling wordt als het ware uitgesmeerd over het interval (i − 1/2, i + 1/2] in de continue verdeling, P(Y = i) = P(i − 1/2 < Y ≤ i + 1/2), voor alle i ∈ N. Dit levert P Y ≤ i = P Y ≤ i + 21 en P Y ≥ i = P Y > i − 21 . De combinatie van de normale benadering en de continu¨ıteitscorrectie levert bijvoorbeeld voor n = 25 en p = 0.4 1.5 Y − 10 11.5 − 10 √ √ ≤ ≈ Φ √ = 0.730. P(Y ≤ 11) = P(Y ≤ 11.5) = P 6 6 6
De exacte kans is in dit geval gelijk aan 0.732. Ter vergelijking geven we √ ook de benaderde kans zonder continu¨ıteitscorrectie: Φ(1/ 6) = 0.658. De correctie zorgt hier dus duidelijk voor een verbetering van de benadering.
Voorbeeld 9.30 (Normale benadering van de Poisson-verdeling). Veronderstel dat X1 , . . ., Xn een steekproef is uit de Poisson-verdeling met parameter λ. De verwachtingswaarde en de variantie van deze verdeling zijn beide gelijk aan λ en dus eindig. De toepassing van de Centrale Limietstelling geeft nu dat X n − EX n Xn − λ p = p λ/n var X n
320
9: Appendix A: Elementen uit de Kansrekening
bij benadering de standaard normale verdeling volgt. Deze grootheid is ook te schrijven als Pn i=1 Xi − nλ √ . nλ Omdat de som van onafhankelijke Poisson-verdeelde stochasten weer Poisson-verdeeld is, zie Voorbeeld 9.6, is de stochastische grootheid Y = P n i=1 Xi Poisson-verdeeld met parameter µ = nλ. Er volgt dus dat Y −µ √ µ
bij benadering de standaard normale verdeling volgt. Dit is equivalent met te zeggen dat de Poisson(µ)-verdeling te benaderen is met de N (µ, µ)verdeling voor grote waarden van µ.
Opgaven 1. Bereken EX 2 als X Poisson-verdeeld is met parameter θ. 2. Bereken EX(X − 1)(X − 2) als X Poisson-verdeeld is met parameter 1. 3. Bereken EeX als X standaard normaal verdeeld is. 4. Veronderstel dat X en Y onderling onafhankelijk en exponentieel verdeeld zijn met verwachting 1. Bepaal de kansdichtheid en de verwachting van max(X, Y ). 5. Veronderstel dat X = (X1 , X2 , X3 ) multinomiaal verdeeld is met parameters n en p = (p1 , p2 , p3 ). Laat zien dat (i) EXi = pi , (ii) var Xi = npi (1 − pi ) (iii) cov(Xi , Xj ) = −npi pj voor i 6= j. Hint: Schrijf Xi en Xj als een som van onafhankelijke stochastische variabelen). 6. Veronderstel dat X en Y onafhankelijk en N (0, 1) en N (1, 2)-verdeeld zijn. (i) Bepaal P(X + Y ≤ 2). (ii) Bepaal een getal ξ zodanig dat P(X + Y > ξ) = 0.95. 7. Bereken de verdelingsfunctie en de kansdichtheid van X 2 + Y 2 als X en Y onderling onafhankelijk en standaard normaal verdeeld zijn.
9: Opgaven
321
8. De stochastische vector (X, Y ) is absoluut continu verdeeld met kansdichtheid f (x, y) =
−y e√ π
0,
,
als y > x2 , anders.
(i) Laat zien dat X normaal verdeeld is met verwachting 0 en variantie 12 . (ii) Laat zien√ dat een marginale dichtheid van Y wordt gegeven door √ 2 ye−y / π voor y > 0. (iii) Voor gegeven x bepaal een voorwaardelijke kansdichtheid van Y gegeven X = x. (iv) Voor gegeven x bepaal E(Y | X = x). (v) Bepaal EY . 9. De stochastische vector (X, Y ) is absoluut continu verdeeld met kansdichtheid f (x, y) =
2
e−x y , 0,
als x > 1, y > 0 als x ≤ 1 of y ≤ 0.
(i) Laat zien dat Z = X 2 Y een exponenti¨ele verdeling bezit met parameter 1. (ii) Bepaal E(X 2 Y )2 . (iii) Bepaal EeZ−X−Y . 10. Veronderstel dat X1 , . . ., Xn onderling onafhankelijk en homogeen verdeeld zijn op het interval [0, 1]. Bepaal de verwachting en variantie van Y = max(X1 , . . ., Xn ). Hint: leid de dichtheid van Y af uit de verdelingsfunctie van Y , P(Y ≤ y), die gevonden kan worden met behulp van de verdelingsfuncties van X1 , . . ., Xn . 11. Veronderstel dat X1 , . . ., Xn onderling onafhankelijk en identiek verdeeld zijn met verwachting µ en variantie σ 2 . Bereken EX n , var X n , E(X n )2 en cov(Xi − X n , X n ). 12. Veronderstel dat X1 , . . ., Xn onderling onafhankelijk en identiek verdeeld zijn volgens een continue verdeling met kansdichtheid f . Zij F de functie gegeven door Fn (A) = (1/n)#(Xi ∈ A) voor een gegeven vaste verzameling A (bijvoorbeeld een interval). Laat zien dat Fn (A) in kans convergeert naar een limiet, als n → ∞. Welke limiet? 13. Zij X binomiaal verdeeld met parameters 100 en 1/4. Bepaal een benadering voor P(X ≤ 30) met behulp van de Centrale Limietstelling. 14. Veronderstel dat X1 , . . ., X25 onderling onafhankelijk en Poisson(5) verdeeld zijn. Bepaal een benadering voor P(X n ≥ 4.5) met behulp van de Centrale Limietstelling.
10 Appendix B: Multivariaat-Normale Verdeling
De multivariaat-normale verdeling is de generalisatie van de gewone normale verdeling tot hogere dimensies. De verdeling wordt gebruikt als basis element voor de definitie van bepaalde statistische modellen, zoals het algemene lineaire model, maar treedt ook op in limietresultaten die betrekking hebben op het schatten of toetsen van vectorwaardige parameters. In deze appendix bespreken we, als achtergrond, de voornaamste eigenschappen van de meerdimensionale verdeling. Deze stof is handig voor het begrip van enkele onderdelen van het boek.
10.1
Covariantiematrices
De covariantie van twee stochastische grootheden X en Y is gedefinieerd als cov(X, Y ) = E(X − EX)(Y − EY ) (onder voorwaarde dat deze verwachtingen bestaan). De variantie van X is gelijk aan var X = cov(X, X). De verwachtingsoperator is lineair: E(αX +βY ) = αEX +βEY . De covariantie is symmetrisch en bilineair: cov(αX + βY, Z) = α cov(X, Z) + β cov(Y, Z). De verwachtingsvector en covariantiematrix van een stochastische vector (X1 , . . ., Xk ) zijn de vector en matrix EX1 EX2 EX = ... ,
EXk
cov(X , X ) 1 1 cov(X2 , X1 ) Cov X = .. .
··· ···
cov(X1 , Xk ) cov(X2 , Xk ) . .. .
cov(Xk , X1 ) · · · cov(Xk , Xk )
Voor k = 1 reduceren deze tot de verwachting en variantie van de variabele X1 . We besluiten deze paragraaf met het volgende lemma dat enkele eigenschappen van stochastische vectoren geeft.
10.2: Definitie en Basis Eigenschappen
323
Lemma 10.1. Voor iedere matrix A, vector b en stochastische vector X geldt: (i) E(AX + b) = AEX + b; (ii) Cov(AX) = A(Cov X)AT ; (iii) Cov X is symmetrisch en positief-definiet; (iv) P X ∈ EX + range(Cov X) = 1.
10.2
Definitie en Basis Eigenschappen
We zeggen dat een stochastische variabele X normaal N (µ, σ 2 )-verdeeld is, voor gegeven getallen µ ∈ R en σ > 0, als X een kansdichtheid bezit van de vorm 1 2 2 1 x 7→ √ e− 2 (x−µ) /σ . 2 2πσ Bovendien defini¨eren we dat X de N (µ, 0)-verdeling bezit als P(X = µ) = 1. Dit is de natuurlijke uitbreiding tot het geval dat σ = 0, omdat dan in ieder van de gevallen EX = µ en var X = σ 2 . Nu willen we de definitie van de normale verdeling generaliseren naar hogere dimensies. Veronderstel dat µ en Σ een willekeurige vector en een positief-definiete, symmetrische (k×k)-matrix zijn. Iedere positief-definiete, symmetrische matrix Σ kan worden geschreven als Σ = LLT , voor een (k × k)-matrix L. De matrix L is niet uniek, maar iedere mogelijke keuze kan in het volgende worden gebruikt. Een mogelijkheid met een meetkundige interpretatie komt van de transformatie tot een orthonormale basis van eigenvectoren van Σ. Relatief ten opzichte van deze basis wordt de lineaire transformatie Σ gerepresenteerd door de diagonaalmatrix D bestaande uit de eigenwaarden van Σ (in een gegeven volgorde), en is Σ gelijk aan Σ = ODO T voor de orthogonale matrix O die de verandering van basis geeft (orthogonaal betekent dat O T = O−1 ). We kiezen L in de decompositie nu gelijk aan L = OD 1/2 OT met D1/2 de diagonaalmatrix met de wortels van de eigenwaarden van Σ op de diagonaal. Dan geldt LLT = OD1/2 OT OD1/2 OT = OD1/2 D1/2 OT = Σ. Derhalve heeft deze matrix L de gewenste decompositie-eigenschap. Deze L is een positief-definiete, symmetrische matrix, net als Σ en wordt daarom wel een “positieve wortel” uit Σ genoemd.
324
10: Appendix B: Multivariaat-Normale Verdeling
Definitie 10.2. Een k-dimensionale stochastische vector X bezit de multivariaat-normale verdeling met parameters µ en Σ, notatie Nk (µ, Σ), als X dezelfde kansverdeling bezit als de vector µ + LZ, voor een (k × k)-matrix L met Σ = LLT en Z = (Z1 , . . ., Zk )T een vector waarvan de co¨ ordinaten onafhankelijke N (0, 1)-verdeelde stochastische grootheden zijn. De notatie Nk (µ, Σ) suggereert dat de verdeling van X alleen van µ en Σ afhangt. Dit is inderdaad het geval, alhoewel dit niet onmiddellijk duidelijk is uit de definitie, want de verdeling van de vector µ + LZ lijkt op het eerste gezicht afhankelijk van µ en L. We zullen verderop zien, in Lemma’s 10.3 en 10.4, dat de verdeling van de vector µ + LZ alleen van µ en LLT = Σ afhangt. De parameters µ en Σ zijn precies de verwachting en de covariantiematrix van de vector X, omdat, vanwege Lemma 10.1, Cov X = L Cov ZLT = Σ.
EX = µ + LEZ = µ,
De multivariaat-normale verdeling met µ = 0 en Σ = I, de identiteitsmatrix, wordt standaard normaal genoemd. Volgens de voorgaande definitie zijn de co¨ ordinaten van een standaard normale vector X onafhankelijke N (0, 1)-verdeelde variabelen. Als de matrix Σ singulier is, dan heeft de multivariaat-normale verdeling Nk (µ, Σ) geen kansdichtheid. (Dit correspondeert met het geval σ 2 = 0 in het eendimensionale geval.) Dit volgt uit Lemma 10.1, welk impliceert dat de vector X − EX zijn waarden aanneemt in het bereik van de matrix Σ, een lagerdimensionale deelruimte van Rk als Σ singulier is. Het volgt ook onmiddellijk uit de voorgaande definitie, want als Σ singulier is, dan is L ook singulier, en het bereik van X − µ = LZ is bevat in het bereik van L. Omgekeerd, als Σ regulier is, dan is de multivariaat-normale verdeling Nk (µ, Σ) continu. In het volgende lemma wordt de kansdichtheid expliciet gegeven. Lemma 10.3. Een stochastische vector X bezit de multivariaat-normale verdeling met parameters µ en een reguliere matrix Σ dan en slechts dan als X een kansdichtheid bezit van de vorm 1 T −1 1 √ x 7→ e− 2 (x−µ) Σ (x−µ) . k/2 (2π) det Σ Bewijs. De dichtheid van Z = (Z1 , . . ., Zk ) is het product van standaard normale dichtheden. Derhalve geldt, voor iedere vector b, P µ + LZ ≤ b =
Z
k Y 1 2 1 √ e− 2 zi dz z:µ+Lz≤b i=1 2π
Op deze integraal passen we de substitutie µ + Lz = x toe. De Jacobiaan ∂z/∂x van deze lineaire transformatie is L−1 en heeft determinant
10.2: Definitie en Basis Eigenschappen
325
P 2 det L−1 = (det Σ)−1/2 . Verder geldt zi = z T z = (x − µ)T Σ−1 (x − µ). Derhalve kunnen we de integraal herschrijven in de vorm Z 1 T −1 1 e− 2 (x−µ) Σ (x−µ) (det Σ)−1/2 dx. k/2 (2π) x:x≤b Aangezien dit waar is voor iedere b, volgt het resultaat uit de definitie van een kansdichtheid. Het is vaak handig om vectoren door middel van lineaire combinaties “te reduceren” tot eendimensionale variabelen. Men kan bewijzen dat de verdeling van een vector X volledig bepaald is door de verdelingen van alle lineaire combinaties aT X in de zin dat twee k-dimensionale stochastische vectoren X en Y identiek verdeeld zijn dan en slechts dan als de stochastische grootheden aT X en aT Y identiek verdeeld zijn voor iedere a ∈ Rk . Gebruikmakend van deze eigenschap kunnen we voor de normale verdeling het volgende attractieve lemma bewijzen. Lemma 10.4. De stochastische vector X is Nk (µ, Σ)-verdeeld dan en slechts dan als aT X eendimensionaal N1 (aT µ, aT Σa)-verdeeld is voor iedere a ∈ Rk . Bewijs. Wanneer X normaal Nk (µ, Σ)-verdeeld is zijn de parameters aT µ en aT Σa correct, want ze zijn precies de verwachting en variantie van de variabele aT X. Het is daarom voldoende te bewijzen dat aT X normaal verdeeld is. Omdat X identiek verdeeld is aan µ + LZ, is de variabele aT X identiek verdeeld aan aT µ + (LT a)T Z. Deze variabele is een constante plus een lineaire combinatie bT Z van onafhankelijke N (0, 1)-verdeelde variabelen (voor b = LT a). Vanuit de kansrekening is bekend dat zo’n lineaire combinatie normaal verdeeld is. Omgekeerd geldt wanneer aT X normaal N1 (aT µ, aT Σa)-verdeeld is, dat aT X vanwege het zojuist gegeven argument verdeeld is als aT Y voor een Nk (µ, Σ)-verdeelde vector Y . Als dat waar is voor iedere a, dan zijn X en Y identiek verdeeld vanwege de eigenschap genoemd voorafgaand aan dit lemma. Dus bezit X de Nk (µ, Σ)-verdeling. Gevolg 10.5. Als de vector X = (X1 , . . ., Xk ) de Nk (µ, Σ)-verdeling bezit en A: Rk → Rm is een willekeurige matrix, dan bezit AX de Nm (Aµ, AΣAT )-verdeling. Bewijs. De parameters Aµ en AΣAT zijn correct, want ze zijn de verwachting en de covariantiematrix van AX. Het is voldoende te bewezen dat AX normaal verdeeld is. Voor iedere vector a geldt aT (AX) = (AT a)T X. Deze variabele is eendimensionaal normaal verdeeld wegens het voorgaande lemma. Derhalve is AX multivariaat-normaal verdeeld vanwege het voorgaande lemma, nu toegepast in de omgekeerde richting.
326
10: Appendix B: Multivariaat-Normale Verdeling
Het voorgaande lemma en gevolg impliceren dat de marginale verdelingen van een multivariaat-normale verdeling weer normaal zijn. Ze zijn immers de verdelingen van de lineaire combinaties eTi X voor e1 , . . ., ek de eenheidsvectoren. Het omgekeerde is niet waar: het is mogelijk dat ieder van de variabelen X1 , . . ., Xk normaal verdeeld is, terwijl de vector (X1 , . . ., Xk ) niet multivariaat-normaal verdeeld is. Een ander vaak gebruikt gevolg van de voorgaande stelling is dat een orthogonale transformatie van een standaard normale vector weer standaard normaal verdeeld is: als O een (k×k)-matrix is met O T O = OOT = I en Z is Nk (0, I)-verdeeld dan is OZ ook Nk (0, I)-verdeeld, want O0 = 0 en OT IO = I. Meetkundig betekent deze eigenschap dat de standaard normale verdeling invariant is onder rotaties. We besluiten met een opmerkelijke eigenschap van multivariaatnormaal verdeelde vectoren. De stochastische variabelen X1 , . . ., Xk heten ongecorreleerd als de covariantiematrix van (X1 , . . ., Xk ) een diagonaalmatrix is. Onafhankelijke stochastische grootheden zijn altijd ongecorreleerd, maar deze bewering mag in het algemeen niet worden omgekeerd. Als de vector X = (X1 , . . ., Xk ) multivariaat-normaal verdeeld is, dan is het omgekeerde echter wel waar. Lemma 10.6. De vector X = (X1 , . . ., Xk ) is multivariaat-normaal verdeeld met Σ een diagonaalmatrix dan en slechts dan als X1 , . . ., Xk onafhankelijk zijn en marginaal normaal verdeeld. Bewijs. Een symmetrische positief-definiete diagonaalmatrix Σ kan worden geschreven in de vorm Σ = LLT voor L de diagonaalmatrix met de wortels van de diagonaalelementen van Σ op de diagonaal. Dan is X per definitie Nk (µ, Σ)-verdeeld, als X identiek verdeeld is aan µ + LZ = (µ1 + L11 Z1 , . . ., µk + Lkk Zk ) voor onafhankelijk standaard normale variabelen Z1 , . . ., Zk . Derhalve zijn de co¨ ordinaten van X onafhankelijk en normaal verdeeld. Omgekeerd, als X1 , . . ., Xk onafhankelijk en N (µi , σi2 )-verdeeld zijn, dan is X verdeeld als (µ1 + σ1 Z1 , . . ., µk + σk Zk ) = µ + LZ, voor L de diagonaalmatrix met diagonaal (σ1 , . . ., σk ). Dus bezit X de N (µ, LLT )verdeling, waarin LLT een diagonaalmatrix is.
10.3
Voorwaardelijke Verdelingen
Als (X, Y ) een stochastische vector is met kansdichtheid (x, y) 7→ f (x, y), dan wordt de voorwaardelijke verdeling van X gegeven Y = y gegeven door de kansdichtheid f (x, y) x 7→ fX|Y =y (x) = R . f (x, y) dx
10.4: Multivariate Centrale Limietstelling
327
Voor een multivariaat-normaal verdeelde stochastische vector zijn deze voorwaardelijke verdelingen weer normale verdelingen. Voor de eenvoud beschouwen we alleen tweedimensionaal normale verdelingen. Het bewijs van de volgende stelling is echter gemakkelijk uit te breiden naar voorwaardelijke verdelingen van hogerdimensionale vectoren. Voor de tweedimensionaal normale vector (X, Y ) schrijven we de verwachting en covariantiematrix als 2 σ ρστ µ . , ρστ τ 2 ν Dan zijn σ 2 en τ 2 de varianties van X, respectievelijk Y , en ρ is de correlatieco¨effici¨ent van X en Y . Stelling 10.7. Als (X, Y ) tweedimensionaal normaal verdeeld is met verwachting en covariantiematrix als gegeven in het voorgaande display, dan is de voorwaardelijke verdeling van X gegeven Y = y gelijk aan de normale verdeling met verwachting µ − ρσν/τ + ρσy/τ en variantie (1 − ρ2 )σ 2 . Bewijs. Voor een gegeven λ ∈ R kunnen we schrijven X = X − λY + λY = Z + λY voor Z = X − λY . Dan is (Z, Y ) een lineaire transformatie van (X, Y ) en bezit derhalve een tweedimensionaal normale verdeling. Voor λ = ρσ/τ hebben we cov(Z, Y ) = cov(X − λY, Y ) = ρστ − λτ 2 = 0. Op grond van Lemma 10.6 concluderen we dat Z en Y voor de gegeven waarde λ = ρσ/τ onafhankelijk zijn, met andere woorden de voorwaardelijke verdeling van Z gegeven Y = y is de onvoorwaardelijke verdeling van Z. Deze verdeling is eendimensionaal normaal met verwachting EZ = µ − λν = µ − ρσν/τ en variantie var Z = σ 2 + λ2 τ 2 − 2λρστ = (1 − ρ2 )σ 2 . De voorwaardelijke verdeling van X = Z + λY gegeven Y = y is dan de onvoorwaardelijke verdeling van Z + λy, en dat is de normale verdeling met verwachting µ − ρσν/τ + ρσy/τ en variantie (1 − ρ2 )σ 2 .
10.4
Multivariate Centrale Limietstelling
De “gewone” Centrale Limietstelling zegt, dat het gemiddelde van een rij van onafhankelijke stochastische grootheden met eindige variantie bij benadering normaal verdeeld is. Preciezer, als Y1 , Y2 , . . . een rij onafhankelijke, identiek verdeelde stochastische grootheden zijn met verwachting µ en eindige variantie σ 2 , dan geldt voor iedere x ∈ R: √ lim P n(Y n − µ) ≤ x = Φ(x/σ). n→∞
328
10: Appendix B: Multivariaat-Normale Verdeling
√ We zeggen dat de rij n(Y n − µ) asymptotisch N1 (0, σ 2 )-verdeeld is. Deze stelling is ook waar als de rij Y1 , Y2 , . . . bestaat uit stochastische vectoren. Dan defini¨eren we het gemiddelde Y n als de vector van gemiddelden van de co¨ ordinaten, en hebben als parameters een verwachtingsvector µ en een covariantiematrix√Σ. De Centrale Limietstelling voor vectoren zegt dan dat de rij vectoren n(Y n − µ) asymptotisch Nk (µ, Σ)-verdeeld is.
10.5
Afgeleide Verdelingen
De chikwadraat-verdeling met k vrijheidsgraden is per definitie de verdeling Pk van i=1 Zi2 voor onafhankelijke N (0, 1)-verdeelde stochastische grootheP den Z1 , . . ., Zk . De kwadraatsom ki=1 Zi2 is precies de Euclidische norm kZk2 van de vector Z = (Z1 , . . ., Zk ), die de standaard normale verdeling bezit. We concluderen dat de kwadratische norm van een k-dimensionale standaard normale verdeling de chikwadraat-verdeling met k vrijheidsgraden bezit. Als X de Nk (µ, Σ)-verdeling bezit voor een reguliere matrix Σ en L is de symmetrische, positief-definiete wortel uit Σ, zodat Σ = L2 , dan bezit L−1 (X − µ) de standaard normale verdeling. We concluderen hieruit dat de kwadratische vorm
2 (X − µ)T Σ−1 (X − µ) = L−1 (X − µ)
de chikwadraat-verdeling met k vrijheidsgraden bezit. De chikwadraat-verdeling treedt ook op voor de kwadratische norm van projecties van een multivariaat-normale verdeling. Een projectie is een lineaire afbeelding P : Rk → Rk van de volgende vorm. Voor een gegeven orthonormale basis {f1 , . . ., fk } van Rk (niet noodzakelijk de standaard P P basis!) defini¨eren we P x = li=1 ξi fi als x = ki=1 ξi fi . Met andere woorden we “vergeten” de component van x die ligt in de ruimte opgespannen door fl+1 , . . ., fk . We noemen P de projectie op de lineaire ruimte opgespannen Pl 2 door f1 , . . ., fl . De kwadratische norm van P x is kP xk2 = i=1 ξi . De matrix I − P geeft de projectie op de ruimte opgespannen door fl+1 , . . ., fk : Pk (I − P )x = i=l+1 ξi fi . Als Z een Nk (0, I)-verdeling bezit, dan zijn de co¨ ordinaten Z1 , . . ., Zk ten opzichte van de standaard basis onafhankelijk en N (0, 1)-verdeeld. Vanwege de rotatie-invariantie van de standaard normale verdeling zijn de co¨ ordinaten ζ1 , . . ., ζk ten opzichte van een willekeurige basis eveneens onafhankelijk en N (0, 1)-verdeeld. Voor een projectie P als in de vorige alinea Pl volgt dat kP Zk2 = i=1 ζi2 chikwadraat-verdeeld is met l vrijheidsgraden. Deze vaststelling maakt deel uit van de Stelling van Cochran.
10.5: Afgeleide Verdelingen
329
Beschouw een partitie {f11 , . . ., fi11 }, {f12 , . . ., fi22 }, . . ., {f1r , . . ., firr } van een gegeven orthogonale basis {f1 , . . ., fk } met bijbehorende projecties P1 , P2 , . . ., Pr . De lineaire deelruimtes H1 , H2 , . . ., Hr opgespannen door de elementen uit deze partitie zijn orthogonaal, en P1 , P2 , . . ., Pr beelden Rk precies af op H1 , H2 , . . ., Hr . Stelling 10.8 (Cochrans stelling). Veronderstel dat P1 , P2 , . . ., Pr orthogonale projecties zijn op orthogonale deelruimtes H1 , H2 , . . ., Hr als aangegeven. Als Z de Nk (0, I)-verdeling bezit dan zijn P1 Z, P2 Z, . . ., Pr Z onafhankelijke stochastische vectoren en kP1 Zk2 , . . ., kPr Zk2 zijn chikwadraat-verdeeld met, respectievelijk, dim(H1 ), . . ., dim(Hr ) vrijheidsgraden. Als gevolg van deze stelling bezitten de quoti¨enten kPj Zk2 /ij kPl Zk2 /il F -verdelingen met ij en il vrijheidsgraden.
11 Appendix C: Tabellen
Deze appendix bevat enkele tabellen voor de normale verdeling, de tverdelingen, de chikwadraat-verdelingen en de binomiale verdeling met n = 10. Ze zijn bedoeld voor gebruik als geen computer in de buurt is. Deze tabellen, en nog veel andere, kunnen in bijvoorbeeld Splus in een fractie van een seconde, en in grotere nauwkeurigheid worden berekend.
331
11.1: Normale Verdeling
11.1
0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 2.0 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9 3.0 3.1 3.2 3.3 3.4 3.5 3.6 3.7 3.8 3.9
Normale Verdeling 0
1
2
3
4
5
6
7
8
9
0.5 0.5398 0.5793 0.6179 0.6554 0.6915 0.7257 0.758 0.7881 0.8159 0.8413 0.8643 0.8849 0.9032 0.9192 0.9332 0.9452 0.9554 0.9641 0.9713 0.9772 0.9821 0.9861 0.9893 0.9918 0.9938 0.9953 0.9965 0.9974 0.9981 0.9987 0.999 0.9993 0.9995 0.9997 0.9998 0.9998 0.9999 0.9999 1
0.504 0.5438 0.5832 0.6217 0.6591 0.695 0.7291 0.7611 0.791 0.8186 0.8438 0.8665 0.8869 0.9049 0.9207 0.9345 0.9463 0.9564 0.9649 0.9719 0.9778 0.9826 0.9864 0.9896 0.992 0.994 0.9955 0.9966 0.9975 0.9982 0.9987 0.9991 0.9993 0.9995 0.9997 0.9998 0.9998 0.9999 0.9999 1
0.508 0.5478 0.5871 0.6255 0.6628 0.6985 0.7324 0.7642 0.7939 0.8212 0.8461 0.8686 0.8888 0.9066 0.9222 0.9357 0.9474 0.9573 0.9656 0.9726 0.9783 0.983 0.9868 0.9898 0.9922 0.9941 0.9956 0.9967 0.9976 0.9982 0.9987 0.9991 0.9994 0.9995 0.9997 0.9998 0.9999 0.9999 0.9999 1
0.512 0.5517 0.591 0.6293 0.6664 0.7019 0.7357 0.7673 0.7967 0.8238 0.8485 0.8708 0.8907 0.9082 0.9236 0.937 0.9484 0.9582 0.9664 0.9732 0.9788 0.9834 0.9871 0.9901 0.9925 0.9943 0.9957 0.9968 0.9977 0.9983 0.9988 0.9991 0.9994 0.9996 0.9997 0.9998 0.9999 0.9999 0.9999 1
0.516 0.5557 0.5948 0.6331 0.67 0.7054 0.7389 0.7704 0.7995 0.8264 0.8508 0.8729 0.8925 0.9099 0.9251 0.9382 0.9495 0.9591 0.9671 0.9738 0.9793 0.9838 0.9875 0.9904 0.9927 0.9945 0.9959 0.9969 0.9977 0.9984 0.9988 0.9992 0.9994 0.9996 0.9997 0.9998 0.9999 0.9999 0.9999 1
0.5199 0.5596 0.5987 0.6368 0.6736 0.7088 0.7422 0.7734 0.8023 0.8289 0.8531 0.8749 0.8944 0.9115 0.9265 0.9394 0.9505 0.9599 0.9678 0.9744 0.9798 0.9842 0.9878 0.9906 0.9929 0.9946 0.996 0.997 0.9978 0.9984 0.9989 0.9992 0.9994 0.9996 0.9997 0.9998 0.9999 0.9999 0.9999 1
0.5239 0.5636 0.6026 0.6406 0.6772 0.7123 0.7454 0.7764 0.8051 0.8315 0.8554 0.877 0.8962 0.9131 0.9279 0.9406 0.9515 0.9608 0.9686 0.975 0.9803 0.9846 0.9881 0.9909 0.9931 0.9948 0.9961 0.9971 0.9979 0.9985 0.9989 0.9992 0.9994 0.9996 0.9997 0.9998 0.9999 0.9999 0.9999 1
0.5279 0.5675 0.6064 0.6443 0.6808 0.7157 0.7486 0.7794 0.8078 0.834 0.8577 0.879 0.898 0.9147 0.9292 0.9418 0.9525 0.9616 0.9693 0.9756 0.9808 0.985 0.9884 0.9911 0.9932 0.9949 0.9962 0.9972 0.9979 0.9985 0.9989 0.9992 0.9995 0.9996 0.9997 0.9998 0.9999 0.9999 0.9999 1
0.5319 0.5714 0.6103 0.648 0.6844 0.719 0.7517 0.7823 0.8106 0.8365 0.8599 0.881 0.8997 0.9162 0.9306 0.9429 0.9535 0.9625 0.9699 0.9761 0.9812 0.9854 0.9887 0.9913 0.9934 0.9951 0.9963 0.9973 0.998 0.9986 0.999 0.9993 0.9995 0.9996 0.9997 0.9998 0.9999 0.9999 0.9999 1
0.5359 0.5753 0.6141 0.6517 0.6879 0.7224 0.7549 0.7852 0.8133 0.8389 0.8621 0.883 0.9015 0.9177 0.9319 0.9441 0.9545 0.9633 0.9706 0.9767 0.9817 0.9857 0.989 0.9916 0.9936 0.9952 0.9964 0.9974 0.9981 0.9986 0.999 0.9993 0.9995 0.9997 0.9998 0.9998 0.9999 0.9999 0.9999 1
Tabel 11.1. Verdelingsfunctie van de normale verdeling op het interval [0, 4]. De waarde in de tabel is Φ(x) voor x = a + b/100 met a de waarde in de eerste kolom en b het getal in de eerste rij.
332
11: Appendix C: Tabellen
11.2 t-Verdeling df
0.6
0.7
0.75
0.8
0.85
0.9
0.925
0.95
0.975
0.98
0.99
0.999
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50
0.32 0.29 0.28 0.27 0.27 0.26 0.26 0.26 0.26 0.26 0.26 0.26 0.26 0.26 0.26 0.26 0.26 0.26 0.26 0.26 0.26 0.26 0.26 0.26 0.26 0.26 0.26 0.26 0.26 0.26 0.26 0.26 0.26 0.26 0.26 0.26 0.26 0.26 0.26 0.26 0.25 0.25 0.25 0.25 0.25 0.25 0.25 0.25 0.25 0.25
0.73 0.62 0.58 0.57 0.56 0.55 0.55 0.55 0.54 0.54 0.54 0.54 0.54 0.54 0.54 0.54 0.53 0.53 0.53 0.53 0.53 0.53 0.53 0.53 0.53 0.53 0.53 0.53 0.53 0.53 0.53 0.53 0.53 0.53 0.53 0.53 0.53 0.53 0.53 0.53 0.53 0.53 0.53 0.53 0.53 0.53 0.53 0.53 0.53 0.53
1 0.82 0.76 0.74 0.73 0.72 0.71 0.71 0.7 0.7 0.7 0.7 0.69 0.69 0.69 0.69 0.69 0.69 0.69 0.69 0.69 0.69 0.69 0.68 0.68 0.68 0.68 0.68 0.68 0.68 0.68 0.68 0.68 0.68 0.68 0.68 0.68 0.68 0.68 0.68 0.68 0.68 0.68 0.68 0.68 0.68 0.68 0.68 0.68 0.68
1.38 1.06 0.98 0.94 0.92 0.91 0.9 0.89 0.88 0.88 0.88 0.87 0.87 0.87 0.87 0.86 0.86 0.86 0.86 0.86 0.86 0.86 0.86 0.86 0.86 0.86 0.86 0.85 0.85 0.85 0.85 0.85 0.85 0.85 0.85 0.85 0.85 0.85 0.85 0.85 0.85 0.85 0.85 0.85 0.85 0.85 0.85 0.85 0.85 0.85
1.96 1.39 1.25 1.19 1.16 1.13 1.12 1.11 1.1 1.09 1.09 1.08 1.08 1.08 1.07 1.07 1.07 1.07 1.07 1.06 1.06 1.06 1.06 1.06 1.06 1.06 1.06 1.06 1.06 1.05 1.05 1.05 1.05 1.05 1.05 1.05 1.05 1.05 1.05 1.05 1.05 1.05 1.05 1.05 1.05 1.05 1.05 1.05 1.05 1.05
3.08 1.89 1.64 1.53 1.48 1.44 1.41 1.4 1.38 1.37 1.36 1.36 1.35 1.35 1.34 1.34 1.33 1.33 1.33 1.33 1.32 1.32 1.32 1.32 1.32 1.31 1.31 1.31 1.31 1.31 1.31 1.31 1.31 1.31 1.31 1.31 1.3 1.3 1.3 1.3 1.3 1.3 1.3 1.3 1.3 1.3 1.3 1.3 1.3 1.3
4.17 2.28 1.92 1.78 1.7 1.65 1.62 1.59 1.57 1.56 1.55 1.54 1.53 1.52 1.52 1.51 1.51 1.5 1.5 1.5 1.49 1.49 1.49 1.49 1.49 1.48 1.48 1.48 1.48 1.48 1.48 1.47 1.47 1.47 1.47 1.47 1.47 1.47 1.47 1.47 1.47 1.47 1.47 1.47 1.46 1.46 1.46 1.46 1.46 1.46
6.31 2.92 2.35 2.13 2.02 1.94 1.89 1.86 1.83 1.81 1.8 1.78 1.77 1.76 1.75 1.75 1.74 1.73 1.73 1.72 1.72 1.72 1.71 1.71 1.71 1.71 1.7 1.7 1.7 1.7 1.7 1.69 1.69 1.69 1.69 1.69 1.69 1.69 1.68 1.68 1.68 1.68 1.68 1.68 1.68 1.68 1.68 1.68 1.68 1.68
12.71 4.3 3.18 2.78 2.57 2.45 2.36 2.31 2.26 2.23 2.2 2.18 2.16 2.14 2.13 2.12 2.11 2.1 2.09 2.09 2.08 2.07 2.07 2.06 2.06 2.06 2.05 2.05 2.05 2.04 2.04 2.04 2.03 2.03 2.03 2.03 2.03 2.02 2.02 2.02 2.02 2.02 2.02 2.02 2.01 2.01 2.01 2.01 2.01 2.01
15.89 4.85 3.48 3 2.76 2.61 2.52 2.45 2.4 2.36 2.33 2.3 2.28 2.26 2.25 2.24 2.22 2.21 2.2 2.2 2.19 2.18 2.18 2.17 2.17 2.16 2.16 2.15 2.15 2.15 2.14 2.14 2.14 2.14 2.13 2.13 2.13 2.13 2.12 2.12 2.12 2.12 2.12 2.12 2.12 2.11 2.11 2.11 2.11 2.11
31.82 6.96 4.54 3.75 3.36 3.14 3 2.9 2.82 2.76 2.72 2.68 2.65 2.62 2.6 2.58 2.57 2.55 2.54 2.53 2.52 2.51 2.5 2.49 2.49 2.48 2.47 2.47 2.46 2.46 2.45 2.45 2.44 2.44 2.44 2.43 2.43 2.43 2.43 2.42 2.42 2.42 2.42 2.41 2.41 2.41 2.41 2.41 2.4 2.4
318.31 22.33 10.21 7.17 5.89 5.21 4.79 4.5 4.3 4.14 4.02 3.93 3.85 3.79 3.73 3.69 3.65 3.61 3.58 3.55 3.53 3.5 3.48 3.47 3.45 3.43 3.42 3.41 3.4 3.39 3.37 3.37 3.36 3.35 3.34 3.33 3.33 3.32 3.31 3.31 3.3 3.3 3.29 3.29 3.28 3.28 3.27 3.27 3.27 3.26
Tabel 11.2. (Beneden-) Kwantielen van de t-verdelingen met 1 tot 50 vrijheidsgraden.
11.3: Chikwadraat-Verdeling
11.3
333
Chikwadraat-Verdeling
df
0.001
0.01
0.02
0.025
0.05
0.075
0.1
0.15
0.2
0.25
0.3
0.4
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50
0 0 0.02 0.09 0.21 0.38 0.6 0.86 1.15 1.48 1.83 2.21 2.62 3.04 3.48 3.94 4.42 4.9 5.41 5.92 6.45 6.98 7.53 8.08 8.65 9.22 9.8 10.39 10.99 11.59 12.2 12.81 13.43 14.06 14.69 15.32 15.97 16.61 17.26 17.92 18.58 19.24 19.91 20.58 21.25 21.93 22.61 23.29 23.98 24.67
0 0.02 0.11 0.3 0.55 0.87 1.24 1.65 2.09 2.56 3.05 3.57 4.11 4.66 5.23 5.81 6.41 7.01 7.63 8.26 8.9 9.54 10.2 10.86 11.52 12.2 12.88 13.56 14.26 14.95 15.66 16.36 17.07 17.79 18.51 19.23 19.96 20.69 21.43 22.16 22.91 23.65 24.4 25.15 25.9 26.66 27.42 28.18 28.94 29.71
0 0.04 0.18 0.43 0.75 1.13 1.56 2.03 2.53 3.06 3.61 4.18 4.77 5.37 5.98 6.61 7.26 7.91 8.57 9.24 9.91 10.6 11.29 11.99 12.7 13.41 14.13 14.85 15.57 16.31 17.04 17.78 18.53 19.28 20.03 20.78 21.54 22.3 23.07 23.84 24.61 25.38 26.16 26.94 27.72 28.5 29.29 30.08 30.87 31.66
0 0.05 0.22 0.48 0.83 1.24 1.69 2.18 2.7 3.25 3.82 4.4 5.01 5.63 6.26 6.91 7.56 8.23 8.91 9.59 10.28 10.98 11.69 12.4 13.12 13.84 14.57 15.31 16.05 16.79 17.54 18.29 19.05 19.81 20.57 21.34 22.11 22.88 23.65 24.43 25.21 26 26.79 27.57 28.37 29.16 29.96 30.75 31.55 32.36
0 0.1 0.35 0.71 1.15 1.64 2.17 2.73 3.33 3.94 4.57 5.23 5.89 6.57 7.26 7.96 8.67 9.39 10.12 10.85 11.59 12.34 13.09 13.85 14.61 15.38 16.15 16.93 17.71 18.49 19.28 20.07 20.87 21.66 22.47 23.27 24.07 24.88 25.7 26.51 27.33 28.14 28.96 29.79 30.61 31.44 32.27 33.1 33.93 34.76
0.01 0.16 0.47 0.9 1.39 1.94 2.53 3.14 3.78 4.45 5.12 5.82 6.52 7.24 7.97 8.71 9.45 10.21 10.97 11.73 12.5 13.28 14.06 14.85 15.64 16.44 17.24 18.05 18.85 19.66 20.48 21.3 22.12 22.94 23.76 24.59 25.42 26.25 27.09 27.93 28.76 29.61 30.45 31.29 32.14 32.99 33.84 34.69 35.54 36.4
0.02 0.21 0.58 1.06 1.61 2.2 2.83 3.49 4.17 4.87 5.58 6.3 7.04 7.79 8.55 9.31 10.09 10.86 11.65 12.44 13.24 14.04 14.85 15.66 16.47 17.29 18.11 18.94 19.77 20.6 21.43 22.27 23.11 23.95 24.8 25.64 26.49 27.34 28.2 29.05 29.91 30.77 31.63 32.49 33.35 34.22 35.08 35.95 36.82 37.69
0.04 0.33 0.8 1.37 1.99 2.66 3.36 4.08 4.82 5.57 6.34 7.11 7.9 8.7 9.5 10.31 11.12 11.95 12.77 13.6 14.44 15.28 16.12 16.97 17.82 18.67 19.53 20.39 21.25 22.11 22.98 23.84 24.71 25.59 26.46 27.34 28.21 29.09 29.97 30.86 31.74 32.63 33.51 34.4 35.29 36.18 37.07 37.96 38.86 39.75
0.06 0.45 1.01 1.65 2.34 3.07 3.82 4.59 5.38 6.18 6.99 7.81 8.63 9.47 10.31 11.15 12 12.86 13.72 14.58 15.44 16.31 17.19 18.06 18.94 19.82 20.7 21.59 22.48 23.36 24.26 25.15 26.04 26.94 27.84 28.73 29.64 30.54 31.44 32.34 33.25 34.16 35.07 35.97 36.88 37.8 38.71 39.62 40.53 41.45
0.1 0.58 1.21 1.92 2.67 3.45 4.25 5.07 5.9 6.74 7.58 8.44 9.3 10.17 11.04 11.91 12.79 13.68 14.56 15.45 16.34 17.24 18.14 19.04 19.94 20.84 21.75 22.66 23.57 24.48 25.39 26.3 27.22 28.14 29.05 29.97 30.89 31.81 32.74 33.66 34.58 35.51 36.44 37.36 38.29 39.22 40.15 41.08 42.01 42.94
0.15 0.71 1.42 2.19 3 3.83 4.67 5.53 6.39 7.27 8.15 9.03 9.93 10.82 11.72 12.62 13.53 14.44 15.35 16.27 17.18 18.1 19.02 19.94 20.87 21.79 22.72 23.65 24.58 25.51 26.44 27.37 28.31 29.24 30.18 31.12 32.05 32.99 33.93 34.87 35.81 36.75 37.7 38.64 39.58 40.53 41.47 42.42 43.37 44.31
0.27 1.02 1.87 2.75 3.66 4.57 5.49 6.42 7.36 8.3 9.24 10.18 11.13 12.08 13.03 13.98 14.94 15.89 16.85 17.81 18.77 19.73 20.69 21.65 22.62 23.58 24.54 25.51 26.48 27.44 28.41 29.38 30.34 31.31 32.28 33.25 34.22 35.19 36.16 37.13 38.11 39.08 40.05 41.02 42 42.97 43.94 44.92 45.89 46.86
Tabel 11.2. (Vervolg). (Beneden-) Kwantielen van de chikwadraat-verdelingen met 1 tot 50 vrijheidsgraden.
334
11: Appendix C: Tabellen
df
0.6
0.7
0.75
0.8
0.85
0.9
0.925
0.95
0.975
0.98
0.99
0.999
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50
0.71 1.83 2.95 4.04 5.13 6.21 7.28 8.35 9.41 10.47 11.53 12.58 13.64 14.69 15.73 16.78 17.82 18.87 19.91 20.95 21.99 23.03 24.07 25.11 26.14 27.18 28.21 29.25 30.28 31.32 32.35 33.38 34.41 35.44 36.47 37.5 38.53 39.56 40.59 41.62 42.65 43.68 44.71 45.73 46.76 47.79 48.81 49.84 50.87 51.89
1.07 2.41 3.66 4.88 6.06 7.23 8.38 9.52 10.66 11.78 12.9 14.01 15.12 16.22 17.32 18.42 19.51 20.6 21.69 22.77 23.86 24.94 26.02 27.1 28.17 29.25 30.32 31.39 32.46 33.53 34.6 35.66 36.73 37.8 38.86 39.92 40.98 42.05 43.11 44.16 45.22 46.28 47.34 48.4 49.45 50.51 51.56 52.62 53.67 54.72
1.32 2.77 4.11 5.39 6.63 7.84 9.04 10.22 11.39 12.55 13.7 14.85 15.98 17.12 18.25 19.37 20.49 21.6 22.72 23.83 24.93 26.04 27.14 28.24 29.34 30.43 31.53 32.62 33.71 34.8 35.89 36.97 38.06 39.14 40.22 41.3 42.38 43.46 44.54 45.62 46.69 47.77 48.84 49.91 50.98 52.06 53.13 54.2 55.27 56.33
1.64 3.22 4.64 5.99 7.29 8.56 9.8 11.03 12.24 13.44 14.63 15.81 16.98 18.15 19.31 20.47 21.61 22.76 23.9 25.04 26.17 27.3 28.43 29.55 30.68 31.79 32.91 34.03 35.14 36.25 37.36 38.47 39.57 40.68 41.78 42.88 43.98 45.08 46.17 47.27 48.36 49.46 50.55 51.64 52.73 53.82 54.91 55.99 57.08 58.16
2.07 3.79 5.32 6.74 8.12 9.45 10.75 12.03 13.29 14.53 15.77 16.99 18.2 19.41 20.6 21.79 22.98 24.16 25.33 26.5 27.66 28.82 29.98 31.13 32.28 33.43 34.57 35.71 36.85 37.99 39.12 40.26 41.39 42.51 43.64 44.76 45.89 47.01 48.13 49.24 50.36 51.47 52.59 53.7 54.81 55.92 57.03 58.14 59.24 60.35
2.71 4.61 6.25 7.78 9.24 10.64 12.02 13.36 14.68 15.99 17.28 18.55 19.81 21.06 22.31 23.54 24.77 25.99 27.2 28.41 29.62 30.81 32.01 33.2 34.38 35.56 36.74 37.92 39.09 40.26 41.42 42.58 43.75 44.9 46.06 47.21 48.36 49.51 50.66 51.81 52.95 54.09 55.23 56.37 57.51 58.64 59.77 60.91 62.04 63.17
3.17 5.18 6.9 8.5 10.01 11.47 12.88 14.27 15.63 16.97 18.29 19.6 20.9 22.18 23.45 24.72 25.97 27.22 28.46 29.69 30.92 32.14 33.36 34.57 35.78 36.98 38.18 39.38 40.57 41.76 42.95 44.13 45.31 46.49 47.66 48.84 50.01 51.17 52.34 53.5 54.66 55.82 56.98 58.13 59.29 60.44 61.59 62.74 63.88 65.03
3.84 5.99 7.81 9.49 11.07 12.59 14.07 15.51 16.92 18.31 19.68 21.03 22.36 23.68 25 26.3 27.59 28.87 30.14 31.41 32.67 33.92 35.17 36.42 37.65 38.89 40.11 41.34 42.56 43.77 44.99 46.19 47.4 48.6 49.8 51 52.19 53.38 54.57 55.76 56.94 58.12 59.3 60.48 61.66 62.83 64 65.17 66.34 67.5
5.02 7.38 9.35 11.14 12.83 14.45 16.01 17.53 19.02 20.48 21.92 23.34 24.74 26.12 27.49 28.85 30.19 31.53 32.85 34.17 35.48 36.78 38.08 39.36 40.65 41.92 43.19 44.46 45.72 46.98 48.23 49.48 50.73 51.97 53.2 54.44 55.67 56.9 58.12 59.34 60.56 61.78 62.99 64.2 65.41 66.62 67.82 69.02 70.22 71.42
5.41 7.82 9.84 11.67 13.39 15.03 16.62 18.17 19.68 21.16 22.62 24.05 25.47 26.87 28.26 29.63 31 32.35 33.69 35.02 36.34 37.66 38.97 40.27 41.57 42.86 44.14 45.42 46.69 47.96 49.23 50.49 51.74 53 54.24 55.49 56.73 57.97 59.2 60.44 61.67 62.89 64.12 65.34 66.56 67.77 68.99 70.2 71.41 72.61
6.63 9.21 11.34 13.28 15.09 16.81 18.48 20.09 21.67 23.21 24.72 26.22 27.69 29.14 30.58 32 33.41 34.81 36.19 37.57 38.93 40.29 41.64 42.98 44.31 45.64 46.96 48.28 49.59 50.89 52.19 53.49 54.78 56.06 57.34 58.62 59.89 61.16 62.43 63.69 64.95 66.21 67.46 68.71 69.96 71.2 72.44 73.68 74.92 76.15
10.83 13.82 16.27 18.47 20.52 22.46 24.32 26.12 27.88 29.59 31.26 32.91 34.53 36.12 37.7 39.25 40.79 42.31 43.82 45.31 46.8 48.27 49.73 51.18 52.62 54.05 55.48 56.89 58.3 59.7 61.1 62.49 63.87 65.25 66.62 67.99 69.35 70.7 72.05 73.4 74.74 76.08 77.42 78.75 80.08 81.4 82.72 84.04 85.35 86.66
Tabel 11.3. (Beneden-) Kwantielen van de chikwadraat-verdelingen met 1 tot 50 vrijheidsgraden.
11.4: Binomiale Verdeling (n
11.4
= 10)
335
Binomiale Verdeling (n = 10) p
0
1
2
3
4
5
6
7
8
9
10
0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1 0.11 0.12 0.13 0.14 0.15 0.16 0.17 0.18 0.19 0.2 0.21 0.22 0.23 0.24 0.25 0.26 0.27 0.28 0.29 0.3 0.31 0.32 0.33 0.34 0.35 0.36 0.37 0.38 0.39 0.4 0.41 0.42 0.43 0.44 0.45 0.46 0.47 0.48 0.49 0.5
904 817 737 665 599 539 484 434 389 349 312 279 248 221 197 175 155 137 122 107 95 83 73 64 56 49 43 37 33 28 24 21 18 16 13 12 10 8 7 6 5 4 4 3 3 2 2 1 1 1
996 984 965 942 914 882 848 812 775 736 697 658 620 582 544 508 473 439 407 376 346 318 292 267 244 222 202 183 166 149 134 121 108 96 86 76 68 60 53 46 41 36 31 27 23 20 17 15 13 11
1000 999 997 994 988 981 972 960 946 930 912 891 869 845 820 794 766 737 708 678 647 617 586 556 526 496 466 438 410 383 357 331 307 284 262 241 221 202 184 167 152 137 124 111 100 89 79 70 62 55
1000 1000 1000 1000 999 998 996 994 991 987 982 976 969 960 950 939 926 912 896 879 861 841 821 799 776 752 727 702 676 650 623 596 568 541 514 487 460 434 408 382 358 333 310 288 266 245 226 207 189 172
1000 1000 1000 1000 1000 1000 1000 999 999 998 997 996 995 993 990 987 983 979 973 967 960 952 943 933 922 910 896 882 866 850 832 813 794 773 751 729 706 682 658 633 608 582 556 530 504 478 453 427 402 377
1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 999 999 999 998 997 996 995 994 992 990 987 984 980 976 971 966 960 953 945 936 927 916 905 893 879 865 850 834 817 798 779 759 738 717 694 671 647 623
1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 999 999 999 998 998 997 996 996 994 993 991 989 987 984 981 978 974 969 964 959 952 945 937 929 919 909 898 886 873 859 844 828
1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 999 999 999 999 998 998 997 997 996 995 994 993 991 990 988 985 983 980 976 973 968 963 958 952 945
1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 999 999 999 999 999 998 998 997 997 996 995 995 994 992 991 989
1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 999 999 999 999
1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000
Tabel 11.4. Cumulatieve kansen (×1000) voor de binomiale verdeling met parameters 10 en p van 0.01 tot 0.5.
336
11: Appendix C: Tabellen p
0
1
2
3
4
5
6
7
8
9
10
0.5 0.51 0.52 0.53 0.54 0.55 0.56 0.57 0.58 0.59 0.6 0.61 0.62 0.63 0.64 0.65 0.66 0.67 0.68 0.69 0.7 0.71 0.72 0.73 0.74 0.75 0.76 0.77 0.78 0.79 0.8 0.81 0.82 0.83 0.84 0.85 0.86 0.87 0.88 0.89 0.9 0.91 0.92 0.93 0.94 0.95 0.96 0.97 0.98 0.99
1 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
11 9 8 6 5 5 4 3 3 2 2 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
55 48 42 37 32 27 24 20 17 15 12 10 9 7 6 5 4 3 3 2 2 1 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
172 156 141 127 114 102 91 81 71 63 55 48 41 36 31 26 22 19 16 13 11 9 7 6 4 4 3 2 2 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
377 353 329 306 283 262 241 221 202 183 166 150 135 121 107 95 84 73 64 55 47 40 34 29 24 20 16 13 10 8 6 5 4 3 2 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0
623 598 573 547 522 496 470 444 418 392 367 342 318 294 271 249 227 206 187 168 150 134 118 104 90 78 67 57 48 40 33 27 21 17 13 10 7 5 4 3 2 1 1 0 0 0 0 0 0 0
828 811 793 774 755 734 712 690 667 642 618 592 566 540 513 486 459 432 404 377 350 324 298 273 248 224 201 179 159 139 121 104 88 74 61 50 40 31 24 18 13 9 6 4 2 1 0 0 0 0
945 938 930 921 911 900 889 876 863 848 833 816 798 779 759 738 716 693 669 643 617 590 562 534 504 474 444 414 383 353 322 292 263 234 206 180 155 131 109 88 70 54 40 28 19 12 6 3 1 0
989 987 985 983 980 977 973 969 964 959 954 947 940 932 924 914 904 892 879 866 851 834 817 798 778 756 733 708 682 654 624 593 561 527 492 456 418 380 342 303 264 225 188 152 118 86 58 35 16 4
999 999 999 998 998 997 997 996 996 995 994 993 992 990 988 987 984 982 979 976 972 967 963 957 951 944 936 927 917 905 893 878 863 845 825 803 779 752 721 688 651 611 566 516 461 401 335 263 183 96
1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000
Tabel 11.4. (Vervolg). Cumulatieve kansen (×1000) voor de binomiale verdeling met parameters 10 en p van 0.5 tot 0.99.
12 Index
F -toets F -verdeling k-means clustering QQ-plot t-Toets t-Toets voor gepaarde waarnemingen t-verdeling σ-additiviteit α-kwantiel α-punt a posteriori dichtheid a posteriori kansverdeling a priori kansverdeling aannemelijkheidsfunctie aanpassing aanpassingstoetsen additieve model afhankelijke variabele alternatieve hypothese Alternatieve verdeling ANOVA Asymptotische t-toets Auto-correlaties Autoregressie Bayes-criterium Bayes-risico Bayesiaans overdekkinggebied Behrens-Fisher
165 165, 314 76, 98 29 136, 137 139 132, 314 306 28 28 83 81 81 55 109, 143 110 277, 284 256 108 59 211, 213, 310 274 142 147 66 218 81 200 142
Benjamini en Hochberg 161 Bernoulli-verdeling 310 Bernstein-von Mises 200 Bernstein-von Mises stelling 200 beschrijvende statistiek 3 betrouwbaarheidsgebied 3,176 betrouwbaarheidsintervallen 177 Beurskoersen 36 bias 49 bijna-pivot 183 Binomiale toets 114, 119, 124, 128 Binomiale verdeling 54, 60, 85, 181, 195, 202, 218, 221, 226, 231, 234-5, 238, 310 Bonferroni-correctie 159 boxplot 25 B`eta-dichtheden 85 B`eta-functie 313 B`eta-verdeling 313 categorische verklarende variabele 267 Cauchy-verdeling 187, 313 causale verklaring 299 Centrale Limietstelling 318 Chikwadraat-toets 146 chikwadraat-verdeling 132, 313 classificatie 256 classificatieprobleem 285 Cochrans stelling 329 collineair 269 confounding factors 300 conservatief 159 continue verdeling 306 continu¨ 1ıteitscorrectie 319 counterfactual variables 302 covariantie 309 covariantiematrix 322 covariaten 285 Cox-model 291 Cox-schatter 293 Cram´er-Rao-ondergrens 225 Cram´er-Rao-ongelijkheid 224 design matrix 266 detailed balance 90 determinatieco¨effici¨ent 262 determinatieco¨effici¨ent 269 deviance 289
discrete kansverdeling 306 disjunct 306 dubbel-exponenti¨ele verdeling 99 dummy-variabelen 267 eendimensionale restrictie 151 eenzijdige hypothese 116 EM 73 empirische verdelingsfunctie 144 enkelvoudige lineaire regressiemodel 260 Enkelvoudige nulhypothese 151 estimate 45 estimator 45 Expectation-Maximization Algoritme 73 exponenti¨ele familie 221, 236 Exponenti¨ele verdeling 28, 60, 79, 82, 84, 188, 195, 197, 312 extreme-waardenverdeling 15 factor 274 factoren 274 Factorisatiestelling 212 false discovery rate 161 Fisher-informatie 184, 224 Fisher-informatiematrix 225 Fisher-scoring 72-3 Fourierreeks 283 fout van de eerste soort 108 fout van de tweede soort 108 Fr´echet-familie 15 Gamma-functie 313 Gamma-verdeling 63, 79, 312 Gauss-toets 111, 117-8, 123, 129, 229, 234-5, 237 gecensureerde data 16, 292 Gekromd normale verdeling 223 generalized method of moments 81 Geometrische verdeling 87, 311 Gepaarde en ongepaarde waarnemingen 9 gerandomiseerd experiment 300 gerandomiseerde statistiek 215 geschatte regressielijn 263 gestratificeerde steekproef 53 Gibbs-sampler 91-2 hat-matrix 269 hazard-functie 290 heteroskedastisch 297 histogram 23 Homogene verdeling 46, 50, 56, 79, 180, 214, 220, 227, 232, 234-5
hoofdeffecten Hypergeometrische verdeling inadmissible indicatorfunctie interactie-effecten intercept interkwartiel afstand intervalschatting kansdichtheid kansverdeling Kleinste kwadratenschatter Kolmogorov-Smirnov kritieke waarden kwantielfunctie Lagrange multiplier toets Laplace-verdeling learning Levensduuranalyse Lichaamslengte likelihood-functie likelihood-ratiostatistiek likelihood-vergelijkingen lineaire regressiemodel linkseenzijdig locatie locatie-schaal familie log likelihood-functie logistische regressiemodel Lotingstoets M-schatter marginale kansdichtheid Markov Chain Monte Carlo mathematische statistiek maximum likelihood-schatter maximum likelihood-schatting MCMC mean absolute deviation mean square error Mediaan meer onderscheidend meerdimensionale normale verdeling meest aannemelijke schatter Meetfouten Mengsel verdelingen methode van de meest aannemelijke schatters
275 311 49 23 275 259 25 176 55, 306 305 94, 261 144 116 28 158 99 287 16, 256 273 55 148 58 258 116 308 26 58 286 231 94 315 88 3 56 56 88 101 48 94 114 189 56 7 76 54
methode van de momenten 78 Metropolis-Hastings 91 minimaal voldoende 214 minimale steekproefomvang 122 minimax criterium 218 missing data 73 monotone likelihood-ratio 237-8 MSE 48 Multinomiale verdeling 108, 154, 190, 310 multivariate kansdichtheidsfunctie 314 multivariaat-normale verdeling 324 Negatief binomiale verdeling 311 Neyman-Pearson 228, 231 Neyman-Pearson-toetsen 229 niet-lineair regressiemodel 95 niet-lineaire regressie 283 niet-parametrische regressie 283 niet-toelaatbaar 49 niveau 113 nominale onbetrouwbaarheid 142 nominale variabele 267 normaalvergelijking 269 Normale benadering van de binomiale verdeling 319 Normale benadering van de Poisson-verdeling 319 Normale verdeling met restrictie 63 Normale verdeling 24, 28, 30, 61, 79, 149, 152, 178-9, 192, 194, 214, 222, 226 nulhypothese 108 observationele data 300 onafhankelijk 315 onafhankelijke variabele 256 Onbekende dichtheid 68 onbetrouwbaarheid 113 onbetrouwbaarheidsdrempel 113 onderscheidend vermogen 112 ongepaarde waarnemingen 139 Ontbrekende data 93 onzuiverheid 49 ordestatistieken 29 overgangsdichtheid 89 overgangskern 89 overschrijdingskans 126, 131 p-waarde 126 pivot 179 plug-in schatter 185
Poisson-verdeling populatiecorrelatieco¨effici¨ent praktisch significant probit-regressie profile likelihood-functie projectie puntschattingen random walk kern randomized trial rangnummers Rao-Blackwell rechtseenzijdig Regel van Bayes regressie naar het gemiddelde Regressie regressievergelijking residuele kwadraatsom residuen reversibel risicofunctie robuuste regressie scatterplot schatten schatter schatting schattingsvergelijkingen score-functie score-toets Selectievertekening Simpsons paradox simultane kansdichtheid simultane verdeling spreiding standaard normaal standaard normale verdeling standaardfout standard error stationaire dichtheid stationaire verdeling statistiek statistisch model statistisch significant steekproef auto-correlatieco¨effici¨ent steekproef steekproefcorrelatieco¨effici¨ent
10, 99, 186, 222, 311 34 125 286 199 268, 328 176 92 300 143 217 116 316 263 11, 256 283 262, 269, 280 269 90 290 262 32 3 45 45 94 58, 184 155, 169 17 301 314 314 308 324 312 50, 184 50 90 89 45 5 125 36 5 33
Steekproefgemiddelde en -variantie steekproefgemiddelde steekproefmediaan steekproefmoment Steekproeftheorie steekproefvariantie Stelling van Basu Sterke wet van de grote aantallen stochast stochastische grootheid stochastische variabele strata Student-toets Student-verdeling Tekentoets toetsen Toetsen voor σ 2 toetsingsgrootheid totale kwadraatsom training training sample Trekken zonder teruglegging trendtoets Twee steekproeven t-toets Twee steekproeven Tweelingdata tweesteekproevenprobleem tweezijdige hypothese uitkomstenruimte UMVZ unbiased uniform meer onderscheidend uniform meest onderscheidend uniform meest onderscheidende toets uniform minimum variantie zuiver Uniforme verdeling variantie variantie-analysetabel verdelingsfunctie verdelingsvrije toetsen Vergelijken van Twee Binomiale Kansen verklaarde variantie verklarende variabele Verschoven exponenti¨ele verdeling verwachte kwadratische fout
51 33 94 78 53 33 241 318 305 305 305 53 137 132, 314 137 3 138 111 262, 269, 279 287 287 6 251 140 109 34 138 116 305 219 49 114 233 114 219 312 309 281 306-7 143 152 263 256 60, 120, 125 48
Verwachting en variantie verwachtingsvector verwachtingswaarde volatiliteit voldoende volledig origineel volledig volledige-klassenstelling voortschrijdend gemiddelde voorwaardelijke dichtheid voorwaardelijke kans waargenomen informatie Wald-interval Wald-statistieken Wald-toets Waterhoogten Weibull Weibull-verdeling whiskers Wilcoxon zuiver zuivere minimum variantie schatters zuivere toetsen Zwakke wet van de grote aantallen
80 322 308 171 211, 213 306 220 81 251 317 316 73, 185 185 158 158 14 291 97 25 143 49, 239 219 119 318