1. De godsdienstoorlog der statistici. Statistiek is een rare wetenschap. Zij houdt zich bezig met de kunst precies geformuleerde conclusies te trekken uit onvoldoende gegevens. Dat is een hachelijke onderneming, maar omdat het overgrote deel van "wetenschap" hierop neerkomt erg nuttig. Statistiek wordt dan ook in vele vormen van hoger onderwijs onderwezen. Velen zullen kennis gemaakt hebben met begrippen als schatten en toetsen. Zeer weinigen zullen echter naar ik vrees, begrepen hebben hoe deze kennis toegepast moet worden. Dat is geen wonder: zelfs onder specialisten is men het maar al te vaak oneens over de oplossing van problemen. Maar niet alleen over practische problemen heerst onenigheid, zelfs over de grondslagen woedt al tientallen jaren een diepgaande controverse. Er zijn twee soorten statistiek, en het wordt steeds duidelijker dat deze twee fundamenteel verschillen. De ene vorm, die ik zal aanduiden met de klassieke, is ontwikkeld tussen 1930 en 1960, met als grote voorman Ronald Fisher. Deze theorie vult vrijwel alle leerboeken en ligt ten grondslag aan 80% van de wetenschappelijke publicaties over statistiek. De andere statistiek heet de Bayesiaanse Statistiek, naar naar Thomas Bayes, een dominee(!) die voor het eerst volgens deze lijn redeneerde. Zijn artikel hierover werd posthuum in 1763 gepubliceerd. Veertien jaar later deed de beroemde wiskundige Laplace dezelfde ontdekking opnieuw. De basis voor de huidige vorm van deze tak ligt ook in de dertiger jaren, maar pas na 1960 kreeg deze wat meer aandacht. Grote voormannen zijn Bruno de Finetti, Harold Je®reys, Jimmy Savage en Dennis Lindley. Aanhangers van deze richting (ik ook) hebben de neiging zich te gedragen als bekeerlingen die het licht hebben gezien, en zij willen anderen er ook van overtuigen dat dit nieuwe "geloof" veel mooier is. Zij zingen zelfs ketterse liederen, met als meest beroemde "There's no Theorem like Bayes' Theorem" (gezongen op de wijs van "there's no business like show business", tekst George Box, een van de meest productieve statistici van deze tijd). De reactie van aanhangers van het oude geloof is, dat moet gezegd, iets milder dan bij godsdienstoorlogen gebruikelijk, maar varieert toch van simpel negeren van de "raving Bayesians" tot uitspraken als die van de Amsterdamse hoogleraar econometrie Jan Kiviet: "Bayes is een ziekte". De verklaring voor dit zo vreemde gedrag van rationaliteit verkondigende wetenschappers is dat het hier gaat om een paradigmastrijd. Het con°ict waar het om gaat betreft echter niet de juistheid van een theorie maar de relevantie van de
antwoorden. Bayesianen beweren dat klassieke statistici antwoord op de verkeerde vragen geven. Het gaat hier om een con°ict met ¯loso¯sche dimensies, om twee fundamenteel verschillende wijzen van redeneren over onzekerheid. De klassieke kant gaat er van uit van het bestaan van een vaste, zij het onbekende, waarheid die zich manifesteert in waarnemingen met een toevalskarakter. De Bayesiaan hangt het kansbegrip op aan het feit dat de mogelijke waarheden onzeker zijn. En hij gebruikt de waarschijnlijkheidsrekening om over deze kansen te leren. Hierbij gebruikt hij uitsluitend de waarnemingen die zijn opgetreden, hij refereert nooit aan dingen die ook hadden kunnen gebeuren. Dit alles is nogal abstract; met enige voorbeelden zal ik proberen duidelijk te maken waar het om gaat. Een gezin heeft zeven zonen en wil zo graag een dochter. Stel nu dat onderzoek heeft uitgewezen dat een kleine groep alleen maar zonen kan krijgen, terwijl bij alle overige gezinnen de kansen gewoon ¯fty-¯fty zijn, dan vreest het gezin natuurlijk tot de eerste groep te behoren. De kans op zeven zonen bij een kans 1/2 per keer is immers slechts 1/27 = 1/128. Maar hoe groot is nu de kans dat het gezin tot de alleen-zonen groep behoort?. Dat is de relevante vraag. Om die te beantwoorden is er een extra gegeven nodig: hoe vaak het voorkomt dat een gezin alleen zonen kan krijgen. Staat er ¶e¶en zo'n gezin tegenover duizend "normale" gevallen dan valt het wel mee: 11,3% is dan het antwoord. (De berekening - met de "regel van Bayes" - is simpel: de kansen voor en tegen verhielden zich als 1:1000 en dat wordt 128:1000, corresponderend met een kans 128/1128). Er is hier dus een enorm verschil tussen "de kans om zeven zonen te krijgen al alles normaal is" (minder dan 1%) en "de kans dat alles normaal is als je zeven zonen kreeg" (bijna 90%). Het pijnlijke feit doet zich voor dat de twee kansbegrippen veelvuldig door elkaar gehaald worden. Nog pijnlijker is dat de "klassieke" statistiek in veel gevallen de verwarring vergroot door de meest relevante vraag eenvoudigweg te negeren. Niet direct overigens in het bovenstaande geval wanneer bekend is hoe vaak de afwijking voorkomt. Het komt er op neer dat in de situatie waarin men van te voren geen duidelijke ideeen heeft (zoals de 1:1000 in het voorbeeld), de vraag "hoe staat het met de kans op toestanden van de waarheid?" (al of niet dochters kunnen krijgen) niet wenst te beantwoorden. Enigszins persi°erend zou je kunnen stellen dat de vraag "hoe groot is nu de kans dat, als we nog een kind nemen, het een dochter is?" klassiek beantwoord wordt met: "als U, voor U kinderen nam, besloten zou hebben na zeven zonen te stoppen, had U minder dan 2
1% kans gehad dat ten onrechte (met gewoon kans een half) te doen Dat klinkt absurd, maar als wij hetzelfde voorbeeld in een andere context plaatsen verandert dat. De context is een beroemd voorbeeld van Ronald Fisher. Hij voerde zijn tante ten tonele die beweerde te kunnen proeven of eerst suiker en dan melk aan haar thee waren toegevoegd dan wel andersom. Om deze hypothese te toetsen worden tante 20 koppen thee voorgezet, 10 van beide soorten, in een door loting vastgestelde volgorde. Van te voren wordt vastgesteld dat de hypothese "tante kan het verschil niet proeven (p=1/2)" verworpen zal worden wanneer zij minstens 17 maal goed raadt, omdat de kans dat dit gebeurt terwijl p=1/2 slechts 1,3% is. Stel dat zij het 17 keer goed heeft, dan lijkt het legitiem om te vragen "hoe groot is nu de kans dat tante gegokt heeft?" en velen zullen denken dat dit zoiets als 1,3% is. Dit is echter onjuist.Wil deze vraag beantwoordbaar zijn, dan vergt dat een oordeel voor over de capaciteiten van tante. Alleen dan is een analyse volgens Bayesiaanse lijnen mogelijk, analoog aan het voorbeeld van de zeven zonen. Het probleem is echter waar die voorverdeling vandaan moet komen. Klassieke statistici weigeren deze te speci¯ceren en stellen dat de vraag onbeantwoordbaar is. Bayesianen stellen dat ideeen vooraf er altijd zijn, en ook moeten zijn, zij dat een zekere mate van subjectiviteit daarbij niet te vermijden valt. Zij speci¯ceren hun scepcis over tante's kunsten door haar a priori (van te voren) kansen toe te kennen. Bijvoorbeeld 1% kans dat zij in 75% van de gevallen goed raadt (p=0.75), en 99% kans dat zij gokt (p=1/2). Simpele Bayesiaanse rekenregels leren dan dat 17 goede antwoorden uit 20 de kans dat tante gokte verlaagt naar 45%. En als ze er 18 goed heeft naar 21%. Antwoorden die menigeen verbazen en die wederom goed aangeven hoezeer men zich kan vergissen in de betekens van statistische antwoorden. Men kan de prior als een nadeel voelen, maar enig nadenken leert dat prior gedachten altijd een rol spelen. Stel dat een arts een nieuwe operatietechniek voorstelt, waarvan hij beweert dat deze operatie het genezingspercentage van 50% naar 75% zal doen stijgen. Hij heeft goede redenen om dit te denken, de nieuwe techniek is gebaseerd op nieuwe inzichten. A priori geven wij hem dus 50% kans dat hij gelijk heeft. Van de 20 geopereerden genezen er 17, de kans dat de arts ongelijk heeft is dan minder dan 1%. De uitkomsten zijn dezelfde als bij Fisher' tante, de conclusies zijn geheel verschillend. Deze voorbeelden zijn vrij extreme gevallen van een discussie die zich blijkt uit te strekken tot het hele werkterrein van de statistiek. De verwijten over en weer van de twee scholen spitsen zich toe op twee punten. 3
De klassieken verwijten de Bayesianen subjectiviteit, wegens hun voorverdeling en claimen de objectiviteit. De Bayesianen verwijten de classici dat hun "objectieve" antwoorden geen antwoord geven op de vragen die relevant zijn voor het beslissen onder onzekerheid en onlogisch zijn omdat zij refereren aan gegevens die er niet zijn maar hadden kunnen zijn (tante had er 17 goed, de toets ging over "17 of meer" goed). Deze laatste controverse spitst zich verder toe wanneer men zich afvraagt of het geoorloofd is om als tante er 16 goed heeft, en de onzekerheid dus groot blijft, dan nog maar enige koppen thee toe te voegen. Voor het Bayesiaanse antwoord maakt het niet uit of de score 17 uit 20 verkregen is door een "stopregel" of niet, voor de classici is de verzameling mogelijke uitkomsten van het experiment en daardoor de conclusie verschillend (zelfs in het voorbeeld der zeven zonen zou het er toe doen met wat voor stopregel deze waren verwekt). Nog een actueeel voorbeeld. Na de overstromingen van de Maas in 1993 waren er al stemmen die waarschuwden dat de kans dat zoiets zou gebeuren groter was dan tot dusver aangenomen. Stel de algemene opinie was "eens in de honderd jaar" en de pessimist zei "eens in de tien jaar". Wat leert nu het feit dat de Maas een jaar later weer overstroomde? (Antwoord, als in een ouderwetse puzzlerubriek aan het eind op zijn kop). Deze voorbeelden zijn typerend voor de gevallen waar de conclusies van beide scholen verschillend zijn. Er zijn ook vraagstukken waar soortgelijke antwoorden worden verkregen. Het meest bekend is het "betrouwbaarheidsinterval". Een steekproef wordt getrokken, bijvoorbeeld van studenten, hun IQ wordt gemeten, en de vraag is wat men over het gemiddelde IQ in de populatie (m) kan zeggen. Iedere statistiekopleiding leert de student binnen enige weken dat (voor een normale verdeling) geldt: "de kans dat het ware gemiddelde ligt tussen het steekproefgemiddelde plus of min twee maal de standaardfout is 95%". Het woord kans slaat hier op het feit dat de steekproefuitkomsten die de grenzen van het interval bepalen, varieren. De uitspraak P[117< m <123]=0,95 moet je dus niet lezen als "de kans dat het gemiddelde ligt tussen de 117 en de 123 is 95%" maar als "het experiment is zo uitgevoerd dat bij ieder gemiddelde m de grenzen deze m met 95% zekerheid omvatten. Dat is heel ingewikkeld, en hoe dieper je nadenkt over de betekenis ervan, hoe onduidelijker het wordt. De Bayesiaan redeneert andersom: voor hem is m onzeker, hij kent er een "voorverdeling" aan toe en krijgt uit het model een "naverdeling" van m gegeven de data. Daaruit kan hij a°eiden wat de kans is dat m tussen twee (zelf te kiezen) grenzen ligt. Het resultaat blijkt af te hangen van de voorverdeling en van de data. Nu blijkt 4
dat als je van te voren niet zoveel weet, en je redelijk wat data hebt, de uitkomst P[117< m <123]=0,95 ook langs deze weg bij benadering ontstaat. Er bestaat zelfs een soort voorverdeling die zorgt dat de uitkomsten precies sporen. Dat is echter een wat wonderlijke voorverdeling die op een bepaalde manier alle uitkomsten precies even waarschijnlijk acht. En de resulterende kansuitspraken zien er wel hetzelfde uit, maar komen op geheel andere wijze tot stand en moeten ook anders worden geinterpreteerd: voor de Bayesiaan gaat het om een onzekere m die tussen vaste zelfgekozen grenzen ligt. Deze dualiteit (hetzelfde antwoord met verschillende uitgangspunten) heeft vele geleerden geinspireerd tot een verzoeningspoging, maar vergeefs. Sommige klassieke procedures hebben een Bayesiaanse interpretatie, vele ook niet. Na vele twisten zijn de verzoeningspogingen min of meer gestaakt. Er zijn nu twee werelden die over dezelfde problemen praten, maar met verschillende termen. De klassieken praten over zuivere en e±ciente schatters, betrouwbaarheidsintervallen en kansen op fouten van de eerste soort; de Bayesianen over voor- en naverdelingen en Bayes factoren. Ik heb wel eens een klassiek statistiektentamen "herschreven" in Bayesiaanse termen, geen opgave bleef gelijk. Dat is natuurlijk op zich geen reden om aan een van beiden de voorkeur te geven. Wel is dat het gemak waarmee aan de tentamenvragen iets extra's toegevoegd kan worden : vragen over praktische situaties waarin op basis van de statistische analyse een beslissingsprobleem moet worden opgelost. Op dat punt blijkt de grote kracht van de Bayesiaanse invalshoek: statistiek wordt een essentiele schakel in "beslissen onder onzekerheid". Dat geldt ook andersom; Savage heeft rond 1960 een intuitief overtuigend axiomastelsel opgesteld voor beslissen onder onzekerheid, waar uit volgt dat men op Bayesiaanse wijze met kansen om moet gaan. Het blijkt dat vrijwel alleonzekere beslissingen (ook heel complexe) aangepakt worden met de kansrekening, waarbij kansen moeten slaan op mogelijke toestanden van de werkelijkheid, het Bayesiaanse uitgangspunt. De kans- of waarschijnlijkheidsrekening krijgt met de Bayesiaanse invalshoek een enorme dimensie: het wordt de logica der onzekerheden. En deze logica blijkt een universele taal te zijn waarmee men de belangrijkste beslissingsproblemen van artsen, accountants, belastinginspecteurs, rechters, bankiers, statistici en bedrijfseconomen een rationele onderbouwing kan geven. Antwoord bij de overstromingskans van de Maas Antwoord: de geloofwaardigheid van de pessimist wordt 10 maal zo groot; gaf men hem vooraf 10% kans dat hij gelijk had, dus 1:9, dan worden de odds 10:9 omdat hij een 10 maal zo grote kans had toegekend aan wat gebeurde (1/10) dan 5
de algemene opinie (1/100). De kans dat hij gelijk heeft wordt dus 10/19.
6
RESTANTEN Kort gezegd komt het hier op neer: de klassieke aanpak probeert een eenduidig verband tussen model en waarnemingen te vinden Voor Je hebt een Een model is een idee hoe de werkelijkheid in elkaar kan zitten. Op de meeste terreinen zijn wij nogal onzeker over het juiste model. Daar komt nog bij dat meestal de relatie tussen het model en onze waarnemingen niet eenduidig is: het gaat om statistische modellen, die kansen toekennen aan waarnemingen. Doel van de statistiek is om op grond van de waarnemingen conclusies te trekken over het model (als representant van de werkelijkheid). Een statistisch model kent kansen toe aan waarnemingen. Een voorbeeld: als de kans dat iemand die een pakje per dag rookt "P" is dat hij binnen tien jaar longkanker krijgt, dan volgt daaruit een kansverdeling voor het aantal personen uit een groep van duizend rokers dat longkanker krijgt. "P" staat nu voor het onbekende deel van het model. Stel nu dat 68 van de 1000 rokers longkanker kregen wat weten we dan over P? van iemand die een pakje per dag rookt "P" is, dan kan je uitrekenen de wijze waarop wiskunde, en ook niet de heeft dan ook ¯loso¯sche dimensies. De essentie van zo'n stelsel is eigenlijk heel eenvoudig. De aanname is dat mensen in staat zijn te kiezen tussen iets met zekerheid, een afwasmachine bijvoorbeeld, en iets met een kans, zeg 20% kans op een miljoen. Door de laatste kans te laten dalen vindt men het punt waarop iemand indi®erent is: zeg 0,2% kans op een miljoen heeft evenveel "nut" als een afwasmachine. Een alternatief kan zijn een kans om een ton te winnen. Stel het nut van een ton is even groot als dat van een miljoen met 15% kans (merk op dat het dus niet gaat om de verwachte hoeveelheid geld). Logischerwijs is dan een kans van 10% om een ton te winnen equivalent met een kans van 1,5% om een miljoen te winnen (een kans op een kans is een kans). En omdat 2% kans op een miljoen beter is dan 1,5% kans, wordt een afwasmachine geprefereerd boven 10% kans op een ton. Om nu het nut van een aantal alternatieven in kaart te brengen zoekt men voor iedere mogelijkheid de kans op het mooiste alternatief (een miljoen met zekerheid) 7
waarbij de kiezer indi®erent is. "Nut" gaat dan corresponderen met kansen op het mooiste.
8