Technische Universiteit Delft Faculteit Elektrotechniek, Wiskunde en Informatica Delft Institute of Applied Mathematics
Causaliteit en de paradoxen van Simpson en Berkson (Engelse titel: Causality and the paradoxes of Simpson and Berkson)
Verslag ten behoeve van het Delft Institute of Applied Mathematics als onderdeel ter verkrijging van de graad van BACHELOR OF SCIENCE in TECHNISCHE WISKUNDE
door J.J. de Haas Delft, Nederland Mei 2014
c 2014 door J.J. de Haas. Alle rechten voorbehouden. Copyright
BSc verslag TECHNISCHE WISKUNDE
“Causaliteit en de paradoxen van Simpson en Berkson ”
J.J. DE HAAS
Technische Universiteit Delft
Begeleider Prof.dr.ir. G. Jongbloed
Overige commissieleden Prof.dr.ir. A. W. Heemink
Dr.ir. M. Keijzer
Mei, 2014
Delft
Samenvatting Er zijn paradoxen waarbij causaliteit een rol speelt. Twee interessante voorbeelden hiervan zijn Simpsons paradox en Berksons paradox. Causaliteit is een oorzakelijk verband tussen twee gebeurtenissen, waarbij de oorzaak invloed heeft op het gevolg. Vooral het oorzakelijke verband is hierbij belangrijk, want het kan zo zijn dat er twee gebeurtenissen zijn, die samenhang vertonen, maar waartussen geen oorzakelijk verband is, dan heb je een associatie. Een belangrijk statement is dat causaliteit niet gelijk is aan associatie. Associatie kan je uitdrukken met de statistische taal zoals we die kennen, maar om causale verbanden uit te drukken moeten we nieuwe notaties introduceren. Een manier om causaliteit uit te drukken is met behulp van het counterfactualmodel, hiermee kunnen we de standaard statistische taal uitbreiden, zodat we causale verbanden kunnen berekenen. Dit model kunnen we gebruiken om Simpsons paradox met behulp van causaliteit toe te lichten en dan zal je zien dat als we de paradox causaal zouden interpreteren dat er helemaal geen sprake is van een paradox. Een andere manier om causale verbanden weer te geven is met behulp van grafen. De eerste keer dat causale verbanden op een mathematische manier werden weergegeven was rond 1920 door Sewall Wright. De benadering met grafen kan gebruikt worden om Berksons paradox toe te lichten. Hiermee zal je zien dat je eenvoudig verkeerde conclusies kan trekken als je niet de causale relaties bekijkt.
5
6
Inhoudsopgave
1 Inleiding 1.1
11
Doel van het verslag . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2 Paradoxen 2.1
2.2
12 13
Simpsons Paradox . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
13
2.1.1
De behandeling van nierstenen . . . . . . . . . . . . . . . . . . . . . . . .
13
2.1.2
Simpsons paradox wiskundig uitgedrukt . . . . . . . . . . . . . . . . . . .
14
2.1.3
Simpsons paradox en Causaliteit . . . . . . . . . . . . . . . . . . . . . . .
15
Berksons Paradox . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
16
2.2.1
Berksons voorbeeld . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
16
2.2.2
Berkson’s Paradox en Causaliteit . . . . . . . . . . . . . . . . . . . . . . .
17
3 Het counterfactualmodel
19
3.1
Het counterfactual model . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
19
3.2
Associatie is geen causaliteit! . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
23
3.3
Het leveraandoeningsvoorbeeld . . . . . . . . . . . . . . . . . . . . . . . . . . . .
24
3.4
Do-notatie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
31
3.4.1
32
Het leveraandoeningsvoorbeeld . . . . . . . . . . . . . . . . . . . . . . . .
4 Acyclische Gerichte Grafen
33
4.1
DAG’s . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
33
4.2
Acyclische gerichte grafen en causaliteit . . . . . . . . . . . . . . . . . . . . . . .
38
4.3
Het leveraandoeningsvoorbeeld . . . . . . . . . . . . . . . . . . . . . . . . . . . .
40
7
8
INHOUDSOPGAVE
5 Paradoxen revisited
43
5.1
Simpsons Paradox . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
43
5.2
Berksons Paradox . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
46
6 Appendix
49
6.1
Appendix 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
49
6.2
Appendix 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
52
Voorwoord Voor u ligt het eindresultaat van mijn bachelorproject, dat ik heb gedaan ter afronding van mijn bacheloropleiding Technische Wiskunde aan de Technische Universiteit Delft. Ik heb mijn project bij de afdeling statistiek gedaan, omdat ik dat een interessante vakgroep vind. Het verslag gaat over causaliteit en dan in het bijzonder over wat causaliteit te maken heeft met Simpsons paradox en Berksons paradox. Ik wil graag iedereen bedanken die heeft bijgedragen aan het tot stand komen van dit verslag en dan in het bijzonder mijn begleider Geurt Jongbloed. Ik wens u veel plezier bij het lezen van dit verslag. Jolien de Haas
9
10
INHOUDSOPGAVE
Hoofdstuk 1
Inleiding Het begrip causaliteit komt veel voor in onderzoeken in de medische- en sociale wetenschappen, op plekken waar veel mensen geen of weinig wiskundige achtergrond hebben. Bij onderzoeken uit de medische wetenschap moet je bijvoorbeeld denken aan de vraag of een bepaald symptoom het gevolg is van een bepaalde ziekte, of wat het effect van roken is op longkanker. Dit zijn causale vraagstukken. Vroeger wist men al van het bestaan van causaliteit, maar men kon dit niet uitdrukken in de statistische taal zoals men die toen kende. Pas in de 20ste eeuw werden er manieren bedacht om causale verbanden uit te drukken. De statistische taal moet dus uitgebreid worden, dit is een van de obstakels waar veel onderzoekers moeite mee hebben. Een tweede obstakel is dat er altijd ongeteste aannames moeten worden gedaan om causale verbanden te bepalen. Causaliteit is een oorzakelijk verband tussen twee gebeurtenissen, waarbij de oorzaak invloed heeft op het gevolg. Vooral het oorzakelijke verband is hierbij belangrijk, want het kan zo zijn dat er twee gebeurtenissen zijn, die samenhang vertonen, maar waartussen geen oorzakelijk verband is. Stel bijvoorbeeld dat het een zonnige dag is. Op een zonnige dag wordt meer ijs verkocht en op een zonnige dag verdrinken er meer kinderen. Dus je zou kunnen stellen dat als er meer ijs wordt verkocht, verdrinken er meer kinderen. Dan is er een samenhang tussen het verdrinken en de ijsverkoop, maar geen causaal verband want de kans op het verdrinken van kinderen wordt helemaal niet groter als er meer ijs verkocht wordt. Het is logischer om aan te nemen dat er meer kinderen verdrinken doordat het een zonnige dag is. Er is wel een causaal verband tussen de mogelijkheid tot verdrinken en het mooie weer, omdat er dan meer kinderen gaan zwemmen. Je ziet dat het hebben van achtergrondinformatie van belang is hier. Dit is dan ook een kenmerk van causale vraagstukken, want deze kunnen niet opgelost worden op basis van de data alleen, er is altijd achtergrondinformatie vereist. Een belangrijk statement is dat associatie en causaliteit over het algemeen niet hetzelfde zijn. Bovenstaand voorbeeld laat dat zien. Om causale verbanden mathematisch te benaderen, hebben we nieuwe notaties nodig, want de statistische taal zoals we die nu kennen is niet voldoende. Het doel van de standaard statistische analayse is om parameters van een verdeling te schatten. Met deze parameters kan je associaties tussen variabelen afleiden, zoals P (ziekte|symptonen). Met deze kansfunctie bereken je niet of de symptonen de ziekte veroorzaken, maar alleen dat de symptonen een associatie hebben met de ziekte. Daarom moeten we nieuwe notaties introduceren, zodat we causale relaties uit kunnen drukken. 11
12
1.1
HOOFDSTUK 1. INLEIDING
Doel van het verslag
Causaliteit is een onderwerp waarmee je vele kanten op kan. Dit verslag spitst zich toe op het bestuderen van twee paradoxen waarbij causaliteit een rol speelt. Het belang van dit verslag is om meer duidelijkheid over causaliteit te verkrijgen en om de paradoxen beter te begrijpen. In hoofdstuk 2 worden deze paradoxen, Simpsons paradox en Berksons paradox, ge¨ıntroduceerd. Daarna wordt het counterfactualmodel besproken in hoofdstuk 3. Dit model is nodig om te begrijpen wat Simpsons paradox met causaliteit te maken heeft. Verder wordt er in hoofdstuk 4 over grafen gesproken, dit is een andere manier om causale verbanden uit te drukken en met behulp daarvan lichten we Berksons paradox toe. Als laatste worden in hoofdstuk 5 de paradoxen nog eens besproken, maar dan in verband met causaliteit.
Hoofdstuk 2
Paradoxen 2.1
Simpsons Paradox
In 1951 publiceerde E. H. Simpson een technisch rapport over een bepaalde paradox, in essentie dezelfde paradox was al eerder genoemd door de statistici Pearson in 1899 en Yule in 1903. De paradox werd eerst gezien als iets wat theoretisch gezien een mogelijkheid was, maar het is nu al vaker in werkelijkheid voorgekomen. Zo werd de Universiteit in California beschuldigd van seksediscriminatie, omdat ze procentueel gezien meer mannen dan vrouwen zouden toegelaten hebben. Toen men de toelatingen per faculteit ging bekijken, leek de discriminatie andersom te zijn. Dit is een typisch voorbeeld van Simpsons paradox, waarbij het effect omkeert als er naar de subpopulaties wordt gekeken. Ook treedt de paradox vaak op bij het behandelen van ziektes, daarom is het belangrijk dat deze paradox bekend is, zodat er geen foute conclusies worden getrokken. We bekijken in paragraaf 2.1.1 eerst zo’n bestaand voorbeeld uit de medische wereld, daarna bekijken we de wiskundige uitdrukking van de paradox in paragraaf 2.1.2 en als laatste bekijken we wat de paradox met causaliteit te maken heeft in paragraaf 2.1.3.
2.1.1
De behandeling van nierstenen
Om het gegeven begrip hierboven wat duidelijker te maken, bespreken we eerst een bestaand voorbeeld. Tussen 1972 en 1985 is er een onderzoek geweest voor het behandelen van nierstenen, waarbij het hebben van een open operatie (behandeling A) werd vergeleken met een operatie aan de nieren die percutane nefrolithotomie (behandeling B) heet. Nu bleek dat bij behandeling A 78% van de pati¨enten genazen en bij behandeling B 83%. Uit deze gegevens zou je kunnen concluderen dat behandeling B meer succes heeft dan behandeling A. Het effect bleek om te keren toen er naar verschillende groottes van de nierstenen werd gekeken. Nierstenen die kleiner waren dan 2 cm werden onderscheiden van de nierstenen die groter waren. Zie tabel 2.1.
13
14
HOOFDSTUK 2. PARADOXEN
Kleine nierstenen Grote nierstenen Totaal
Open operatie(behandeling A) Genezen Behandeld 81(93%) 87 192(73%) 263 273(78%) 350
Percutane Genezen 234(87%) 55(69%) 289(83%)
nefrolihotomie(behandeling B) Behandeld 270 80 350
Tabel 2.1: Simpsons paradox In tabel 2.1 zie je dat zowel bij kleine als bij grote nierstenen, behandeling A een hogere frequentie genezen pati¨enten geeft dan behandeling B. Dat de succesfactoren opeens zijn omgedraaid komt doordat kleine nierstenen meestal werden behandeld met behandeling B en een behandeling van kleine nierstenen heeft nu eenmaal meer succes dan een behandeling van grote nierstenen. Daardoor lijkt behandeling B in totaal succesvoller. Dit is een mooi voorbeeld van Simpsons paradox, een paradox waarbij een bepaald effect, dat optreedt bij verschillende groepen, omkeert als deze groepen samen worden genomen. Dit wordt eigenlijk altijd veroorzaakt door verstorende factoren, zoals in dit voorbeeld de grootte van de nierstenen. Maar ook factoren zoals leeftijd en geslacht kunnen verstorende factoren zijn. Een voorbeeld hiervan is als iedereen boven de 50 altijd een bepaalde behandeling krijgt, omdat de andere behandelingen te risicovol zijn. Deze keuze heeft zeker invloed op succesfactoren van de verschillende behandelingen. Zonder deze verstorende factoren zou er geen paradox zijn. In de volgende paragraaf wordt de paradox verder uitgewerkt met behulp van voorwaardelijke kansen.
2.1.2
Simpsons paradox wiskundig uitgedrukt
Zij {X, Y, Z} stochastische variabelen met waarden in {0, 1}. Mathematisch gezien kunnen we Simpsons paradox als volgt uitdrukken:
P (Y = 1|X = 1) > P (Y = 1|X = 0)
(2.1)
P (Y = 1|X = 1, Z = 0) < P (Y = 1|X = 0, Z = 0)
(2.2)
P (Y = 1|X = 1, Z = 1) < P (Y = 1|X = 0, Z = 1)
(2.3)
Waarbij het optreden van gebeurtenis X = 1 ervoor zorgt dat de kans op Y = 1 groter is dan de kans op Y = 1 gegeven de gebeurtenis X = 0. Het omgekeerde gebeurt als we de vergelijking verder uitsplitsen met behulp van de stochast Z. Als we nu bovenstaand voorbeeld weer bekijken en voor X = 0 behandeling A nemen, voor X = 1 behandeling B en voor Z = 0 en Z = 1 kleine- en grote nierstenen, en Y = 1 het herstel. Dan kunnen we bovenstaand model als volgt interpreteren: De genezing van een pati¨ent met behandeling A heeft een betere uitwerking, gegeven dat de pati¨ent kleine- en grote nierstenen heeft, maar de genezing van een pati¨ent met behandeling B heeft een betere uitwerking over het geheel. Dus dit is net zoals we in het voorbeeld hebben gezien.
2.1. SIMPSONS PARADOX
15
Als we nu naar de vergelijkingen (2.1) t/m (2.3) kijken, zien we niet iets wat wiskundig gezien raar of fout is. Hiervoor schrijven we vergelijking (2.1) uit.
P (Y = 1, X = 1, Z = 0) + P (Y = 1, X = 1, Z = 1) P (X = 1) P (Y = 1|X = 1, Z = 0)P (X = 1, Z = 0) + P (Y = 1|X = 1, Z = 1)P (X = 1, Z = 1) = P (X = 1) = P (Y = 1|X = 1, Z = 0)P (Z = 0|X = 1) + P (Y = 1|X = 1, Z = 1)P (Z = 1|X = 1)
P (Y = 1|X = 1) =
(2.4) En soortgelijk voor P (Y = 1|X = 0):
P (Y = 1|X = 0) = P (Y = 1|X = 0, Z = 0)P (Z = 0|X = 0) + P (Y = 1|X = 0, Z = 1)P (Z = 1|X = 0) (2.5) Je weet dat vergelijkingen (2.2) en (2.3) gelden, maar dit zegt nog niets over de ongelijkheid in vergelijking (2.1). Je ziet namelijk in vergelijkingen (2.4) en (2.5) dat de frequentie, de grootte van de nierstenen die een bepaalde behandeling hebben gekregen, een rol speelt. Dit zorgt voor het omkeren van het teken. Stel nu dat: P (Z = 0|X = 0) = P (Z = 0|X = 1) en P (Z = 1|X = 0) = P (Z = 1|X = 1), dan komt, onder de pati¨enten die kleine nierstenen hebben, behandeling A procentueel gezien even vaak voor als behandeling B en net zo bij de pati¨enten met grootte nierstenen. Als dit gebeurd, moeten de ongelijkheden dezelfde kant op staan, anders is er sprake van een paradox. In het wiskundige model is dus helemaal geen sprake van een paradox. En we hebben in het voorbeeld met de nierstenen gezien dat het ook daadwerkelijk echt gebeurt. De vraag die nu opkomt, is welke behandeling er nu gebruikt moet worden. Uit het model dat we hier nu hebben kunnen we daar geen antwoord op krijgen, want dit geeft slechts de samenhang tussen de variabelen weer en niet het daadwerkelijke effect.
2.1.3
Simpsons paradox en Causaliteit
Mathematisch gezien kloppen de vergelijkingen (2.1) t/m (2.3), je kan alleen niet vanuit deze vergelijkingen iets zeggen over een effect. Wat we hier hebben bekeken zijn namelijk niet de causale effecten. Als we de causale interpretatie van deze vegelijkingen zouden bekijken betreft het dan ook een paradox, want dan gebeurt er iets wat zichzelf tegenspreekt. We zullen dan ook zien dat bij vergelijking (2.1) het teken zou omklappen. Om te begrijpen hoe we Simpsons paradox kunnen ontkrachten, moeten we weten waarom de causale interpretatie van vergelijking (2.1) niet klopt. Hiervoor moeten we meer over causaliteit te weten komen.
16
2.2
HOOFDSTUK 2. PARADOXEN
Berksons Paradox
Stel we gooien met twee zuivere munten 1 en 2 , dan zegt de uitkomst van munt 1 niets over munt 2, dus munt 1 en munt 2 zijn onafhankelijk. Stel nu dat bekend is dat minstens ´e´en van de twee muntjes als uitkomst kop heeft, dan geldt als munt 1 als uitkomst munt heeft, dat munt 2 kop moet zijn. We zien dat munt 1 en munt 2 niet meer onafhankelijk zijn, maar conditioneel afhankelijk. Dit is een eenvoudig voorbeeld van Berksons paradox, waarbij twee onafhankelijke gebeurtenissen, conditioneel afhankelijk zijn door een gevolg dat de beide gebeurtenissen gemeen hebben. Als gevolg van de paradox kunnen er verkeerde conclusies worden getrokken. Dit is al vaker in de praktijk voorgekomen, en dan vooral in ziekenhuizen. Dit komt vaak doordat de bevolking in een ziekenhuis niet te vergelijken is met de ’gehele’ bevolking van bijvoorbeeld een land. Hier werd voor het eerst op gewezen door Berkson in 1946 door foute conclusies over het ontstaan van diabetes door cholecystitis, een ontsteking van de galblaas. Het was zelfs zo dat men galblazen ging verwijderen om diabetes te behandelen. Men dacht een verband te hebben gevonden tussen cholecystitis en diabetes, doordat ze in het ziekenhuis het percentage mensen die aan cholecystitis leden en diabetes hadden, vergeleken met mensen die geen diabetes hadden als controle-groep. We gaan dit voorbeeld van Berkson uitgebreider behandelen in paragraaf 2.2.1, daarna bekijken we wat Berksons paradox met causaliteit te maken heeft in paragraaf 2.2.2.
2.2.1
Berksons voorbeeld
We beschouwen het bovenstaande voorbeeld over cholecystitis en diabetes. De verhoudingen van het hebben van diabetes en cholecystitis in het ziekenhuis waren zoals in tabel 2.2.
Diabetes(B) Geen Diabetes(B c ) Totaal
Cholecystitis(A) 28 1326 1354
Geen Cholecystitis( Ac ) 548 39036 39584
Totaal 576 40362 40938
Tabel 2.2: Berksons paradox We stellen dat in de ’gehele’ populatie de kans op diabetes 1% is en de kans op cholecystitis 3%. Oftewel P (A) = 0.03, P (Ac ) = 0.97, P (B) = 0.01 en P (B c ) = 0.99. Neem verder aan dat Z een gebeurtenis, die betekent dat men in het ziekenhuis is. We gaan laten zien dat we inderdaad met een geval van Berksons paradox te maken hebben. Hiervoor nemen we aan dat in de ‘gehele’ populatie, dus niet alleen in het ziekenhuis, geldt dat het hebben van diabetes en cholecystitis onafhankelijk is. Er geldt:
P (A ∩ B) = P (A)P (B) = 0.03 · 0.01 = 0.0003 28 1354 576 P (A ∩ B|Z) = 6= P (A|Z)P (B|Z) = · = 0.0005 40938 40938 40938
(2.6) (2.7)
2.2. BERKSONS PARADOX
17
Als we aannemen dat de frequenties uit de tabel de daadwerkelijke kansen voorstellen, zien we dat in vergelijking (2.6) diabetes en cholecystitis onafhankelijk zijn, maar in vergelijking (2.7) zien we dat de beide ziektes afhankelijk zijn, gegeven dat we in het ziekenhuis zijn. Zodoende zien we dat we hier met een geval van Berksons paradox te maken hebben. We kunnen niet zomaar stellen dat het hebben van cholecystitis en diabetes in de ‘gehele’ bevolking onafhankelijk is, daarvoor moeten we eerst weten of er wel een causaal verband is tussen deze twee ziektes.
2.2.2
Berkson’s Paradox en Causaliteit
Berkson liet zien dat cholecystitis en diabetes niet met elkaar in verband hoeven te staan. Hij vergeleek pati¨enten met cholecystitis met mensen die naar het ziekenhuis kwamen voor een bril. Van deze oorzaken dacht hij zeker te weten dat er geen verband was. Het hebben van een bril en het krijgen van cholecystitis was volgens Berkson slechts een associatie. Om te laten zien dat cholecystitis en diabetes geen causaal verband hebben is een stuk lastiger, hiervoor hebben we te maken met missende data. Om hier wat over te kunnen zeggen, moeten we eerst meer te weten komen over conditionele afhankelijkheden en causale verbanden. Dit wordt behandeld in hoofdstuk 4 over grafen.
18
HOOFDSTUK 2. PARADOXEN
Hoofdstuk 3
Het counterfactualmodel Causaliteit kan op verschillende manieren bekeken en berekend worden. In dit hoofdstuk kijken we naar het counterfactualmodel, hiermee kunnen we de standaard statistische taal uitbreiden, zodat we causale verbanden kunnen berekenen. Dit model gaan we in hoofdstuk 6 ook gebruiken om Simpsons paradox met behulp van causaliteit toe te lichten. We zien hoe we causale effecten kunnen kwantificeren met behulp van het counterfactualmodel in paragraaf 3.1, het verschil tussen associatie en causaliteit wordt toegelicht in paragraaf 3.2, daarna bekijken we een voorbeeld om het counterfactualmodel beter te begrijpen in paragraaf 3.3. Als laatste bekijken we de do-notatie in paragraaf 3.4, dit is een andere benadering om causale verbanden te kwantificeren.
3.1
Het counterfactual model
We nemen aan dat we twee binaire stochastische variabelen X en Y hebben. We stellen dat X = 0 staat voor niet behandeld, X = 1 voor behandeld, Y = 0 voor het niet hebben van een ziekte en Y = 1 voor het hebben van een ziekte. Behandeling heeft hier een bredere betekenis, niet alleen het krijgen van medicijnen of een operatie, maar bijvoorbeeld ook dat een persoon rookt of vlees eet. We willen weten of de behandeling invloed heeft op de ziekte. De associatie tussen X en Y kunnen we al kwantificeren met behulp van bijvoorbeeld correlaties, maar om de invloed van de behandeling op de ziekte te bepalen, moeten we het causale effect berekenen. Hiervoor moeten we nieuwe variabelen introduceren. Een persoon wordt behandeld of wordt niet behandeld. Dus je hebt bij binaire stochastische variabelen altijd twee mogelijkheden, en afhankelijk van de keuze van X zie je wat het met de ziekte Y doet. Stel een persoon wordt behandeld, dan kan je de associatie met Y berekenen, maar je kan dan niet meer weten wat er was gebeurd als de persoon niet was behandeld. We introduceren twee nieuwe variabelen (C0 , C1 ), de potenti¨ele uitkomsten. Er geldt C0 is gelijk aan Y als X = 0, en C1 is gelijk aan Y als X = 1. Dus als een persoon wordt behandeld observeren we C1 en is C0 de counterfactual, want dat zou de uitkomst zijn geweest als de persoon niet was behandeld. Je observeert dus altijd maar ´e´en uitkomst. We hebben het volgende verband:
Y =
C0 als X = 0; C1 als X = 1. 19
(3.1)
20
HOOFDSTUK 3. HET COUNTERFACTUALMODEL
Oftewel in het algemeen geldt:
Y = CX
(3.2)
Dit wordt in het counterfactual model de consistentie relatie genoemd. Met behulp van de potienti¨ele uitkomsten kunnen we het causale effect θ defini¨eren. Hiermee kunnen we bepalen of X invloed heeft op Y , door te bekijken of het causale effect niet gelijk is aan 0. Als het causale effect ongelijk is aan 0 kunnen we zien wat het effect van X op Y is. Definitie 1. Het causale effect wordt als volgt gedefinie¨erd: θ = E(C1 ) − E(C0 ) θ is dus ‘de verwachting van de ziekte’ als iedereen behandeld zou worden min ‘de verwachting van de ziekte’ als iedereen niet zou worden behandeld. We kunnen ook de associatie α berekenen, de associatie is de verwachting van de ziekte van degene die behandeld worden min de verwachting van de ziekte van degene die niet behandeld worden. Definitie 2. De associatie wordt als volgt gedefinie¨erd: α = E(Y |X = 1) − E(Y |X = 0) Je ziet dat hier de potenti¨ele uitkomsten geen rol spelen. De associatie kunnen we dus al bepalen als we niets over de potenti¨ele uitkomsten aannemen, bijvoorbeeld bij een observationeel onderzoek. We behandelen een klein niet-realistisch voorbeeld om het te verduidelijken. We nemen nu voor X = 0 niet roken, X = 1 wel roken, Y = 0 geen leveraandoening en Y = 1 wel leveraandoening. Stel dat we een populatie hebben zoals in tabel 3.1, 8 personen waarvan je kan zien wat de stochast Y is als ze zouden roken en als ze niet zouden roken. De waarden met het sterretje zijn degenen die we niet zouden observeren. C0 0 0 0 0 1* 1* 1* 1*
C1 0* 0* 0* 0* 1 1 1 1
Tabel 3.1: De potenti¨ele uitkomsten We hebben hier vier rokers en vier niet rokers. Verder hebben we met een opmerkelijke populatie te maken, de personen uit deze populatie zijn namelijk of gedoemd of overlevers, bijvoorbeeld bij de eerste vier personen in de tabel maakt het niet uit of ze zouden roken of niet, ze krijgen geen leveraandoening. Bij de laatste vier personen in de tabel geldt juist dat ze sowieso een
3.1. HET COUNTERFACTUAL MODEL
21
leveraandoening krijgen. In dit voorbeeld heeft roken dus geen effect op het krijgen van een leveraandoening, want er geldt steeds C0 = C1 . Stel dat nu de X’s en Y ’s die in tabel 3.2 staan bij de potentiele uitkomsten horen. Merk op dat de consistentierelatie Y = CX geldt. Y 0 0 0 0 1 1 1 1
X 0 0 0 0 1 1 1 1
C0 0 0 0 0 1* 1* 1* 1*
C1 0* 0* 0* 0* 1 1 1 1
Tabel 3.2: Alle gegevens In een observationeel onderzoek zou je verkeerde conclusies kunnen trekken, omdat je dan alleen de X’s en de Y ’s observeert en dan lijkt het alsof roken wel effect heeft op het krijgen van een leveraandoening. Want als je rookt (X = 1) krijg je een leveraandoening (Y = 1) en als je niet rookt (X = 0) krijg je geen leveraandoening (Y = 0). Je bekijkt dan de associatie tussen X en Y . Wat je dan niet weet is dat als bijvoorbeeld de eerste vier uit tabel 3.2 wel zouden roken, ze ook geen leveraandoening zouden krijgen. Dus in dit eenvoudige voorbeeld zie je dat er geen causaal verband is tussen roken en het krijgen van een leveraandoening. We berekenen voor de duidelijkheid het causale effect van dit voorbeeld met behulp van definitie 1:
θ = E(C1 ) − E(C0 ) 8 8 1X 1X = C1i − C0i 8 8 i=1
i=1
0+0+0+0+1+1+1+1 0+0+0+0+1+1+1+1 − = 8 8 = 0 Er is dus geen causaal effect tussen X en Y , dit hebben we net ook in de tabel gezien. We berekenen de associatie van dit voorbeeld met behulp van definitie 2:
α = E(Y |X = 1) − E(Y |X = 0) 1+1+1+1 0+0+0+0 = − 4 4 = 1 Je ziet dat er een associatie is tussen roken en het krijgen van een leveraandoening. Dit hadden we al uit de tabel geconcludeerd. In dit voorbeeld is er dus geen causaal verband tussen roken en het krijgen van een leveraandoening, maar wel een associatie.
22
HOOFDSTUK 3. HET COUNTERFACTUALMODEL
We hebben in het voorbeeld gezien dat er wel een associatie was tussen X en Y , maar geen causaal verband. Een manier waarmee we die associatie kunnen verklaren is door de stochast Z, die we de covariaat noemen. Z kan bijvoorbeeld staan voor het geslacht of voor leeftijd. Stel je bent een ziekte Y aan het bestuderen, die vooral onder mannen voorkomt, en je wilt weten wat het verband is van de ziekte met het eten van veel vlees, waarschijnlijk vind je dan een associatie tussen veel vlees eten en de ziekte, als je aanneemt dat vooral mannen veel vlees eten. Om nu het causale effect te kwantificeren, defini¨eren we het conditionele causale effect. Hiermee kan je bijvoorbeeld het causale effect van een bepaalde aandoening onder mannen apart berekenen van het causale effect van die aandoening onder vrouwen. Definitie 3. We defini¨eren het conditionele causale effect: θz = E(C1 |Z = z) − E(C0 |Z = z) Stel Z = 0 als je niet drinkt en Z = 1 als je wel drinkt. Dan is θ0 het causale effect onder de niet drinkers en θ1 het causale effect onder de drinkers. Om te zien of er een samenhang is tussen X en Y kunnen we ook de conditionele kansen P (Y = y|X = x) berekenen. Er geldt, als Z alleen de waarden {0, 1} kan aannemen:
P (Y = y|X = x) =
P (Y = y|X = x, Z = 0)P (X = x, Z = 0) + P (Y = y|X = x, Z = 1)P (X = x, Z = 1) P (X = x) (3.3)
Zoals we weten kunnen we nu nog niets zeggen over het causale verband tussen X en Y , hiervoor moeten we de potenti¨ele uitkomsten bekijken. Om te zien of er een causaal verband is moeten we de kansen P (Cx = y) bepalen. Er geldt:
P (Cx = y) = P (Cx = y|Z = 0)P (Z = 0) + P (Cx = y|Z = 1)P (Z = 1)
(3.4)
Als er geen causaal verband is tussen X en Y en Y ∈ 0, 1 geldt P (C0 = y) = P (C1 = y), omdat X hier geen invloed heeft op de uitkomst. We hebben gezien wat het verschil is tussen het berekenen van een associatie en dat van een causaal verband tussen X en Y . Stel nu dat je twee stochastische variabelen, X en Z, hebt waarvan je wilt weten of ze een causaal effect hebben op Y . Hiervoor introduceren we een nieuwe consistentie-relatie:
Y = CXZ
(3.5)
3.2. ASSOCIATIE IS GEEN CAUSALITEIT!
23
Het berekenen van het causale effect van X op Y gaat dan als volgt:
θX
= E(C1Z ) − E(C0Z ) = E{E(C1Z |Z)} − E{E(C0Z |Z)} = (E(C10 ) − E(C00 ))P (Z = 0) + (E(C11 ) − E(C01 ))P (Z = 1)
(3.6)
En soortgelijk gaat het voor het causale effect van Z op Y :
θZ
3.2
= (E(C01 ) − E(C00 ))P (X = 0) + (E(C11 ) − E(C10 ))P (X = 1)
(3.7)
Associatie is geen causaliteit!
Zoals we in de inleiding hebben gezien geldt dat associatie over het algemeen niet gelijk is aan causaliteit, oftewel α 6= θ. Als we de waarde van X random en onafhankelijk toekennen, geldt α = θ. X is dan onafhankelijk van (C0 , C1 ). Je hebt (C0 , C1 ) die al vast staan, maar de X verandert onafhankelijk van die C’s. Dit tonen we hieronder aan:
α = E(Y |X = 1) − E(Y |X = 0) = E(C1 |X = 1) − E(C0 |X = 0) = E(C1 ) − E(C0 ) (want C0 en C1 onafhankelijk van X) = θ
(3.8)
Intu¨ıtief gezien is dit logisch, want vaak wordt er voor een bepaalde behandeling gekozen afhankelijk van de pati¨ent of het staat bijvoorbeeld al vast of iemand rookt of niet. Maar als er onafhankelijk wordt gekozen of een persoon wel of niet wordt behandeld hangt dit niet meer van de omstandigheden af. Zoals je in de vorige paragraaf hebt gezien zijn er causale verbanden uitgerekend, maar dit was steeds met informatie die we niet weten. Zo hebben we steeds aangenomen dat we informatie over C0 en C1 hadden, terwijl je met echte data er altijd maar ´e´en zou kunnen weten. Verder is er ook aangenomen dat roken en drinken elkaar be¨ınvloeden. We kunnen het causale effect dus niet berekenen met alleen observationele data, maar er zijn altijd niet-testbare aannames nodig, tenzij we de waarde voor X random toewijzen. Als we het causale effect niet kunnen berekenen, kunnen er wel boven- en ondergrenzen voor het causale effect bepaald worden. Stel we hebben de volgende data uit een observationele studie: (X1 , Y1 ), · · · (Xn , Yn ) met Xi en Yi binaire stochastische variabelen voor alle i = 1, · · · , n. We hebben hier alleen observationele data, dus we kunnen het causale effect niet uitrekenen. We gaan hier laten zien dat je wel grenzen kan berekenen voor het causale effect. We nemen aan P (X = 0) = P (X = 1) = 21 . Er geldt:
24
HOOFDSTUK 3. HET COUNTERFACTUALMODEL
θ = E[C1 ] − E[C0 ] = E[C1 |X = 1]P (X = 1) + E[C1 |X = 0]P (X = 0) − E[C0 |X = 1]P (X = 1) − E[C0 |X = 0]P (X = 0) 1 = α + E[C1 |X = 0]P (X = 0) − E[C0 |X = 1]P (X = 1) 2 Dus in dit voorbeeld geldt dat θ ∈ [ 12 α − 12 E[C0 |X = 1], 12 α + 21 E[C1 |X = 0]] en omdat hier E[C0 |X = 1], E[C1 |X = 0] ∈ [0, 1], volgt θ ∈ [ 21 α − 12 , 12 α + 12 ]. Merk op dat afhankelijk van α, nul binnen de grenzen ligt, dan zegt dit nog niets over het causale effect. Slechts als nul niet in het interval kan liggen, kan je zeggen dat er een causaal effect is. In dit voorbeeld ligt α ∈ [−1, 1], dus hier ligt nul altijd in het interval.
3.3
Het leveraandoeningsvoorbeeld
We hebben in de vorige twee paragrafen gezien hoe we causale verbanden kunnen kwantificeren, in deze paragraaf gaan we dit toepassen in een voorbeeld. We hebben 3 stochastische variabelen; X, Y en Z. Ze stellen het volgende voor: • X = 0 niet-roken • X = 1 roken • Z = 0 niet-drinken • Z = 1 drinken • Y = 0 geen leveraandoening • Y = 1 leveraandoening We willen met dit voorbeeld het verschil tussen het causale effect en de associatie bekijken. We beschouwen hiervoor een heel specifiek model, dat niet erg realistisch is, om gevoel te krijgen voor het begrip causaliteit. Voordat we het causale effect kunnen berekenen, moeten we de potenti¨ele uitkomsten weten. We gebruiken de consistentie-relatie die is gegeven in vergelijking (3.5). Als we die consistentierelatie uitschrijven volgt:
C00 C01 Y = C 10 C11
als als als als
X X X X
=0 =0 =1 =1
en en en en
Z Z Z Z
=0 =1 =0 =1
(3.9)
We nemen aan dat in ons voorbeeld alle potenti¨ele uitkomsten CXZ Bernoulli verdeeld zijn.
3.3. HET LEVERAANDOENINGSVOORBEELD
C00 C01 Y = C 10 C11
∼ ∼ = =
Ber(p) Ber(q) C00 C01
25
(3.10)
Ook nemen we aan dat p < q geldt. Hiermee nemen we indirect aan dat drinken schadelijk is voor de lever. We kunnen dan ook een causaal verband tussen drinken en het krijgen van een leveraandoening verwachten. Verder geldt C00 = C10 en C01 = C11 , hiermee nemen we aan dat de verdelingen voor drinken hetzelfde zijn, en zo ook voor niet drinken. Verder nemen we aan dat X en Z ook Bernoulli verdeeld zijn en dat ze van dezelfde uniforme stochast afhangen.
X = 1[0,px ] (U )
(3.11)
Z = 1[0,pz ] (U )
(3.12)
Met U uniform (0, 1) verdeeld en px < pz . Hieruit volgt dat iedereen die rookt, ook drinkt. Dus voor de verdeling van X en Z geldt dan:
P (X = 0, Z = 0) = 1 − pz P (X = 0, Z = 1) = pz − px P (X = 1, Z = 0) = 0 P (X = 1, Z = 1) = px We zien dat X en Z afhankelijk zijn. We gaan in dit voorbeeld eerst bekijken of er een causaal verband is tussen roken en het krijgen van een leveraandoening. Hiervoor moeten we de verdelingen van C0Z en C1Z vergelijken, we gebruiken vergelijking (3.4).
P (C1Z = 1) = P (C1Z = 1|Z = 0)P (Z = 0) + P (C1Z = 1|Z = 1)P (Z = 1) = P (C10 = 1)P (Z = 0) + P (C11 = 1)P (Z = 1) = p + (q − p)pz
P (C0Z = 1) = P (C0Z = 1|Z = 0)P (Z = 0) + P (C0Z = 1|Z = 1)P (Z = 1) = P (C00 = 1)P (Z = 0) + P (C01 = 1)P (Z = 1) = p + (q − p)pz
26
HOOFDSTUK 3. HET COUNTERFACTUALMODEL
We zien dat geldt P (C1Z = 1) = P (C0Z = 1). Dit betekent dat er geen causaal verband is tussen roken en het krijgen van een leveraandoening in dit specifieke model, want of er nu wel of niet gerookt wordt de kans op een leveraandoening blijft even groot. Omdat we hier met Bernouilli verdeelde stochasten werken, geldt P (C1Z = 1) = E(C1Z ) en ook P (C0Z = 1) = E(C0Z ). Het causale effect is dan ook gelijk aan nul, er geldt namelijk θX = E(C1Z ) − E(C0Z ) = P (C1Z = 1) − P (C0Z = 1) = 0. Dit causaal effect wordt veroorzaakt doordat C0Z = C1Z . We bekijken nu of er een samenhang is tussen roken en het krijgen van een leveraandoening. Hiervoor gebruiken we vergelijking (3.3). Als eerste berekenen we de kans op een leveraandoening gegeven dat de persoon rookt.
P (Y = 1|X = 1, Z = 0)P (X = 1, Z = 0) + P (Y = 1|X = 1, Z = 1)P (X = 1, Z = 1) P (X = 1) P (C10 = 1)P (X = 1, Z = 0) + P (C11 = 1)P (X = 1, Z = 1) = P (X = 1) p · 0 + q · px = px = q
P (Y = 1|X = 1) =
Je ziet dat er in bovenstaande vergelijking gebruik wordt gemaakt van de potenti¨ele uitkomsten. Dit kan, omdat als is gegeven dat X = x en Z = z, we weten naar welke potenti¨ele uitkomst, die gelijk is aan Y , er gekeken moet worden. Nu bekijken we de kans op een leveraandoening gegeven dat de persoon niet rookt, zodat we de uitkomsten kunnen vergelijken en we ook de associatie αX kunnen berekenen.
P (Y = 1|X = 0, Z = 0)P (X = 0, Z = 0) + P (Y = 1|X = 0, Z = 1)P (X = 0, Z = 1) P (X = 0) p · (1 − pz ) + q · (pz − px ) = 1 − px 1 − pz pz − px = p +q 1 − px 1 − px
P (Y = 1|X = 0) =
Hier zien we dat tussen roken en het krijgen van een leveraandoening wel degelijk een samenhang is, aangezien P (Y = 1|X = 1) 6= P (Y = 1|X = 0). Ook hier geldt E(C1Z |X = 1) = P (Y = 1|X = 1) en E(C0Z |X = 0) = P (Y = 1|X = 0), dan geldt voor de associatie αX = E(C1Z |X = 1−pz z −px + q p1−p . Als je nu nog 1) − E(C0Z |X = 0) = P (Y = 1|X = 1) − P (Y = 1|X = 0) = q − p 1−p x x niets over causaliteit zou weten, had je hier misschien geconcludeerd dat roken invloed heeft op het krijgen van een leveraandoening. We hebben gezien dat in ons voorbeeld er geen causaal verband is tussen roken en het krijgen van een leveraandoening, maar wel een associatie. Zoals we in paragraaf 3.1 hebben gezien is er dan een covariaat die de associatie veroorzaakt, in dit voorbeeld is dat Z. We gaan berekenen of er een causaal verband is tussen drinken en het krijgen van een leveraandoening. Hiervoor vergelijken we de verdelingen van CX0 en CX1 .
3.3. HET LEVERAANDOENINGSVOORBEELD
27
P (CX1 = 1) = P (CX1 = 1|X = 0)P (X = 0) + P (CX1 = 1|X = 1)P (X = 1) = P (C01 = 1)P (X = 0) + P (C11 = 1)P (X = 1) = q(1 − px ) + qpx = q
P (CX0 = 1) = P (CX0 = 1|X = 0)P (X = 0) + P (CX0 = 1|X = 1)P (X = 1) = P (C00 = 1)P (X = 0) + P (C10 = 1)P (X = 1) = ppx + p(1 − px ) = p Dus hier geldt P (CX0 = 1) = p < q = P (CX1 = 1). Er is in ons voorbeeld dus een causaal verband tussen drinken en het hebben van een leveraandoening, namelijk als je drinkt is de kans op een leveraandoening groter. Het causaal effect is dan gelijk aan:
θZ
= (E(C01 ) − E(C00 ))P (X = 0) + (E(C11 ) − E(C10 ))P (X = 1) = (q − p)(1 − px ) + (q − p)px = q−p
Concluderend is er in dit voorbeeld wel een causaal verband tussen drinken het krijgen van een leveraandoening, maar niet tussen roken en het krijgen van een leveraandoening. De associatie tussen roken en het krijgen van een leveraandoening wordt veroorzaakt door het causale verband tussen drinken en het krijgen van een leveraandoening uit ons voorbeeld. Om het allemaal wat beter te begrijpen en om bovenstaand voorbeeld met wat andere aannames te bekijken gaan we dit voorbeeld simuleren met het programma R. Ook zie je dat we de kans op het niet krijgen van een leveraandoening gegeven roken of drinken nog niet hebben bepaald en is het interessant om wat plots te bestuderen. We bekijken twee gevallen, eerst het voorbeeld met iets aangepaste aannames dan hierboven daarna bekijken we hetzelfde voorbeeld alleen met de stochasten X en Z onafhankelijk. We hebben in onze simulatie een steekproef van 25 personen. We doen een Monte Carlo simulatie waarbij we 100 keer een nieuwe steekproef van 25 personen wordt gesimuleerd. De codes voor deze simulaties zijn te vinden in appendix in de paragrafen 6.1 en 6.2. 1. We nemen alle potenti¨ele uitkomsten onafhankelijk van elkaar, maar er geldt wel dat C00 ∼ Ber(p) en C10 ∼ Ber(p) en zo ook voor C01 ∼ Ber(q) en C11 ∼ Ber(q) met p < q. Dit omdat we nog steeds aannemen dat er minder mensen zijn die niet drinken dan wel drinken. We nemen aan dat p = 0.3, q = 0.7. Verder nemen we aan dat 45% van de populatie rookt en 70% drinkt, dus px = 0.45 en pz = 0.7. We simuleren de assocatie en het causale verband. Er volgt:
28
HOOFDSTUK 3. HET COUNTERFACTUALMODEL
Pˆ (Y = 1|X = 0) = Pˆ (Y = 1|X = 1) = Pˆ (Y = 0|X = 0) = Pˆ (Y = 0|X = 1) =
0.49 0.70 0.51 0.30
Er geldt dat Pˆ (Y = 1|X = 1) > Pˆ (Y = 1|X = 0) en ook Pˆ (Y = 0|X = 0) > Pˆ (Y = 0|X = 1). Dit geeft slechts de associatie tussen de variabelen weer. Dus we kunnen hieruit niet concluderen dat als je niet rookt de kans op een leveraandoening kleiner is dan als je wel rookt, al lijkt het wel zo te zijn. Als we het causale verband simuleren zien we dat die conclusie inderdaad niet klopt. Pˆ (C0Z = 1) = 0.59 Pˆ (C1Z = 1) = 0.57 Pˆ (C0Z = 0) = 0.41 Pˆ (C1Z = 0) = 0.43 Je ziet Pˆ (C0Z = 1) ≈ Pˆ (C1Z = 1) en Pˆ (C0Z = 0) ≈ Pˆ (C1Z = 0). Ze zijn niet exact gelijk aan elkaar, omdat we een simulatie bekijken. Dus ook uit deze simulatie volgt dat er geen causaal verband is tussen X en Y . We zetten de associatie tussen roken het krijgen van een leveraandoening(αX ) uit tegen het causale effect van roken op het krijgen van een leveraandoening(θX ), zie figuur 3.1. We zien dat θX rond nul zit, hieruit volgt dat er geen sprake is van een causaal effect. Het causale effect is niet steeds exact nul, doordat we een simulatie bekijken. Ook zien we dat αX rond 0.2 zit, dus de associatie is ongeveer 0.2. Verder geeft de zwarte lijn aan waar αX = θX geldt, we zien in de figuur dat er geen ´e´en stip op de lijn ligt, dus αX en θX zijn niet aan elkaar gelijk. Figuur 3.1: αX uitgezet tegen θX , en de lijn αX = θX .
Als laatst bekijken we nog de simulatie van het causale verband tussen drinken en het krijgen van een leveraandoening.
3.3. HET LEVERAANDOENINGSVOORBEELD
29
Pˆ (CX0 = 1) = 0.31 Pˆ (CX1 = 1) = 0.70 Pˆ (CX0 = 0) = 0.69 Pˆ (CX1 = 0) = 0.30 Hier zie je dat geldt Pˆ (CX1 = 1) > Pˆ (CX0 = 1) en Pˆ (CX0 = 0) > Pˆ (CX1 = 0). Dus er is wel een causaal verband tussen Z en Y in deze simulatie. Namelijk de kans dat je een leveraandoening krijgt is groter als je drinkt dan als je niet drinkt en de kans dat je geen leveraandoening krijgt is groter als je niet drinkt dan als je wel drinkt. Het causale effect is dan gelijk aan:
θˆZ = 0.39 Je ziet dat dit model niet erg realistisch is, aangezien we bijvoorbeeld hebben aangenomen dat als je drinkt je ook rookt. Wel geeft het een goed beeld hoe we met deze variabelen kunnen rekenen en hoe we kunnen zien of er een causaal verband is of slechts een associatie. Verder heb je gezien dat we hier gebruik hebben gemaakt van het feit dat we alle potenti¨ele uitkomsten wisten. In een observationeel onderzoek kan je er natuurlijk maar ´e´en zien, daarom doen we nog een simulatie waarbij X en Z random gegeneerd worden en onafhankelijk zijn van elkaar. We hebben in paragraaf 3.2 gezien, dat causaliteit en associatie dan gelijk zijn. 2. Hier nemen we dezelfde verdelingen als hierboven voor de potenti¨ele uitkomsten, maar we nemen X en Z dus onafhankelijk. Dus ze hangen beide af van een andere uniforme verdeelde stochast. We hebben nu X en Z random gekozen, dus de verbanden tussen roken en drinken gelden niet meer. Voor de verdeling van X en Z geldt nu:
P (X = 0, Z = 0) = (1 − pz ) · (1 − px ) P (X = 0, Z = 1) = (1 − px ) · pz P (X = 1, Z = 0) = px · (1 − pz ) P (X = 1, Z = 1) = px · pz
30
HOOFDSTUK 3. HET COUNTERFACTUALMODEL We voeren de simulatie nu opnieuw uit. We zien in figuur 3.2 θX uitgezet tegen αX en θZ uitgezet tegen αZ , in de figuur kunnen we zien dat bij beide de α’s met de θ’s overeen komen, want ze liggen rond de zwarte lijn waarvoor geldt α = θ. Dus je ziet dat de waarden van de associatie en het causale verband hetzelfde zijn. Doordat hier de waarden van de associatie gelijk zijn aan de waarden van het causale effect, hoeven we niet de potenti¨ele uitkomsten te weten om dit verband uit te kunnen rekenen. Ook hier zien we geen causaal verband tussen X en Y , want hier zitten αX en θX rond nul. We zien wel een causaal verband tussen Z en Y , want αZ en θZ zijn beide groter dan nul.
Figuur 3.2: αX uitgezet tegen θX en αZ uitgezet tegen θZ , ook zijn de lijnen αX = θX en αZ = θZ geplot.
3.4. DO-NOTATIE
3.4
31
Do-notatie
We hebben tot nu toe gezien hoe we causale verbanden kunnen kwantificeren met behulp van het counterfactualmodel. Een andere benadering is de zogeheten do-notatie. Deze notatie wordt veel gebruikt, vooral door Pearl, daarom is het belangrijk dat deze benadering besproken wordt. Deze notatie is te vergelijken met het counterfactualmodel. Bij het counterfactualmodel hebben we gezien dat ieder persoon een C0 en een C1 heeft, de ´e´en is voor als de persoon niet behandelend zou worden en de ander voor als de persoon wel zou worden behandeld. In de werkelijkheid krijg je maar ´e´en van de potienti¨ele uitkomsten te zien, namelijk degene waarvoor de persoon bijvoorbeeld heeft gekozen of wat hem is opgedragen, deze keuze wordt dan niet onafhankelijk van de omstandigheden gemaakt. Soortgelijk gaat het ook met de do-notatie, hier wordt geen gebruik gemaakt van de potenti¨ele uitkomsten, maar van de notatie do(X = 1), wat in woorden betekent dat je iemand forceert om te worden behandeld, zodat dit volledig onafhankelijk is van andere omstandigheden. Stel dat je bijvoorbeeld wilt onderzoeken wat het effect van roken op het krijgen van longkanker is, dan zal je normaal gesproken in een experiment aan de proefpersonen vragen of ze roken of niet. Bij de do-notatie (in een niet-realistisch experiment) forceer je deel van een groep om te roken en het andere deel van die groep om niet te roken. Hierdoor hangt het niet meer van omstandigheden af of een persoon rookt of niet en kan je uitrekenen wat roken voor invloed heeft op longkanker. Bij de do-notatie wordt de notatie P (Y = 1|do(X = 1)) gebruikt, wat in woorden betekent, de kans dat de genezing Y = 1 gebeurt als de behandelingsconditie X = 1 uniform over de gehele populatie wordt geforceerd. Doordat de do-notatie en het counterfactual model overeenkomen, defini¨eren we P (Y = 1|do(X = 1)) = P (C1 = 1). We willen nu een vergelijking voor P (Y = 1|do(X = 1)) afleiden, dit doen we met behulp van de vergelijking die we kennen voor P (C1 = 1). Er geldt:
P (Cx = y) = P (Cx = y|Z = 0)P (Z = 0) + P (Cx = y|Z = 1)P (Z = 1) = P (Cx = y|X = x, Z = 0)P (Z = 0) + P (Cx = y|X = x, Z = 1)P (Z = 1) (want Cx ⊥ ⊥ X|Z) = P (Y = y|X = x, Z = 0)P (Z = 0) + P (Y = y|X = x, Z = 1)P (Z = 1) = P (Y = y|do(X = x)) Er geldt nu dat Cx ⊥ ⊥ X|Z, maar aangezien we weten met welke X we te maken hebben geldt Cx = Y . Dus kunnen we Y ⊥ ⊥ X|Z noteren. We kunnen onder de aanname dat Y ⊥ ⊥ X|Z, P (Y = y|do(X = x)) voortaan noteren als:
P (Y = y|do(X = x)) = P (Y = y|X = x, Z = 0)P (Z = 0) + P (Y = y|X = x, Z = 1))P (Z = 1) (3.13)
32
3.4.1
HOOFDSTUK 3. HET COUNTERFACTUALMODEL
Het leveraandoeningsvoorbeeld
De do-notatie is vergeleken met het counterfactualmodel, om het te allemaal te verduidelijken bekijken we nog een voorbeeld. We gebruiken het leveraandoeningsvoorbeeld die ge¨ıntroduceerd is in hoofdstuk 3.3. We berekenen hier alleen het causale verband tussen drinken en het krijgen van een leveraandoening. We gebruiken vergelijking (3.14):
P (Y = 1|do(Z = 1)) = P (Y = 1|Z = 1, X = 0)P (X = 0) + P (Y = 1|Z = 1, X = 1)P (X = 1) = P (C01 = 1)P (X = 0) + P (C11 = 1)P (X = 1) = q
En soortgelijk voor P (Y = 1|do(Z = 0)) geldt:
P (Y = 1|do(Z = 0)) = P (Y = 1|Z = 0, X = 0)P (X = 0) + P (Y = 1|Z = 0, X = 1)P (X = 1) = P (C00 = 1)P (X = 0) + P (C10 = 1)P (X = 1) = p
We zien dat geldt P (Y = 1|do(Z = 0)) = p < q = P (Y = 1|do(Z = 1)). Dus ook hier geldt dat er in dit voorbeeld een causaal verband is tussen drinken en het krijgen van een leveraandoening, namelijk dat de kans op een leveraandoening groter is gegeven dat iemand drinkt dan de kans op een leveraandoening als iemand niet drinkt.
Hoofdstuk 4
Acyclische Gerichte Grafen De eerste keer dat causale verbanden op een mathematische manier werden weergegeven was rond 1920 door Sewall Wright. Hij gebruikte een combinatie van formules en grafen om zo causale relaties uit te drukken. Hij had een lineaire vergelijking opgesteld, maar dit gaf de causale verbanden nog niet goed weer, daarom maakte hij ook gebruik van grafen. Doordat grafen goed van pas komen om relaties tussen variabelen weer te geven, gebruiken we ze om causale verbanden weer te geven. We gaan deze benadering ook gebruiken in hoofdstuk 6 om Berksons paradox verder toe te lichten. Voor deze benadering moeten we eerst meer te weten komen over acyclische gerichte grafen. Dit gebeurt in paragraaf 4.1, daarna, in paragraaf 4.2, bekijken we hoe grafen kunnen gebruiken om causale verbanden weer te geven. Als laatste bekijken we nogmaals het leveraandoeningsvoorbeeld in paragraaf 4.3.
4.1
DAG’s
Een graaf bestaat uit een verzameling punten en lijnen. De punten worden knopen genoemd en de lijnen takken. Een graaf G = (V, E) bestaat uit een verzameling knopen V = {1, 2, . . . , n} en een verzameling takken E = {e1 , e2 , . . . , em }, zodanig dat elke tak correspondeert met een ongeordend paar knopen {i, j}. Een gerichte graaf heeft alleen gerichte takken en hoogstens ´e´en tak tussen twee knopen. We noteren (i, i + 1) ∈ E voor alle i < n, waarbij i en i + 1 knopen zijn, dit kan je grafisch weergeven door een pijl van i naar i + 1 te maken. De knopen i en i + 1 zijn aangrenzend als een gerichte tak i en i + 1 verbindt. Als de gerichte tak van i naar i + 1 is gericht dan noemen we i een ouder van i + 1 en i + 1 is dan een kind van i. Een gericht pad is een gerichte graaf met knopen 1, 2, . . . , n en takken e1 , e2 , . . . , en−1 , zodat voor alle i < n er een gerichte tak ei is van i naar i + 1 . De knoop i is een voorouder van de knoop i + 1 als er een gericht pad van i naar i + 1 bestaat en ook als i = i + 1. i + 1 is dan een afstammeling van i. 33
34
HOOFDSTUK 4. ACYCLISCHE GERICHTE GRAFEN
Verder geldt dat als er een gericht pad start en eindigt op hetzelfde punt je een gerichte cykel hebt. Een graaf zonder gerichte cykels heet acyclisch. Grafen die gericht en acyclisch zijn, noemen we DAG’s en worden veel gebruikt als we over causaliteit praten. Daarom spreken we vanaf nu alleen nog maar over acyclische gerichte grafen(DAG’s). De afkorting DAG komt van het Engels en staat voor Directed Acyclic Graph. We willen graag een gezamenlijke verdeling P vinden, die bij de graaf hoort, zodat we de knopen in de grafen kunnen linken aan stochastische variabelen en de takken aan bepaalde relaties tussen twee variabelen. We weten vanuit de vermenigvuldigingsregel, dat we de gezamenlijke verdelingsfunctie van een verzameling stochasten (X1 , . . . , Xn ) kunnen schrijven als:
P (X1 = x1 , . . . , Xn = xn ) = P (Xn = xn |Xn−1 = xn−1 , . . . , X1 = x1 ) . . . P (X2 = x2 |X1 = x1 )P (X1 = x1 ) Y = P (Xi = xi |X1 = x1 , . . . Xi−1 = xi−1 ) (4.1) i
Door de verdeling P te linken aan een DAG, kunnen we bovenstaande vergelijking herschrijven, zodat vergelijking (4.1) aanzienlijk wordt versimpeld, de vergelijking die we dan krijgen kunnen we vinden met behulp van definitie 4. Laat G een DAG zijn met knopen V = (1, . . . , n), we gaan deze knopen linken aan de stochastische variabelen (X1 , . . . , Xn ). Laat P (X1 = x1 , . . . Xn = xn ) de gezamenlijke kansverdeling van die variabelen zijn. Dan volgt de volgende definitie. Definitie 4. We zeggen dat G en P compatibel zijn, als P (X1 = x1 , . . . , Xn = xn ) =
Qn
i=1 P (Xi
= xi |Xj = xj
∀j ∈ πi )
waarbij πi , in de graaf, de ouders van de knoop i zijn. Hier is elke knoop i gelinkt met een stochastische variabele Xi . We noteren de verzameling verdelingen die compatibel zijn met G als M (G). Vanaf nu nemen we aan dat de stochastische variabelen (X1 , . . . , Xn ), corresponderen met de knopen (1, . . . , n) in de graaf en noteren we in de figuren, die gaan volgen, alleen de stochastische variabelen. Figuur 4.1: graaf 1
4.1. DAG’S
35
Ter illustratie gebruiken we definitie 4 in de graaf in figuur 4.1. Er geldt P ∈ M (G) dan en slechts dan als:
P (X1 = x1 , X2 = x2 , X3 = x3 , X4 = x4 ) = P (X1 = x1 )P (X2 = x2 )P (X3 = x3 |X1 = x1 , X2 = x2 )P (X4 = x4 |X3 = x3 ) (4.2) Compatibiliteit tussen DAG’s en verdelingen is erg belangrijk in statistische modellen, doordat compatibiliteit een voldoende conditie is voor een DAG G om een stochastisch proces te beschrijven die de verdeling P genereert. Om de verzameling verdelingen te vinden die compatibel zijn met de DAG G, moeten we alle (conditionele) onafhankelijkheden achterhalen. Een aantal van deze onafhankelijkheden kunnen we makkelijk achterhalen met behulp van stelling 1. Stelling 1. Een verdeling P ∈ M (G) dan en slechts dan als de Markov-voorwaarde geldt: Voor elke variabele Xi , Xi ⊥ ⊥ Xj |{Xk ∀k ∈ πi } Waarbij Xk alle variabelen zijn die corresponderen met de knopen k, waarvoor geldt k ∈ πi , hier zijn πi de ouders van de knoop i, die correspondeert met de variabele Xi . De knoop, die correspondeert met de variabele Xj , kan elke knoop in DAG G zijn, behalve de ouders en de nakomelingen van de knoop i. Stelling 1 komt uit het boek All of Statistics: A concise course in statistical inference van L. Wasserman [11]. In het boek Causality van J. Pearl [5] wordt verwezen naar een bewijs van deze stelling. We kunnen stelling 1 bijvoorbeeld toepassen op de graaf in figuur 4.1, dan zien we dat X4 ⊥ ⊥ X1 |X3 en ook X4 ⊥ ⊥ X2 |X3 . Met behulp van stelling 1 kunnen we dus conditionele onafhankelijkheden vinden, maar met deze stelling kan je echter niet alle onafhankelijkheden vinden. Om alle (conditionele) onafhankelijkheden te achterhalen hebben we het begrip d-scheiding nodig. Hiervoor moeten we eerst weten wat een collider is. Een (deel van een) graaf met de volgende vorm:
heet een collider op X2 . Een collider-eigenschap is pad afhankelijk. Een pad is elke onafgebroken route langs de takken van een graaf, deze route mag met de pijlen in de graaf meegaan of er tegenin gaan. Als de pijlen allemaal dezelfde kant op zijn gericht spreken we van een gericht pad. Een punt kan dus een collider zijn op ´e´en pad en datzelfde punt kan een niet-collider zijn op een ander pad. Als we bijvoorbeeld figuur 4.2 bekijken zien we dat X2 een collider is op het pad (X1 , X2 , X3 ), maar een niet-collider op het pad (X1 , X2 , X4 ).
36
HOOFDSTUK 4. ACYCLISCHE GERICHTE GRAFEN
Figuur 4.2: Een graaf
We introduceren een ander belangrijk begrip, namelijk d-scheiding(gericht scheiden). Beschouw drie verzamelingen van variabelen X, Y en Z, die zijn gelinkt met een verzameling knopen in een DAG. Om te kijken of bijvoorbeeld X en Y onafhankelijk zijn gegeven Z, moeten we weten of de knopen, die corresponderen met de variabelen in Z, alle paden van de verzameling X naar de verzameling Y , blokkeert. Met blokkeren van een pad bedoelen we het stoppen van de informatiestroom tussen twee variabelen die zijn verbonden met zo’n pad. We hebben de volgende definitie daarvoor nodig. Definitie 5. Laat X, Y en Z drie verzamelingen van variabelen die corresponderen met verzamelingen knopen in een DAG. Een pad p wordt geblokkeerd door Z dan en slechts dan als: 1. het pad p met de verzameling knopen (i, j, k) geen enkele collider bevat en dat middelste knoop j in de verzameling knopen, die correspondeert met Z, zit. 2. het pad p met de verzameling knopen (i, j, k) een collider bevat en dat de middelste knoop j niet in de verzameling knopen, die correspondeert met Z, zit en ook geen nakomelingen van de knoop j. X en Y zijn d-gescheiden door Z dan en slechts dan als elke pad van X naar Y is geblokkeerd. We illustreren het begrip d-gescheiden aan de hand van figuur 4.3 en figuur 4.4. We gebruiken in onderstaande voorbeelden alleen de variabelen die corresponderen met de knopen in de grafen. 1. Bekijk figuur 4.3. Hier geldt dat X2 een niet-collider is, dus wordt het pad (X1 , X2 , X3 ) geblokkeerd door de verzameling Z = {X2 }. Dus zijn X = {X1 } en Y = {X3 } d-gescheiden door Z. 2. Bekijk figuur 4.4. Hier geldt dat X2 een collider is, dus wordt het pad (X1 , X2 , X3 ) geblokkeerd door de verzameling Z = {∅}. Dus zijn X = {X1 } en Y = {X3 } d-gescheiden, want de knoop X2 zit niet in de verzameling Z. Maar X en Y zijn niet d-gescheiden door Z 0 = {X2 }. 3. Bekijk figuur 4.4. Hier geldt dat X4 een nakomeling van X2 is, dus geldt dat X = {X1 } en Y = {X3 } niet d-gescheiden zijn door Z 0 = {X2 , X4 }.
4.1. DAG’S
37
Figuur 4.3: X2 is een niet-collider
Figuur 4.4: Een collider met een afstammeling
We willen het begrip d-scheiding linken met conditionele afhankelijkheden. Daarvoor hebben we stelling 2 nodig. Stelling 2. Als de verzameling van variabelen X en Z d-gescheiden zijn gegeven Y in een DAG G, dan geldt X ⊥ ⊥ Z|Y in elke verdeling compatibel met G. Omgekeerd geldt ook dat als X en Z niet d-gescheiden zijn door Y , in een DAG G, dan geldt X 6⊥ ⊥ Z|Y in minstens ´e´en verdeling compatibel met DAG G. Stelling 2 komt uit het boek Causality van J. Pearl [5]. Zodoende geldt dat conditioneren op een collider, een afstammeling van een collider of een niet-collider afhankelijkheid kan veroorzaken. Dit klinkt in eerste instantie niet helemaal logisch, daarom volgt onderstaand voorbeeld. Figuur 4.5: Het leveraandoeningsvoorbeeld
Stel we hebben een graaf zoals in figuur 4.5, waarbij we weer het leveraandoeningvoorbeeld gebruiken. Merk op dat Z een niet-collider is, dus er geldt dat Y d-gescheiden is van X gegeven Z. Uit stelling 2 volgt dan Y ⊥ ⊥ X|Z. Zodoende geldt als deze graaf G compatibel is met de verdeling P , geldt P (Y = y|X = x, Z = z) = P (Y = y|Z = z) en P (X = x|Y = y, Z = z) = P (X = x|Z = z). De DAG’s die hier worden besproken hoeven niet perse iets met causaliteit te maken te hebben, nergens wordt iets aangenomen over dat de pijlen causale interpretaties moeten voorstellen. Dus we moeten zelf forceren dat de pijlen causale verbanden voorstellen. Hierover gaat de volgende paragraaf. Met de d-gescheiden eigenschap kunnen we alle conditionele afhankelijkheden vinden die er ook echt zijn. Dit hebben we nodig, zodat we P (X1 = x1 , · · · , Xn = xn ) zo versimpeld mogelijk kunnen noteren. De graaf in figuur 4.5 is compatibel met de verdeling P (X = x, Y =
38
HOOFDSTUK 4. ACYCLISCHE GERICHTE GRAFEN
y, Z = z) = P (Z = z)P (X = x|Z = z)P (Y = y|Z = z), want alle conditionele afhankelijkheden hadden we al gevonden.
4.2
Acyclische gerichte grafen en causaliteit
Eerder hebben we al gezien hoe we causaliteit kunnen benaderen met behulp van het counterfactual model. We kunnen causaliteit ook benaderen met behulp van DAG’s. Dit is een andere methode, maar wiskundig gezien komen de benaderingen op hetzelfde neer. We bekijken in dit hoofdstuk hoe je causale verbanden uit de grafen kan halen met behulp van interventie. We moeten voor deze aanpak het verschil tussen conditioneren en interventie goed begrijpen. We bekijken eerst wat er gebeurt als we conditioneren. Figuur 4.6: een graaf
Als we gebruik maken van het feit dat de verdeling P compatibel is met de graaf in figuur 4.6, dan ziet de gezamenlijke verdeling van de graaf er als volg uit:
P (X1 = x1 , X2 = x2 , X3 = x3 ) = P (X1 = x1 )P (X2 = x2 |X1 = x1 )P (X3 = x3 |X1 = x1 , X2 = x2 ) (4.3) Stel dat we nu de kans op X3 = x3 geconditioneerd op X2 = x2 willen weten. Hiermee bedoelen we dat we X2 = x2 observeren. Je kan dit vergelijken met het berekenen van een associatie, waarbij we in hoofdstuk 3 ook de kans P (X3 = x3 |X2 = x2 ) hebben berekend.
P (X2 = x2 , X3 = x3 ) P (X2 = x2 ) P x1 P (X1 = x1 , X2 = x2 , X3 = x3 ) = P (X2 = x2 ) X P (X2 = x2 |X1 = x1 )P (X1 = x1 ) = P (X3 = x3 |X1 = x1 , X2 = x2 ) P (X2 = x2 ) x1 X = P (X3 = x3 |X1 = x1 , X2 = x2 )P (X1 = x1 |X2 = x2 )
P (X3 = x3 |X2 = x2 ) =
x1
Je ziet dat conditioneren op hetzelfde neerkomt als het berekenen van een associatie, maar we willen graag het causale effect berekenen, hiervoor moeten we interveni¨eren. Hiermee bedoelen we dat we X2 = x2 vast zetten. De graaf in figuur 4.7 is een manier om dit weer te geven.
4.2. ACYCLISCHE GERICHTE GRAFEN EN CAUSALITEIT
39
Figuur 4.7: X2 = x2 vastzetten
Er is een verschil tussen conditioneren waarbij we X2 = x2 observeren en interveni¨eren waarbij we daadwerkelijk Set(X2 = x2 ) doen. Bij de eerste krijgen we een gewone verdeling met P (X3 = x3 |X2 = x2 ) en bij de tweede worden alle pijlen richting in dit geval X2 verwijderd, zodat de waarde van X2 vast staat en niets meer deze variabele kan be¨ınvloeden. Merk op dat, de donotatie, waarbij do(X2 = x2 ) wordt gebruikt en de waarde ook wordt vastgezet, zodat deze niet meer afhangt van andere variabelen, overeenkomt met de interventie Set(X2 = x2 ). Om nu de gezamenlijke verdeling behorend bij de interventie te vinden, zijn sterkere aannames vereist dan bij conditioneren. Deze aannamens lichten we informeel toe. Stel we hebben de verzameling variabelen X = (X1 , . . . , Xn ) en stel dat we de interventie Set(Xk = xk ) hebben. Als we niet interveni¨eren krijgen we de gezamenlijke verdeling P (X1 = x1 , . . . , Xn = xn ). Met de interventie krijgen we de gezamenlijke verdelingsfunctie P (X1 = x1 , . . . , Xk−1 = xk−1 , Xk+1 = xk+1 , . . . , Xn = xn |Set(Xk = xk )). We hebben in definitie 4 gezien hoe de gezamenlijke verdeling die compatibel met een DAG G wordt gedefinieerd. We willen ook de gezamenlijke verdeling met de interventie die compatibel is met een DAG G defini¨eren, daarvoor hebben we de volgende aannamens nodig: 1. P (Xk = xk |Set(Xk = xk )) = 1 2. P (Xi = xi |Xj = xj
∀j ∈ πi , Set(Xk = xk )) = P (Xi = xi |Xj = xj
∀j ∈ πi ) ∀ i 6= k
Met deze aannamens kunnen we de gezamenlijke verdeling P (X1 = x1 , . . . , Xk−1 = xk−1 , Xk+1 = xk+1 , . . . , Xn = xn |Set(Xk = xk )) defini¨eren voor elke interventie Set(Xk = xk ) als een afgeknotte factorisatie:
P (X1 = x1 , . . . , Xk−1 = xk−1 , Xk+1 = xk+1 , . . . , Xn = xn |Set(Xk = xk )) Y = P (Xi = xi |Xj = xj ∀j ∈ πi ) {i|i6=k}
(4.4)
40
HOOFDSTUK 4. ACYCLISCHE GERICHTE GRAFEN
In ons voorbeeld in figuur 4.7 kunnen we de afgeknotte factorisatie toepassen, zodat de volgende gezamenlijke verdelingsfunctie volgt:
P (X1 = x1 , X3 = x3 |Set(X2 = x2 )) = P (X1 = x1 )P (X3 = x3 |X1 = x1 , X2 = x2 )
(4.5)
Als we nu de kans op X3 = x3 willen weten met een interventie op X2 = x2 volgt:
P (X3 = x3 |set(X2 = x2 )) =
X
P (X1 = x1 , X3 = x3 |Set(X2 = x2 ))
x1
=
X
P (X1 = x1 )P (X3 = x3 |X1 = x1 , X2 = x2 )
(4.6)
x1
We vergelijken dit met het conditioneren wat we eerder hebben gedaan, dan zie je dat niet altijd geldt dat P (X3 = x3 |set(X2 = x2 )) = P (X3 = x3 |X2 = x2 ). Je ziet hier een overeenkomst met associatie en causaliteit, waarvan we al eerder hebben gezien dat die ook lang niet altijd gelijk aan elkaar zijn. Interveni¨eren gebruiken we dan ook voor causale vraagstukken. Om te achterhalen of een variabele X2 causale invloeden heeft op bijvoorbeeld de variabele X3 , berekenen we eerst, met behulp van de afgeknotte factorisatie, de gezamenlijke verdeling P (X3 = x3 |X2 = x2 ). Daarna bekijken we of X2 nog invloed heeft op de verdeling. Het is eenvoudig op te merken, bijvoorbeeld in figuur 4.7, dat alleen variabelen die een afstammeling zijn van X2 in het causale netwerk be¨ınvloedt kunnen worden door X2 . Het verwijderen van de factor P (X2 = x2 |Xi = xi ∀i ∈ π2 ) van de gezamenlijke verdeling, verandert X2 in een knoop zonder voorouders en zo’n variabele is onafhankelijk van alle andere variabelen behalve van zijn afstammelingen(volgens het d-scheidings criteria). Dus X2 heeft alleen een causaal effect op X3 , als X3 een afstammeling is van X2 .
4.3
Het leveraandoeningsvoorbeeld
Er is besproken hoe grafen gebruikt kunnen worden om causale verbanden te vinden. We gaan dit nu verduidelijken aan de hand van het leveraandoeningsvoorbeeld, dat in paragraaf 3.3 is ge¨ıntroduceerd. Stel dat we weten dat er een correlatie is tussen het krijgen van een leveraandoening en het drinken van alcoholische dranken. Er zijn dan twee mogelijkheden, deze zijn uitgedrukt in de twee grafen in figuur 4.8, waarbij Z drinken voorstelt en Y leveraandoening. Figuur 4.8: Voorbeeld
Deze twee grafen zijn beide juist statistisch gezien, maar causaal is alleen de eerste graaf juist. De volgende verdelingen, die compatibel zijn met de grafen, gelden hier, bij de eerste graaf: P (Y = y, Z = z) = P (Z = z)P (Y = y|Z = z) en bij de tweede graaf: P (Y = y, Z = z) =
4.3. HET LEVERAANDOENINGSVOORBEELD
41
P (Y = y)P (Z = z|Y = y). Merk op dat als je Y vast zou nemen in de tweede graaf verandert er niets in de graaf, want er wijzen geen pijlen in de richting van Y . We nemen nu Y = 1 vast in de eerste graaf, met Y = 1 is het hebben van een leveraandoening. We krijgen dan de graaf in figuur 4.9. Figuur 4.9: De aangepaste graaf
De verdeling die compatibel is met deze graaf wordt nu P (Z = z|set(Y = 1)) = P (Z = z). Zodoende geldt dat het hebben van een leveraandoening niet het drinken veroorzaakt. Stel dat je aanneemt dat er bij de tweede graaf een causaal verband wordt weergegeven, dan verdwijnt er dus geen pijl en krijg je als verdeling: P (Z = z|set(Y = y)) = P (Z = z|Y = y), wat zou betekenen dat het hebben van een leveraandoening veroorzaakt dat je gaat drinken. Dit is onzin, en dat kunnen we alleen maar weten door achtergrond informatie. Dus drinken heeft een causaal effect op het krijgen van een leveraandoening. We hebben in het vorige hoofdstuk ook bekeken wat het verband is tussen roken en het krijgen van een leveraandoening. We bekijken hiervoor de graaf in figuur 4.5, we hebben al gezien dat geldt dat Y ⊥ ⊥ X|Z. Hieruit kunnen we concluderen dat roken en het krijgen van een leveraandoening geen causaal verband heeft, maar dat de associatie hiertussen wordt veroorzaakt door Z. Dit kunnen we ook zien doordat Y geen afstammeling is van X.
42
HOOFDSTUK 4. ACYCLISCHE GERICHTE GRAFEN
Hoofdstuk 5
Paradoxen revisited Nu we verschillende facetten van causaliteit af zijn gegaan, kunnen we de paradoxen nogmaals bekijken. We bekijken eerst Simpsons paradox in paragraaf 5.1 en gebruiken het counterfactualmodel om het verband met causaliteit te leggen, daarna bekijken we Berksons paradox in paragraaf 5.2 en behandelen dit paradox met behulp van acyclische gerichte grafen.
5.1
Simpsons Paradox
In de tijd dat er nog geen uitdrukkingen bekend waren voor causaliteit, hadden vele onderzoekers moeite met de paradox. Er zijn dan ook meerdere artikelen gepubliceerd over Simpsons paradox waarin het woord causaliteit niet voorkomt en waarin andere verklaringen werden gegeven voor het feit dat het teken omdraait. Wat opvalt in veel artikelen is dat het omklappen van het teken als iets vreemds wordt beschouwd, terwijl we in hoofdstuk 2 al hebben gezien dat dat wiskundig gezien geen raar verschijnsel is, maar causaal gezien is het een paradox. We willen laten zien dat er causaal gezien ook geen sprake is van een tegenstelling, daarvoor klopt de vergelijking over het geheel of de vergelijkingen over de subpopulaties niet. De vraag is welke er niet klopt, deze keuze kan alleen gemaakt worden door causale overwegingen. Als je twee modellen zou bekijken met dezelfde statistische data, kan het nog steeds zo zijn dat bij de ´e´en de subgroepen de juiste zijn en bij de ander het geheel. We bekijken de grafen in figuur 5.1.
Figuur 5.1: twee grafen, met Z de covariaat, X de behandeling en Y de genezing In figuur (5.1a) is er een causaal effect van Z op X en in figuur (5.1b) niet. Als er geen causaal effect is van de covariaat op de genezing zoals in figuur (5.1b), hoeven we ook niet naar het effect van de covariaat op de genezing te kijken, als er wel een effect is, zoals in figuur (5.1a), is dat wel 43
44
HOOFDSTUK 5. PARADOXEN REVISITED
van belang. We bekijken het voorbeeld uit hoofdstuk 3. Stel dat in dit voorbeeld de grootte van de nierstenen geen causaal effect zou hebben op de genezing. Dan zijn de vergelijkingen met de grote van de nierstenen ook niet interessant, omdat de factor die je dan bekijkt helemaal niets met de behandeling te maken heeft. Nu we weten hoe we kunnen bepalen welke vergelijking er causaal gezien niet klopt en waarom deze niet klopt, gaan we laten zien dat er causaal gezien geen sprake is van een paradox. Hiervoor moeten we de causale verbanden opschrijven, dit doen we met behulp van het counterfactualmodel. Het is ook mogelijk om dit aan te tonen met behulp van de do-notatie, we hebben in hoofdstuk 3.4 al gezien dat de methodes overeen komen. We bekijken hier hetzelfde voorbeeld als in hoofdstuk 2.1.1. We hadden de vergelijkingen (5.1) t/m (5.3) staan, waarbij X = 0 behandeling A voorstelt, X = 1 behandeling B, Y = 1 de genezing, Z = 0 kleine nierstenen en Z = 1 grote nierstenen.
P (Y = 1|X = 1) > P (Y = 1|X = 0)
(5.1)
P (Y = 1|X = 1, Z = 0) < P (Y = 1|X = 0, Z = 0)
(5.2)
P (Y = 1|X = 1, Z = 1) < P (Y = 1|X = 0, Z = 1)
(5.3)
We kunnen hier niets over de effecten van de behandeling op de genezing zeggen, want daarvoor moeten we de causale verbanden bekijken. Wat hier staat genoteerd stelt slechts de associatie voor tussen de behandeling en de genezing. Het zou ook raar zijn als dit causaal gezien wel zou kloppen, want dat zou betekenen dat als je het formaat nierstenen van een persoon niet zou weten, je behandeling B zou gebruiken, terwijl als je dit wel zou weten behandeling A een beter keuze was geweest voor beide formaten. Om te laten zien dat er geen sprake is van een paradox, moeten we de vergelijkingen die hierboven in de standaard statistische taal staan weergegeven omschrijven naar het counterfactualmodel. We gaan eerst vergelijking (5.1) letterlijk, zodat het wel het causale effect weergeeft. We hebben de volgende consistentierelatie: Y = CX De vergelijking (5.1) kunnen we dan letterlijk omschrijven als:
P (C1 = 1) > P (C0 = 1)
(5.4)
Met de do-notatie zouden we de vergelijkbare vergelijking P (Y = 1|do(X = 1)) > P (Y = 1|do(X = 0)) krijgen. Als de verstorende factoren, zoals de grootte van de nierstenen, causale effecten hebben op de genezing moeten deze factoren zeker bekeken worden. Dus stel dat het formaat van de nierstenen hier de enige verstorende factor is, dan moeten we de formaten apart bekijken en kloppen de vergelijkingen (5.2) en (5.3). We moeten ze alleen nog omschrijven naar het counterfactualmodel, zodat het causale effect daadwerkelijk wordt weergegeven. Er geldt:
P (C1 = 1|Z = 0) < P (C0 = 1|Z = 0)
(5.5)
P (C1 = 1|Z = 1) < P (C0 = 1|Z = 1)
(5.6)
5.1. SIMPSONS PARADOX
45
Om te laten zien dat een ‘echte’ Simpsons paradox niet kan optreden, dus in dit geval een behandeling B die beter is voor de kleine nierstenen en voor de grote nierstenen, maar in het geheel geldt dat behandeling A beter is, moeten we de verdelingen P (C1 = 1) en P (C0 = 1) bepalen, dan zullen we zien dat het teken moet omklappen. Er geldt:
P (C1 = 1) = P (C1 = 1|Z = 0)P (Z = 0) + P (C1 = 1|Z = 1)P (Z = 1) P (C0 = 1) = P (C0 = 1|Z = 0)P (Z = 0) + P (C0 = 1|Z = 1)P (Z = 1) (5.7) We weten al dat de vergelijkingen (5.5) en (5.6) gelden, daarom volgt:
P (C1 = 1) < P (C0 = 1)
(5.8)
We hebben nu aan de hand van ons voorbeeld laten zien dat als we de causale effecten bekijken het teken van vergelijking (5.1) moet omklappen. Hiermee hebben we aangetoond dat er geen sprake is van een paradox in dit voorbeeld. Dit geldt ook in het algemeen als Simpsons paradox optreedt en waarbij er een causaal effect is van de covariaat Z op de behandeling X en op het herstel Y . Wat we aan de hand van ons voorbeeld hebben bewezen is het sure-thing principe. Stelling 3. Het sure-thing principe: Een gebeurtenis G die de kans op een event E vergroot in elke subpopulatie, moet ook de kans op E vergroten in de gehele populatie, op voorwaarde dat de gebeurtenis G niet de verdeling van de subpopulaties verandert. Met deze stelling zien we dus ook dat de vergelijkingen (5.1) t/m (5.3) causaal gezien niet allemaal kunnen kloppen. We hebben eerder al besproken wat er zou gebeuren als je X random en onafhankelijk van Z zou genereren, je zal hier dan zien dat er ook geen sprake is van een paradox. Als we bijvoorbeeld random behandeling A of behandeling B zouden toepassen onafhankelijk van de grote van de nierstenen, dan zal je zien dat er ook helemaal geen paradox is, want dan is de genezing helemaal niet meer afhankelijk van de grote van de nierstenen. In dit geval zal je zien dat het teken bij (5.1) ook zal omdraaien.
46
5.2
HOOFDSTUK 5. PARADOXEN REVISITED
Berksons Paradox
In hoofdstuk 2 hebben we gezien dat conclusies trekken over verbanden tussen ziektes uit de gegevens van ziekenhuizen tot verkeerde aannames kan leiden. Zo kan het lijken alsof een aandoening bij pati¨enten met ziekte A vaker voorkomt dan bij pati¨enten met ziekte B, terwijl dat in de ‘gehele’ populatie niet het geval is. Om het gevaar van het trekken van foute conclusies tegen te gaan is het erg belangrijk dat deze gevallen, gevallen van Berksons paradox, worden herkend. Berksons paradox komt niet alleen tussen ziektes voor, het kan ook zo zijn dat bijvoorbeeld mensen met een verschillend beroep of mensen met een verschillende leeftijdsklasse langskomen in het ziekenhuis. Zo is de kans dat iemand die in de bouw werkt naar het ziekenhuis moet veel groter dan de kans dat iemand met een kantoorbaan naar het ziekenhuis moet. In de ziekenhuispopulatie zijn er dan veel meer bouwvakkers dan mensen met een kantoorbaan in vergelijking met de ‘gehele’ populatie. Ook kan de paradox voorkomen in andere populaties dan de ziekenhuispopulatie, bijvoorbeeld op een school. Bekijk de graaf in figuur 4.1 uit hoofdstuk 4. Hier konden we makkelijk de onafhankelijkheidsrelatie X ⊥ ⊥ H|Z vinden, want je kan eenvoudig uit de graaf opmaken dat er causale relaties zijn tussen deze variabelen en dat als Z bekend is, X geen invloed meer heeft op Z en daardoor ook niet op H. Andere afhankelijkheden, die niet direct door causale relaties worden gevonden, vinden we met de d-gescheiden eigenschap uit hoofdstuk 4. Met de d-gescheiden eigenschap hebben we gezien dat conditioneren op een afstammeling van een collider of op de collider zelf kan leiden tot afhankelijkheden van de voorouders van de collider. Deze afhankelijkheden spreken niet voor zich en worden vreemd gevonden en soms zelfs paradoxaal genoemd, maar het correspondeert met het algemene patroon van causale relaties. Als we een consequentie van twee onafhankelijke gebeurtenissen bekijken, kan die consequentie ervoor zorgen dat de gebeurtenissen conditioneel afhankelijk worden, want informatie over een van de gebeurtenissen maakt de ander meer of minder aannemelijk, gegeven dat de consequentie is voorgekomen. Bijvoorbeeld bij het gooien van twee munten, als de consequentie is dat ´e´en van de munten kop moet zijn, dan is het aannemelijk dat munt 2 kop is als je weet dat munt 1 munt is. Er is dan een causaal verband tussen de consequentie en de gebeurtenissen, maar alleen een associatie tussen de twee gebeurtenissen. Dit herkennen we als Berksons paradox. We bekijken het voorbeeld uit hoofdstuk 2, waarbij cholecystitis met diabetes wordt vergeleken. Berkson gebruikte eerst mensen die geen diabetes hadden als controle groep, maar dit kon als een verkeerde controlegroep worden gezien, omdat de mensen die naar het ziekenhuis kwamen en geen diabetes hadden misschien wel een andere ziekte hadden die wel een correlatie had met cholecystitis. Daarom besloot Berkson om mensen die naar het ziekenhuis kwamen voor een bril als controlegroep te nemen. We krijgen dan de graaf in figuur 5.2. Je ziet in de graaf dat het krijgen van een bril en het krijgen van cholecystitis een bezoek aan het ziekenhuis veroorzaakt. Uit hoofdstuk 4 weten we dan dat geldt dat het krijgen van een bril en het krijgen van cholecystitis d-gescheiden zijn, en d-verbonden gegeven in het ziekenhuis. Dus er geldt: A ⊥ ⊥ C, maar A 6⊥ ⊥ C|Z. Hier zien we dat Berksons paradox dus optreedt. Verder geldt dat hier geen causaal verband is tussen het krijgen van een bril en cholecystitis in de ‘gehele’ populatie, maar dit kan wel zo lijken, doordat ze in het ziekenhuis afhankelijk zijn van elkaar. Berkson vond, ook met het krijgen van een bril als controlegroep, een samenhang tussen cholecystitis en diabetes. Het verschil was zelfs groter met deze controlegroep.
5.2. BERKSONS PARADOX
47
Figuur 5.2: Berksons voorbeeld, met A Cholecystitis, C krijgen van een bril en Z in het ziekenhuis Bij het wel of niet vinden van een causaal verband tussen cholecystitis en diabetes hebben we eigenlijk meer informatie nodig over de ‘gehele populatie’. Als de graaf voor dit probleem er als in figuur 5.3 uit komt te zien, dan weten we dat er geen causaal verband is tussen cholecystitis en diabetes en geldt A ⊥ ⊥ B, maar A 6⊥ ⊥ B|Z, zoals we al hebben gezien met cholecystitis en het krijgen van een bril.
Figuur 5.3: Berksons voorbeeld, met A Cholecystitis, B Diabetes en Z in het ziekenhuis Berksons paradox ontstaat, doordat er geen aselecte steekproef wordt gedaan. Er komen bijvoorbeeld mensen naar het ziekenhuis, omdat ze een bepaald aandoening hebben. Dit is geen aselecte steekproef, want er wordt ‘geselecteerd’ op mensen met een aandoening. Of bijvoorbeeld als je op een muziekschool zit waar je bepaalde hoge cijfers voor gehaald moeten hebben, dan kan het lijken alsof musici en slim zijn een causaal verband hebben, maar die schijn wordt veroorzaakt door een aselecte steekproef. Om de paradox te voorkomen in een ziekenhuis of in een andere selecte populatie, zou je eigenlijk alle gegevens moeten hebben. Bijvoorbeeld in het ziekenhuis zou je alle medische gegevens van iedereen nodig hebben, zodat je aandoeningen kan vergelijken met mensen die niet naar het ziekenhuis komen maar wel die aandoening hebben of je kan bijvoorbeeld alle mensen met hetzelfde beroep vergelijken. Wat je wel met de ziekenhuisgegevens zou kunnen doen is causale verbanden vinden tussen twee variabelen waarvan ´e´en niets met een bezoek aan het ziekenhuis te maken heeft, zoals de kleur van je ogen of je haarkleur. Deze variabelen hebben geen causaal verband met naar het ziekenhuis gaan en kan je wel of geen causaal verband tussen die variabele en bijvoorbeeld een ziekte vinden.
48
HOOFDSTUK 5. PARADOXEN REVISITED
Hoofdstuk 6
Appendix 6.1
Appendix 1
#monte c a r l o s i m u l a t i e alphaX<−rep ( 0 , n ) alphaZ<−rep ( 0 , n ) thetaX<−rep ( 0 , n ) t h e t a Z<−rep ( 0 , n ) PY1X1<−rep ( 0 , n ) PY1X0<−rep ( 0 , n ) PY0X1<−rep ( 0 , n ) PY0X0<−rep ( 0 , n ) PY1Z1<−rep ( 0 , n ) PY1Z0<−rep ( 0 , n ) PY0Z1<−rep ( 0 , n ) PY0Z0<−rep ( 0 , n ) PC1Z1<−rep ( 0 , n ) PC1Z0<−rep ( 0 , n ) PC0Z1<−rep ( 0 , n ) PC0Z0<−rep ( 0 , n ) PCX11<−rep ( 0 , n ) PCX01<−rep ( 0 , n ) PCX10<−rep ( 0 , n ) PCX00<−rep ( 0 , n ) D=100 #S t e e k p r o e f van 25 mensen b e k i j k e n for ( j i n 1 :D) { n <− 25
49
50
HOOFDSTUK 6. APPENDIX
#De p o t e n t i e l e u i t k o m s t e n z i j n o n f h a n k e l i j k en b e r n o u i l l i v e r d e e l d p <− 0 . 3 C00 <− rbinom ( n , 1 , p ) C10 <− rbinom ( n , 1 , p ) q<− 0 . 7 C01 <− rbinom ( n , 1 , q ) C11 <− rbinom ( n , 1 , q ) #X en Z b e r n o u i l l i v e r d e e l d en a f h a n k e l i j k u <− runif ( n ) X<−rep ( 0 , n ) Z<−rep ( 0 , n ) px <− 0 . 4 5 pz <− 0 . 7 f or ( i i n 1 : n ) { i f ( u [ i ]
6.1. APPENDIX 1
51
PZ0 <− mean( Z==0) #De b e r e k e n i n g e n van de a s s o c i a t i e t u s s e n roken en l e v e r a a n d o e n i n g : #P(Y=y ,X=x ) PY1X1 [ j ] <− ( PC101∗PX1Z0+PC111∗PX1Z1) /PX1 PY1X0 [ j ] <− ( PC001∗PX0Z0+PC011∗PX0Z1) /PX0 PY0X1 [ j ] <− ( PC100∗PX1Z0+PC110∗PX1Z1) /PX1 PY0X0 [ j ] <− ( PC000∗PX0Z0+PC010∗PX0Z1) /PX0 #De b e r e k e n i n g e n van h e t c a u s a l e v e r b a n d t u s s e n roken en l e v e r a a n d o e n i n g : #P(C {xZ} = y ) PC1Z1 [ j ] <− PC101∗PZ0+PC111∗PZ1 PC0Z1 [ j ] <− PC001∗PZ0+PC011∗PZ1 PC1Z0 [ j ] <− PC100∗PZ0+PC110∗PZ1 PC0Z0 [ j ] <− PC000∗PZ0+PC010∗PZ1 # Ca usa l e e f f e c t en de a s s o c i a t i e : thetaX [ j ] = PC1Z1 [ j ] − PC0Z1 [ j ] alphaX [ j ] = PY1X1 [ j ]−PY1X0 [ j ] #De b e r e k e n i n g e n van de c a u s a l e verba nden t u s s e n d r i n k e n en l e v e r a a n d o e n i n g : #P(C {Xz}=y ) PCX11 [ j ] <− PC011∗PX0+PC111∗PX1 PCX01 [ j ] <− PC001∗PX0+PC101∗PX1 PCX10 [ j ] <− PC010∗PX0+PC110∗PX1 PCX00 [ j ] <− PC000∗PX0+PC100∗PX1 #Cau sal e e f f e c t u i t r e k e n e n : t h e t a Z [ j ] = PCX11 [ j ] − PCX01 [ j ] } mean(PY1X1) mean(PY1X0) mean(PY0X1) mean(PY0X0) mean( PC1Z1 ) mean( PC0Z1 ) mean( PC1Z0 ) mean( PC0Z0 ) mean(PCX11) mean(PCX01) mean(PCX10) mean(PCX00)
52
HOOFDSTUK 6. APPENDIX
x<−seq ( − 0 . 2 , 0 . 8 , 0 . 0 1 ) y<−x #v e r g e l i j k alphaX met t h e t a X . plot ( alphaX , thetaX , col= ’ b l u e ’ ) lines (x , y) aX = mean( alphaX ) tX = mean( thetaX ) tZ = mean( t h e t a Z )
6.2
Appendix 2
#X en Z random g e k o z e n #Monte c a r l o s i m u l a t i e alphaX<−rep ( 0 , n ) alphaZ<−rep ( 0 , n ) thetaX<−rep ( 0 , n ) t h e t a Z<−rep ( 0 , n ) PY1X1<−rep ( 0 , n ) PY1X0<−rep ( 0 , n ) PY0X1<−rep ( 0 , n ) PY0X0<−rep ( 0 , n ) PY1Z1<−rep ( 0 , n ) PY1Z0<−rep ( 0 , n ) PY0Z1<−rep ( 0 , n ) PY0Z0<−rep ( 0 , n ) PC1Z1<−rep ( 0 , n ) PC1Z0<−rep ( 0 , n ) PC0Z1<−rep ( 0 , n ) PC0Z0<−rep ( 0 , n ) PCX11<−rep ( 0 , n ) PCX01<−rep ( 0 , n ) PCX10<−rep ( 0 , n ) PCX00<−rep ( 0 , n ) D=100 #S t e e k p r o e f van 25 mensen b e k i j k e n f or ( j i n 1 :D) { n <− 25 p <− 0 . 3 C00 <− rbinom ( n , 1 , p ) C10 <− rbinom ( n , 1 , p )
6.2. APPENDIX 2
q<− 0 . 7 C01 <− rbinom ( n , 1 , q ) C11 <− rbinom ( n , 1 , q ) u <− runif ( n ) v <− runif ( n ) X<−rep ( 0 , n ) Z<−rep ( 0 , n ) px <− 0 . 4 5 pz <− 0 . 7 for ( i i n 1 : n ) { i f ( u [ i ]
53
54
HOOFDSTUK 6. APPENDIX
PY0X1 [ j ] <− ( PC100∗PX1Z0+PC110∗PX1Z1) /PX1 PY0X0 [ j ] <− ( PC000∗PX0Z0+PC010∗PX0Z1) /PX0 #De b e r e k e n i n g e n van h e t c a u s a l e v e r b a n d t u s s e n roken en l e v e r a a n d o e n i n g : #P(C {xZ} = y ) PC1Z1 [ j ] <− PC101∗PZ0+PC111∗PZ1 PC0Z1 [ j ] <− PC001∗PZ0+PC011∗PZ1 PC1Z0 [ j ] <− PC100∗PZ0+PC110∗PZ1 PC0Z0 [ j ] <− PC000∗PZ0+PC010∗PZ1 # Causaal e f f e c t u i t r e k e n e n en de a s s o c i a t i e : thetaX [ j ] = PC1Z1 [ j ] − PC0Z1 [ j ] alphaX [ j ] = PY1X1 [ j ]−PY1X0 [ j ] #De b e r e k e n i n g e n van de c a u s a l e verba nden v oor d r i n k e n en l e v e r a a n d o e n i n g : #P(C {Xz}=y ) PCX11 [ j ] <− PC011∗PX0+PC111∗PX1 PCX01 [ j ] <− PC001∗PX0+PC101∗PX1 PCX10 [ j ] <− PC010∗PX0+PC110∗PX1 PCX00 [ j ] <− PC000∗PX0+PC100∗PX1 #P(Y=y | z=z ) PY1Z1 [ j ] <− PY1Z0 [ j ] <− PY0Z1 [ j ] <− PY0Z0 [ j ] <−
( PC011∗PX0Z1+PC111∗PX1Z1) /PZ1 ( PC001∗PX0Z0+PC101∗PX1Z0) /PZ0 ( PC010∗PX0Z1+PC110∗PX1Z1) /PZ1 ( PC000∗PX0Z0+PC100∗PX1Z0) /PZ0
#h e t c a u s a l e e f f e c t en de a s s o c i a t i e t h e t a Z [ j ] = PCX11 [ j ] − PCX01 [ j ] alphaZ [ j ] = PY1Z1 [ j ] − PY1Z0 [ j ] } x<−seq ( − 0 . 3 , 0 . 3 , 0 . 0 0 6 ) y<−x x2<−seq ( − 0 . 2 , 0 . 8 , 0 . 0 1 ) y2<−x2 #t h e t a X en a l p h a X t e g e n e l k a a r u i t g e z e t en ook t h e t a Z t e g e n a l p h a Z par ( mfrow=c ( 1 , 2 ) ) plot ( alphaX , thetaX , col= ’ b l u e ’ ) lines (x , y) plot ( alphaZ , thetaZ , col= ’ b l u e ’ ) l i n e s ( x2 , y2 ) aX tX tZ aZ
= = = =
mean( alphaX ) mean( thetaX ) mean( t h e t a Z ) mean( alphaZ )
Bibliografie [1] J. Berkson(1946): Limitations of the Application of Fourfold Table Analysis to Hospital Data, Biometrics Bulletin, Vol. 2, No. 3 (Jun., 1946), pp. 47-53 [2] S.A. Julious en M.A. Mullee(1994): 1994;309:1480
Confounding and Simpson’s Paradox, BMJ
[3] H.E. Kyburg en M. Thalos(2003): Probability is the very guide of life, Open Court [4] T. Nielsen(2007): Bayesian Networks and Decision Graphs, Springer [5] J. Pearl(2000): Causality, Cambridge University Press [6] J. Pearl(2009): Causal Inference in Statistics: An Overview, Statistics Surveys, Vol. 3, (sep., 2009), pp. 96-146 [7] J. Pearl(2002): Causal Inference in the Health Sciences: A Conceptual Introduction, Health Services and Outcomes Research Methodology, December 2001, Volume 2, Issue 3-4, pp 189-220 [8] T. Richardson: Causal Inference for High-dimensional http://www.stat.washington.edu/people/tsr/talks/high-dim-causal-learning.pdf
Data,
[9] L.A. R¨ umke(1970): Gevaren voor Onjuiste Conclusies uit Gegevens in Ziekenhuisarchieven, Ned Tijdschr Geneeskd. 1970;114:766-72 [10] C.H. Wagner(1982): Simpson’s Paradox in Real Life, The American Statistician, 36:1, 46-48 [11] L. Wasserman(2004): All of Statistics: A concise course in statistical inference, Springer
55