Faculteit Wetenschappen en Bio-ingenieurswetenschappen Vakgroep Wiskunde
Copula selectie: Vergelijken van methoden uit de literatuur Masterproef ingediend met het oog op het behalen van de graad van Master in de Wiskunde, afstudeerrichting Financi¨ele Wiskunde.
Lobke Van Impe Promotor:
MEI 2014
Prof. Dr. Ann De Schepper
Dankwoord Het voorbije jaar was er e´ e´ n van vallen en opstaan, ontgoocheling en voldoening. Informatie werd verzameld, papers werden gelezen, programma’s geschreven, losse snippers tot een geheel gekneed. Ik plakte, knipte, herlas, schrapte en herschikte. Eindelijk, het eindresultaat: een werk vol wiskundige termen en redeneringen, abstracte gegevens, ver van het dagdagelijkse leven. Toch vond ik het afgelopen jaar enorm veel steun bij mensen uit de praktijk en mijn naaste omgeving. Ik wil deze graag bedanken. Mijn bijzondere dank gaat uit naar mijn promotor, Prof. Dr. Ann De Schepper, voor het aanreiken van het onderwerp, het verstrekken van onontbeerlijke informatie, het kritisch evalueren van mijn teksten en de tips tot bijsturen. Velen hebben het afgelopen jaar wel eens gevraagd: “Hoe is het ermee? Vordert het een beetje?”. En ook al was het niet altijd eenvoudig om uit te leggen hoe het nu werkelijk zat, laat staan waar ik op dat moment mee bezig was, deze blijk van interesse door velen zorgde voor nieuwe brandstof om door te zetten. Graag wil ik mijn familie bedanken. In het bijzonder mijn ouders. Voor hun financi¨ele en morele steun tijdens moeilijke momenten en voor de kans die ik van hen kreeg om deze studies en dit werk te vervolmaken. Daarnaast wil ik ook mijn zus Nienke, broer Bram en diens vriendin Kirsten bedanken voor hun begrip voor het feit dat ik al eens afwezig was op familiefeestjes, omdat afwerken van deze masterproef prioriteit was. Dank ook aan Nub´e, de poes, voor de vele uren gezelschap, soms tot diep in de nacht. ‘Dikke merci’ aan al mijn vrienden voor de ontspanning tussen de inspanningen door en aan Annelies die ik steeds mocht bellen. Als allerlaatste wil ik graag mijn vriend Maarten bedanken. Met zijn wiskundige achtergrond was hij immers het ideale ‘slachtoffer’ voor het nalezen van mijn tekst. Hij was ook een enorme steun, hij liet me weer lachen als ik het moeilijk had en stond steeds voor me klaar. Niets was hem teveel, een hart van goud, daarom dus wil ik hem bedanken in het honderdvoud! i
Inhoudsopgave Dankwoord
i
Inhoudsopgave
ii
Samenvatting
vi
Abstract
ix
Lijst van figuren
xi
Lijst van tabellen
xiii
Inleiding
1
I
Algemene theorie
4
1
Copula’s 1.1 Bivariate copula’s . . . . . . . . . 1.1.1 Fr´echet-Ho¨effding grenzen 1.1.2 Theorema van Sklar . . . 1.2 Multivariate copula’s . . . . . . . 1.2.1 Fr´echet-Ho¨effding grenzen 1.2.2 Theorema van Sklar . . . 1.3 Copula families . . . . . . . . . . 1.3.1 Speciale copula’s . . . . . 1.3.2 Mixtures van copula’s . . 1.3.3 Elliptische copula’s . . . . 1.3.4 Archimedische copula’s .
2
. . . . . . . . . . .
5 6 9 10 12 14 15 16 16 16 17 18
Afhankelijkheidsmaten 2.1 Pearson correlatieco¨effici¨ent . . . . . . . . . . . . . . . . . . . . . . .
22 22
ii
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
iii
Inhoudsopgave 2.2 2.3 2.4 3
II
Spearman’s rho . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Kendall’s tau . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Staartafhankelijkheid . . . . . . . . . . . . . . . . . . . . . . . . . . .
Simulatiemethoden 3.1 De conditionele simulatiemethode . . . 3.2 Simuleren uit een Gaussische copula . . 3.3 Simuleren uit een Student-t copula . . . 3.4 Simuleren uit een archimedische copula
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
Copula selectiemethoden
23 24 27 32 32 33 34 35
37
4
Algemeenheden van de copula selectiemethoden 4.1 Mini-dataset . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2 Dataset ‘30 aansprakelijkheidsvorderingen’ . . . . . . . . . . . . . . . 4.3 Verzameling van onderzochte copula’s . . . . . . . . . . . . . . . . . .
38 38 39 40
5
Copula selectie met behulp van Spearman’s rho of Kendall’s tau 5.1 Afhankelijkheid en ranken . . . . . . . . . . . . . . . . . . . 5.2 Afhankelijkheid schatten . . . . . . . . . . . . . . . . . . . . 5.2.1 Empirische versie van Pearson correlatieco¨effici¨ent . . 5.2.2 Empirische versie Spearman’s rho . . . . . . . . . . . 5.2.3 Empirische versie Kendall’s tau . . . . . . . . . . . . 5.3 Schatten van de copula parameter . . . . . . . . . . . . . . . 5.3.1 Kendall’s tau-gebaseerde schatter . . . . . . . . . . . 5.3.2 Spearman’s rho-gebaseerde schatter . . . . . . . . . . 5.3.3 Maximum pseudolikelihood schatter . . . . . . . . . . 5.4 Conclusie voor simulatie . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . .
42 43 46 46 47 48 50 51 52 54 55
. . . . . .
57 57 58 59 60 61 63
Copula selectie met behulp van K-plots 7.1 Constructie van een K-plot . . . . . . . . . . . . . . . . . . . . . . . . 7.1.1 QQ-plots . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
65 65 65
6
7
Copula selectie met behulp van chi-plots 6.1 Chi-plots . . . . . . . . . . . . . . 6.1.1 Bespreking χ . . . . . . . . 6.1.2 Bespreking λ . . . . . . . . 6.2 Interpretatie van een chi-plot . . . . 6.3 Voorbeelden van chi-plots . . . . . 6.4 Conclusie voor simulatie . . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . . . . . .
. . . . . .
. . . . . . . . . .
. . . . . .
. . . . . . . . . .
. . . . . .
. . . . . . . . . .
. . . . . .
iv
Inhoudsopgave
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
66 67 69 70 71 73 74
Copula selectie met behulp van statistische testen, Goodness-of-fit 8.1 Algemeen kader van GOF-testen bij copula’s . . . . . . . . . . 8.2 Goodness-of-fit test . . . . . . . . . . . . . . . . . . . . . . . . 8.2.1 Eigenschappen van de teststatistiek Sn . . . . . . . . . . 8.3 Parametrische bootstrap . . . . . . . . . . . . . . . . . . . . . . 8.4 Conclusie voor simulatie . . . . . . . . . . . . . . . . . . . . .
. . . . .
. . . . .
. . . . .
. . . . .
76 77 78 79 79 81
7.2 7.3 7.4 7.5 8
III 9
7.1.2 Interpretatie van een QQ-plot 7.1.3 K-plots . . . . . . . . . . . . 7.1.4 Link met Kendall’s tau . . . . Interpretatie van een K-plot . . . . . . Voorbeelden van K-plots . . . . . . . Uitbreiding naar meerdere dimensies . Conclusie voor simulatie . . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
Simulaties
83
Algemeenheden van de simulaties 9.1 Algemene werkwijze van de schattingsmethode voor het empirisch onderzoek . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9.2 Data met ‘ties’ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
10 Een verzekeringsmaatschappij en zijn vergoedingen/kosten, dataset 10.1 Dataset ‘Frees en Valdez’ . . . . . . . . . . . . . . . . . . . . . . 10.2 Selectie gebaseerd op Kendall’s tau . . . . . . . . . . . . . . . . . 10.3 Selectie gebaseerd op chi-plots . . . . . . . . . . . . . . . . . . . 10.4 Selectie gebaseerd op K-plots . . . . . . . . . . . . . . . . . . . . 10.5 Goodness-of-fit test . . . . . . . . . . . . . . . . . . . . . . . . . 10.5.1 Illustratie werking ‘random’ methode voor de ties . . . . . 10.6 Conclusie simulatie - vergelijkende studie . . . . . . . . . . . . . 11 Een autoverzekeringsmaatschappij en zijn schadevordering, dataset 11.1 Dataset ‘De Jong en Heller’ . . . . . . . . . . . . . . . . . . . . . 11.2 Selectie gebaseerd op Kendall’s tau . . . . . . . . . . . . . . . . . 11.2.1 Jonge chauffeurs . . . . . . . . . . . . . . . . . . . . . . 11.2.2 Oude chauffeurs . . . . . . . . . . . . . . . . . . . . . . 11.3 Selectie gebaseerd op chi-plots . . . . . . . . . . . . . . . . . . . 11.3.1 Jonge chauffeurs . . . . . . . . . . . . . . . . . . . . . . 11.3.2 Oude chauffeurs . . . . . . . . . . . . . . . . . . . . . . 11.4 Selectie gebaseerd op K-plots . . . . . . . . . . . . . . . . . . . .
. . . . . . .
. . . . . . . .
. . . . . . .
. . . . . . . .
84 85 86
. . . . . . .
87 87 88 92 92 93 94 95
. . . . . . . .
102 102 103 103 104 105 105 106 107
v
Inhoudsopgave
11.4.1 Jonge chauffeurs . . . . . . . . . 11.4.2 Oude chauffeurs . . . . . . . . . 11.5 Goodness-of-fit test . . . . . . . . . . . . 11.5.1 Jonge chauffeurs . . . . . . . . . 11.5.2 Oude chauffeurs . . . . . . . . . 11.6 Conclusie simulatie - vergelijkende studie
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
107 107 108 108 109 109
Conclusie
120
Bibliografie
123
Index
127
A Univariate verdelingen A.1 Normale verdeling . . A.2 Gamma verdeling . . . A.3 Chikwadraat verdeling A.4 Student-t verdeling . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
128 128 128 129 129
B Overzicht van de copula families 131 B.1 Copula, generator en copulaparameter . . . . . . . . . . . . . . . . . . 131 B.2 Afhankelijkheidsmaten . . . . . . . . . . . . . . . . . . . . . . . . . . 131 C Simulatiemethoden 133 C.1 De conditionele simulatiemethode . . . . . . . . . . . . . . . . . . . . 133 C.2 Simulatie uit een Gaussische copula . . . . . . . . . . . . . . . . . . . 134 C.3 Simulatie uit een archimedische copula . . . . . . . . . . . . . . . . . 135 D Chi-plots en K-plots D.1 Onafhankelijke data . . . . . . . . . . . . . . . . . . . . . . . . . . . . D.2 Positief afhankelijke data . . . . . . . . . . . . . . . . . . . . . . . . . D.3 Negatief afhankelijke data . . . . . . . . . . . . . . . . . . . . . . . .
136 136 136 137
E Dataset ‘Frees en Valdez’ 139 E.1 Oplossingsmethoden voor ties in de data . . . . . . . . . . . . . . . . . 139
Samenvatting Het modelleren van de afhankelijkheid is van essentieel belang in de actuari¨ele wetenschap en het risk management. Zo is het voor de risicomanagers van vandaag onder meer een niet te missen hulpmiddel bij de constructie van portefeuilles. Een ongepast model voor de afhankelijkheid zou namelijk kunnen leiden tot niet optimale portefeuilles en onnauwkeurige of zelfs geheel foutieve evaluaties van de risicoposities, met alle gevolgen van dien. Traditioneel werd de correlatie gebruikt voor het beschrijven van de afhankelijkheid tussen toevalsvariabelen, echter zijn copula’s een veel sterker instrument voor het modelleren van zulke afhankelijkheden. Zo bieden copula’s aan de risicomanagers, in vergelijking met de correlatie aanpak, een veel krachtiger hulpmiddel voor het modelleren van de afhankelijkheid tussen de verschillende elementen van een portefeuille. In deze masterproef hebben wij verschillende methoden van copula selectie behandeld en onderzocht, waarbij we hoofdzakelijk de focus gelegd hebben op grafische methoden. Hierbij zijn we begonnen met een relatief eenvoudige selectiemethode en werd er zo opgebouwd naar veel complexere methoden. Vier, waarvan drie grafische, van de in deze masterproef beschreven copula selectiemethoden werden vervolgens in R ge¨ımplementeerd, waarna de werking van deze methoden werd getest en vergeleken door middel van een simulatiestudie met verschillende datasets. De meest eenvoudige methoden die onderzocht werden, en tevens de bouwstenen vormen voor de overige selectiemethoden, zijn de copula selectiemethoden gebaseerd op de schaal-invariante afhankelijkheidsmaten Spearman’s rho en Kendall’s tau. Bij deze methoden worden de copula parameters geschat aan de hand van de empirische versie van ofwel Spearman’s rho ofwel Kendall’s tau. Na data gegenereerd te hebben uit iedere te onderzoeken copula kan men vervolgens scatterplots van deze data gaan construeren. Deze scatterplots dienen dan vergeleken te worden met de scatterplot van de ranken van de gegeven dataset, dit is de dataset waarvan we de afhankelijkheidsstructuur wensen te bepalen en willen modelleren met behulp van een geschikte copula. De methode gebaseerd op Kendall’s tau bleek in de praktijk veel effici¨enter en makkelijker in gebruik te zijn dan de Spearman’s rho tegenhanger, maar was ook niet geheel toereikend. Daarom vi
Samenvatting
vii
werd deze selectiemethode uitgebreid door de copula selectiemethode gebaseerd op chiplots. Bij de copula selectiemethode gebaseerd op chi-plots worden niet alleen de scatterplots uit vorige methode geconstrueerd. Bijkomstig worden hier ook chi-plots gemaakt van iedere te onderzoeken copula en de gegeven dataset, waaruit duidelijker te zien is of er positieve, al dan negatieve afhankelijkheid is tussen de verschillende variabelen. Hierdoor kunnen conclusies met grotere zekerheid getrokken worden, er wordt immers beroep gedaan op niet e´ e´ n, maar twee scatterplots. Ondanks het feit dat op basis van chi-plots veel sterkere beslissingen genomen kunnen worden, vertoont deze methode ook enkele tekortkomingen. Zo is de methode niet uit te breiden naar meerdere dimensies en kan er uit een chi-plot weinig tot geen informatie gehaald worden van wat de staartafhankelijkheden betreffen. Om deze problemen te voorkomen, werd een nieuwe, verbeterde selectiemethode ingevoerd, met name de methode gebaseerd op K-plots. Bij deze methode worden conclusies, net als bij de chi-plot methode, genomen op basis van twee scatterplots, waarbij de tweede scatterplot ditmaal een K-plot is. Buiten het feit dat een K-plot de tekortkomingen van een chi-plot oplost, bleek uit de simulatiestudie bovendien dat het met deze methode mogelijk is om zeer kleine afhankelijkheden waar te nemen, terwijl dit met de methode van de chi-plots praktisch onmogelijk is. In deze masterproef werd, met de copula selectie gebaseerd op een statistische test, ook een niet grafische copula selectiemethode beschreven. Bij deze methode worden conclusies dan ook niet aan de hand van grafische eigenschappen genomen, maar wordt dit gedaan met behulp van p-waarden behorend bij de teststatistiek. Deze methode van copula selectie kan op twee manieren gebruikt worden. Allereerst als een op zichzelf staande methode, door voor elke van de beschouwde copula’s de bijhorende p-waarde te berekenen. Anderzijds kan deze selectiemethode ook gebruikt worden om te controleren of een copula, die naar voren kwam via een grafische selectiemethode, al dan niet ook aanvaardbaar is. In de praktijk wordt deze methode, door het vergen van veel tijd om e´ e´ n test uit te voeren, echter voornamelijk volgens de tweede opgesomde manier gebruikt. Na grondig onderzoekt blijkt dat grafische selectiemethoden steeds de beste der beschouwde copula’s naar voren brengt, maar ook dat dit geen garantie geeft over het feit of deze copula wel goed genoeg is om aanvaard te worden. Hierdoor blijft het uitvoeren van een goodness-of-fit test op de door de grafische methoden geselecteerde beste copula dus noodzakelijk. Echter is hiermee wel het nut bewezen van grafische selectiemethoden. Want door het feit dat grafische selectiemethoden steeds een beste onder de beschouwde copula’s naar voren brengen, kan er in de praktijk veel tijd bespaard worden. Zo hoeft men niet op iedere copula steeds een tijdrovende test gaan uit te voeren,
Samenvatting
viii
maar kan men eerst een selectie gaan maken met behulp van grafische selectiemethoden, om dan uiteindelijk door middel van een goodness-of-fit test te gaan bepalen welke van de nog overblijvende copula’s nu diegene is met de beste fit. In het geval waar geen enkele van de beschouwde copula’s goed genoeg blijkt te zijn voor het modelleren van de afhankelijkheid tussen de onderzochte variabelen, moet er op zoek gegaan worden naar een andere copula die beter/wel geschikt is. Dit kan onder meer door zelf een copula te cre¨eren aan de hand van transformaties, alsook door het uitbreiden van de verzameling van onderzochte copula’s.
Abstract Dependence modelling is essential to the actuarial sciences and risk management. Risk managers of today cannot work without this tool for the construction of portfolios. An inappropriate model of dependence could potentially lead to dysfunctional portfolios and inaccurate or completely false evaluations of the risk positions, with all the consequences that may entail. Traditionally, the correlation was used to describe dependence between random variables. However, copulas are a much stronger tool for dependence modelling. In comparison to the correlation, copulas offer a much more powerful tool to risk managers for dependence modelling between the various elements of a portfolio. In this thesis, we treated and researched various methods of copula selection, with our primary focus on graphical methods. To do this, we started with a relatively simple selection method and built up towards more complex methods. Then four, of which three graphical, of the described copula selection methods were implemented in R. After this, the function of these methods was tested and compared through the use of a simulation study with different datasets. The most simple methods that were researched are the copula selection methods based on the scale-invariant dependence measures Spearman’s rho and Kendall’s tau. These simple methods also formed the building blocks for the remaining selection methods. In these methods, the copula parameters are estimated based on the empirical version of either Spearman’s rho or Kendall’s tau. After data has been generated from each considered copula, scatterplots can be constructed using this data. Subsequently, these scatterplots should be compared to the scatterplot of the ranks of the given dataset. From this dataset, we want to determine the dependency structure and model it by using a suitable copula. In comparison to the Spearman’s rho method, we found the method based on Kendall’s tau to be much more efficient and easier to apply in practice, though not entirely sufficient. This selection method has been expanded by the copula selection method based on chi-plots for the above-mentioned reasons. The scatterplots constructed in the previous method are also constructed with the copula selection method based on chi-plots. Additionally, chi-plots are also made from ix
Abstract
x
each considered copula and the given dataset. These chi-plots make seeing whether there is a positive or a negative dependence between the different variables clearer. This allows for conclusions with greater certainty. After all, there is use of not only one, but two scatterplots. Despite the fact that based on chi-plots we have the ability to make stronger decisions, this method still leaves something to be desired. For example, the method is non-expendable towards multiple dimensions and very little to no information can be drawn from chi-plots concerning tail dependencies. To avoid these issues, a new and improved selection method was introduced; namely, the selection method based on K-plots. Similar to the chi-plot method, conclusions are drawn in this method using two scatterplots, where the second plot is a K-plot. Not only does the K-plot resolve the issues from the chi-plot method, but the simulation study also showed that, in this method, very small dependencies become observable. A non-graphical copula selection method is also described in this thesis, with the copula selection based on a statistical test. In this method, conclusions are not drawn from graphical properties; rather, they are made using the p-values belonging to the test statistic. This method of copula selection can be used in two possible ways. First, as a stand-alone method, by calculating the belonging p-value for each of the considered copulas. On the other hand, this selection method can also be used to check whether a copula, which has come forth using a graphical method, is or is not acceptable. Though, in practice, this method is primarily used according to the second manner due to the considerable amount of time that is required to perform just one test. After conducting extensive research, it appears that graphical selection methods always select the best out of the considered copulas. Yet this is not always a guarantee that this best copula is good enough to be acceptable. This is why conducting a goodnessof-fit test on the by graphical selection methods selected best copula is of necessary importance. However, the utility of graphical selection methods has been proven by this, particularly because they save so much time in practice. For example, there is no need to always conduct a time-consuming statistical test since a selection can be made first by using graphical selection methods, to then finally determine which of the remaining copulas is the one that fits best by using a goodness-of-fit test. In case none of the considered copulas appears to be good enough to model the dependence between the examined variables, another copula that is (more) suitable must be found. This can be done, for example, by creating new copulas based on transformations, as well as by expanding the collection of considered copulas.
Lijst van figuren 5.1.1 Scatterplots van de (getransformeerde) mini-dataset . . . . . . . . . . . 5.1.2 Scatterplots van de ranken van de (getransformeerde) mini-dataset . . .
44 46
6.3.1 Chi-plot van de mini-dataset . . . . . . . . . . . . . . . . . . . . . . . 6.3.2 Chi-plot van dataset ‘30 aansprakelijkheidsvorderingen’ . . . . . . . . .
62 63
7.1.1 Voorbeelden van QQ-plots . . . . . . . . . . . . . . . . . . . . . . . . 7.3.1 K-plot van de mini-dataset . . . . . . . . . . . . . . . . . . . . . . . . 7.3.2 K-plot van dataset ‘30 aansprakelijkheidsvorderingen’ . . . . . . . . .
67 71 72
10.1.1Scatterplot van de ‘Frees en Valdez’ dataset . . . . . . . . . . 10.2.1Frees en Valdez pseudo-observaties . . . . . . . . . . . . . . 10.2.2Copula’s van Kendall’s tau selectiemethode voor de Frees en dataset . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10.3.1Chi-plot van de Frees en Valdez dataset . . . . . . . . . . . . 10.3.2Chi-plots van de copula’s voor de Frees en Valdez dataset . . . 10.4.1K-plot van de Frees en Valdez dataset . . . . . . . . . . . . . 10.4.2K-plots van de copula’s voor de Frees en Valdez dataset . . . .
. . . . . 89 . . . . . 90 Valdez . . . . . 97 . . . . . 98 . . . . . 99 . . . . . 100 . . . . . 101
11.2.1De Jong en Heller pseudo-observaties . . . . . . . . . . . . . . . . . . 11.2.2Copula’s van Kendall’s tau selectiemethode voor de jonge chauffeurs van De Jong en Heller dataset . . . . . . . . . . . . . . . . . . . . . . . 11.2.3Copula’s van Kendall’s tau selectiemethode voor de oude chauffeurs van De Jong en Heller dataset . . . . . . . . . . . . . . . . . . . . . . . . . 11.3.1Chi-plots van de De Jong en Feller dataset . . . . . . . . . . . . . . . . 11.3.2Selectie copula’s van chi-plot selectiemethode voor jonge chauffeurs van De Jong en Heller dataset . . . . . . . . . . . . . . . . . . . . . . . 11.3.3Selectie copula’s van chi-plot selectiemethode voor oude chauffeurs van De Jong en Heller dataset . . . . . . . . . . . . . . . . . . . . . . . . . 11.4.1K-plots van de De Jong en Feller dataset . . . . . . . . . . . . . . . . . 11.4.2Selectie copula’s van K-plot selectiemethode voor jonge chauffeurs van De Jong en Heller dataset . . . . . . . . . . . . . . . . . . . . . . . . . xi
105 112 113 114 115 116 117 118
Lijst van figuren
xii
11.4.3Selectie copula’s van K-plot selectiemethode voor oude chauffeurs van De Jong en Heller dataset . . . . . . . . . . . . . . . . . . . . . . . . . 119 D.1.1Scatter-, chi- en K-plot van onafhankelijke data . . . . . . . . . . . . . 136 D.2.1Scatter-, chi- en K-plot van positief afhankelijke data . . . . . . . . . . 137 D.3.1Scatter-, chi- en K-plot van negatief afhankelijke data . . . . . . . . . . 138 E.1.1 Frees en Valdez pseudo-observaties voor de verschillende methoden . . 140
Lijst van tabellen 4.1.1 Mini-dataset van 6 onafhankelijke trekkingen . . . . . . . . . . . . . . 4.2.1 Dataset ‘30 aansprakelijkheidsvorderingen’ . . . . . . . . . . . . . . .
39 40
5.1.1 Gerankte mini-dataset . . . . . . . . . . . . . . . . . . . . . . . . . . .
45
6.1.1 Kwadranten bij de constructie van een chi-plot . . . . . . . . . . . . . . 6.3.1 Grootheden voor chi-plot van mini-dataset . . . . . . . . . . . . . . . .
59 61
7.3.1 Grootheden voor K-plot van mini-dataset . . . . . . . . . . . . . . . .
71
9.2.1 Voorbeeld van de verschillende rankmethoden . . . . . . . . . . . . . .
86
10.1.1Dataset ‘Frees en Valdez’ . . . . . . . . . . . . . . . . . . . . . . . . . 10.2.1Schattingen van de copula parameters voor dataset Frees en Valdez . . . 10.5.1Goodness-of-fit dataset Frees en Valdez . . . . . . . . . . . . . . . . . 10.5.2Gemiddelde resultaten van 5 goodness-of-fit testen op de data van Frees en Valdez . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
88 91 93 94
11.1.1Variabelen dataset De Jong en Heller . . . . . . . . . . . . . . . . . . . 103 11.2.1Schattingen van de copula parameters voor dataset van De Jong en Heller 104 11.5.1Goodness-of-fit dataset De Jong en Heller . . . . . . . . . . . . . . . . 108 B.1.1 Overzicht van de copula families . . . . . . . . . . . . . . . . . . . . . 131 B.2.1 Overzicht van de afhankelijkheidsmaten Spearman’s rho en Kandall’s tau van de copula families . . . . . . . . . . . . . . . . . . . . . . . . 132 B.2.2 Overzicht van de afhankelijkheidsmaten van de copula families . . . . . 132
xiii
Inleiding Het modelleren van de afhankelijkheid heeft vele succesvolle toepassingen in de actuari¨ele wetenschap en survivalanalyse, bovendien is het van essentieel belang voor de constructie van portefeuilles en risk management. Een ongepast model voor de afhankelijkheid zou namelijk kunnen leiden tot niet optimale portefeuilles en onnauwkeurige evaluaties van de risicoposities, met alle gevolgen van dien. Zo is het bijvoorbeeld niet moeilijk om in te zien dat het voor een autoverzekeringsmaatschappij belangrijk is om de afhankelijkheid te kennen tussen de waarde van de auto’s die het verzekert en de hoogte van de schadeclaims die hieruit voortvloeien. Traditioneel werd de correlatie gebruikt voor het beschrijven van de afhankelijkheid tussen toevalsvariabelen, echter zijn copula’s een veel sterker instrument voor het modelleren van zulke afhankelijkheden. Zo bieden copula’s aan de risicomanagers, in vergelijking met de correlatie aanpak, een veel krachtiger hulpmiddel voor het modelleren van de afhankelijkheid tussen de verschillende elementen van een portefeuille. Dit onder meer omdat ze een veel grotere flexibiliteit hebben. De superioriteit van deze tweede aanpak werd in de literatuur onder meer vastgesteld met recente studies, zoals bijvoorbeeld deze beschreven in [20]. Het enige nadeel is echter dat het niet altijd even triviaal is om op een snelle, maar stabiele manier een juiste copula te selecteren. In deze masterproef zullen wij dan ook een studie maken over verschillende, reeds bestaande, methoden van copula modelling. Hierbij zullen voornamelijk grafische/visuele copula selectiemethoden aan bod komen, daar deze veel sneller werken dan de theoretische methoden, maar zal ook een theoretische selectiemethode behandeld worden. Bovendien zullen we, via een simulatiestudie, ook trachten deze verschillende selectiemethoden toe te passen op gegeven datasets. Via deze simulatiestudie zullen we ook testen of grafische selectiemethoden bruikbaar zijn om copula’s te selecteren bij een gegeven dataset. Zo gaan we, met behulp van de theoretische selectiemethode, na of de grafische methoden effectief de beste copula naar voren schuiven. Met andere woorden, het opzet van deze masterproef bestaat erin om methoden te onderzoeken/construeren hoe je een copula model kan kiezen voor de beschrijving van de afhankelijkheid in een gegeven dataset. Alsook wat meer uitleg te geven over hoe deze 1
Inleiding
2
verschillende methoden precies in zijn werk gaan, hoe ze gebruikt en ge¨ınterpreteerd moeten worden, wat hun voor- een nadelen zijn ten opzichte van elkaar,... Ook bestaat ons doel erin het nut aan te tonen van grafische copula selectiemethoden; Zijn ze bruikbaar/betrouwbaar? Duiden zij steeds een beste onder de beschouwde copula’s naar voren?,...
Om zo gestructureerd mogelijk te kunnen werken, deelden we dit werkstuk op in drie delen, zijnde: • Deel I: Algemene theorie, • Deel II: Copula selectiemethoden, • Deel III: Simulaties. Het eerste deel omvat Hoofdstukken 1-3, waarin de algemene theorie van copula’s beschreven wordt. Dit deel kan gezien worden als algemeen overkoepelend materiaal. Vervolgens worden in het tweede deel alle behandelde copula selectiemethoden beschreven en uitgewerkt om tot slot in deel drie tot een simulatiestudie te komen van de in Deel II beschreven copula selectiemethoden op twee verschillende datasets. In Deel II en Deel III worden respectievelijk de Hoofdstukken 4-8 en Hoofdstukken 9-11 behandeld.
In Hoofdstuk 1 wordt het begrip copula ge¨ıntroduceerd, alsook enkele andere, in de context van copula’s, niet weg te denken begrippen en stellingen, zoals bijvoorbeeld het theorema van Sklar. Eerst wordt dit in het geval gedaan waarop we in dit werkstuk de focus zullen leggen, het twee-dimensionale geval. Daarna, voor de volledigheid, ook in het meerdimensionale geval. Op het einde van dit eerste hoofdstuk worden ook verschillende copula families besproken. Dit eerste hoofdstuk werd voornamelijk gebaseerd op [10], [12], [37] en [47]. Verwijzingen naar andere specifiek geraadpleegde werken werden telkens in de tekst zelf opgenomen. Het tweede hoofdstuk werd dan weer voornamelijk gebaseerd op [10], [12] en [47], en behandelt verschillende afhankelijkheidsmaten. Zo worden in dit hoofdstuk de Pearson correlatieco¨effici¨ent, Spearman’s rho en Kendall’s tau, alsook de staartafhankelijkheden van een copula beschreven en uitgewerkt met enkele voorbeelden. In het laatste hoofdstuk van Deel I, Hoofdstuk 3, worden verschillende manieren beschreven hoe er data gesimuleerd kan worden uit een copula. Hiervoor werden onder meer de werken [1], [10], [17] en [18] geraadpleegd. Deel II beginnen we met Hoofdstuk 4 waarin enkele algemeenheden van de verschillende copula selectiemethoden opgesomd worden. Vervolgens worden in dit tweede
Inleiding
3
deel eerst de grafische copula selectiemethoden beschreven, om te beginnen de selectiemethoden gebaseerd op Spearman’s rho en Kendall’s tau in Hoofdstuk 5. Dit hoofdstuk werd voornamelijk gebaseerd op [28]. Twee andere grafische selectiemethoden, die de methoden van Hoofdstuk 5 uitbreiden, worden beschreven in Hoofdstuk 6, ‘Copula selectie gebaseerd op chi-plots’ en Hoofdstuk 7, ‘Copula selectie gebaseerd op K-plots’. De selectiemethode gebaseerd op K-plots kan gezien worden als een verbetering van de methode gebaseerd op chi-plots. Deze twee hoofdstukken kwamen tot stand met behulp van [23] en vervolg [24], alsook met behulp van [27] en [28]. Daar besluitvorming uitsluitend gebaseerd op grafische/visuele eigenschappen gevaarlijk kan zijn, wordt in Hoofdstuk 8 een methode beschreven die gebaseerd is op een test, meer bepaald een goodness-of-fit test. Bij zulke selectiemethoden worden conclusies dus niet getrokken aan de hand van grafische eigenschappen, maar met behulp van p-waarden. Deze copula selectiemethode kwam tot stand met behulp van [31] en [32] en is de laatste methode die we beschouwen, Hoofdstuk 8 sluit bijgevolg Deel II van dit werkstuk af. Deel III beginnen we met Hoofdstuk 9 waarin algemene zaken van de uitgevoerde simulatiestudie beschreven worden. Zo wordt in dit hoofdstuk onder andere uitgelegd hoe er omgegaan dient te worden met ties in de data. In de daaropvolgende twee hoofdstukken worden de copula selectiemethoden beschreven in Deel II toegepast op twee verschillende datasets. Zo wordt in Hoofdstuk 10 de dataset van Frees en Valdez [25] behandeld, terwijl in Hoofdstuk 11 de dataset van De Jong en Heller [9] aan bod komt.
Tot slot van deze inleiding merken we nog op dat we alle figuren in deze masterproef zelf gegenereerd hebben met computerprogramma R. Alsook dat de hele simulatiestudie in Deel III met behulp van deze software uitgevoerd werd. Dit alles door middel van deels beschikbare, maar vooral zelf geschreven programma’s.
Deel I Algemene theorie
4
Hoofdstuk 1 Copula’s We beschouwen de stochastische variabelen X1 , . . . , Xn met respectievelijke verdelingsfuncties FX1 (x1 ) = P [X1 ≤ x1 ] , . . . , FXn (xn ) = P [Xn ≤ xn ] en gezamenlijke verdelingsfunctie H(x1 , . . . , xn ) = P [X1 ≤ x1 , . . . , Xn ≤ xn ]. Met de re¨ele getallen (x1 , . . . , xn ) kunnen er dus n + 1 getallen geassocieerd worden, namelijk FX1 (x1 ), . . . , FXn (xn ) en H(x1 , . . . , xn ). Elk van deze n+1 getallen bevindt zich in het interval [0, 1]. Er geldt dus dat er met de re¨ele getallen (x1 , . . . , xn ) een punt (FX1 (x1 ), . . . , FXn (xn )) correspondeert op de eenheids n-box [0, 1]n , dat op zijn beurt dan weer correspondeert met een getal H(x1 , . . . , xn ) in het interval [0, 1]. In dit eerste hoofdstuk zullen we aantonen dat deze correspondentie, die de waarde van de gezamenlijke verdelingsfunctie H(x1 , . . . , xn ) verbindt met de waarden van de marginale verdelingsfuncties FX1 (x1 ), . . . , FXn (xn ) een functie is, namelijk de copula functie. We tonen dit eerst aan in het geval waarop deze masterproef zal gefocust worden, zijnde het 2-dimensionale geval. Echter, voor de volledigheid, breiden we deze algemene copula theorie in Sectie 1.2 verder uit naar hogere dimensies. Zoals net vermeld, ligt de focus in deze masterproef op het bivariate model. Zo worden de copula selectiemethoden in Deel II beschreven in twee dimensies en worden de simulaties in Deel III gedaan voor bivariate datasets. Echter, laat een grondige studie van modellering in het bivariate geval uitstekend toe om multivariate problemen op te lossen. Dit daar er een mogelijkheid is om met behulp van 2-dimensionale copula modellen meer dimensionale structuren te gaan bekijken. Zo wordt de generalisatie van bivariate copula’s naar multivariate copula’s gedaan met behulp van vine-copula, ook wel pair-copula genoemd. We gaan hier verder niet op in, maar het basis idee achter de pair-copula-constructie is het ontleden van een verdelingsfunctie in eenvoudige bivariate bouwstenen, waar de bivariate bouwstenen 2-dimensionale copula’s zijn. Meer informatie omtrent pair-copula kan gevonden worden in [2], [8] en [41]. Op deze manier, met behulp van pair-copula, kan het modelleren van een multivariate afhankelijkheid dus aangepakt worden door middel van bivariate modellering. Zo kan 5
Hoofdstuk 1. Copula’s
6
men de afhankelijkheid van grote datasets in de praktijk, die vaak meerdimensionaal zijn, zonder problemen door middel van de methoden in Deel II van deze masterproef gaan modelleren. Bovendien is werken met bivariate copula modellen in combinatie met pair-copula structuren veel flexibeler dan rechtstreeks te werken met een multivariaat model. Bovenstaande argumentatie motiveert waarom een studie van het bivariate geval cruciaal is, tevens voor het beschrijven van meerdimensionale afhankelijkheden. Om al deze redenen hebben wij ons daarom in deze masterproef gefocust op het 2dimensionale geval. De belangrijkste definities, stellingen en eigenschappen van copula’s worden in Sectie 1.1 en Sectie 1.2 gegeven voor respectievelijk het bivariate en multivariate geval. Voor verdere resultaten wordt er doorverwezen naar [47], het boek waarop deze secties hoofdzakelijk gebaseerd werden. Verder in dit hoofdstuk worden in Sectie 1.3 ook nog verschillende copula families besproken.
1.1
Bivariate copula’s
Allereerst dienen we enkele notaties te introduceren. Doorheen deze masterproef bedoelen we met R het re¨ele interval ]−∞, +∞[, met R de uitbreiding [−∞, +∞] en met 2 2 R het uitgebreide re¨ele vlak R × R. Een rechthoek in R is het Cartesisch product B van twee gesloten intervallen [x1 , x2 ] , [y1 , y2 ] deel van R, of dus B = [x1 , x2 ] × [y1 , y2 ]. De hoekpunten van rechthoek B zijn de punten (x1 , y1 ), (x2 , y1 ), (x1 , y2 ) en (x2 , y2 ). 2 Het eenheidsvlak I2 deel van R is het Cartesisch product van I met zichzelf, waarbij I het gesloten interval [0, 1]. Men noemt een functie H een 2-plaats re¨ele functie als haar domein, DomH, een deel2 verzameling is van R en haar bereik, RanH, een deelverzameling van R is. Definitie 1.1.1 Zij S1 , S2 niet lege deelverzamelingen van R en H een 2-plaats re¨ele functie zodat DomH = S1 × S2 . Stel verder B = [x1 , x2 ] × [y1 , y2 ] een rechthoek met alle hoekpunten in het domein van H. Dan wordt het H-volume van B gegeven door VH (B) = H(x1 , y1 ) − H(x2 , y1 ) − H(x1 , y2 ) + H(x2 , y2 ). Definitie 1.1.2 Een 2-plaats re¨ele functie H is 2-stijgend als voor alle rechthoeken B 2 in R met alle hoekpunten in DomH geldt dat VH (B) ≥ 0. Merk op dat het statement ’H is niet dalend in beide argumenten’ niet impliceert dat H 2-stijgend is. Stel bijvoorbeeld H de functie op I2 gedefinieerd door H(x, y) = max(x, y). Dan is H een niet dalende functie in x en y, hoewel VH (I2 ) = −1 of dus
Hoofdstuk 1. Copula’s
7
H niet 2-stijgend. Ook de omgekeerde implicatie ’H is 2-stijgend’ en dus bijgevolg ’H is niet dalend in beide argumenten’ geldt niet. Neem als tegenvoorbeeld H = (2x − 1)(2y − 1) functie op I2 . Dan is H 2-stijgend, maar H een dalende functie van x voor elke y ∈ ]0, 1/2[ alsook een dalende functie van y voor elke x ∈ ]0, 1/2[. De laatste implicatie wordt wel geldig indien we aan functie H een extra voorwaarde opleggen, zie Lemma 1.1.4. Lemma 1.1.3 Zij S1 en S2 niet lege deelverzamelingen van R en H een 2-stijgende functie met DomH = S1 × S2 . Stel x1 , x2 ∈ S1 met x1 ≤ x2 en y1 , y2 ∈ S2 met y1 ≤ y2 . Dan is de functie t 7→ H(t, y2 ) − H(t, y1 ) niet dalend op S1 en de functie t 7→ H(x2 , t) − H(x1 , t) niet dalend op S2 . Bewijs. Stellen we B = [x1 , x2 ] × [y1 , y2 ], dan is B een rechthoek met hoekpunten in DomH. Gezien H 2-stijgend geldt er VH (B) = H(x1 , y1 ) − H(x2 , y1 ) − H(x1 , y2 ) + H(x2 , y2 ) ≥ 0. We kunnen VH (B) herschrijven met de functie f (t) = H(t, y2 ) − H(t, y1 ) op S1 tot VH (B) = f (x2 ) − f (x1 ) ≥ 0. Gezien x1 ≤ x2 volgt hieruit dat de functie t 7→ H(t, y2 ) − H(t, y1 ) niet dalend is op S1 . Het bewijs voor de functie t 7→ H(x2 , t) − H(x1 , t) niet dalend op S2 verloopt analoog. Stel nu dat a1 het kleinste element is van S1 en S2 een kleinste element a2 heeft. We noemen een functie H : S1 × S2 7→ R gegrond als H(x, a2 ) = H(a1 , y) = 0 voor alle (x, y) ∈ S1 × S2 . Lemma 1.1.4 Zij S1 en S2 niet lege deelverzamelingen van R met een kleinste element en H een gegronde 2-stijgende functie met DomH = S1 × S2 . Dan is H niet dalend in elk argument. Bewijs. Dit is Lemma 1.1.3 met x1 = a1 en y1 = a2 , waarbij a1 en a2 de kleinste elementen van S1 , resp. S2 . Onderstel nu dat b1 het grootste element is van S1 en S2 een grootste element b2 heeft. Dan zeggen we dat de functie H : S1 × S2 7→ R marginalen heeft. De marginalen van H zijn de functies F en G gegeven door: DomF = S1 en F (x) = H(x, b2 )∀x ∈ S1 , DomG = S2 en G(y) = H(b1 , y)∀y ∈ S2 .
8
Hoofdstuk 1. Copula’s
Voor we overgaan tot de definitie van copula’s defini¨eren we eerst subcopula’s als een klasse van gegronde 2-stijgende functies met marginalen. Vervolgens defini¨eren we copula’s als subcopula’s met domein I2 . Definitie 1.1.5 Een 2-dimensionale subcopula (kortweg: subcopula) is een functie C 0 met de eigenschappen: 1. DomC 0 = S1 × S2 , waar S1 , S2 deelverzamelingen van I die 0 en 1 bevatten, 2. C 0 is een gegronde 2-stijgende functie, 3. ∀u ∈ S1 , ∀v ∈ S2 : C 0 (u, 1) = u en C 0 (1, v) = v. Merk op dat RanC 0 een deelverzameling is van I. Wanneer we namelijk y1 = 0 en y2 = v stellen in Lemma 1.1.3, volgt dat de functie t 7→ C 0 (t, v) niet dalend is op S1 . Hieruit volgt dat C 0 (0, v) ≤ C 0 (u, v) ≤ C 0 (1, v) voor alle u in S1 en bijgevolg dus 0 ≤ C 0 (u, v) ≤ 1 voor elke (u,v) in DomC 0 . Definitie 1.1.6 Een 2-dimensionale copula (kortweg: copula) is een 2-subcopula C met domein I2 . Equivalent aan deze definitie kunnen we een copula C defini¨eren als een functie van I2 naar I met volgende eigenschappen: 1. Voor elke u, v ∈ [0, 1]: C(u, 0) = C(0, v) = 0 en C(u, 1) = u, C(1, v) = v. 2. Voor alle u1 , u2 , v1 , v2 ∈ [0, 1] met u1 ≤ u2 en v1 ≤ v2 , geldt C(u1 , v1 ) − C(u2 , v1 ) − C(u1 , v2 ) + C(u2 , v2 ) > 0. Opmerking 1.1.7 Met puntje 1 en 2 van Definitie 1.1.5 kunnen we Lemma 1.1.4 gebruiken om te zien dat een (sub)copula C(u, v) een stijgende functie is in elk van de argumenten: • C(., v) : u 7→ C(u, v) is een stijgende functie,
9
Hoofdstuk 1. Copula’s
• C(u, .) : v 7→ C(u, v) is een stijgende functie. Definitie 1.1.8 Met de notatie c(u, v) voor de tweede orde afgeleide van de bivariate copula C(u, v), dit is ∂C(u, v) , c(u, v) = ∂u∂v duiden we de copuladichtheid aan.
1.1.1
Fr´echet-Ho¨effding grenzen
In deze sectie bepalen we de boven- en ondergrens van iedere copula. Stelling 1.1.9 Zij C 0 een subcopula, dan hebben we voor elke (u, v) in DomC 0 dat max(u + v − 1, 0) ≤ C 0 (u, v) ≤ min(u, v). Bewijs. We bewijzen eerst de tweede ongelijkheid. Neem (u, v) een willekeurig punt in DomC 0 . Gezien C 0 (u, v) ≤ C 0 (u, 1) = u en C 0 (u, v) ≤ C 0 (1, v) = v, hebben we C 0 (u, v) ≤ min(u, v). Verder impliceert VC 0 ([u, 1] × [v, 1]) = C 0 (1, 1) − C 0 (1, v) − C 0 (u, 1) + C 0 (u, v) = 1 − v − u + C 0 (u, v) ≥ 0 dat C 0 (u, v) ≥ u + v − 1. Combineren we dit gegeven met het feit dat C 0 (u, v) ≥ 0, hebben we max(u + v − 1, 0) ≤ C 0 (u, v), waarmee ook de eerste ongelijkheid bewezen is. Daar elke copula een subcopula is, gelden de ongelijkheden uit Stelling 1.1.9 ook voor copula’s. De grenzen uit bovenstaande stelling worden in de literatuur de Fr´echetHo¨effding grenzen genoemd. Het zijn copula’s, namelijk de countermonotone resp. comonotone copula en worden aangeduid door W (u, v) = max(u+v−1, 0), de Fr´echetHo¨effding ondergrens, respectievelijk M (u, v) = min(u, v), de Fr´echet-Ho¨effding bovengrens. Er geldt dus voor elke copula C en elk punt (u, v) ∈ I2 dat W (u, v) ≤ C(u, v) ≤ M (u, v). De Fr´echet-Ho¨effding grenzen uit Stelling 1.1.9 suggereren het bestaan van een parti¨ele ordening op de verzameling van copula’s.
10
Hoofdstuk 1. Copula’s
Definitie 1.1.10 Zij C1 , C2 twee copula’s. We zeggen dat C1 kleiner is dan C2 (of C2 groter dan C1 ) als C1 (u, v) ≤ C2 (u, v) voor alle u, v ∈ [0, 1] en noteren dit als C1 ≺ C2 (of C2 C1 ). We hebben dus dat de Fr´echet-Ho¨effding ondergrens, copula W kleiner is dan elke andere copula en dat de Fr´echet-Ho¨effding bovengrens, copula M groter is dan elke andere copula. Deze parti¨ele ordening op de verzameling van copula’s wordt de concordante ordening genoemd. Dit is slechts een parti¨ele ordening en geen complete omdat niet elk koppel copula’s met elkaar te vergelijken valt. Echter bestaan er wel copula families die totaal geordend zijn. We noemen een totaal geordende parametrische copula familie {Cθ } positief geordend indien Ca ≺ Cb wanneer a 6 b en negatief geordend indien Ca ≺ Cb wanneer a > b.
1.1.2
Theorema van Sklar
Het theorema van Sklar staat centraal in de theorie over copula’s en is fundamenteel voor copula’s in de statistiek. Het theorema licht de rol toe die copula’s spelen in de relatie tussen multivariate verdelingsfuncties en hun marginale verdelingen. We beginnen deze sectie dan ook met een korte introductie op verdelingsfuncties. Definitie 1.1.11 Een verdelingsfunctie is een functie F met domein R en eigenschappen • F is niet dalend, • F (−∞) = 0 en F (+∞) = 1. Voorbeeld 1.1.12 De uniforme verdeling Uab gegeven door 0 x−a Uab (x) = b−a 1
op [a, b], met a, b ∈ R en a < b, wordt x ∈ [−∞, a[ x ∈ [a, b] x ∈ ]b, +∞] .
Stelling 1.1.13 (Probability integral transform theorem) Als X een continue verdelingsfunctie F heeft, dan geldt: F (X) v U01 . 2
Definitie 1.1.14 Een gezamenlijke verdelingsfunctie is een functie H met domein R en eigenschappen • H is 2-stijgend, • H(x, −∞) = H(−∞, y) = 0 en H(+∞, +∞) = 1.
11
Hoofdstuk 1. Copula’s
Uit deze definitie is duidelijk dat H een gegronde functie is met als kleinste elementen 2 −∞. Gezien DomH = R en bijgevolg +∞ de grootste elementen zijn, heeft H marginalen F en G en worden deze gegeven door verdelingsfuncties F (x) = H(x, +∞) en G(y) = H(+∞, y). We geven nu het theorema van Sklar, voor het bewijs van deze stelling verwijzen we naar [47]. Stelling 1.1.15 (Theorema van Sklar) Gegeven H een gezamenlijke verdelingsfunctie met marginalen F en G. Dan bestaat er een copula C zodat voor alle x, y ∈ R: H(x, y) = C(F (x), G(y)).
(1.1.1)
Als F en G continu zijn, dan is C uniek; indien niet dan is C uniek bepaald op RanF × RanG. Omgekeerd, zij C een copula en F en G twee verdelingsfuncties, dan is de functie H gedefinieerd door gelijkheid (1.1.1) een gezamenlijke verdelingsfunctie met marginalen F en G. Gelijkheid (1.1.1) geeft een uitdrukking voor gezamenlijke verdelingsfuncties in termen van een copula en marginale verdelingsfuncties. Op die manier is het dus mogelijk de gezamenlijke verdelingsfunctie op te bouwen uit de copula C en de twee marginale verdelingsfuncties. Gelijkheid (1.1.1) kan voor continue gezamenlijke verdelingsfuncties H tevens ook ge¨ınverteerd worden om zo copula’s uit te drukken in termen van gezamenlijke verdelingsfuncties en de inversen van de twee marginalen F en G. Gevolg 1.1.16 Als H(x, y) een gezamenlijke verdelingsfunctie is met continue marginale verdelingsfuncties F (x) en G(y), dan bestaat er een onderliggende copula C gegeven door C(u, v) = H(F −1 (u), G−1 (v)). Voorbeelden 1.1.17 (1) Zij de gezamenlijke verdelingsfunctie gedefinieerd door (x+1)(ey −1) (x, y) ∈ [−1, 1] × [0, +∞] x+2ey −1 −y H(x, y) = 1−e (x, y) ∈ ]1, +∞] × [0, +∞] 0 elders, dan worden de marginalen F en G gegeven door x < −1 0 x+1 x ∈ [−1, 1] F (x) = 2 1 x>1 en
G(y) =
0 1 − e−y
y<0 y ≥ 0.
Om de onderliggende copula te bepalen, dienen we de inversen van F en G te kennen:
12
Hoofdstuk 1. Copula’s F −1 = 2u − 1 en G−1 (v) = − ln(1 − v), ∀u, v ∈ [0, 1]. Bijgevolg vinden we als onderliggen copula C(u, v) = H(F −1 (u), G−1 (v)) =
uv . u + v − uv
(2) Wanneer we de Fr´echet-Ho¨effding grenzen voor bivariate copula’s, W (u, v) en M (u, v), gebruiken in het theorema van Sklar, verkrijgen we de zogenaamde Fr´echet Ho¨effding grenzen voor bivariate verdelingsfuncties: max(F (x) + G(y) − 1, 0) ≤ H(x, y) ≤ min(F (x), G(y)).
1.2
Multivariate copula’s
In deze sectie gaan we de resultaten uit vorige sectie uitbreiden tot het multivariate geval. Vele definities en stellingen hebben analoge versies in het multivariate geval, helaas niet allemaal, daarom herformuleren we de meeste van hen in hun multivariate vorm. Opnieuw dienen we eerst enkele notaties te introduceren. Doorheen deze masterproef n bedoelen we met R de uitgebreide n-dimensionale ruimte R × R × . . . × R. We maken n gebruik van de vectornotatie voor punten in R ; zo is a = (a1 , a2 , . . . , an ), noteren we a 6 b en a < b als ak 6 bk voor alle k, respectievelijk ak < bk voor alle k. Wanneer a 6 b, bedoelen we met [a, b] de n-box het Cartesisch product B gegeven door B = [a1 , b1 ] × [a2 , b2 ] × . . . [an , bn ] van n gesloten intervallen. De hoekpunten van een n-box B zijn de punten c = (c1 , c2 , n . . . , cn ), waarin elke ck gelijk is aan ak of bk . De eenheids n-box In ∈ R is het Cartesisch product I × I × . . . × I. Men noemt een functie H een n-plaats re¨ele functie als haar domein, DomH, een deeln verzameling is van R en haar bereik, RanH, een deelverzameling van R is. Definitie 1.2.1 Zij S1 , S2 , . . . , Sn niet lege deelverzamelingen van R en H een n-plaats re¨ele functie zodat DomH = S1 × S2 × . . . × Sn . Stel verder B = [a, b] een n-box met alle hoekpunten in het domein van H. Dan wordt het H-volume van B gegeven door X VH (B) = sgn(c)H(c), waarbij de som genomen wordt over de hoekpunten c van B en waar sgn(c) definieerd is als 1 als ck = ak voor een even aantal k 0 s sgn(c) = −1 als ck = ak voor een oneven aantal k 0 s
13
Hoofdstuk 1. Copula’s
Definitie 1.2.2 Een n-plaats re¨ele functie H is n-stijgend als voor alle rechthoeken B n in R met alle hoekpunten in DomH geldt dat VH (B) ≥ 0. Stel nu we hebben een n-plaats re¨ele functie met DomH = S1 × S2 × . . . × Sn en verder dat ak het kleinste element is van Sk . We noemen een functie H : S1 ×S2 ×. . .×Sn 7→ R gegrond als H(t) = 0 voor alle t ∈ DomH waarvoor tk = ak voor minstens e´ e´ n k. Lemma 1.2.3 Zij S1 , S2 , . . . , Sn niet lege deelverzamelingen van R en H een gegronde n-stijgende functie met DomH = S1 × S2 × . . . × Sn . Dan is H niet dalend in elk argument. Met andere woorden, H(t1 , . . . , tk−1 , x, tk+1 , . . . , tn ) 6 H(t1 , . . . , tk−1 , y, tk+1 , . . . , tn ) voor elke x < y en waar (t1 , . . . , tk−1 , x, tk+1 , . . . , tn ), (t1 , . . . , tk−1 , y, tk+1 , . . . , tn ) gelegen zijn in DomH. Onderstel nu dat elke Sk niet ledig is en een grootste element bk heeft. Dan zeggen we dat de functie H : S1 × S2 × . . . × Sn 7→ R marginalen heeft. De marginalen van H zijn de e´ e´ n-dimensionale functies Hk gegeven door: DomHk = Sk en Hk (x) = H(b1 , . . . , bk−1 , x, bk+1 , . . . , bn )∀x ∈ Sk . Volgende definities zijn analoog aan de definities in het bivariate geval van Sectie 1.1. Definitie 1.2.4 Een n-dimensionale subcopula (kortweg: subcopula) is een functie C 0 met de eigenschappen: 1. DomC 0 = S1 × S2 × . . . × Sn , waar S1 , . . . , Sn deelverzamelingen van I die 0 en 1 bevatten, 2. C 0 is een gegronde n-stijgende functie, 3. C 0 heeft e´ e´ n-dimensionale marginalen Ck0 (k = 1, . . . , n) die voldoen aan Ck0 (u) = u voor alle u ∈ Sk . Merk op dat RanC 0 een deelverzameling is van I. Omdat voor elke u ∈ DomC 0 geldt dat 0 6 C 0 (u) 6 1. Definitie 1.2.5 Een n-dimensionale copula (kortweg: copula) is een n-subcopula C met domein In . Equivalent aan deze definitie kunnen we een copula C defini¨eren als een functie van In naar I met volgende eigenschappen: 1. Voor elke u ∈ [0, 1]n :
14
Hoofdstuk 1. Copula’s
C(u) = 0 als minstens e´ e´ n co¨ordinaat van u gelijk aan 0 is. en C(u) = uk als alle co¨ordinaten van u gelijk zijn aan 1, behalve co¨ordinaat uk . 2. Voor elke a en b in In zodat a 6 b, geldt VC ([a, b]) > 0. Definitie 1.2.6 De copuladichtheid c(u1 , . . . , un ) van de n-dimensionale copula C(u1 , . . . , un ) wordt gegeven door c(u1 , . . . , un ) =
1.2.1
∂ n C(u1 , . . . , un ) . ∂u1 . . . ∂un
Fr´echet-Ho¨effding grenzen
In deze sectie bepalen we de Fr´echet-Ho¨effding grenzen van iedere multivariate copula. De uitbreidingen van de 2-dimensionale copula’s W, P (P is de onafhankelijke copula, of dus P (u, v) = uv) en M naar het n-dimensionale geval worden genoteerd met W n , Πn en M n , en zijn gegeven door W n (u) = max(u1 + u2 + . . . + un − n, 0), Πn (u) = u1 u2 . . . un , M n (u) = min(u1 , u2 , . . . , un ). De functies Πn en M n zijn n-dimensionale copula’s voor elke n > 2, terwijl de functie W n nooit een n-dimensionale copula is voor n > 2. De ongelijkheid die we tegenkwamen in Stelling 1.1.9 blijft echter wel gelden. Stelling 1.2.7 Zij C 0 een n-subcopula, dan hebben we voor elke u in DomC 0 dat W n (u) ≤ C 0 (u) ≤ M n (u). Hoewel de Fr´echet-Ho¨effding ondergrens W n nooit een copula is voor n > 2, bestaat er voor elke n > 3 en voor elke u in In een n-dimensionale copula zodat C(u) = W n (u). Stelling 1.2.8 Voor elke n > 3 en voor elke u in In bestaat er een n-dimensionale copula C (die afhangt van u) zodat C(u) = W n (u).
15
Hoofdstuk 1. Copula’s
1.2.2
Theorema van Sklar
We beginnen deze sectie over de stelling van Sklar opnieuw met een korte introductie op verdelingsfuncties. n
Definitie 1.2.9 Een n-dimensionale verdelingsfunctie is een functie H met domein R en eigenschappen • H is n-stijgend, n
• H(∞, ∞, . . . , ∞) = 1 en H(t) = 0 voor alle t ∈ R met minstens e´ e´ n tk = −∞. n
Uit deze definitie is duidelijk dat H een gegronde functie is. Gezien DomH = R , volgt er dat de e´ e´ n dimensionale marginalen verdelingsfuncties zijn. We noteren deze met F1 , F2 , . . . , Fn . We geven nu het theorema van Sklar in het multivariate geval. Stelling 1.2.10 (Theorema van Sklar) Gegeven H een n-dimensionale verdelingsfuncn tie met marginalen F1 , F2 , . . . , Fn . Dan bestaat er een copula C zodat voor alle x ∈ R : H(x1 , x2 , . . . , xn ) = C(F1 (x1 ), F2 (x2 ), . . . , Fn (xn )).
(1.2.1)
Als F1 , F2 , . . . , Fn continu zijn, dan is C uniek; indien niet dan is C uniek bepaald op RanF1 × RanF2 × . . . × RanFn . Omgekeerd, zij C een copula en F1 , F2 , . . . , Fn verdelingsfuncties, dan is de functie H gedefinieerd door gelijkheid (1.2.1) een gezamenlijke verdelingsfunctie met marginalen F1 , F2 , . . . , Fn . Gevolg 1.2.11 Als H(x1 , x2 , . . . , xn ) een gezamenlijke verdelingsfunctie is met continue marginale verdelingsfuncties F1 (x1 ), F2 (x2 ), . . . , Fn (xn ), dan bestaat er een onderliggende copula C gegeven door C(u1 , u2 , . . . , un ) = H(F1−1 (u1 ), F2−1 (x2 ), . . . , Fn−1 (xn )). Nu we weten dat, voor continue variabelen, de onderliggende copula C uniek is, mogen we spreken van ‘de’ copula. Volgende stelling over ‘de’ n- dimensionale copula is dus zinvol. Stelling 1.2.12 Voor n > 2 beschouwen we de continue stochastische variabelen X1 , X2 , . . . , Xn . Er geldt 1. X1 , X2 , . . . , Xn zijn onafhankelijk als en slechts als de n-dimensionale copula van X1 , X2 , . . . , Xn gelijk is aan Π. 2. elk van de stochastische variabelen X1 , X2 , . . . , Xn is bijna zeker een strikt stijgende functie van e´ e´ n van de andere stochastische variabelen als en slechts als de n-dimensionale copula gelijk is aan M n .
16
Hoofdstuk 1. Copula’s
1.3
Copula families
In deze sectie bespreken we een selectie van, in de literatuur veel voorkomende, copula’s en de families waartoe ze behoren, telkens in het bivariate geval.
1.3.1
Speciale copula’s
We zijn reeds een aantal speciale copula’s tegengekomen. We geven deze hier opnieuw in een kort overzicht weer. • De product of onafhankelijke copula: Π(u, v) = C(u, v) = uv. • De countermonotone of minimum copula: W (u, v) = C(u, v) = max(u + v − 1, 0). • De comonotone of maximum copula: M (u, v) : C(u, v) = min(u, v).
1.3.2
Mixtures van copula’s
Stel dat C1 en C2 twee copula’s zijn en neem α ∈ [0, 1], dan is de lineaire combinatie (1 − α)C1 + αC2 opnieuw een copula. Deze manier van mixen geeft dus de mogelijkheid om vele nieuwe copula’s te construeren. Het meest bekende voorbeeld hiervan is de Fr´echet copula. Deze copula is een mixture van de speciale copula’s uit vorige sectie en wordt als volgt gedefinieerd: Definitie 1.3.1 ∀α, β ∈ [0, 1] en met α + β 6 1, is Cα,β (u, v) = αM (u, v) + βW (u, v) + (1 − α − β)Π(u, v). Samen vormen ze de Fr´echet familie van copula’s. Deze copula familie is comprehensief, dit wil zeggen dat zowel W (u, v), M (u, v) als Π(u, v) deel uitmaken van de copula familie.
17
Hoofdstuk 1. Copula’s
Een ander voorbeeld van een mixture van copula’s is de Farlie-Gumbel-Morgenstern copula, kortweg FGM-copula, gedefinieerd door Cθ (u, v) = uv + θuv(1 − u)(1 − v), waarbij de copula parameter θ zich in het interval [−1, 1] bevindt. Neemt men θ = 0, dan bekomt met de onafhankelijke copula Π. Voor θ < 0 beschrijft de FGM-copula negatieve afhankelijkheid tussen de variabelen U en V , terwijl er positieve afhankelijkheid tussen de componenten beschreven wordt voor positieve waarden van θ. Dat deze copula kan gezien worden als een mixture van copula’s volgt uit het feit dat het rekenkundig gemiddelde van twee FGM-copula’s, Cθ1 (u, v) en Cθ2 (u, v), opnieuw een FGM-copula is, namelijk de copula C(θ1 +θ2 )/2 (u, v). In het bijzonder kan elke FGMcopula Cθ geschreven worden als het rekenkundig gemiddelde van de twee extreme gevallen van de Farlie-Gumbel-Morgenstern familie, zijnde Cθ =
1.3.3
1+θ 1−θ C−1 (u, v) + C1 (u, v). 2 2
Elliptische copula’s
Deze klasse van copula’s worden gekenmerkt door een elliptische vorm voor de contours van de copula dichtheid en zijn erg populair in de financi¨ele wereld. De klasse van de elliptische copula’s is groot, in dit werkstuk zullen wij ons echter beperken tot de Gaussische copula en de Student-t copula. • Gaussische copula Deze copula, ook normale copula genoemd, is afgeleid van de normale verdeling N (µ, σ 2 ) zoals beschreven in Appendix A.1 en wordt gegeven door Cr (u, v) = Φr (Φ−1 (u), Φ−1 (v)) 2 Z Φ−1 (u) Z Φ−1 (v) x − 2rxy + y 2 1 exp − = dxdy, 2π(1 − r2 )1/2 2(1 − r2 ), −∞ −∞ Rx 1 2 waarbij Φ(x) = −∞ √12π e− 2 t dt, de verdelingsfunctie van een standaard normaal verdeelde toevalsvariabele en Φr de bivariate standaardnormale verdelingsfunctie is met correlatie (zie Pearson correlatieco¨effici¨ent, Sectie 2.1) r ∈ [−1, 1]. • Student-t copula Deze copula is afgeleid van de Student-t verdeling zoals beschreven in Appendix A.4. De Student-t copula laat bijgevolg zware staarten toe, bijgevolg dus ook een verhoogde kans op gemeenschappelijk extreme gevallen in vergelijking met de Gaussische copula. De Student-t copula wordt gegeven door
18
Hoofdstuk 1. Copula’s
−1 Cr,ν (u, v) = tr,ν (t−1 ν (u), tν (v))
Z
t−1 ν (u)
Z
t−1 ν (v)
= −∞
−∞
− ν+2 2 x2 − 2rxy + y 2 √ 1 + dxdy, ν(1 − r2 ) Γ( ν2 )πν 1 − r2 Γ
ν+2 2
waarin tr,ν de bivariate Student-t cumulatieve verdelingsfunctie is met ν vrijheidsgraden en correlatie r en t−1 ν de inverse van de dichtheid van een standaard univariate Student-t verdeelde variabele met ν vrijheidsgraden, zoals gedefinieerd in Appendix A.4.
1.3.4
Archimedische copula’s
Een belangrijke klasse van copula’s zijn de archimedische copula’s. Deze worden zeer vaak gebruikt in toepassingen en dit omwille van verschillende redenen: ten eerste is het zo dat archimedische copula’s eenvoudig geconstrueerd kunnen worden, ook hebben archimedische copula’s enkele mooie en typische eigenschappen. Tenslotte is er binnen deze copula familie een grote vari¨eteit tussen de verschillende copula’s, opnieuw zullen wij ons echter beperken in het aantal copula’s die behandeld zullen worden. Alvorens we een archimedische copula kunnen defini¨eren, dienen we eerst het begrip pseudo-inverse in te voeren. Definitie 1.3.2 Stel ϕ : [0, 1] 7→ [0, +∞] een continue, strikt dalende functie met ϕ(1) = 0. Dan wordt, voor alle x ∈ [0, +∞], de pseudo-inverse ϕ[−1] van ϕ gegeven door −1 ϕ (x) 0 ≤ x ≤ ϕ(0) [−1] ϕ (x) = 0 ϕ(0) ≤ x ≤ +∞. Een archimedische copula wordt gedefinieerd met behulp van een pseudo-inverse: Definitie 1.3.3 Een copula C is een archimedische copula enkel en alleen indien er een continue, strikt dalende, convexe functie ϕ : [0, 1] 7→ [0, +∞] bestaat met ϕ(1) = 0 en waarvoor geldt C(u, v) = ϕ[−1] (ϕ(u) + ϕ(v)). We noemen de functie ϕ de generatorfunctie (kortweg generator) van de archimedische copula. Voor een generator ϕ geldt er bijgevolg dat: ϕ(x) ≥ 0 en ϕ(1) = 0, ϕ0 (x) < 0, ϕ00 (x) > 0.
19
Hoofdstuk 1. Copula’s
Verder noemt men de copula een strikte archimedische copula indien we hebben dat ϕ(0) = +∞ en bijgevolg dus ϕ[−1] = ϕ−1 . Ook ϕ wordt in dat geval een strikte generator genoemd. Er werd reeds meegegeven dat archimedische copula’s voldoen aan enkele handige eigenschappen, in volgende stelling worden enkele van deze eigenschappen weergegeven, voor het bewijs van de stelling verwijzen we naar [12]. Stelling 1.3.4 Indien C een archimedische copula met generator ϕ is, dan gelden volgende eigenschappen: 1. C is symmetrisch, of dus C(u, v) = C(v, u) ∀u, v ∈ [0, 1], 2. C is associatief, of dus C(C(u, v), w) = C(u, C(v, w)) ∀u, v, w ∈ [0, 1], 3. λϕ is ook een generator voor copula C en dit voor elke λ > 0. De familie van de archimedische copula’s is groot, wij zullen ons echter beperken tot de e´ e´ n parameter families Clayton copula, Gumbel copula en Frank copula. • Clayton copula De Clayton copula wordt gegenereerd door ϕ(x) = 1θ (x−θ − 1),
θ ∈ [−1, 0[∪]0, +∞[.
Na herschrijven krijgen we copula i h 1 Cθ (u, v) = max (u−θ + v −θ − 1)− θ , 0 . Wanneer we naar de grenzen van θ gaan kijken, verkrijgen we onze copula’s uit Sectie 1.3.1, namelijk:
lim Cθ (u, v) = W (u, v),
θ→−1
lim Cθ (u, v) = Π(u, v),
θ→0
lim Cθ (u, v) = M (u, v).
θ→+∞
De Clayton copula is comprehensief. Wanneer −1 6 θ < 0 beschrijft deze copula een negatief verband tussen de componenten U en V . Voor θ > 0 beschrijft de Clayton copula een positief verband tussen de componenten. De copula en zijn generator zijn in dat geval strikt. Kenmerkend voor de Clayton copula is dat de afhankelijkheid tussen de variabelen U en V zich vooral manifesteert in de lower tail, of dus voor lage waarden van U en V zien we afhankelijkheid. Voor hogere waarden van U en V is eerder een onafhankelijk verband op te merken.
20
Hoofdstuk 1. Copula’s
• Frank copula De Frank copula wordt gegenereerd door ϕ(x) = − ln
e−θx −1 e−θ −1
θ ∈ R \ {0}.
,
Na herschrijven ziet de copula er als volgt uit (e−θu − 1)(e−θv − 1) 1 . Cθ (u, v) = − 1 + θ e−θ − 1 Gaan we opnieuw naar de grenzen van θ kijken, verkrijgen we terug onze speciale copula’s uit Sectie 1.3.1:
lim Cθ (u, v) = W (u, v),
θ→−∞
lim Cθ (u, v) = Π(u, v),
θ→0
lim Cθ (u, v) = M (u, v).
θ→+∞
De Frank copula is opnieuw comprehensief. Deze copula is radiaal symmetrisch en beschrijft over het hele gebied eenzelfde afhankelijkheidsgedrag. • Gumbel/Gumbel-Hougaard copula De Gumbel-Hougaard copula heeft generator ϕ(x) = (− ln x)θ ,
θ > 1.
Na herschrijven krijgen we bijgevolg copula 1 θ +(− ln v)θ θ
Cθ (u, v) = e−[(− ln u)
] .
Wanneer we naar de twee grenzen van θ, verkrijgen we de onafhankelijke copula en de maximum copula uit Sectie 1.3.1:
lim Cθ (u, v) = Π(u, v),
θ→1
lim Cθ (u, v) =
θ→+∞
M (u, v).
Hoofdstuk 1. Copula’s
21
De Gumbel-Hougaard copula beschrijft dus enkel positieve afhankelijkheid, waarbij deze afhankelijkheid zich voornamelijk in de upper tail bevindt, of dus voor grote waarden van U en V merken we een positieve afhankelijkheid. De lower tail is eerder onafhankelijk van structuur.
Zoals reeds gezegd zijn de klassen van de elliptische en de archimedische copula’s groot. De reden waarom hier dan net (en alleen) de Gaussische, Student-t copula en Clayton, Frank, Gumbel copula opgenomen en besproken worden, volgt uit het feit dat deze vijf copula’s horen bij de meest gebruikte copula’s in de literatuur wanneer het gaat over respectievelijk elliptische en archimedische copula’s. Een bijkomende motivatie in de selectiekeuze van de archimedische copula’s, zijn hun verschillende karakteristieken. Zo manifesteert de afhankelijkheid zich bij de Clayton copula voornamelijk in de ‘lower tail’, terwijl dit voor de Gumbel copula in de‘upper tail’ is en beschrijft de Frank copula over heel het gebied eenzelfde afhankelijkheidsgedrag. De vijf zonet opgesomde copula’s, zijnde de Gaussische, Student-t, Clayton, Frank en Gumbel copula zijn samen met de Farlie-Gumbel-Morgenstern copula de copula’s die onderzocht worden in de simulaties van Deel III. De copula uitdrukkingen, generatorfuncties en het gebied van de copula parameter(s) van deze zes copula’s worden daarom nog eens opgelijst in Tabel B.1.1 van Appendix B.1.
Hoofdstuk 2 Afhankelijkheidsmaten Gezien de copula van een bivariate of multivariate verdeling zijn afhankelijkheidsstructuur beschrijft, is het nuttig om afhankelijkheidsmaten als lineaire correlatieco¨effici¨ent, Spearman’s rho en Kendall’s tau te bekijken. Deze geven een getal voor de sterkte van de globale afhankelijkheid. Verder kan er ook gekeken worden naar de afhankelijkheid in de staarten, hieraan een waarde/getal koppelen gebeurt met de staartafhankelijkheidsco¨effici¨enten. De gedane studie van al de zonet vermelde afhankelijkheidsmaten wordt hieronder steeds in het bivariate geval toegelicht. De uitbreiding van de afhankelijkheidsmaten naar meerdere dimensies kan gevonden worden in [43] en [46].
2.1
Pearson correlatieco¨effici¨ent
De meest gekende correlatieco¨effici¨ent is ongetwijfeld deze van Pearson. Definitie 2.1.1 De Pearson correlatieco¨effici¨ent of lineaire correlatieco¨effici¨ent r tussen twee stochastische variabelen X en Y is gedefinieerd door: Cov(X, Y ) , r(X, Y ) = Corr(X, Y ) = p V ar(X)V ar(Y ) waarbij Cov(X, Y ) = E(XY ) − E(X)E(Y ) de covariantie tussen X en Y is, en V ar(X), resp. V ar(Y ) de varianties van X en Y zijn. Deze lineaire correlatieco¨effici¨ent is een maat voor de lineaire afhankelijkheid en steeds begrensd door −1 ≤ r ≤ 1. • In het geval van onafhankelijke stochastische variabelen, hebben we r(X, Y ) = 0, want in dit geval geldt er Cov(X, Y ) = 0. • In het geval van perfecte lineaire afhankelijkheid, hebben we r(X, Y ) = ±1. 22
Hoofdstuk 2. Afhankelijkheidsmaten
23
• In het geval van imperfecte lineaire afhankelijkheid, hebben we −1 < r(X, Y ) < 1. De Pearson correlatie kunnen we ook schrijven in functie van de onderliggende copula C: Z 1Z 1 1 [C(u, v) − uv]dF −1 (u)dG−1 (v). r(X, Y ) = p V ar(X)V ar(Y ) 0 0 Hierin heeft het koppel (X, Y ) marginale verdelingsfuncties F (x) en F (y) en een gezamenlijke verdeling H(x, y). Uit deze schrijfwijze is het duidelijk dat de Pearson correlatieco¨effici¨ent afhangt van de copula alsook van de marginale verdelingen. Echter een nadeel van correlatie is dat deze niet schaal-invariant is. Er bestaan immers stijgende functies ϕ, waarvoor r(X, Y ) 6= r(ϕ(X), ϕ(Y )). Dit heeft als gevolg dat twee koppels die dezelfde onderliggende copula hebben (Twee variabelen en hun strikt stijgende transformaties hebben dezelfde onderliggende copula, zie Stelling 5.1.1.), maar verschillende marginale verdelingen, een verschillende correlatie kunnen hebben. Wanneer we bij een afhankelijkheidsmaat enkel het gedrag van de copula in rekening wensen te brengen, moeten we op zoek naar maten die wel schaal-invariant zijn. Spearman’s rho en Kendall’s tau zijn zulke maten en voorzien dikwijls de beste alternatieven voor de lineaire correlatieco¨effici¨ent als een maat voor de afhankelijkheid.
2.2
Spearman’s rho
Definitie 2.2.1 De Spearman’s rho ρ tussen twee stochastische variabelen X en Y met verdelingsfuncties F en G is gedefinieerd als: ρ(X, Y ) = r(F (X), G(Y )), waarbij r de gebruikelijke lineaire correlatie, zoals hierboven gedefinieerd, is. Voor de Gaussische en de Student-t copula’s, hebben we volgende relatie tussen de Pearson correlatieco¨effici¨ent en Spearman’s rho (zie [1]): π ρ(X, Y ) . r(X, Y ) = 2 sin 6 De Spearman’s rho afhankelijkheidsmaat kan ook uitgedrukt worden in functie van de copula zonder marginalen, zoals te zien in (2.2.1) van volgende stelling.
24
Hoofdstuk 2. Afhankelijkheidsmaten
Stelling 2.2.2 Spearman’s rho kan uitgedrukt worden in termen van een integraal van de gemeenschappelijke verdelingsfunctie H(X, Y ): Z 1Z 1 F (x)G(y)dH(x, y) − 3, ρ(X, Y ) = 12 0
0
alsook in termen van een integraal van de copula C geassocieerd met H(X, Y ): Z 1Z 1 Z 1Z 1 uvdC(u, v) − 3 = 12 C(u, v)dudv − 3. (2.2.1) ρ(X, Y ) = 12 0
0
0
0
De tweede gelijkheid van bovenstaande stelling werd origineel bewezen door Ho¨effding in 1940 [35] en werd in 1992 aangevuld door Quesada-Molina [49]. Verder merken we op dat de Spearman’s rho maat wel degelijk invariant is onder strikt stijgende transformaties, dit is schaal-invariant, alsook dat hij begrensd wordt door −1 6 ρ 6 1. Als voorbeeld berekenen we de Spearman’s rho waarde van de Farlie-Gumbel-Morgenstern copula, voor de Spearman’s rho waarde van de andere copula’s verwijzen we naar Tabel B.2.1 van Appendix B.2. Voorbeeld 2.2.3 De FGM-copula werd reeds ge¨ıntroduceerd in Sectie 1.3.2 door de uitdrukking Cθ (u, v) = uv + θuv(1 − u)(1 − v), θ ∈ [−1, 1]. Vervolgens berekenen we, met behulp van uitdrukking (2.2.1), de Spearman’s rho. Aldus verkrijgen we Z 1Z 1 [uv + θuv(1 − u)(1 − v)]dudv − 3 ρ = 12 0 0 Z 1 Z 1 Z 1Z 1 u(1 − u)du v(1 − v)dv − 3 uvdudv + 12θ = 12 0 0 0 0 2 1 1 = 12 + 12θ −3 4 6 θ = . 3 Deze familie beschrijft bijgevolg een afhankelijkheidsgebied van ρ ∈ [− 31 , 31 ].
2.3
Kendall’s tau
Een andere schaal-invariante afhankelijkheidsmaat is de Kendall’s tau. Voor we de definitie geven, introduceren we de begrippen concordante en discordante paren.
25
Hoofdstuk 2. Afhankelijkheidsmaten
Definitie 2.3.1 Twee koppels (Xi , Yi ), (Xj , Yj ) zijn • concordant als Xi < Xj en Yi < Yj of Xi > Xi en Yi > Yj : (Xi , Yi ), (Xj , Yj ) concordant ⇔ (Xi − Xj )(Yi − Yj ) > 0. • discordant als Xi < Xj en Yi > Yj of Xi > Xi en Yi < Yj : (Xi , Yi ), (Xj , Yj ) discordant ⇔ (Xi − Xj )(Yi − Yj ) < 0. De Kendall’s tau afhankelijkheidsmaat meet de hoeveelheid concordante paren en is als volgt gedefinieerd. Definitie 2.3.2 Kendall’s tau, voorgesteld door τ (X, Y ), wordt gegeven door (zie [40]) τ (X, Y ) = P ((X1 − X2 )(Y1 − Y2 ) > 0) − P ((X1 − X2 )(Y1 − Y2 ) < 0), waarbij (X1 , Y1 ) en (X2 , Y2 ) onafhankelijke kopie¨en van (X, Y ). Voor de Gaussische, Student-t en alle andere elliptische copula’s is de relatie tussen de Pearson correlatieco¨effici¨ent en Kendall’s tau (zie [42]) gegeven door π τ (X, Y ) . r(X, Y ) = sin 2 De Kendall’s tau afhankelijkheidsmaat kan ook uitgedrukt worden in functie van de copula zonder marginalen, zoals te zien in (2.3.1) van volgende stelling. Stelling 2.3.3 Kendall’s tau kan ook uitgedrukt worden in termen van de integraal van de gemeenschappelijke verdelingsfunctie H(X, Y ): Z τ (X, Y ) = 4 H(x, y)dH(x, y), alsook in termen van de integraal van de copula C geassocieerd met H(X, Y ): Z 1Z 1 τ (X, Y ) = 4 C(u, v)dC(u, v) − 1. (2.3.1) 0
0
In [19] staan nog andere eigenschappen van de Kendall’s tau correlatieco¨effici¨ent beschreven. Als voorbeeld berekenen we de Kendall’s tau van de FGM-copula.
26
Hoofdstuk 2. Afhankelijkheidsmaten
Voorbeeld 2.3.4 De FGM-copula wordt gegeven door de uitdrukking Cθ (u, v) = uv + θuv(1 − u)(1 − v), θ ∈ [−1, 1]. Allereerst berekenen we de copuladichtheid cθ (u, v) = dCθ (u, v) =
∂ 2 Cθ (u, v) dudv = [1 + θ(1 − 2u)(1 − 2v)]dudv. ∂u∂v
Vervolgens berekenen we met behulp van uitdrukking (2.3.1) de Kendall’s tau waarde Z 1Z 1 τ (X, Y ) = 4 C(u, v)dC(u, v) − 1 0 0 Z 1Z 1 C(u, v)cθ (u, v)dudv − 1 = 4 0
0
.. . = 4 =
1 θ + 4 18
−1
2 θ. 9
De Farlie-Gumbel-Morgenstern familie beschrijft bijgevolg een afhankelijkheidsgebied τ ∈ − 29 θ, 29 θ .
Kendall’s tau voor archimedische copula’s Zoals reeds in het vorige hoofdstuk aangehaald werd, heeft het werken met archimedische copula’s tal van voordelen. E´en van deze voordelen is, zoals bewezen in [29], dat er voor archimedische copula’s een eenvoudige manier bestaat om de waarde van de Kendall’s tau afhankelijkheidsmaat te bepalen. Eigenschap 2.3.5 Zij X en Y twee variabelen met onderliggende copula C, een archimedische copula die generator ϕ heeft. Dan kan de Kendall’s tau waarde als volgt berekend worden Z 1 ϕ(x) dx + 1. (2.3.2) τ (X, Y ) = 4 0 0 ϕ (x) Als voorbeeld berekenen we de Kendall’s tau waarde van de Clayton copula, voor de Kendall’s tau waarde van de twee andere archimedische copula’s, alsook voor deze van de elliptische copula’s, verwijzen we naar Tabel B.2.1 van Appendix B.2.
27
Hoofdstuk 2. Afhankelijkheidsmaten
Voorbeeld 2.3.6 Clayton copula werd reeds ge¨ıntroduceerd in Sectie 1.3.4 door de uitdrukking i h 1 Cθ (u, v) = max (u−θ + v −θ − 1)− θ , 0 , θ ∈ [−1, 0[ of θ > 0 en heeft generatorfunctie ϕ(x) = 1θ (x−θ − 1). We berekenen de afgeleide hiervan en verkrijgen 1 ϕ0 (x) = − θx(−θ−1) θ = −x−(θ+1) . R1 Vervolgens bepalen we de waarde van 0 ϕϕ(x) 0 (x) dx: R1
ϕ(x) dx 0 ϕ0 (x)
R 1 −θ θ+1 ) = − 0 (x −1)(x dx θ R 1 1 θ+1 = − θ 0 (x − x )dx h 2 i1 h θ+2 i1 x = − 1θ − xθ+2 2 0 0 1 = − 1θ 21 − θ+2 1 = − 2(θ+2) .
Aldus verkrijgen we voor de Clayton copula een Kendall’s tau waarde van Z 1 ϕ(x) 1 θ τ =4 dt + 1 = 4 − + 1 = . 0 2(θ + 2) θ+2 0 ϕ (x) Merk op dat limθ→0 τ = 0. Deze situatie komt overeen met de onafhankelijke copula. Verder valt er op de merken dat lim τ = −1 en
θ→−1
lim τ = 1,
θ→+∞
deze situaties komen respectievelijk overeen met de countermonotone en de comonotone copula.
2.4
Staartafhankelijkheid
Wanneer we ge¨ınteresseerd zijn in extreme gebeurtenissen, kan een asymptotische maat voor de staartafhankelijkheid gedefinieerd worden voor paren van stochastische veranderlijken X en Y (zie [19]).
Hoofdstuk 2. Afhankelijkheidsmaten
28
Definitie 2.4.1 Zij X en Y twee stochastische varanderlijken met marginale verdelingsfuncties F en G. De co¨effici¨ent van de lower tail afhankelijkheid (of benedenstaartafhankelijkheid) van X en Y wordt gegeven door λL (X, Y ) = lim P (F (X) < u|G(Y ) < u). u→0+
De co¨effici¨ent van de upper tail afhankelijkheid (of boven-staartafhankelijkheid) van X en Y wordt daarentegen gegeven door λU (X, Y ) = lim P (F (X) > u|G(Y ) > u). u→1−
Beide afhankelijkheidsco¨efici¨enten λL (X, Y ) en λU (X, Y ) bevinden zich in het interval [0, 1] waarbij men zegt dat de onderliggende copula van X en Y respectievelijk benedenstaartafhankelijkheid, boven-staartafhankelijkheid vertoont indien λL (X, Y ) 6= 0, resp. λU (X, Y ) 6= 0. Verder zegt men dat copula C beneden-staartonafhankelijk (bovenstaartonafhankelijk) is indien X en Y asymptotisch onafhankelijk zijn in de lower tail (upper tail). Opmerking 2.4.2 Als gevolg van hun elliptische verdeling, hebben we voor alle elliptische copula’s de gelijkheid λL (X, Y ) = λU (X, Y ). Voorbeelden 2.4.3 Om bovenstaande opmerking aan te tonen, geven we twee voorbeelden: • Voor de Gaussische copula hebben we dat de staartafhankelijkheids-co¨effici¨enten gelijk zijn aan √ 1−r = 0. λL (X, Y ) = λU (X, Y ) = 2 lim Φ x √ x→−∞ 1+r Dit betekent dat, onafhankelijk van hoe groot we de Pearson correlatieco¨effici¨ent r kiezen, er steeds onafhankelijke extreme gebeurtenissen in X en Y voorkomen zolang we maar ver genoeg in de staart gaan. • De staartafhankelijkheids-co¨effici¨enten van de Student-t copula zijn √ √ 1−r , λL (X, Y ) = λU (X, Y ) = tν+1 − ν + 1 √ 1+r waarbij tν+1 de verdelingsfunctie is van een univariate Student-t verdeling met ν + 1 vrijheidsgraden. Bij de Student-t copula geldt er dat hoe sterker de Pearson correlatieco¨effici¨ent is en hoe lager de vrijheidsgraden ν zijn, des te sterker de staartafhankelijkheid is. De Student-t copula geeft asymptotische afhankelijkheid in de staart, zelfs wanneer r negatief of nul is.
29
Hoofdstuk 2. Afhankelijkheidsmaten
Als de marginale verdelingen F en G van de stochastische variabelen X en Y continu zijn, dan zijn de zonet gedefinieerde staartafhankelijkheden een functie van de onderliggende copula, zoals te zien in volgende stelling. Stelling 2.4.4 Voor elke willekeurige copulafunctie C van twee continue variabelen X en Y geldt dat (i) λL (C) = limu→0+ (ii) λU (C) = limu→1−
C(u,u) ; u 1−2u+C(u,u) . 1−u
Bewijs. (i) We hebben dat P (F (X) < u, G(Y ) < u) P (G(Y ) < u) P (X < F −1 (u), Y < G−1 (u)) = u −1 −1 H(F (u), G (u)) = u C(u, u) = , u
P (F (X) < u|G(Y ) < u) =
waar we voor de overgang van de noemer bij de tweede ongelijkheid gebruik maakten van het feit dat G(Y ) een uniforme verdeling volgt (Stelling 1.1.13). Bijgevolg hebben we dat λL (C) = limu→0+ P (F (X) < u|G(Y ) < u) = limu→0+ C(u,u) , wat bewezen u moest worden. (ii) Er gelden volgende gelijkheden: P (F (X) > u, G(Y ) > u) P (G(Y ) > u) 1 − P (F (X) < u) + 1 − P (G(Y ) < u) = 1 − P (G(Y ) < u) 1 − P (F (X) < u, G(Y ) < u) − 1 − P (G(Y ) < u) 1 − u + 1 − u − 1 + P (X < F −1 (u), Y < G−1 (u)) = 1−u 1 − 2u + C(u, u) = , 1−u
P (F (X) > u|G(Y ) > u) =
waarbij we in de tweede gelijkheid gebruiken dat P (A∩B) = P (A)+P (B)+P (A∪B) met P (A ∪ B) = 1 − P (Ac ∩ B c ) en dat P (T (Z) < z) = P (T (Z) 6 z) gezien we met
30
Hoofdstuk 2. Afhankelijkheidsmaten
T de verdelingsfunctie van de continue toevalsvariabele Z voorstellen. Verder maken we in de laatste stap opnieuw gebruik van Stelling 1.1.13. Bijgevolg hebben we dat , waarmee de λU (C) = limu→1− P (F (X) > u|G(Y ) > u) = limu→1− 1−2u+C(u,u) 1−u stelling bewezen is. Met behulp van deze stelling is het eenvoudig om de staartafhankelijkheids-co¨effici¨enten te bepalen, als voorbeeld berekenen we deze co¨effici¨enten voor de Gumbel-Hougaard copula. Voor de staartafhankelijkheids-co¨effici¨enten van de twee andere archimedische copula’s verwijzen we naar Tabel B.2.2 van Appendix B.2. 1
−[(− ln u)θ +(− ln v)θ ] θ
Voorbeeld 2.4.5 Voor de Gumbel-Hougaard copula Cθ (u, v) = e en θ > 1 hebben we voor de beneden-staartafhankelijkheid 1
λL (C) =
lim
e
−[(− ln u)θ +(− ln u)θ ] θ
u
u→0+
1 2(ln u)θ θ
= =
lim
e[
]
u
u→0+
lim
e
1 2θ
ln u
u
u→0+
1
=
lim
e
(ln u)2 θ
u
u→0+
1 2θ
0 = 0
u = lim u→0+ u =
1
1
lim 2 θ u2 θ −1
u→0+
= 0. Terwijl we een boven-staartafhankelijkheid hebben van θ
1
1 − 2u + e−[2(− ln u) ] θ λU (C) = lim u→1− 1−u 1 1 − 2u + u2 θ 0 = lim = u→1− 1−u 0 1
1
−2 + 2 θ u2 θ −1 = lim u→1− −1 1 = 2 − 2θ ,
Hoofdstuk 2. Afhankelijkheidsmaten
31
waar we in de voorlaatste stap telkens de Stelling van l’Hopital toegepast hebben. Zoals reeds aangehaald werd aan het einde van Hoofdstuk 1, worden in Deel III van deze masterproef simulaties uitgevoerd waarbij er telkens zes copula’s onderzocht worden. Met name de Gaussische copula, Student-t, Clayton, Frank, Gumbel en FarlieGumbel-Morgenstern copula. Voor deze copula’s werden de hierboven beschreven afhankelijkheidsmaten Spearman’s rho, Kendall’s tau, alsook de staarftafhankelijkheden weergegeven in Appendix B.2. De reden waarom er in Tabel B.2.1 gesproken wordt over een ‘Kendall’s tau gebied’, terwijl er nergens een ‘Spearman’s rho gebied’ te bespeuren is, volgt uit het feit dat we in Deel III, bij de simulaties, enkel beroep zullen doen op de Kendall’s tau waarden van de copula modellen en niet op hun Spearman’s rho waarden. Een motivatie hiervoor zijn de vaak moeilijke en gecompliceerde uitdrukkingen van Spearman’s rho waarden in vergelijking met Kendall’s tau waarden van copula’s. Dit laatste is mede dankzij Eigenschap 2.3.5, of dus dankzij het feit dat er voor archimedische copula’s een rechtstreeks verband bestaat tussen de generatorfunctie en de Kendall’s tau waarde, waarbij de integraal in uitdrukking (2.3.2) ofwel analytisch ofwel numeriek berekend kan worden. Iets wat voor de Spearman’s rho waarden van archimedische copula’s voorlopig nog niet het geval is.
Hoofdstuk 3 Simulatiemethoden In dit hoofdstuk worden de meest gebruikte simulatiemethoden om data te genereren uit een copula besproken. Deze mogelijkheid, om data te genereren uit een copula model, is een belangrijk voordeel indien copula’s gebruikt worden om re¨ele data te repliceren. We geven hieronder voor iedere besproken simulatiemethode telkens de nodige definities en algoritmen mee in het bivariate geval. Voor de verklaring van deze algoritmen verwijzen we naar Appendix C.
3.1
De conditionele simulatiemethode
De meest algemene simulatiemethode is gebaseerd op conditionele copula’s. Definitie 3.1.1 De conditionele copula, gegeven U = u, wordt aangeduid met cu (v) en is gelijk aan ∂ C(u, v) = P (V ≤ v|U = u). cu (v) = ∂u Hierin zijn U en V uniform [0, 1]-verdeelde toevalsvariabelen met onderliggende copula C. Het algoritme om data te simuleren uit een bivariate copula C met behulp van de conditionele simulatiemethode, gaat als volgt: Algoritme 3.1.2 • Genereer twee onafhankelijke trekkingen, u en v1 , uit de uniforme verdeling op [0, 1]. [−1]
• Bereken v = cu (v1 ). • Het koppel (u, v) is een willekeurige trekking uit copula C.
32
33
Hoofdstuk 3. Simulatiemethoden
Wanneer er echter niet gewenst wordt uit een copula te simuleren, maar uit een gezamenlijke verdelingsfunctie H(x, y) met onderliggende copula C en marginale verdelingen F (x), G(y), dan kan er gebruik gemaakt worden van het theorema van Sklar. Op die manier is (F −1 (u), G−1 (v)) dan een willekeurige trekking uit de verdeling H(x, y). De uitwerking van de Clayton copula geven we als voorbeeld. Voorbeeld 3.1.3 Beschouw de Clayton copula met, voor de eenvoud, θ > 0 1
Cθ (u, v) = (u−θ + v −θ − 1)− θ . We berekenen de conditionele copula cu (v): ∂ Cθ (u, v) ∂u 1 1 = − (u−θ + v −θ − 1)− θ −1 (−θu−θ−1 ) θ 1 −θ−1 −θ = u (u + v −θ − 1)− θ −1 .
cu (v) =
Deze heeft een inverse
c−1 u (t)
=
h
θ − 1+θ
t
i− θ1 −θ . −1 u −1
Zij nu u en v1 onafhankelijke trekkingen uit de U01 -verdeling, dan is 1 !! F
−1
−1
(u), G
− θ v1 1+θ
−θ
−1 u
−θ
−1
een simulatie uit een bivariate verdeling met marginale verdelingen F, G en onderliggend een Clayton copula. Bovenstaand algoritme is helaas niet altijd even bruikbaar. Het bepalen van de afgeleide voor de conditionele copula cu (v) kan in sommige gevallen behoorlijk ingewikkeld worden en ook het vinden van de inverse functie is analytisch niet gegarandeerd. Numerieke algoritmen kunnen in zo’n geval van pas komen, alsook specifieke andere algoritmen. Zo bestaan er voor de Gaussische en de Student-t copula andere, meer effici¨entere algoritmen, gebaseerd op de Cholesky decompositie ([18]). Ook voor archimedische copula’s is er een goed alternatief algoritme voor handen.
3.2
Simuleren uit een Gaussische copula
Zoals net gezegd, maken de algoritmen voor het simuleren van data uit een Gaussische en een Student-t copula gebruik van de Cholesky decompositie. In de lineaire algebra is een Cholesky decompositie de ontbinding van een hermitische, positief-definiete matrix
34
Hoofdstuk 3. Simulatiemethoden
in een product van een onderdriehoeksmatrix en zijn geconjugeerde getransponeerde. Deze techniek is zeer bruikbaar met het oog op effici¨ente numerieke oplossingen en Monte-Carlo simulaties. In vergelijking met de alom gekende LU decompositie, is de toepassing van een Cholesky decompositie voor het oplossen van lineaire vergelijkingen duidelijk effici¨enter, omdat hij nauwkeuriger alsook numeriek stabieler is. Definitie 3.2.1 De Cholesky decompositie van een hermitische, positief-definiete matrix M is een ontbinding van de vorm M = AA∗ . Hierin is A een onderdriehoeksmatrix met re¨eele, positieve elementen op de diagonaal en staat A∗ voor de geconjugeerde getransponeerde van matrix A. Er kan bewezen worden dat de Cholesky ontbinding van een hermitsche, positief-definiete matrix uniek is. Ook is het duidelijk dat, wanneer matrix M enkel re¨eele getallen bevat, we de ontbinding kunnen schrijven als M = AAT . Verdere informatie voor wat betreft de Cholesky decompositie is te vinden in [13] en [14]. Dit wetende, kan er overgegaan worden naar het algoritme voor het simuleren van data uit een Gaussische copula. Algoritme 3.2.2 Stel Cr de Gaussische copula met Pearson correlatieco¨effici¨ent r en zij P A de onderdriehoeksmatrix van de Cholesky decompositie van de correlatiematrix . Dan kan men als volgt data gaan simuleren uit de Gaussische copula: • Genereer twee onafhankelijke trekkingen z = (z1 , z2 ) van een standaardnormale verdeling. • Bereken y = Az. • Bereken u = Φ(y1 ) en v = Φ(y2 ). • Het koppel (u, v) is een willekeurige trekking uit de Gaussische copula Cr .
3.3
Simuleren uit een Student-t copula
Net als bij de Gaussische copula, maakt ook het algoritme voor het simuleren van data uit een Student-t copula gebruik van de Cholesky decompositie van de correlatiematrix. Algoritme 3.3.1 Stel Cr,ν de Student-t copula met Pearson correlatieco¨effici¨ent r en ν vrijheidsgraden. Zij verder P A de onderdriehoeksmatrix van de Cholesky decompositie van de correlatiematrix . Dan kan men als volgt data gaan simuleren uit de Student-t copula:
35
Hoofdstuk 3. Simulatiemethoden
• Genereer twee onafhankelijke trekkingen z = (z1 , z2 ) van een standaardnormale verdeling. • Genereer, onafhankelijk van z1 en z2 , een trekking s uit een χ2ν -verdeling. • Bereken y = Az. • Bereken x =
√ ν √ y. s
• Bereken u = tν (x1 ) en v = tν (x2 ). • Het koppel (u, v) is een willekeurige trekking uit de Student-t copula Cr,ν .
3.4
Simuleren uit een archimedische copula
Zoals reeds verschillende keren aangehaald werd in vorige hoofdstukken, heeft het werken met archimedische copula’s tal van voordelen. Dit feit stelt zich hier nogmaals. Zo is er namelijk een alternatief algoritme voor het simuleren van data uit een archimedische copula. Dit algoritme maakt gebruik van de generatorfunctie ϕ(x). Definieer de functie KC (x) als KC (x) = x −
ϕ(x) . ϕ0 (x)
Algoritme 3.4.1 Beschouw nu de archimedische copula C met generator ϕ(x), men kan als volgt data gaan simuleren uit copula C: • Genereer twee onafhankelijke trekkingen, s en t, uit de uniforme verdeling op [0, 1]. [−1]
• Bereken w = KC (t). • Bereken u = ϕ[−1] (sϕ(w)) en v = ϕ[−1] ((1 − s)ϕ(w)). • Het koppel (u, v) is een willekeurige trekking uit de archimedische copula C. Wanneer er gewenst is een willekeurige trekking te bekomen uit een gezamenlijke verdeling met deze onderliggende archimedische copula C en met marginalen F en G, volstaat het om koppel (F −1 (u), G−1 (v)) te nemen.
Hoofdstuk 3. Simulatiemethoden
36
Zoals reeds bij het begin van dit hoofdstuk aangehaald, worden de opgesomde algoritmen van dit hoofdstuk in Appendix C verklaard. Verder zullen we in Deel III van deze masterproef voor iedere copula opgesomd in Appendix B.1, dit zijn de copula’s die we in de simulatiestudie zullen onderzoeken, telkens e´ e´ n van de bovenstaande methoden/algoritmen1 gebruiken om data te genereren.
1
Daar we opteerden om al de in dit hoofdstuk beschreven methoden eens te willen gebruiken/implementeren in R, kozen we bij de Clayton copula, een archimedische copula, toch voor methode beschreven in Sectie 3.1. Voor de andere twee archimedische copula’s, zijnde de Frank en Gumbel copula, werd daarentegen het algoritme beschreven in Sectie 3.4 ge¨ımplementeerd. Voor de Gaussische en Student-t copula werden uiteraard respectievelijk de algoritmen beschreven in Sectie 3.2 en Sectie 3.3 gebruikt.
Deel II Copula selectiemethoden
37
Hoofdstuk 4 Algemeenheden van de copula selectiemethoden Het doel van de volgende vier hoofdstukken bestaat er in methoden op te bouwen die telkens uit een gegeven verzameling van copula’s een zo goed mogelijke copula selecteren bij een gegeven dataset. Er worden hierbij vijf verschillende selectiemethoden ge¨ımplementeerd die telkens op andere technieken gebaseerd zijn. Zo beginnen we in Hoofdstuk 5 met de copula selectie gebaseerd op de afhankelijkheidsmaten Spearman’s rho en Kendall’s tau, gaan we nadien in Hoofdstuk 6 en Hoofdstuk 7 over naar een grafische methode gebaseerd op chi-plots alsook naar een grafische methode gebaseerd op K-plots. Tot slot gaan we in Hoofdstuk 8 over naar een methode gebaseerd op een test/teststatistiek. In functie van deze verschillende technieken zullen de methoden steeds stap voor stap uitgelegd worden en dit telkens in het 2-dimensionale geval. Eens deze technieken ge¨ıntroduceerd zijn, gaan we in Deel III van dit werkstuk de omschreven selectiemethoden gaan uittesten op verschillende bivariate datasets. De hieronder beschreven datasets worden geregeld gebruikt in komende drie hoofdstukken. Vandaar dat we deze hier, in het hoofdstuk ‘Algemeenheden van de copula selectiemethoden’, reeds introduceren.
4.1
Mini-dataset
In het onderdeel “Afhankelijkheid en ranken” van Hoofdstuk 5 wordt er aangetoond waarom besluitvorming omtrent de afhankelijkheid tussen twee stochastische variabelen steeds gebaseerd zou moeten worden op ranken. Om dit niet alleen theoretisch aan te tonen, maar ook visueel duidelijk te maken, zullen we in die sectie werken met een kleine, zelf in computerprogramma R gegenereerde dataset. Gezien deze dataset nadien ook in Hoofdstukken 6 en 7 gebruikt wordt bij het construeren van respectievelijk een 38
39
Hoofdstuk 4. Algemeenheden van de copula selectiemethoden
chi-plot en K-plot, introduceren we deze ‘mini-dataset’ hier reeds: i Xi Yi
1 -1.058 -0.379
2 -0.697 1.459
3 0.021 -0.112
4 0.624 0.097
5 0.815 -0.088
6 2.719 -1.443
Tabel 4.1.1: Dataset van 6 onafhankelijke trekkingen (Xi , Yi ).
Deze dataset bestaat uit zes onafhankelijk trekkingen (Xi , Yi ), waarbij Xi en Yi onafhankelijk en identiek standaardnormaal verdeeld zijn. Voor de eenvoud, maar zonder verlies van algemeenheid, labelden we de koppels zodanig dat X1 < . . . < X6 .
4.2
Dataset ‘30 aansprakelijkheidsvorderingen’
In Hoofdstukken 6 en 7 worden respectievelijk de chi-plot en K-plot geconstrueerd van de mini-dataset uit vorige sectie. Bij wijze van voorbeeld om aan te tonen hoe de nodige grootheden (λi , χi ) voor het maken van een chi-plot (zie Hoofdstuk 6) en (Wi:n , H(i) ) voor het maken van een K-plot (zie Hoofdstuk 7) berekend worden, is deze kleine dataset ideaal. Echter, gezien deze dataset slechts uit 6 koppels (Xi , Yi ) bestaat, kan er uit deze plots weinig geconcludeerd worden en is er geen sprake van een ‘chi-plot interpretatie’ of ‘K-plot interpretatie’ bij deze dataset. Om die reden introduceren we hier, in deze sectie, een ander, iets grotere dataset waarvan we hun chi- en K-plot in respectievelijk Hoofdstuk 6 en Hoofdstuk 7 wel degelijk zullen kunnen interpreteren. De nieuwe, grotere dataset wordt weergegeven in Tabel 4.2.1. Deze data heeft een Kendall’s tau waarde van 0.166 en bestaat uit 30 aselect genomen aansprakelijkheidsvorderingen uit de dataset van Frees en Valdez 1 . In het vervolg van deze masterproef zullen we naar deze dataset refereren als de dataset ‘30 aansprakelijkheidsvorderingen’.
1
De dataset van Frees en Valdez bestaat uit 1500 aselecte aansprakelijkheidsvorderingen van een verzekeringsmaatschappij. Elke vordering bestaat uit een betaling van een schadeloosstelling (= LOSS) en de kosten toe te wijzen aan deze schadebetaling (= ALAE), zoal bijvoorbeeld het ereloon van een advocaat,... Voor meer informatie wat betreft de dataset van Frees en Valdez verwijzen we door naar Hoofdstuk 10 van deze masterproef, waarin deze dataset uitvoerig beschreven staat.
Hoofdstuk 4. Algemeenheden van de copula selectiemethoden LOSS 12.42922 12.42922 12.42922 12.43711 12.46844 12.50618 12.52453 12.52453 12.52453 12.52453 12.53791 12.57469 12.57566 12.61154 12.61154
ALAE 8.603004 10.089428 10.916324 10.231856 9.382191 9.261984 8.163371 9.414994 9.664469 10.296813 12.631576 9.969228 10.046982 5.736572 9.192075
LOSS 12.61154 12.61154 12.61154 12.61516 12.66569 12.67608 12.72932 12.80930 12.82127 12.82572 12.83178 12.83468 12.84777 12.93120 12.97734
40
ALAE 10.791770 10.915270 11.040054 11.136485 11.030136 10.506683 9.639392 11.788115 10.935301 11.151353 9.236106 10.253581 10.153078 10.716527 8.894807
Tabel 4.2.1: Dataset ‘30 aansprakelijkheidsvorderingen’, waarden van LOSS en ALAE. Tot slot van dit hoofdstuk bespreken en verantwoorden we nog de verzameling van copula’s die in de simulatiestudie van Deel III van deze masterproef onderzocht zullen worden.
4.3
Verzameling van onderzochte copula’s
Aan het begin van dit hoofdstuk vertelden we dat het doel van de selectiemethoden die beschreven worden in dit deel van de masterproef erin bestaat om uit een gegeven verzameling van copula’s de bruikbare copula’s en indien mogelijk de meest geschikte copula te selecteren bij een gegeven dataset. Het is duidelijk dat de keuze van de verzameling te onderzoeken copula’s dan ook erg belangrijk is. Kies je namelijk een ‘slechte’ verzameling, dan kan er nooit een goede copula gevonden worden. Zoals reeds vermeld zullen wij in de simulatiestudie van Deel III werken met een verzameling van zes te onderzoeken copula’s. Deze verzameling wordt gevormd door de Farlie-Gumbel-Morgenstern copula, de Gaussische copula, Student-t, Clayton, Frank en Gumbel copula. Deze copula’s zullen we dus in Deel III van deze masterpoef met elke beschreven copula selectiemethode in iedere gegeven dataset behandelen en onderzoeken. Waarom de keuze op deze zes copula’s gevallen is, alsook de reden waarom deze verzameling van copula’s gezien kan worden als een ‘goede en verstandige’ selectie uit het ruime aanbod van copula’s, wordt in onderstaande paragraaf geargumenteerd.
Hoofdstuk 4. Algemeenheden van de copula selectiemethoden
41
De Farlie-Gumbel-Morgenstern beschrijft zowel positieve als negatieve afhankelijkheid en heeft ook de onafhankelijke in zijn range. Echter beschrijft deze copula vooral lichte afhankelijkheden met zijn Kendall’s tau gebied van [−2/9, 2/9]. Dat de keuze bij de elliptische copula’s is gevallen op de Gaussische en de Student-t copula is ook zeker te motiveren. Deze copula’s beschrijven immers beiden een Kendall’s tau gebied van [−1, 1] of dus zowel sterke als zwakke positieve en negatieve afhankelijkheden. Bovendien zijn ze beiden enorm populair in de financi¨ele wereld, waar ze in vele toepassingen gebruikt worden. Dat drie van onze zes onderzochte copula’s archimedisch zijn, is ook niet onlogisch, wetende dat de archimedische copula’s een belangrijke klasse vormen van copula’s. Zo worden ze met hun mooie en typische eigenschappen zeer vaak gebruikt in financi¨ele toepassingen en modellen. De klasse van de archimedische copula’s is zeer groot, echter is de keuze van de drie copula’s die wij behandelen makkelijk te motiveren, namelijk door hun verschillende karakteristieken. Zo manifesteert de afhankelijkheid zich bij de Clayton copula voornamelijk in de lower tail, terwijl er in de upper tail eerder een onafhankelijk verband zal opgetekend worden. Daarentegen manifesteert de afhankelijkheid zich bij de Gumbel copula voornamelijk in de upper tail, in deze upper tail is er steeds een positieve afhankelijkheid op te merken, terwijl er in de lower tail eerder sprake zal zijn van een onafhankelijke structuur. Daartegenover is de Frank copula radiaal symmetrisch en beschrijft hij over het hele gebied eenzelfde afhankelijkheidsgedrag. Uit bovenstaande paragraaf is het duidelijk dat we met onze verzameling van zes copula’s in staat zijn om zowel sterke negatieve en positieve afhankelijkheden, als zwakke afhankelijkheden te beschrijven. Bovendien behoren alle zes van onze te onderzoeken copula’s bij de meest gebruikte copula’s in de literatuur, waar ze hun nut en mogelijkheden reeds veelvuldig bewezen hebben.
Vervolgens kunnen we overgaan naar de vijf copula selectiemethoden. We geven hierbij nog mee dat elk hoofdstuk over de verschillende selectiemethoden eindigt met een sectie ‘Conclusie voor simulatie’, waarin alles nodig voor de simulaties in Deel III kort en bondig beschreven staat.
Hoofdstuk 5 Copula selectie met behulp van Spearman’s rho of Kendall’s tau In dit hoofdstuk introduceren we twee methoden van copula selectie, beiden gebaseerd op een schaal-invariante afhankelijkheidsmaat. Gegeven een copula familie, wordt bij de eerste selectiemethode de keuze van de copula parameter namelijk gebaseerd op de Spearman’s rho correlatieco¨effici¨ent, terwijl de keuze van de parameter bij de tweede methode gebaseerd zal worden op de Kendall’s tau waarde. Beide selectiemethoden worden gelijkaardig in verschillende stappen opgebouwd, deze stappen zullen hieronder telkens voor iedere methode apart beschreven worden. We merken hier reeds op dat we door louter de copula parameters te schatten op basis van Spearman’s rho of Kendall’s tau, geen beste copula krijgen. De procedure gaat namelijk als volgt: Eerst dient er een copula familie gekozen te worden. Daarna wordt van deze familie de copulaparameter, gegeven de dataset, bepaald met behulp van e´ e´ n van de twee net opgesomde afhankelijkheidsmaten. Op die manier wordt uit deze welbepaalde copula familie de copula geselecteerd die bij de gegeven dataset in aanmerking komt. Deze welbepaalde copula belandt dan in de verzameling van te onderzoeken copula’s, waardoor hij later eventueel geselecteerd kan worden als ‘de beste’ bij de gegeven dataset. De net opgesomde handeling moet vervolgens verschillende malen herhaald worden bij verscheidene copula families. Aldus doende krijgt men voor iedere familie een copula die in aanmerking komt voor het modelleren van de afhankelijkheid van de gegeven dataset. In de verzameling van al deze copula’s kan er dan op zoek gegaan worden naar de meest geschikte copula. In Sectie 5.1, “Afhankelijkheid en ranken”, wordt er geargumenteerd waarom besluitvorming omtrent de afhankelijkheid tussen twee stochastische variabelen steeds gebaseerd zou moeten worden op ranken. Vervolgens worden er in Sectie 5.2 niet-parametrische afhankelijkheidsmaten ge¨ıntroduceerd en geven we in Sectie 5.3 verschillende 42
Hoofdstuk 5. Copula selectie met behulp van Spearman’s rho of Kendall’s tau
43
mogelijkheden weer voor het schatten van de copula parameter. Eindigen doen we dit hoofdstuk in Sectie 5.4 met een korte conclusie nodig voor de simulaties in Deel III.
5.1
Afhankelijkheid en ranken
Stel we moeten de bivariate verdeling H(x, y) bepalen van het continue paar variabelen (X, Y ), waarvan we over een aselecte steekproef (X1 , Y1 ), . . . , (Xn , Yn ) beschikken. Volgens het theorema van Sklar bestaat er in dit geval een unieke copula C waarvoor gelijkheid (1.1.1) geldt. Net zoals F (x) en G(y) een volledige beschrijving geven van de variabele X, resp. variabele Y , afzonderlijk, wordt de gezamenlijke afhankelijkheid tussen de variabelen X en Y volledig en uniek bepaald door de copula C uit het theorema van Sklar. Het doel bestaat dus uit het achterhalen van deze copula C. In sommige gevallen kan dit snel en simpel. Bijvoorbeeld wanneer X en Y stochastisch onafhankelijk zijn, weten we dat de copula C de onafhankelijke copula Π zal zijn zoals gedefinieerd in Sectie 1.3.1. Ook de andere twee copula’s uit deze sectie kunnen de gezochte copula C zijn, zo is C = W wanneer Y een dalende functie is van X terwijl we C = M hebben in het geval waar Y een monotoon stijgende functie is van X. In alle andere gevallen beschrijft de copula C een afhankelijkheid dat tussen de extremen W en M ligt, of dus W (u, v) ≤ C(u, v) ≤ M (u, v), ∀u, v ∈ [0, 1]. Traditioneel gezien kijken we eerst naar de scatterplot van de koppels (X1 , Y1 ), . . . , (Xn , Yn ) om een idee te krijgen over de afhankelijkheid tussen X en Y . In (a) van Figuur 5.1.1 zien we de scatterplot van de data uit Tabel 4.1.1, onze zelf gegenereerde mini-dataset. Hoewel er fundamenteel niets fout is om naar de scatterplot van de paren (Xi , Yi ) te kijken, bijvoorbeeld voor lineaire afhankelijkheid na te gaan, moet men zich wel bewust zijn van het feit deze plot niet enkel informatie bevat over de afhankelijkheid van X en Y , maar ook over hun marginaal gedrag. We maken dit feit duidelijke door, voor i ∈ {1, . . . , 6}, volgende transformatie te beschouwen Zi = exp(Xi ) Ti = exp(3Yi ) en op te merken dat hun scatterplot (Figuur 5.1.1, (b)) drastisch verschillend is van de scatterplot met de originele data (Xi , Yi ). We hebben dus twee verschillende plots en bijgevolg zullen we uit Figuur (a) voor data (Xi , Yi ) een andere afhankelijkheidsstructuur concluderen dan de structuur van afhankelijkheid tussen data Zi , Ti opgemaakt uit Figuur (b). En dit terwijl de afhankelijkheid tussen de paren (Xi , Yi ) en (Zi , Ti ) gekarakteriseerd wordt door dezelfde copula C, zoals volgende stelling bewijst.
Hoofdstuk 5. Copula selectie met behulp van Spearman’s rho of Kendall’s tau
44
Figuur 5.1.1: (a) Scatterplot van de trekkingen (Xi , Yi ) uit Tabel 4.1.1. (b) Overeenkomstige scatterplot van de realisaties (Zi , Ti ) = (eXi , e3Yi ). Stelling 5.1.1 Zij Φ, ψ twee monotoon stijgende transformaties met inversen Φ−1 en ψ −1 , dan hebben (X, Y ) en (Z, T ) = (Φ(X), ψ(Y )) dezelfde onderliggende copula C. Bewijs. Stel F (x), G(y), F ∗ (x) en G∗ (y) de verdelingsfuncties van respectievelijk X, Y, Z en T . Dan geeft het theorema van Sklar, meer bepaald gelijkheid (1.1.1), ons dat H(x, y) = C(F (x), G(y)) en H ∗ (z, t) = C ∗ (F ∗ (z), G∗ (t)), (5.1.1) met C en C ∗ de onderliggende copula van (X, Y ), resp. (Z, T ). We bekijken nu de verdelingsfuncties F ∗ (z), G∗ (t) van de getransformeerde data: F ∗ (z) = P (Z ≤ z) = P (Φ(X) ≤ z) = P (X ≤ Φ−1 (z)) = F (Φ−1 (z)), waar we in de voorlaatste stap expliciet gebruik maken van het feit dat we te maken hebben met een monotoon stijgende transformatie Φ. Op analoge manier vinden we dat G∗ (t) = G(ψ −1 (t)). Vervolgens bepalen we de gezamenlijke verdelingsfunctie H ∗ (z, t), we zien dat H ∗ (z, t) = = = =
P (X ≤ Φ−1 (z), Y ≤ ψ −1 (t)) H(Φ−1 (z), ψ −1 (t)) C F (Φ−1 (z)), G(ψ −1 (t)) C [F ∗ (z), G∗ (t)] .
voor alle mogelijke keuzes van z, t ∈ R. Combineren we dit met de gelijkheden in (5.1.1), zien we dat C = C ∗ , waarmee de stelling bewezen is.
Hoofdstuk 5. Copula selectie met behulp van Spearman’s rho of Kendall’s tau
45
Bovenstaande stelling leert ons dus dat de unieke copula C geassocieerd met de toevalsvariabelen (X, Y ) invariant is onder monotoon stijgende transformaties van de marginale verdelingen. Gezien de afhankelijkheid tussen X en Y gekarakteriseerd wordt door deze copula, moet een goede grafische voorstelling van de afhankelijkheid deze invariantie-eigenschap ook hebben. Tussen de functies van data die de invariantieeigenschap hebben, kan er eenvoudig nagegaan worden dat de ranken (R1 , S1 ), . . . , (Rn , Sn ) geassocieerd met de steekproef (Xi , Yi ) de statistieken zijn die de meeste informatie opleveren (zie [48]). Hierin staat Ri voor de rang van Xi in X1 , . . . , Xn en Si in de rang van Yi in Y1 , . . . , Yn . Met andere woorden elke Xi en Yi krijgt een nummer j ∈ {1, 2, . . . n} mee die overeenkomt met de plaats in de rij wanneer je de data X1 , . . . , Xn , resp. Y1 , . . . , Yn zou rangschikken van klein naar groot. Deze ranken zijn ondubbelzinnig gedefinieerd, gezien de gebeurtenis Xl = Xk of Yl = Yk voor l 6= k zich voordoet met kans nul onder de aanname dat X, Y continue variabelen zijn. In Tabel 5.1.1 bevinden zich de ranken van de data uit Tabel 4.1.1. i Si Ri
1 1 6
2 2 1
3 3 3
4 4 5
5 5 4
6 6 2
Tabel 5.1.1: Gerankte mini-dataset, bestaande uit 6 onafhankelijke paren (Xi , Yi ).
Wanneer we nu ook de getransformeerde data (Zi , Ti ) gaan ranken en we de scatterplots van beide gerangschikte data (Xi , Yi ) en (Zi , Ti ) gaan bekijken, dit is Figuur 5.1.2 waar (a) de scatterplot is van de paren (Ri , Si ) geassocieerd met (Xi , Yi ) en waar (b) de scatterplot is van de gerankte data (Xi , Yi ), dan merken we geen verschil tussen beide plots (a) en (b). Deze manier, met behulp van ranken, is volgens [28] de meest verstandige manier om de afhankelijkheid tussen twee variabelen te representeren en zo de copula te bepalen. Wanneer we nu de assen van de scatterplots nog gaan herschalen met een factor 1/(n + 1), bekomen we punten in het eenheidsvierkant [0, 1]2 , wat het domein is van de empirische copula, die de beste representatie is van C op basis van de gegeven data waarmee gewerkt wordt (zie [11]).
Hoofdstuk 5. Copula selectie met behulp van Spearman’s rho of Kendall’s tau
46
Figuur 5.1.2: (a) Scatterplot van de ranken (Ri , Si ) geassocieerd aan data (Xi , Yi ) uit Tabel 4.1.1. (b) Scatterplot van de ranken van de getransformeerde data (Zi , Ti ) = (eXi , e3Yi ). Definitie 5.1.2 De empirische copula wordt gegeven door n 1X Ri Si ≤ u, ≤v , I Cn (u, v) = n i=1 n+1 n+1 waarbij Ri , Si zoals hierboven gedefinieerd en I(A) staat voor de indicatorfunctie van A.
5.2
Afhankelijkheid schatten
Zoals hierboven geargumenteerd, is de empirische copula Cn de beste steekproef-gebaseerde representatie van de copula C. Copula C karakteriseert dan weer de afhankelijkheid van het paar (X, Y ). Het is dan ook niet onlogisch om de afhankelijkheid tussen X en Y zowel theoretisch als empirisch te gaan bepalen met behulp van C resp. Cn . Deze technieken zullen ons brengen naar niet-parametrische afhankelijkheidsmaten, namelijk de empirische versies van de Pearson correlatieco¨effici¨ent, Spearman’s rho en Kendall’s tau, waarvan we de theoretische versies reeds beschouwden in Hoofdstuk 2.
5.2.1
Empirische versie van Pearson correlatieco¨effici¨ent
Wanneer we beschikken over een steekproef (X1 , Y1 ), . . . , (Xn , Yn ) van het stochastische paar variabelen (X, Y ), kunnen we ook een empirische waarde van de Pearson
Hoofdstuk 5. Copula selectie met behulp van Spearman’s rho of Kendall’s tau
47
correlatieco¨effici¨ent berekenen. Definitie 5.2.1 Zij X en Y twee toevalsvariabelen en zij (Xi , Yi ), i ∈ {1, . . . , n}, n onafhankelijke trekkingen uit het koppel (X, Y ). De empirische versie van Pearson correlatieco¨effici¨ent van het koppel (X, Y ) wordt dan gegeven door Pn (Xi − X)(Yi − Y ) ∈ [−1, 1], ρn = qP i=1 Pn n 2 2 i=1 (Yi − Y ) i=1 (Xi − X) waarin
n
n
1X 1X X= Xi en Y = Yi . n i=1 n i=1
5.2.2
Empirische versie Spearman’s rho
Een natuurlijk idee om de afhankelijkheid van de data na te gaan, is om naar de correlatie te gaan kijken tussen de ranken (Ri , Si ). Equivalent hiermee kan men ook naar de Si Ri , n+1 ) die de ondersteuning vormen van de correlatie gaan kijken tussen de punten ( n+1 empirische copula Cn . Zodoende bekomt men de empirische waarde van Spearman’s rho. Definitie 5.2.2 Zij X en Y twee toevalsvariabelen en zij (Xi , Yi ), i ∈ {1, . . . , n}, n onafhankelijke trekkingen uit het koppel (X, Y ). De empirische versie van Spearman’s rho van het koppel (X, Y ) wordt dan gegeven door Pn (Ri − R)(Si − S) ρn = qP i=1 ∈ [−1, 1], Pn n 2 2 (R − R) (S − S) i i i=1 i=1 waarin
n
n
1X 1X n+1 R= Ri = = Si = S. n i=1 2 n i=1 Deze uitdrukking is gelijklopend met de uitdrukking voor de empirische Pearson correlatieco¨effici¨ent rn uit vorige sectie, alleen dat we hier werken met de ranken Si , Ri in plaats van met de steekproefgegevens Xi , Yi . Deze manier van werken, maakt dat theoretisch gezien de Spearman’s rho afhankelijkheidsmaat ρn duidelijk te verkiezen valt boven de Pearson correlatieco¨effici¨ent rn , in die zin dat • E(ρn ) = ±1 enkel voorkomt als en slechts als X en Y functioneel afhankelijk zijn, dit is als hun copula e´ e´ n van de twee Fr´echet-Ho¨effding grenzen zijn. Daarentegen komt E(rn ) = ±1 voor als en slechts als X een lineaire functie is van Y of Y een lineaire functie is van X;
Hoofdstuk 5. Copula selectie met behulp van Spearman’s rho of Kendall’s tau
48
• alsook dat ρn een populatieparameter schat die steeds welgedefinieerd is, ook voor verdelingen met zware staarten, waarvoor de theoretische waarde van de Pearson correlatieco¨effici¨ent niet bestaat. Verdere discussie, meer uitleg en uitwerkingen van bovenstaande opsomming zijn te vinden in [20]. Een omgevormde, meer bruikbare uitdrukking om de empirische versie van Spearman’s rho te berekenen is n
X n+1 12 Ri Si − 3 . ρn = n(n + 1)(n − 1) i=1 n−1 Via deze uitdrukking blijkt ook dat ρn een asymptotisch onvertekende schatter is voor de Spearman’s rho, die, zoals gegeven in gelijkheid (2.2.1), voorgesteld kan worden met Z 1Z 1 uvdC(u, v) − 3. ρ = 12 0
0
Om dit aan te tonen, dient er gebruik gemaakt te worden van het feit dat Cn → C als n → +∞ en er geldt dat Z
1
Z
12 0
0
1
n
12 X Ri n−1 Si uvdCn (u, v) − 3 = −3= ρn . n i=1 n + 1 n + 1 n+1
Voor de exacte condities en voorwaarden waarvoor dit resultaat geldt, zie [36].
5.2.3
Empirische versie Kendall’s tau
Ook van de andere schaal-invariante afhankelijkheidsmaat, Kendall’s tau, bestaat een empirische versie: Definitie 5.2.3 De empirische versie van Kendall’s tau wordt gegeven door τn =
Pn − Qn , n 2
waar Pn , resp. Qn het aantal concordante, resp. discordante, paren voorstelt. n! Gezien we voor de binomiaalco¨effici¨ent hebben dat n2 = 2!(n−2)! , kunnen we τn ook enkel in functie van het aantal concordante paren bepalen, namelijk met de formule τn =
4 Pn − 1. n(n − 1)
(5.2.1)
49
Hoofdstuk 5. Copula selectie met behulp van Spearman’s rho of Kendall’s tau
Het is duidelijk dat τn een functie is van de ranken van de observaties (Xi , Yi ), i ∈ {1, . . . , n}. Dit omdat we natuurlijk hebben dat twee koppels (Xi , Yi ), (Xj , Yj ) concordant zijn wanneer (Xi − Xj )(Yi − Yj ) > 0 of dus als (Ri − Rj )(Sj − Sj ) > 0. Kendall’s tau is bijgevolg een afhankelijkheidsmaat gebaseerd op gerankte data. Voorbeeld 5.2.4 (‘Mini-dataset’) Als voorbeeld bepalen we de empirische Kendall’s tau waarde van de data uit Tabel 4.1.1. Met behulp van de ranken uit Tabel 5.1.1 bepalen we het aantal concordante paren, hierbij dienen er 62 = 15 koppels beschouwd te worden. We komen op een totaal van 6 concordante paren: 1. (X2 , Y2 ), (X3 , Y3 ), want (R2 − R3 )(S2 − S3 ) = (2 − 3)(1 − 3) > 0, 2. (X2 , Y2 ), (X4 , Y4 ), want (2 − 4)(1 − 5) > 0, 3. (X2 , Y2 ), (X5 , Y5 ), want (2 − 5)(1 − 4) > 0, 4. (X2 , Y2 ), (X6 , Y6 ), want (2 − 6)(1 − 2) > 0, 5. (X3 , Y3 ), (X4 , Y4 ), want (3 − 4)(1 − 5) > 0, 6. (X3 , Y3 ), (X5 , Y5 ), want (3 − 5)(1 − 4) > 0. Aldus bekomen we een empirische Kendall’s tau waarde τn =
4 6−1 6(6−1)
= 54 −1 = − 15 .
Verder is τn ook een functie van de empirische copula Cn . Om dit in te zien, introduceren we 1 als Xj < Xi en Yj < Yi Iij = 0 anders, voor alle i 6= j met i, j ∈ {1, . . . , n} en stellen we Iii = 1. Voor het aantal concordante paren Pn hebben we n
n
n
n
XX XX 1 XX (Iij + Iji ) = Iij = −n + Iij , Pn = 2 i=1 j6=i i=1 j6=i i=1 j=1 gezien Iij + Iji = 1 als en slechts als de paren (Xi , Yi ) en (Xj , Yj ) concordant zijn. Zij vervolgens n
1X 1 Wi = Iij = #{j : Xj ≤ Xi , Yj ≤ Yi }, n j=1 n dan hebben we dat W = (W1 +. . .+Wn )/n en bijgevolg Pn = −n+n2 W . Aldus bekomen we, met behulp van gelijkheid (5.2.1), een nieuwe uitdrukking voor de empirische versie van Kendall’s tau, namelijk τn = 4
n n+3 W− . n−1 n−1
(5.2.2)
Hoofdstuk 5. Copula selectie met behulp van Spearman’s rho of Kendall’s tau
50
De connectie van τn met de empirische copula, Cn , volgt dan uit het feit dat we door Definitie 5.1.2 en de net ingevoerde definitie van Wi volgende eigenschap krijgen. Eigenschap 5.2.5 Met bovenstaande definities van de empirische copula Cn en van Wi , geldt er Si Ri , . W i = Cn n+1 n+1 Hieruit volgt Z
1
Z
1
Cn (u, v)dCn (u, v).
W = 0
0
Via deze eigenschap blijkt ook dat τn een asymptotisch onvertekende schatter is voor de theoretische versie van Kendall’s tau, die, zoals beschreven in Sectie2.3, voorgesteld kan worden door Z 1Z 1 τ =4 C(u, v)dC(u, v) − 1. 0
0
Om dit in te zien, kunnen we gebruik maken van gelijkheid (5.2.2) en het feit dat Cn → C als n → +∞. Voor de exacte condities en voorwaarden waarvoor dit resultaat geldt, zie [36].
5.3
Schatten van de copula parameter
Onderstel dat een parametrische familie copula’s (Cθ ) wordt overwogen als model voor de afhankelijkheid tussen de twee continue variabelen X en Y , waarvan we over een steekproef (X1 , Y1 ), . . . , (Xn , Yn ) beschikken. Een vraag die zich dan stelt is ‘Hoe moet θ geschat worden?’. In deze sectie bekijken we, afhankelijk van het feit of θ re¨eel of multidimensionaal is, verschillende niet-parametrische strategi¨en die deze vraag beantwoorden. Voor het geval waarbij de copula parameter θ re¨eel is, kunnen we gebruik maken van de Kendall’s tau of Spearman’s rho afhankelijkheidsmaten. Indien we echter te maken hebben met een meerdimensionale parameter θ, moet er gezocht worden naar een alternatief. Een maximum pseudolikelihood schatter brengt hierbij soelaas. Deze laatste methode kan uiteraard ook gebruikt worden ter vervanging van de schattingen met de afhankelijkheidsmaten Spearman’s rho en Kandall’s tau wanneer θ re¨eel is. De maximum pseudolokelihood schatter kan met andere woorden gezien worden als een ‘algemene’ schattingsmethode, maar wordt doorgaans alleen gebruikt voor situaties waar een schatting van Kendall’s tau of Spearman’s rho niet hanteerbaar is.
Hoofdstuk 5. Copula selectie met behulp van Spearman’s rho of Kendall’s tau
5.3.1
51
Kendall’s tau-gebaseerde schatter
We willen het begrip ‘Kendall’s tau gebaseerde schatter’ invoeren. Aan de hand van een voorbeeld met de Clayton copula, proberen we eerst intu¨ıtief tot de definitie ervan te komen. Voorbeeld 5.3.1 Onderstel dat de onderliggende afhankelijkheidsstructuur van het paar continue variabelen (X, Y ) kan gemodelleerd worden met behulp van de Clayton familie Cθ . In dit geval hebben we dus te maken met een re¨eele θ en, zoals blijkt uit Voorbeeld 2.3.6, bestaat er voor dit model een direct verband tussen de copula parameter θ en de theoretische versie van Kendall’s tau. Uit het voorbeeld halen we namelijk dat τ=
θ . θ+2
Bepalen we vervolgens, met behulp van gelijkheid (5.2.1) of (5.2.2), de empirische Kendall’s tau waarde τn van de steekproef (X1 , Y1 ), . . . , (Xn , Yn ), dan komen we snel tot een intu¨ıtieve schatting θˆn voor θ, namelijk τn =
θˆn
2τn =⇒ θˆn = . 1 − τn θˆn + 2
Algemeen kunnen we volgende definitie van ‘Kendall’s tau gebaseerde schatter’ introduceren. Definitie 5.3.2 Zij θ = g(τ ), met g een gladde functie, dan is θˆn = g(τn ), de Kendall’s tau-gebaseerde schatter Vervolgens gaan we voor deze schatting op zoek naar een betrouwbaarheidsinterval voor θ. Hiervoor gegeven we eerst een toepassing van het theorema van Slutsky, gekend onder de naam Delta methode, waarvan het bewijs gevonden kan worden in [38]. Stelling 5.3.3 (Delta methode) Zij Zn , n ≥ 1 toevalsvariabelen zodat we voor een constante a ∈ R hebben dat √ d n(Zn − a) −→ N (0, σ 2 ). Zij verder ϕ : R → R een tweemaal continu afleidbare functie met ϕ0 (a) 6= 0. Dan geldt er √ d n(ϕ(Zn ) − ϕ(a)) −→ N (0, ϕ0 (a)2 σ 2 ), d
met de notatie → − voor convergentie in distributie.
Hoofdstuk 5. Copula selectie met behulp van Spearman’s rho of Kendall’s tau
52
In onze zoektocht naar het betrouwbaarheidsinterval dienen we ook nog een stelling uit fi [33] op nemen. Alvorens deze stelling te kunnen gebruiken, moeten we echter eerst W introduceren: n 1 1X f Iji = #{j : Xi ≤ Xj , Yi ≤ Yj }. Wi = n j=1 n Indien we er nu ook de Wi zoals gedefinieerd in Sectie 5.2.3 bijnemen, dan zien we dat fi het aantal concordante paren met (Xi , Yi ) voorstelt. Dit wetende, de som nWi + nW kunnen we overgaan naar Stelling 3.1 uit [33]. fi het aantal concordante paren met koppel (Xi , Yi ), gedeeld Stelling 5.3.4 Zij Wi + W P fi − 2W )2 , dan geldt er dat √n(τn − τ )/4S door n. Stel verder S 2 = n1 ni=1 (Wi + W een standaard normale verdeling volgt. Met behulp van bovenstaande stelling hebben we dus √ τn − τ n ∼ N (0, 1), 4S waarin
n
S2 =
1X fi − 2W )2 . (Wi + W n i=1
Gezien τn een consistente schatter is voor τ , komen we, door toepassing van Stelling 5.3.3, aan volgende eigenschap. Eigenschap 5.3.5 Voor n → +∞ geldt er dat 1 0 2 θˆn ∼ N θ, [4Sg (τn )] . n Een benaderend 100×(1−α)% betrouwbaarheidsinterval voor θ wordt bijgevolg geven door 1 0 ˆ θn ± zα/2 √ 4S|g (τn )| , n met zα/2 het α2 -de kwantiel van de standaard normale verdeling N (0, 1).
5.3.2
Spearman’s rho-gebaseerde schatter
Voor een re¨eele copula parameter θ hebben we met de Spearman’s rho-gebaseerde schatter een alternatieve schatter θˆn voor θ, waarbij de Spearman’s rho-gebaseerde schatter als volgt gedefinieerd wordt:
Hoofdstuk 5. Copula selectie met behulp van Spearman’s rho of Kendall’s tau
53
Definitie 5.3.6 De Spearman’s rho-gebaseerde schatter wordt gegeven door θ˜n = h(ρn ), waarbij θ = h(ρ) de relatie tussen de copula parameter θ en de theoretische versie van Spearman’s rho voorstelt. In Hoofdstuk 5 van [26] wordt er bewezen dat σ2 , ρn ∼ N ρ, n waar σ 2 afhangt van de onderliggende copula C. Uit dit resultaat kunnen we afleiden dat √ d n(ρn − ρ) −→ N (0, σ 2 ). Passen we opnieuw Stelling 5.3.3 toe met hierin Zn = ρn , a = ρ en ϕ = h, dan verkrijgen we √ d n(θ˜n − θ) −→ N 0, σ 2 h0 (ρ)2 . Dus, gezien ρn consistente schatter voor ρ, verkrijgen we volgende eigenschap: Eigenschap 5.3.7 Voor n → +∞ geldt er dat 1 2 0 2 ˜ θn ∼ N θ, σn h (ρn ) , n met σn een geschikte schatter voor de standaarddeviatie σ. Een benaderend 100 × (1 − α) betrouwbaarheidsinterval voor θ wordt bijgevolg geven door 1 0 θ˜n ± zα/2 √ σn |h (ρn )| . n Een consistente schatter voor de variantie σ 2 wordt, zoals beschreven in [5], gegeven door σn2 = 144(−9A2n + Bn + 2Cn + 2Dn + 2En ),
Hoofdstuk 5. Copula selectie met behulp van Spearman’s rho of Kendall’s tau
54
waarin n
An Bn Cn Dn En
Si 1 X Ri , = n i=1 n + 1 n + 1 2 2 n 1X Ri Si = , n i=1 n + 1 n+1 n n n 1 X X X Ri Si 1 = I(Rk ≤ Ri , Sk ≤ Sj ) + − An , 3 n i=1 j=1 k=1 n + 1 n + 1 4 n n Sj Ri Rj 1 X X Si max , , = n2 i=1 j=1 n + 1 n + 1 n+1 n+1 n n 1 X X Ri Rj Si Sj = max , . n2 i=1 j=1 n + 1 n + 1 n+1 n+1
Bovenstaand resultaat werd gevonden door in de uitdrukkingen voor σ uit [5] de copula C te vervangen door zijn empirische versie Cn .
5.3.3
Maximum pseudolikelihood schatter
De maximum pseudolikelihood schatting is, vooral voor een meerdimensionale copula parameter θ, maar ook voor een re¨eele θ, een goed alternatief voor de hierboven besproken methoden gebaseerd op de Kendall’s tau en Spearman’s rho. Bij de maximum pseudolikelihood methode, die een continue copula Cθ met dichtheid cθ vereist, komt het erop neer om de, op de ranken gebaseerde, log-likelihood functie l(θ) =
n X i=1
Si Ri , , log cθ n+1 n+1
(5.3.1)
te maximaliseren. De term ‘pseudo’ wordt gebruikt om aan te geven dat de oorspronkelijke gegevens, Xi en Yi , eerst getransformeerd moeten worden, vandaar dat we hier spreken over een ‘pseudolikelihood’. Uitdrukking (5.3.1) is precies de gelijkheid die je zou bekomen indien je de onbekende marginalen F en G in de klassieke log-likelihood l(θ) =
n X i=1
log [cθ (F (Xi ), G(Yi ))]
Hoofdstuk 5. Copula selectie met behulp van Spearman’s rho of Kendall’s tau
55
vervangt door de herschaalde versies van hun empirische tegenhangers, of dus F en G vervangen door respectievelijk n
1 X I(Xi ≤ x) Fn (y) = n + 1 i=1 en
n
1 X I(Yi ≤ y). Gn (y) = n + 1 i=1 Dat uit deze substitutie onmiddellijk uitdrukking (5.3.1) volgt, komt uit het feit dat we voor alle i ∈ {1, . . . , n} hebben dat Fn (Xi ) = Ri /(n + 1) en Gn (Xi ) = Si /(n + 1). Deze methode ziet er op het eerste gezicht minder aantrekkelijk uit dan de methoden gebaseerd op Kendall’s tau en Spearman’s rho (en voor re¨eele waarden van θ is dit ook zo). Dit omwille van het numerieke rekenwerk en het feit dat we telkens de copuladichtheid cθ van iedere copula dienen te bepalen. Aan de andere kant is deze methode wel veel algemener, waardoor ze sneller toepasbaar is. Zo vervalt bij deze methode bijvoorbeeld de eis dat copula parameter θ re¨eel moet zijn en is, in tegenstelling tot de twee voorgaande methoden, deze methode dus bruikbaar voor copula’s met een meerdimensionale copula parameter θ.
5.4
Conclusie voor simulatie
In de zoektocht naar een geschikte copula voor het modelleren van de afhankelijkheid in een gegeven dataset (X, Y ) is het nu de bedoeling om aan de hand van de geschatte copula parameter(s) data uit iedere copula, van de familie copula’s (Cθ ) die als model voor de afhankelijkheid tussen deze data overwogen worden, te simuleren. Van deze gesimuleerde data gaat men vervolgens een scatterplot maken en deze vergelijken met de scatterplot van de ranken van de gegeven dataset (X, Y ). Hoe beter de voorgestelde copula de onderliggende copula van het paar (X, Y ) benadert, hoe meer de scatterplots op elkaar zullen gelijken. De familie copula’s (Cθ ) die wij als mogelijk model beschouwen bij de simulaties in Deel III, zijn de Gaussche copula, Student-t copula, Clayton, Frank, Gumbel en FarlieGumbel-Morgenstern copula. Hierbij zullen wij ons echter beperken tot de copula parameter schattingsmethode gebaseerd op Kendall’s tau. Meer specifiek gaan we voor de vijf copula’s met een e´ e´ n-dimensionale copula parameter, dit zijn de Gaussche copula, Clayton, Frank, Gumbel en Farlie-Gumbel-Morgenstern copula, deze parameter schatten met behulp van de zonet in Sectie 5.3.1 beschreven methode gebaseerd op Kendall’s tau. Gezien er bij de Student-t copula twee copula parameters geschat moeten worden,
Hoofdstuk 5. Copula selectie met behulp van Spearman’s rho of Kendall’s tau
56
zijnde de correlatieco¨effici¨ent r en het aantal vrijheidsgraden ν, kunnen we bij deze copula eerst r te schatten met behulp van de schattingsmethode gebaseerd op Kendall’s tau en moeten we nadien het aantal vrijheidsgraden schatten met behulp van een maximum pseudolikelihood.
Hoofdstuk 6 Copula selectie met behulp van chi-plots In deze methode worden conclusies van wat de afhankelijkheid tussen twee variabelen X en Y betreft, en dus ook met welke copula ze het best kunnen gesimuleerd worden, niet uit e´ e´ n maar uit twee scatterplots gehaald. Wat de eerste scatterplot betreft, kan het hele verhaal van Hoofdstuk 5 hier herhaald worden. De copula selectiemethode beschreven in dit hoofdstuk breidt met andere woorden de vorige methode, de selectie gebaseerd op Kendall’s tau of Spearman’s rho, uit door het maken van een tweede scatterplot. Deze extra scatterplot wordt de χ-plot of chi-plot genoemd. De plot wordt bekomen door de n paren (Xi , Yi ) te transformeren in n paren (λi , χi ). De chi-plots hebben als doel een gedetailleerdere en meer expliciete informatie te geven over de associatie tussen de variabelen X en Y , daar in vele situaties verre van alle informatie, wat de afhankelijkheid tussen de twee variabelen betreft, kan afgeleid worden uit een scatterplot.
6.1
Chi-plots
Chi-plots werden door Fisher en Switzer voor het eerst bedacht in 1985 en later, in 2001, verder besproken en meer ge¨ıllustreerd. Ze werden ge¨ınspireerd door een controle limiet en gebaseerd op de χ2 -statistiek voor de onafhankelijkheid in een kruistabel. Stel we beschikken over een steekproef (X1 , Y1 ), . . . , (Xn , Yn ) van het koppel variabelen (X, Y ) met dichtheidsfunctie F en G. Dan zorgt elk van de n punten (Xi , Yi ) ervoor dat het (X, Y ) vlak opgedeeld wordt in vier kwadranten, namelijk de kwadranten gevormd door X ≤ Xi en Y ≤ Yi . De overige n − 1 punten worden op die manier verdeeld over de vier verschillende kwadranten, wiens relatieve frequenties genoteerd worden met Ani , Bni , Cni en Dni . De waarden van deze kwadranten worden nu gebruikt 57
58
Hoofdstuk 6. Copula selectie met behulp van chi-plots
om de steekproef bivariate verdelingsfunctie Hi en de marginale verdelingsfuncties Fi en Gi te defini¨eren: Hi = Ani =
1 #{j 6= i : Xj 6 Xi , Yj 6 Yi }, n−1
en Fi = Ani + Bni = Gi = Ani + Dni =
1 #{j n−1 1 #{j n−1
(6.1.1)
6= i : Xj 6 Xi }, 6= i : Yj 6 Yi }.
Merk op dat deze grootheden enkel afhangen van de ranken van de observaties (X1 , Y1 ), . . . , (Xn , Yn ). Gezien een chi-plot gemaakt wordt met behulp van deze variabelen, wat meteen hieronder getoond wordt, is deze dus ook enkel gebaseerd en geconstrueerd op de ranken van de data. Bijgevolg is een chi-plot invariant onder monotone transformaties van de marginale verdelingen. De chi-plot ontstaat nu door de paren (λi , χi ) te plotten, waarbij χi = p
Hi − Fi Gi Fi (1 − Fi )Gi (1 − Gi )
(6.1.2)
en ˜ i ) max(F˜i2 , G ˜ 2i ). λi = 4 sign(F˜i G ˜ i = Gi − 1/2 voor i = 1, . . . , n. Met in de laatste uitdrukking F˜i = Fi − 1/2 en G
6.1.1
Bespreking χ
De teller van de uitdrukking voor χi , dit is Hi − Fi Gi , is hetzelfde als Ani Cni − Bni Dni , het verschil van het kruisproduct in de corresponderende 2 × 2 tabel zoals deze in Tabel 6.1.1. Ook is in de breuk in het rechterlid van gelijkheid (6.1.2) de correlatie co¨effici¨ent te herkennen die geassocieerd kan worden met de n − 1 paren (Xij , Yij ) bekomen uit de originele steekproef van toevalsvariabelen (X, Y ) door telkens Xi en Yi te vast te houden en Xij , Yij voor iedere j 6= i gelijk te stellen aan 1 als Xj < Xi 1 als Yj < Yi Xij = en Yij = 0 anders. 0 anders We hebben dus −1 < χi < 1 voor i = 1, . . . , n. Verder is nχ2i gelijk aan de traditionele χ2 -teststatistiek voor de onafhankelijkheid in de 2 × 2 kruistabel gegenereerd door het punt (Xi , Yi ). Als Y een strikt stijgende functie is van X, is χn = 1 voor alle steekproefpunten (Xi , Yi ). Omgekeerd, indien Y een strikt dalende functie van X, is χn = −1 voor alle steekproefpunten (Xi , Yi ).
Hoofdstuk 6. Copula selectie met behulp van chi-plots
Yj ≤ Yi Yj > Yi
Xj ≤ Xi Ain Bin
59
Xj > Xi Din Cin
Tabel 6.1.1: Frequenties van de kwadranten bij de constructie van een chi-plot voor punt (Xi , Yi ).
6.1.2
Bespreking λ
De waarden van de variabele λi bevinden zich telkens in het interval [−1, 1]. Als X en Y twee willekeurige toevalsvariabelen zijn met onafhankelijke continue marginalen, zullen de waarden van λi uniform verdeeld zijn. Echter, als er associatie is tussen de variabelen, kunnen punten een clusteringseffect vertonen. Zo zal λi vooral positieve waarden aannemen bij een positieve associatie tussen de variabelen en zal het merendeel van de λi ’s een negatieve waarde aannemen bij een negatieve associatie. Aldus kan er naar λi gekeken worden als een maat voor de afstand tussen het koppel (Xi , Yi ) en het centrum van de data of dus t.o.v. het centrum van de scatterplot. Om uitschieters te voorkomen wordt er bij een chi-plot aangeraden om enkel de paren (λi , χi ) te plotten waarvoor λi voldoet aan 2 1 1 − . |λi | < 4 n−1 2 Dit criterium zal ten hoogste acht datapunten elimineren. De reden waarom uitschieters best niet geplot worden in een chi-plot en dus de reden van bovenstaande ongelijkheid waaraan |λi | moet voldoen opdat het punt (λi , χi ) geplot zal worden in de chi-plot, leggen we als slot van deze sectie kort uit. Het is zo dat het verschil Hi − Fi Gi inp de teller van uitdrukking (6.1.2) voor χi met een passende schaling, waarbij noemer Fi (1 − Fi )Gi (1 − Gi ) zo’n schaling is, voor elke i = 1, . . . , n zich asymptotische zal gedragen als een normale variabele. Voor steekproefpunten die zich bevinden aan de randen van de verdeling van de data λi , zal het steekproefgedrag van de getransformeerde data echter onregelmatigheden vertonen. Hierdoor zal de theorie van de asymptotische normale verdeling van Hi − Fi Gi niet meer gelden. Dit is bijgevolg de reden waarom uitschieters van de data ge¨elimineerd worden in de chi-plot. Een gelijkaardige, maar volledige en meer gedetailleerdere verklaring kan gevonden worden in [23].
Hoofdstuk 6. Copula selectie met behulp van chi-plots
6.2
60
Interpretatie van een chi-plot
Met de bovenstaande definitie van Hi , Fi en Gi verwachten we voor onafhankelijke variabelen X en Y dat Hi ≈ Fi Gi voor alle i = 1, . . . , n. Wat dus betekent dat waarden van χi die te ver van nul liggen een indicatie zijn tegen de hypothese van onafhankelijkheid. Als helpende hand om zulke indicaties, tegen de hypothese van onafhankelijkheid, te vinden, worden er bij iedere chi-plot twee p‘controle lijnen’ mee getekend op de figuur. Deze lijnen bevinden zich op χi = ±cp / (n), waar cp geselecteerd werd zodat, onder de hypothese van onafhankelijke data, ongeveer 100p% van de koppels (λi , χi ) tussen deze twee lijnen zou liggen. Aan de hand van simulaties uit een onafhankelijk koppel (X, Y ) werden de cp waarden voor p = 0.9, 0.95, resp. 0.99 gevonden, in deze gevallen is cp namelijk gelijk aan 1.54, 1.78, resp. 2.18. Uit bovenstaande paragraaf weten we dat bij onafhankelijke data er zich zowel positieve als negatieve waarden van χi moeten voordoen alsook dat de punten (λi , χi ) zich moeten bevinden tussen de twee controle lijnen 1 , dit gebied wordt ook de betrouwbaarheidsband genoemd. Ook enkele andere vuistregels zijn handig bij de interpretatie van een chi-plot. We sommen in deze paragraaf de meest belangrijke op. Als er een min of meer gelijk aantal positieve als negatieve λi waarden terug te vinden zijn in de chi-plot, is dit een indicatie dat de variabelen X en Y niet de neiging hebben om gelijktijdig eerder groot of klein te zijn in verhouding met de mediaan van hun verdeling. Het teken van λi wordt namelijk bepaald door sign(F˜i G˜i ), waarbij F˜i = Fi −1/2 ˜ i = Gi − 1/2. Ook kan uit een chi-plot snel afgeleid worden of de variabelen X en G en Y eerder positief of negatief afhankelijk zijn. Zo geldt er dat wanneer de meerderheid van de punten zich buiten de betrouwbaarheidsband bevinden en dit met χi > 0, er een positieve afhankelijkheid tussen de variabelen X en Y is. Hoe groter deze χ waarden, hoe groter de (positieve) afhankelijkheid. Wanneer χi = 1 voor alle waarden van i = 1, . . . , n is er een perfecte positieve correlatie. Omgekeerd, wanneer de meerderheid van de punten zich buiten de betrouwbaarheidsband bevinden maar met een χi < 0, is er een negatieve afhankelijkheid tussen de variabelen X en Y . Hoe negatiever deze χ waarden, hoe groter de (negatieve) afhankelijkheid. Wanneer alle χi = −1 is er een perfecte negatieve correlatie. Wat de staarfafhankelijkheden tussen de variabelen betreft, kan er uit een chi-plot weinig informatie gehaald worden. Hierdoor zou men zich kunnen afvragen wat het voordeel is van een chi-plot ten opzichte van een scatterplot van de ranken, aangezien men daar wel staartafhankelijkheid kan opmerken. Echter kan uit een chi-plot veel beter de algemene afhankelijkheid afgeleid worden dan 1
Men mag zich, voor de conclusie van onafhankelijkheid, niet blindstaren op het feit of al dan niet alle punten zich tussen de controle lijnen bevinden. Wanneer elk punt (λi , χi )(i = 1, . . . , n) zich namelijk tussen de twee controle lijnen bevindt, maar allen met een positieve, resp. negatieve waarde voor χi , mag niet de conclusie ‘onafhankelijke data’ getrokken worden! Deze punten zijn dan wel degelijk licht (want |χi | niet al te groot, zie verder) positief, resp. negatief afhankelijk.
61
Hoofdstuk 6. Copula selectie met behulp van chi-plots
uit een gewone scatterplot van de ranken en dient er verder ook opgemerkt te worden dat men voor de interpretatie wat de afhankelijkheid tussen de variabelen betreft steeds beide plots samen dient te beschouwen. Voorbeelden van chi-plots geconstrueerd uit (perfect) positieve, negatieve alsook van onafhankelijke variabelen zijn terug te vinden in Appendix D.
6.3
Voorbeelden van chi-plots
Om alles helemaal duidelijk te laten worden, construeren we de chi-plot van de gegenereerde mini-dataset uit Hoofdstuk 4. Voorbeeld 6.3.1 (‘Mini-dataset’) Als voorbeeld construeren we de chi-plot van de kleine dataset van 6 onafhankelijke trekkingen (Xi , Yi ) die we bij het begin van Deel II in Hoofdstuk 4 introduceerden. Deze data is terug te vinden in Tabel 4.1.1 en de ranken zijn deze opgesomd in Tabel 5.1.1. De nodige grootheden bij het maken van een chi-plot worden samengevat in Tabel 6.3.1. Gezien er hier twee punten samenvallen, zijn er in dit voorbeeld dus drie punten die 1 2 1 geplot kunnen worden. Echter, de voorwaarde |λi | < 4 5 − 2 = 0.36, zorgt ervoor dat er uiteindelijk slechts e´ e´ n van deze drie punten getoond mag worden in de chi-plot, wat ook gedaan werd zoals te zien in Figuur 6.3.1. i 5Hi 5Fi 5Gi χi λi
1 0 0 5 -1
2 3 4 0 1 2 1 2 3 0 2 4 - 0.17 -0.41 1 0.04 0.36
5 2 4 3 -0.41 0.36
6 1 5 1 0 -1
Tabel 6.3.1: Te berekenen grootheden bij het maken van een chi-plot voor de data in Tabel 4.1.1.
Een ‘probleem’ bij het maken van een chi-plot, wat ook duidelijk in het voorbeeld tot uiting komt, is het feit dat er bij de constructie van de plot minstens twee punten (λi , χi ) wegvallen. Dit wegens het delen door nul bij de berekening van χi . Daar het maximaal aantal punten dat omwille van deze reden weg kan vallen vier is, zal dit probleem echter pas voelbaar of tot uiting komen wanneer er gewerkt moet worden met een kleine dataset. Zo zal de chi-plot van een dataset van 15 of minder punten niet relevant zijn, daar
Hoofdstuk 6. Copula selectie met behulp van chi-plots
62
Figuur 6.3.1: Chi-plot voor de data in Tabel 4.1.1. er op die manier amper of slechts geen conclusies van de afhankelijkheid tussen de variabelen getrokken zal kunnen worden uit de chi-plot omwille van een te weinig aantal geplotte punten (λi , χi ). Dit laatste was duidelijk te merken in bovenstaand voorbeeld. Om een beter idee te krijgen over een chi-plot, gaan we over naar de chi-plot van een grotere dataset, meer bepaald van de dataset ‘30 aansprakelijkheidsvorderingen’ uit Sectie 4.2. Voorbeeld 6.3.2 (Dataset ‘30 aansprakelijkheidsvorderingen’) In Hoofdstuk 4 werd de dataset ‘30 aansprakelijkheidsvorderingen’ ge¨ıntroduceerd bestaande uit 30 aansprakelijkheidsvorderingen van een verzekeringsmaatschappij. In Figuur 6.3.2 wordt de chi-plot van deze data weergegeven. Op vijf punten na, hebben alle χi een niet-negatieve waarde. Voorts liggen er ook vijf punten buiten de controle lijnen en bevinden er zich nog een viertal punten net tussen de controle lijnen. Uit al dit kunnen we een positieve afhankelijkheid tussen de variabelen afleiden. Echter, gezien de λi ’s geen al te grote positieve waarden aannemen, zal deze positieve afhankelijkheid beperkt zijn. Deze conclusie, van licht positieve afhankelijkheid tussen de variabelen, wordt bevestigd door de Kendall’s tau waarde van de data, zijnde 0.166.
Hoofdstuk 6. Copula selectie met behulp van chi-plots
63
Figuur 6.3.2: Chi-plot voor de data beschreven in Sectie 4.2, τn = 0.166.
6.4
Conclusie voor simulatie
Bij deze methode worden conclusies, van wat de afhankelijkheid tussen twee variabelen X en Y betreft, uit twee plots gehaald, zijnde de scatterplot van de gerankte data en de chi-plot. In de zoektocht naar een geschikte copula voor het modelleren van de afhankelijkheid van deze gegeven dataset (X, Y ) is het bij deze copula selectiemethode dus de bedoeling om enerzijds de scatterplot van de gerankte data te gaan vergelijken met de scatterplots van de uit onze zes onderzochte copula’s (Gaussche copula, Student-t copula, Clayton, Frank, Gumbel en Farlie-Gumbel-Morgenstern copula) gegenereerde data. Deze laatsten zijn de scatterplots geconstrueerd met de copula selectiemethode gebaseerd op Kendall’s tau uit vorige hoofdstuk. Anderzijds moet ook de chi-plot van de gegeven data (X, Y ) vergeleken worden met de chi-plots van de zes copula’s. Deze laatsten worden bekomen door een chi-plot te maken van de data gesimuleerd uit de respectievelijke copula’s. Herinner dat positieve waarden voor χ een indicatie zijn voor positieve afhankelijkheid tussen de variabelen en negatieve waarden van χ een indicatie zijn voor negatieve afhankelijkheid, maar er in een chi-plot weinig informatie kan gehaald worden over de staartafhankelijkheden. Dit laatste is echter geen probleem aangezien de chi-plot steeds samen met de scatterplot dient beschouwd te worden Meer specifiek moeten er bij deze selectiemethode dus bovenop de scatterplots die we geconstrueerd hadden voor de methode gebaseerd op Kendall’s tau, ook nog chiplots geconstrueerd worden voor de Gaussche copula, Student-t copula, Clayton, Frank, Gumbel en Farlie-Gumbel-Morgenstern copula. De copula selectiemethode gebaseerd op chi-plots breidt met andere woorden de methode gebaseerd op Kendall’s tau, alsook
Hoofdstuk 6. Copula selectie met behulp van chi-plots
64
deze gebaseerd op Spearman’s rho, uit door het maken van een extra plot. Hierdoor zal er meer over de afhankelijkheid tussen de variabelen gezegd kunnen worden en zullen er ook sterkere conclusies getrokken kunnen worden in de beslissing over de meest geschikte copula bij de gegeven dataset (X, Y ).
Hoofdstuk 7 Copula selectie met behulp van K-plots Net als bij vorige selectiemethode gebaseerd op chi-plots, doet ook deze methode beroep op twee scatterplots om de afhankelijkheid tussen variabelen X en Y na te gaan. Naast de scatterplots van de ranken, dit zijn de scatterplots zoals deze uitgelegd in Hoofdstuk 5, worden hier ook Kendall-plots aanschouwd. Zo’n plot wordt bekomen door de n paren (Xi , Yi ) te transformeren in n paren (Wn:i , H(i) ). De Kendall-plots, kortweg Kplots, hebben als doel een preciezere beschrijven van de afhankelijkheid en associatie tussen de variabelen te geven. De copula selectiemethode beschreven in dit hoofdstuk breidt niet alleen de methode gebaseerd op Kendall’s tau of Spearman’s rho uit, het is bovendien ook een verbetering op de vorige selectiemethode gebaseerd op chi-plots. Dit omwille van het feit dat Kplots makkelijker te interpreteren zijn dan chi-plots, alsook omdat de bivariate theorie achter K-plots eenvoudig uit te breiden is naar meerdere dimensies.
7.1
Constructie van een K-plot
K-plots zijn vrij recent in 2003 ontwikkeld door Genest en Boies, die ge¨ınspireerd werden door bekende notie van QQ-plots.
7.1.1
QQ-plots
Stel we beschikken over een univariatie steekproef X1 , . . . , Xn van toevalsvariabele X. Dan is het maken van een normale QQ-plot, ook wel standaard QQ-plot genoemd, de meest gebruikte manier om het Gaussisch karakter van deze steekproef grafisch te beoordelen. Bij zo’n QQ-plot worden de paren (Zi:n , X(n) ) geplot, waarin X(1) ≤ · · · ≤
65
Hoofdstuk 7. Copula selectie met behulp van K-plots
66
X(n) de orde statistieken voorstellen1 en waarbij Zi:n de ide normale ‘rankit’ geassocieerd aan een standaard normale steekproef van grootte n is. Meer specifiek zijn de Zi:n ’s de verwachte waarden van de orde statistieken van een steekproef van grootte n met een standaard normale verdeling. Met andere woorden, Zi:n = E(Z(i) ), 1 ≤ i ≤ n, met Z(1) ≤ · · · ≤ Z(n) de orde statistieken van een willekeurige steekproef Z1 , . . . , Zn met een standaard normale verdeling.
7.1.2
Interpretatie van een QQ-plot
De bespreking hieronder geldt voor de interpretatie van eender welke QQ-plot. Deze regels worden dus algemeen aangenomen en zijn niet specifiek eigen aan een normale QQ-plot. De punten in een QQ-plot zijn, wanneer er volgens stijgende waarden van de x-as gekeken wordt, uiteraard steeds niet-dalend. Verder is het zo dat wanneer de twee verdelingen die met elkaar vergeleken worden (dit zijn de theoretische verdeling2 en de verdeling van de onderzochte steekproef) identiek verdeeld zijn, de punten van de QQplot zich rond de hoofddiagonaal x = y zullen bevinden. Ook zullen de punten van een QQ-plot ongeveer een lijn vormen, maar niet noodzakelijk de lijn x = y, als de twee verdelingen met elkaar overeenkomen na het uitvoeren van een lineaire transformatie op de waarden van e´ e´ n van de twee verdelingen. Verder is het zo dat wanneer de algemene trend van de QQ-plot vlakker is dan de hoofddiagonaal, de verdeling geplot op de horizontale as meer verspreid is dan deze geplot op de verticale as. Omgekeerd, is de algemene trend van de QQ-plot steiler dan de lijn x = y, dan is de verdeling geplot op de verticale as meer verspreid dan de verdeling geplot op de horizontale as. Om alles duidelijk te laten worden, eindigen we deze sectie met een voorbeeld. Voorbeeld 7.1.1 Figuur 7.1.1 geeft de standaard QQ-plots weer van een toevalsvariabele X, waarbij in de linkse afbeelding X ∼ N (0, 1), terwijl in de rechtste afbeelding X ∼ Exp(1). Er werd hierbij telkens een onafhankelijke steekproef van grootte 100 gegenereerd. De linkse figuur is de normale QQ-plot met op de verticale as de kwantielen van een steekproef bestaande uit 100 punten onafhankelijk gegenereerd uit een standaard normale verdeling en op de horizontale as de kwantielen van de standaard normale populatie. Met andere woorden, de verdeling van de punten uit de steekproef is dezelfde als 1
Niet te verwarren met de ranken Si ∈ {1, . . . , n} van de steekproef X1 , . . . , Xn . Met X(1) en X(n) bedoelen we hier de kleinste, respectievelijk grootste waarde die voorkomt in de steekproef. 2 Bij een normale QQ-plot is de theoretische verdeling de standaard normale verdeling
Hoofdstuk 7. Copula selectie met behulp van K-plots
67
Figuur 7.1.1: Standaard QQ-plot van een onafhankelijke steekproef van grootte 100 uit een normale en exponenti¨ele verdeling. de theoretische verdeling, met als logisch gevolg dat de punten van de QQ-plot zich zo goed als allemaal op de hoofdiagonaal x = y bevinden. In de rechtse figuur bevinden de punten zich logischerwijs niet op de hoofdiagonaal, gezien de steekproef gegenereerd werd uit een exponenti¨ele verdeling. De punten volgen hier een sterk niet-lineair patroon, wat bevestigt dat een exponenti¨ele verdeling, onze steekproef, geen standaard normale verdeling volgt, ook niet op een lineaire transformatie na. Tot slot is het feit dat alle punten langs een kant van de lijn x = y liggen een teken dat het steekproefgemiddelde niet nul is. Wat ook klopt, daar we na een berekening een gemiddelde van 1.017 bekomen voor onze steekproef.
7.1.3
K-plots
Voortgaande op hetgeen net beschreven werd in de sectie over QQ-plots, kan, wanneer we beschikken over een bivariate steekproef (X1 , Y1 ), . . . , (Xn , Yn ), een grafische manier voor het beoordelen van de afhankelijkheid tussen twee continue toevalsvariabelen X en Y (met respectievelijke verdelingsfuncties F en G), als volgt geconstrueerd worden: • Bepaal voor elke 1 ≤ i ≤ n grootheid Hi zoals gedefinieerd in uitdrukking (6.1.1). • Orden deze Hi ’s totdat men H(1) ≤ · · · ≤ H(n) krijgt.
Hoofdstuk 7. Copula selectie met behulp van K-plots
68
• Plot de n punten (Wi:n , H(i) ). Hierin stelt Wi:n de verwachte waarde voor van de ide orde statistiek van een willekeurige steekproef van grootte n die K0 verdeeld is, waarbij K0 de verdeling is van Hi onder de hypothese van onafhankelijkheid. Met andere woorden, Wi:n is de verwachte waarde van de ide orde statistiek van een willekeurige steekproef van grootte n voor de toevalsvariabele W = C(U, V ) = H(X, Y ) met C de onafhankelijke copula onder de hypothese van onafhankelijkheid tussen de uniform-[0, 1] verdeelde variabelen U en V of dus tussen X en Y , wat op hetzelfde neerkomt. Er geldt met andere woorden dat W = U V = F (X)G(Y ) waarbij U en V twee onafhankelijke U01 verdeelde variabelen zijn of dus X en Y twee onafhankelijke continue toevalsvariabelen. De resulterende grafiek wordt nu de Kendall- plot of gewoonweg K-plot genoemd. Vooraleer we de omschrijving van de procedure voor het maken van een K-plot kunnen be¨eindigen, moeten we nog de vorm achterhalen van K0 onder de hypothese van onafhankelijkheid. Voor alle 1 ≤ i ≤ n hebben we, door de definitie van de dichtheid van een orde statistiek: Z 1 n−1 w{K0 (w)}i−1 {1 − K0 (w)}n−i dK0 (w), (7.1.1) Wi:n = n i−1 0 Bovenstaande uitdrukking kan uiteraard ook geschreven worden als Z 1 n−1 wk0 (w){K0 (w)}i−1 {1 − K0 (w)}n−i dw Wi:n = n i−1 0 met en k0 de corresponderende dichtheid. Uit Gevolg 2.1 van [33] volgt dat de empirische verdelingsfunctie Kn van de pseudo√ observaties H1 , . . . , Hn onder bepaalde condities een asymptotische Gaussische, nconsistente schatter is van K(w) = P (H(X, Y ) ≤ w), 0 ≤ w ≤ 1. ˆ n (Xi , Yi ) voor Een conclusie die intu¨ıtief aangevoeld kan worden uit het feit dat Hi = H ˆ n → ∞ convergeert naar H, waarbij Hn de empirische verdelingsfunctie is gebaseerd op de n − 1 paren (Xj , Yj ) met j 6= i. In het geval dat X, Y onafhankelijk zijn, kunnen we echter een exacte uitdrukking voor K(w) berekenen. Dan geldt er namelijk dat H(x, y) = F (x)G(y) voor alle x, y ∈ R en met F en G de verdelingsfuncties van X en Y . Aldus, met U en V willekeurige onafhankelijke uniforme variabelen op het interval [0, 1] en waarbij de dichtheidsfunctie van U met l aangeduid wordt, hebben we voor alle
Hoofdstuk 7. Copula selectie met behulp van K-plots
69
w ∈ [0, 1] dat K(w) = K0 (w) = P (U V ≤ w) Z 1 P (U V < w|V = v)l(v)dv = 0 Z 1 P (U v < w)dv = 0 Z 1 w P U≤ = dv v 0 Z 1 Z w w 1dv + = dv w u 0 = w − w log(w), waarbij in de derde, alsook in de laatste stap, gebruikt werd gemaakt van het feit dat variabele V uniform verdeeld is op [0, 1]. In het geval van twee onafhankelijke variabelen geldt er met andere woorden dat K(w) = K0 (w) = w − w log(w), 0 ≤ w ≤ 1
(7.1.2)
Alles wat overblijft te doen is deze keuze van K, uitdrukking (7.1.2), in de uitdrukking (7.1.1) van Wi:n steken. Aldus doende, kunnen de nodige waarden van Wi:n berekend worden en kan de K-plot geconstrueerd worden.
7.1.4
Link met Kendall’s tau
K is de univariate samenvatting van de afhankelijkheid belichaamd in copula C. Dit bracht Cap´era`a, Foug`eres en Genest tot volgende ordening, die uitvoerig beschreven wordt in [6]. Definitie 7.1.2 Zij (X, Y ) en (X ∗ , Y ∗ ) twee paar toevalsvariabelen met respectievelijke verdelingsfuncties H en H ∗ . Dan is (X, Y ) minder positief afhankelijk dan (X ∗ , Y ∗ ), notatie (X, Y ) ≺K (X ∗ , Y ∗ ), als en slechts als K(w) ≥ K ∗ (w) voor alle 0 ≤ w ≤ 1 en met K, resp. K ∗ de cumulatieve verdelingsfuncties van de toevalsvariabelen H(X, Y ) en H ∗ (X ∗ , Y ∗ ). Volgende eigenschap, bewezen in [34], toont aan waarom de in Sectie 7.1.3 geconstrueerde grafiek de naam ‘Kendall-plot’ kreeg. Dit is namelijk omwille van de sterke relatie tussen de Kendall’s tau co¨effici¨ent en K.
70
Hoofdstuk 7. Copula selectie met behulp van K-plots
Gevolg 7.1.3 Voor een koppel toevalsvariabelen (X, Y ) die H verdeeld zijn, geldt er Z 1 K(w)dw. τ (X, Y ) = 4E{H(X, Y )} − 1 = 3 − 4 0
Omgekeerd, de schatting τn voor de Kendall’s correlatieco¨effici¨ent van concordantie, kan bepaald worden door 4H − 1, waarbij H = (H1 , . . . , Hn )/n.
7.2
Interpretatie van een K-plot
Een K-plot neemt een gelijkaardige interpretatie, wat het opsporen van afhankelijkheid betreft, van QQ-plots aan. Net zoals een gebrek aan lineariteit in een standaard QQ-plot een teken is van een niet normale verdeling, is de hoeveelheid kromming in de K-plot een teken van de graad van associatie. Zo verschijnt er een zo goed als rechte lijn indien de variabelen onafhankelijk zijn, maar is elke afwijking van de hoofddiagonaal in de K-plot een teken van afhankelijkheid van de data. Positieve, respectievelijk negatieve afhankelijkheid van de data kan vermoed worden als de punten zich in de K-plot boven, resp. onder de hoofdiagonaal y = x bevinden. Ruw gezegd is het ook zo dat, hoe groter de afstand tussen de punten en de hoofddiagonaal, hoe groter de afhankelijkheid. Verder is het zo dat de punten bij perfecte negatieve afhankelijkheid op de x-as liggen, dit is alle H(i) hebben waarde nul. Daarentegen is er sprake van perfect positieve afhankelijkheid wanneer alle punten zich op de curve K0 (w) bevinden. Deze laatste curve wordt steeds meegetekend in een K-plot. Voorbeelden van K-plots geconstrueerd uit (perfect) positieve, negatieve alsook van onafhankelijke variabelen zijn terug te vinden in Appendix D. Over de staartafhankelijkheden kan er uit een K-plot, in tegenstelling tot uit een chiplot, wel makkelijk informatie gehaald worden. Algemeen is het zo de ligging van de punten in de respectievelijke linker beneden- en rechter bovenhoek, de afhankelijkheidssituatie in de lower, respectievelijk upper tail bepalen. Zo is het dat, wanneer de punten zich in de rechter bovenhoek rond de rechte x = y bevinden, er geen sprake is van boven-staartafhankelijkheid. Daarentegen, liggen de punten in deze bovenhoek boven, resp. onder de hoofddiagonaal, dan is er een positieve, resp. negatieve bovenstaartafhankelijkheid. De afstand van de punten in deze bovenhoek ten opzichte van de diagonaal bepaald hoe sterk deze afhankelijkheid is in de upper tail. Eenzelfde redenering kan gevolgd worden in de besluitvorming wat de beneden-staart afhankelijkheid betreft.
71
Hoofdstuk 7. Copula selectie met behulp van K-plots
7.3
Voorbeelden van K-plots
Om alles volledig duidelijk te laten worden, construeren we de K-plot van de gegenereerde dataset uit Hoofdstuk 4. Voorbeeld 7.3.1 (‘Mini-dataset’) Als voorbeeld construeren we de K-plot van de minidataset van 6 onafhankelijke trekkingen (Xi , Yi ) die we bij het begin van Deel II in Hoofdstuk 4 introduceerden. Deze data is terug te vinden in Tabel 4.1.1 en de ranken zijn deze opgesomd in Tabel 5.1.1. De nodige grootheden bij het maken van een K-plot worden samengevat in Tabel 7.3.1. De uiteindelijke K-plot is terug te vinden in Figuur 7.3.1. In deze figuur kunnen we enkel opmerken dat er zich zowel punten boven als onder de hoofddiagonaal bevinden. Dit kan wijzen op het feit dat er zich geen sterke positieve of negatieve afhankelijkheden voordoen. Echter, met slechts zes punten in de K-plot, kan er weinig met zekerheid geconcludeerd worden. i Wi:n H(i)
1 0.0384 0.0
2 0.0924 0.0
3 0.1633 0.2
4 0.2559 0.2
5 0.3811 0.4
6 0.5688 0.4
Tabel 7.3.1: Te berekenen grootheden bij het maken van een K-plot voor de data in Tabel 4.1.1.
Figuur 7.3.1: K-plot voor de data in Tabel 4.1.1.
Hoofdstuk 7. Copula selectie met behulp van K-plots
72
We merken hier allereerst een voordeel op bij het maken van een K-plot in vergelijking met een chi-plot: bij de constructie van een K-plot vallen er nooit punten weg, iets wat wel steeds het geval is bij de constructie van een chi-plot. Bij kleine datasets kan dit een belangrijke rol spelen. Zo kon men bij de chi-plot van de mini-dataset in Voorbeeld 6.3.1 slechts e´ e´ n punt plotten, terwijl er in bovenstaand voorbeeld bij de K-plot van de mini-dataset zes punten geplot kunnen worden. Men zal, zeker in geval van kleine datasets, met behulp van een K-plot dus sneller conclusies over de afhankelijkheid kunnen trekken dan met een chi-plot. Gezien er uit een K-plot met zes punten echter in deze situatie ook weinig kan geconcludeerd worden, gaan we over naar de K-plot van een grotere dataset, meer bepaald van de dataset ‘30 aansprakelijkheidsvorderingen’ uit Sectie 4.2. Voorbeeld 7.3.2 (Dataset ‘30 aansprakelijkheidsvorderingen’) In Hoofdstuk 4 werd de dataset ‘30 aansprakelijkheidsvorderingen’ ge¨ıntroduceerd bestaande uit 30 aansprakelijkheidsvorderingen van een verzekeringsmaatschappij. In Figuur 7.3.2 wordt de K-plot van deze data weergegeven.
Figuur 7.3.2: K-plot voor de data beschreven in Sectie 4.2, τn = 0.166. De punten in de linker benedenhoek suggereren een, weliswaar zeer lichte, negatieve afhankelijkheid in de lower tail. Op deze punten na, kunnen we een positieve afhankelijkheid tussen de variabelen afleiden. Echter, gezien het merendeel van de punten zich op een kleine afstand van de hoofdiagonaal bevinden, zal deze positieve afhankelijkheid tussen de variabelen beperkt zijn. Deze conclusie, van licht positieve afhankelijkheid tussen de variabelen, wordt bevestigd door de Kendall’s tau waarde van de data, zijnde 0.166.
73
Hoofdstuk 7. Copula selectie met behulp van K-plots
Zoals reeds herhaaldelijke keren gezegd, baseren we ons in deze masterproef op bivariate situaties. Echter, gezien we in deze masterproef onder andere een vergelijking willen maken tussen de verschillende copula selectiemethoden, en een groot voordeel van een K-plot erin bestaat dat de theorie hieromtrent uitbreidbaar is naar meerdere dimensies, willen we dit ook effectief aantonen en wijden we in dit Hoofdstuk ook een sectie aan de uitbreiding naar meerdere dimensies van een K-plot.
7.4
Uitbreiding naar meerdere dimensies
Het concept van K-plots kan, in tegenstelling tot het concept van chi-plots, eenvoudig en rechtstreeks uitgebreid worden naar meerdere dimensies, zie ook [27].
Zij (X11 , . . . , X1p ), . . . , (Xn1 , . . . , Xnp ) een p-variate willekeurige steekproef, dan gaat de procedure, die voor het 2-dimensionale geval beschreven werd in Sectie 7.1.3, als volgt: • Bepaal voor elke 1 ≤ i ≤ n grootheid Hi , waarbij Hi =
1 #{j 6= i : (Xj1 , . . . , Xjp ) ≤ (Xi1 , . . . , Xip )}, n−1
en we met een ongelijkheid tussen twee vectoren, de componentsgewijze ongelijkheid bedoelen. • Orden deze Hi ’s totdat men H(1) ≤ · · · ≤ H(n) krijgt. • Plot de n punten (Wi:n , H(i) ). Hierin stelt Wi:n de ide ‘rankit’ voor van een willekeurige steekproef van grootte n van de asymptotische verdeling van de Hi ’s onder de hypothese van wederzijdse onafhankelijkheid tussen de p componenten. De Wi:n ’s worden berekend als in (7.1.1), maar nu met K0 (w) gelijk aan p−1 X 1 1 k log , K0 (w) = w + w k! w k=1
0 ≤ w ≤ 1.
Hoofdstuk 7. Copula selectie met behulp van K-plots
7.5
74
Conclusie voor simulatie
Bij deze methode worden conclusies, van wat de afhankelijkheid tussen twee variabelen X en Y betreft, uit twee plots gehaald, zijnde de scatterplot van de gerankte data en de K-plot. In de zoektocht naar een geschikte copula voor het modelleren van de afhankelijkheid van deze gegeven dataset (X, Y ) is het bij deze copula selectiemethode dus de bedoeling om enerzijds de scatterplot van de gerankte data te gaan vergelijken met de scatterplots van de uit onze zes onderzochte copula’s (Gaussche copula, Student-t copula, Clayton, Frank, Gumbel en Farlie-Gumbel-Morgenstern copula) gegenereerde data. Deze laatsten zijn de scatterplots geconstrueerd met de copula selectiemethode gebaseerd op Kendall’s tau uit Hoofdstuk 5. Anderzijds moet ook de K-plot van de gegeven data (X, Y ) vergeleken worden met de K-plots van de zes copula’s. Deze laatsten worden bekomen door een K-plot te maken van de data gesimuleerd uit de respectievelijke copula’s. Herinner dat een positieve, resp. negatieve afhankelijkheid kan afgeleid worden, indien de punten zich boven, resp. onder de hoofdiagonaal x = y bevinden. Verder kan er ook informatie van de staartafhankelijkheden bekomen worden door te kijken naar de ligging van de punten in de linker benden- en rechter bovenhoek. Meer specifiek moeten er bij deze selectiemethode dus bovenop de scatterplots die we geconstrueerd hadden voor de methode gebaseerd op Kendall’s tau, ook nog K-plots geconstrueerd worden3 voor de Gaussche copula, Student-t copula, Clayton, Frank, Gumbel en Farlie-Gumbel-Morgenstern copula. De copula selectiemethode gebaseerd op K-plots breidt met andere woorden de methode gebaseerd op Kendall’s tau, alsook deze gebaseerd op Spearman’s rho, uit door het maken van een extra plot. Hierdoor zal er meer over de afhankelijkheid tussen de variabelen gezegd kunnen worden en zullen er ook sterkere conclusies getrokken kunnen worden in de beslissing over de meest geschikte copula bij de gegeven dataset (X, Y ). Bovendien is deze selectiemethode gebaseerd op K-plots een verbetering van de methode op chi-plots. Niet alleen daar de methode eenvoudig uit te breiden is naar meerdere dimensies, maar ook daar K-plots makkelijker te interpreteren zijn dan chi-plots. Zo wordt de (on)afhankelijkheid tussen de variabelen visueel sneller zichtbaar, gezien er bij een K-plot enkel gekeken moet worden naar de ligging van de punten ten opzichte van de hoofddiagonaal, terwijl er in een chi-plot niet alleen gekeken moet worden naar de betrouwbaarheidsband, maar ook 3
Hiervoor kunnen we geen beroep doen op reeds voorgeprogrammeerde programma’s in R. In de ‘CDVine’ bibliotheek van R bevindt zich wel het commando ‘BiCopKPlot’ waarmee eenvoudige Kplots gegenereerd kunnen worden. Echter, voor de datasets die wij in Deel III beschouwen, voldoet dit programma niet. Zo duiken er onder meer problemen op in de binomiaalco¨effci¨enten van de uitdrukking (7.1.1) voor Wi:n . Wanneer het aantal observaties toeneemt, worden deze binomiaalco¨effci¨enten immers zo groot, waardoor R deze als oneindig gaat beschouwen. Door de grootheid Wi:n op een alternatieve manier te gaan beschouwen is het ons uiteindelijk gelukt om zelf een programma te schrijven die steeds correcte K-plots genereert.
Hoofdstuk 7. Copula selectie met behulp van K-plots
75
naar het teken van de χi ’s. Ook kunnen er uit een K-plot conclusies over de staartafhankelijkheden gemaakt worden, wat moeilijk is bij een chi-plot. Bovendien heeft een K-plot bij een kleine dataset nog een andere voordeel in vergelijking met een chi-plot, zijnde het feit dat er bij de constructie van een K-plot geen punten ‘wegvallen’. Iets wat wel steeds het geval is bij de constructie van een chi-plot, waardoor er, voornamelijk bij een kleine dataset, uit een K-plot sneller conclusies getrokken zullen kunnen worden dan uit een chi-plot.
Hoofdstuk 8 Copula selectie met behulp van statistische testen, Goodness-of-fit Terwijl er bij de vorige beschreven copula selectiemethoden grafisch bepaald wordt welke copula de beste is voor het modelleren van de afhankelijkheid tussen twee variabelen X en Y , doen we dit bij deze selectiemethode op basis van p-waarden verkregen uit een goodness-of-fit test. Deze copula selectiemethode kan bijgevolg dan ook op twee manieren gebruikt worden; Ten eerste als een op zichzelf staande selectiemethode voor het bepalen van de meest geschikte copula bij een gegeven dataset, maar daarbovenop ook ter controle van de voorgaande copula selectiemethoden beschreven in dit deel van de masterproef. We gingen tot dusver namelijk telkens op basis van grafische elementen een selectie maken over wat de beste copula zou zijn, met een goodness-of-fit test kunnen we nu nagaan of deze ‘beste’ copula al dan niet ook aanvaardbaar is. Het beslissen op basis van p-waarden in plaats van op basis van grafische elementen, is een eerste voordeel van deze methode. Een bijkomend voordeel van deze copula selectiemethode is, net als bij de methode gebaseerd op K-plots, de directe uitbreidbaarheid naar meerdere dimensies. Echter heeft deze selectiemethode ook e´ e´ n groot nadeel, zijnde het feit dat goodness-of-fit testen veel tijd in beslag nemen vergeleken met grafische methoden. Er bestaan tientallen goodness-of-fit testen voor copula modellen. Wij beperken ons in dit hoofdstuk echter tot e´ e´ n welbepaalde test, zijnde deze met teststatistiek Sn . We kozen deze test uit de goodness-of-fit testen die opgesomd worden in [32]. Dit artikel beschrijft en bekritiseert de bestaande blanco goodness-of-fit testen voor copula modellen, waarbij met blanco testen de testen bedoeld worden wiens implementatie geen bepaalde categorie van data eist of dus testen die toe te passen zijn op ieder copula model. In het artikel werd, met behulp van een groot Monte Carlo experiment, ook een power studie gedaan van de verschillende beschreven testen. Uit dit experiment kwam de teststatistiek Sn uit als e´ e´ n van de meest krachtigste en betrouwbaarste, vandaar onze keuze om in deze masterproef met deze teststatistiek verder te werken. 76
Hoofdstuk 8. Copula selectie met behulp van statistische testen, Goodness-of-fit
77
Zoals hierboven reeds aangehaald werd, is e´ e´ n van de voordelen van de copula selectiemethode gebaseerd op een test de uitbreidbaarheid naar meerdere dimensies. Echter zullen we de theorie achter de goodness-of-fit test in dit hoofdstuk enkel in het bivariate geval beschrijven. Wel zullen we onze notaties aanpassen zodat de uitbreiding naar meerdere dimensies rechtstreeks kan gedaan worden en eenvoudig in te zien is. Zo zullen we in dit hoofdstuk onder andere de toevalsvariabelen en hun verdelingen aanduiden met X1 , X2 en F1 , F2 in plaats van met X, Y en F, G. Verder zullen we ook gebruik maken van de notatie C(u) = C(u1 , u2 ) in plaats van de notatie C(u, v) die we tot dusver gebruikten voor bivariate copula’s. Hierdoor zal ook de empirische copula een andere vorm krijgen, maar is meteen ook duidelijk hoe er naar een grotere dimensie, zoals bijvoorbeeld naar dimensie d, overgegaan kan worden, namelijk door vector u uit te breiden met u = (u1 , u2 , u3 , . . . , ud ).
8.1
Algemeen kader van GOF-testen bij copula’s
Stel H is de bivariate verdelingsfunctie van de toevalsvariabelen X1 , X2 die marginale verdelingsfuncties F1 en F2 hebben. De copula representatie van H wordt dan, zoals bewezen in Stelling 1.2.10, gegeven door H(x1 , x2 ) = C(F1 (x1 ), F2 (x2 )) waarbij C uniek is met een cumulatieve verdelingsfunctie bestaande uit uniforme marginalen op [0, 1]. Zoals bij iedere andere reeds beschreven copula selectiemethode gaan we ook in deze methode op zoek naar de copula C. Bij een goodness-of-fit test, kortweg aangeduid met GOF-test, ontstaat een copula model voor X1 , X2 wanneer C ongekend is, maar verondersteld wordt te behoren tot de klasse C0 = {Cθ : θ ∈ O}, met hierin O een open deelverzameling van Rk , waarbij k ∈ N en k ≥ 1. Bij een goodness-of-fit test is het bijgevolg dus de bedoeling om met behulp van een teststatistiek de nulhypothese H0 : C ∈ C0 na te gaan. Met andere woorden, nagaan of de bivariate verdeling kan voorgesteld worden door een bepaalde parametrische familie C0 van copula’s. Gegeven dat de onderliggende copula van de toevalsvariabelen X1 en X2 invariant is onder continu strikt stijgende transformaties (zie Stelling 5.1.1), bestaat de enige aanvaardbare optie om H0 te testen erin de gevolgtrekking uit de test te baseren op basis van maximaal invariante statistieken met betrekking tot deze transformaties, of dus op basis van ranken (zie ook Sectie 5.1). Deze ranken kunnen ook op een alternatieve manier benaderd worden, zo kunnen ze namelijk gezien worden als functies van de collectie pseudo-observaties U1 = (U11 , U12 ), . . . , Un = (Un1 , Un2 ) die afgeleid zijn van de ranken. Hiermee bedoelen we dat Uij = Rij /(n + 1) = Fˆj (Xij ), waarbij Fˆj de empirische
Hoofdstuk 8. Copula selectie met behulp van statistische testen, Goodness-of-fit
78
verdeling van Xj met j ∈ {1, 2}. De pseudo-observaties U1 , . . . , Un kunnen dan ook gezien worden als een steekproef uit de onderliggende copula.
8.2
Goodness-of-fit test
De uit [32] gekozen goodness-of-fit test die wij in deze sectie introduceren, alsook later zullen gebruiken in de simulaties, is een teststatistiek gebaseerd op de empirische copula en wordt aangeduid met Sn . Zoals besproken in Sectie 8.1, vormen de pseudo-observaties U1 , . . . , Un de maximale invariante statistieken waarop H0 : C ∈ C0 kan getest worden. Alle informatie die deze observaties bevatten wordt samengevat door de empirische verdeling, zijnde de empirische copula. We gaven in Definitie 5.1.2 reeds een uitdrukking voor de empirische copula Cn . In Eigenschap 8.2.1 geven we nogmaals de uitdrukking voor Cn mee, ditmaal met de ‘aangepaste’ notaties die we in dit hoofdstuk, om de hierboven reeds aangehaalde redenen, gebruiken. Eigenschap 8.2.1 De empirische copula kan geschreven worden als n
1X I(Ui1 ≤ u1 , Ui2 ≤ u2 ), u = (u1 , u2 ) ∈ [0, 1]2 , Cn (u) = n i=1
(8.2.1)
waarbij U1 = (U11 , U12 ), . . . , Un = (Un1 , Un2 ) zoals in Sectie 8.1. Zoals in Sectie 5.1 reeds geargumenteerd werd, is de empirische copula Cn de beste steekproef-gebaseerde representatie van copula C. Ook in [22], [26] en [51] worden verschillende condities gegeven waaronder Cn een consistente schatter is van de werkelijk onderliggende copula C. Dit laatste komt overeen met het feit of de nulhypothese H0 al dan niet verworpen moet worden. De empirische copula Cn kan met andere woorden aangevoerd worden als het meest objectieve criterium bij het testen van H0 : C ∈ C0 . Een logische gevolgtrekking hieruit is dat de meest natuurlijke goodness-of-fit test erin zal bestaan de ‘afstand’ tussen de empirische copula Cn en een, onder de nulhypothese, schatting Cθn van C met elkaar te vergelijken. Hierbij, alsook in het vervolg van dit hoofdstuk, wordt θn = Tn (U1 , . . . , Un ) aangeduid voor een schatting van de copula parameter θ, afgeleid uit de pseudo-observaties U1 , . . . , Un . Deze schatting voor θ kan bijvoorbeeld gebeuren aan de hand van de empirische versie van Spearman’s rho of Kendall’s tau, zoals reeds beschreven werd in Hoofdstuk 5 van deze masterproef. De goodness-of-fit testen die gebaseerd zijn op onderstaand empirisch proces, √ Cn (u) = n(Cn (u) − Cθn (u)), u ∈ [0, 1]2 ,
Hoofdstuk 8. Copula selectie met behulp van statistische testen, Goodness-of-fit
79
zijn voor het eerst door Fermanian [21] onderzocht en werden door hem als onpraktisch beschouwd, uitgezonderd wanneer er gebruik gemaakt wordt van bootstrapping. Genest en R´emillard gingen hier in [31] verder op in en onderzochten de implementatieproblemen hiervan. In het bijzonder beschouwden zij een op ranken gebaseerde versie van de vertrouwde Cram´er-von Mises statistiek, meer bepaald Z Sn = [0,1]2
8.2.1
n X Cn (u) dCn (u) = {Cn (Ui ) − Cθn (Ui )}2 . 2
(8.2.2)
i=1
Eigenschappen van de teststatistiek Sn
Grote waarden van de zonet ge¨ıntroduceerde teststatistiek Sn leiden tot het verwerpen van de nulhypothese. Verder kan een benaderde p-waarde afgeleid worden uit de limietverdeling van de statistiek, die uiteraard afhankelijk is van het asymptotisch gedrag van het empirisch proces Cn . In [31] wordt er aangetoond dat de teststatistiek Sn consistent is. Hiermee wordt er bedoeld dat de nulhypothese, voor n → ∞, verworpen wordt met kans 1 indien C 6∈ C0 .
In de praktijk hangt de limietverdeling van Sn af van de copula familie die in de nulhypothese wordt beschouwd, en in het bijzonder ook van de copula parameter θ. Hierdoor kan de asymptotische verdeling van de teststatistiek niet opgelijst worden in een tabel en kunnen benaderende p-waarden enkel bekomen worden via speciaal aangepaste Monte Carlo methoden. Een specifieke parametrische bootstrap procedure, wiens geldigheid bewezen wordt in [31], wordt dan ook gegeven in volgende sectie.
8.3
Parametrische bootstrap
Zoals net beschreven, is de asymptotische verdeling van de teststatistiek onder de nulhypothese niet gekend en moet deze bepaald worden via bootstrap, of dus via simulaties. Het opvolgen van volgende procedure brengt ons tot een benaderende p-waarde van de teststatistiek gebaseerd op Sn . (1) Bereken Cn zoals in uitdrukking (8.2.1) en schat de copula parameter θ met θn = Tn (Un , . . . , Un ). (2) Bereken de waarde van Sn met behulp van (8.2.2) indien er een analytische uitdrukking voor Cθ bestaat. Indien dit laatste niet het geval is, moet er verder gegaan worden met een Monte Carlo benadering. Kies hiervoor m ≥ n en voer de extra stappen (a)-(c) uit:
Hoofdstuk 8. Copula selectie met behulp van statistische testen, Goodness-of-fit
80
(a) Genereer een willekeurige steekproef U∗1 , . . . , U∗m met verdeling Cθn . (b) Benader Cθn door m
∗ Bm (u)
1 X = I(U∗i ≤ u), u ∈ [0, 1]2 . m i=1
(c) Benader Sn door Sn =
n X
∗ {Cn (Ui ) − Bm (Ui )}2 .
i=1
(3) Voor N een groot geheel getal1 , herhaal onderstaande stappen voor alle k ∈ {1, 2, . . . , N }: ∗ ∗ (a) Genereer een willekeurige steekproef Y1,k , . . . , Yn,k met verdeling Cθn en ∗ ∗ bepaal de geassocieerde rank vectoren R1,k , . . . , Rn,k .
(b) Bereken U∗i,k = R∗i,k /(n + 1) voor alle i ∈ {1, . . . , n}, stel n
∗ Cn,k
1X = I(U∗i,k ≤ u), u ∈ [0, 1]2 , n i=1
∗ en schat copula parameter θ door θn,k = Tn (U∗1,k , . . . , U∗n,k ).
(c) Indien er een analytische uitdrukking voor Cθ bestaat, stel ∗ Sn,k
n n o2 X ∗ ∗ ∗ ∗ Cn,k (Ui,k − Cθn,k (Ui,k ) . = i=1
Indien er geen analytische uitdrukking voor handen is, ga als volgt verder: ∗∗ ∗∗ ∗ . (i) Genereer een willekeurige steekproef Y1,k , . . . , Ym,k met verdeling Cθn,k ∗ (ii) Benader Cθn,k door m
∗∗ Bm,k (u) =
en stel ∗ = Sn,k
1 X ∗∗ I(Yi,k ≤ u), u ∈ [0, 1]2 m i=1
n X
∗ ∗∗ (U∗i,k ) Cn,k (U∗i,k ) − Bm,k
2
.
i=1 1
N is namelijk het aantal simulaties/trekkingen die je gaat maken voor de teststatistiek Sn , gegeven dat de nulhypothese waar is. Met deze N trekkingen wordt dus de asymptotische verdeling van de teststatistiek Sn benaderd. Vandaar de eis dat N groot moet zijn.
Hoofdstuk 8. Copula selectie met behulp van statistische testen, Goodness-of-fit
81
Een benaderende p-waarde voor de teststatistiek Sn wordt dan gegeven door N 1 X ∗ I(Sn,k > Sn ). N k=1
In Sectie 8.2.1 werd reeds geopperd dat een grote waarde van de teststatistiek Sn leidt tot het verwerpen van de nulhypothese. Dit wordt door bovenstaande uitdrukking voor het bepalen van een benaderende p-waarde bevestigd. Zo geldt er namelijk dat: hoe groter de teststatistiek Sn is, des te minder de teststatistiek gecre¨eerd door de bootstrap de teststatistiek Sn van de data zal overtreffen en dus hoe kleiner de p-waarde in zo’n geval zal zijn. Hierdoor zal de nulhypothese H0 : C ∈ C0 bij een grote waarde van de teststatistiek Sn dus inderdaad sneller verworpen worden.
We spraken reeds over de voordelen van deze copula selectiemethode gebaseerd op een test, maar moeten echter ook een nadeel laten optekenen bij deze methode. Gezien de vele simulaties N die nodig zijn voor de bootstrap procedure bij het bepalen van een benaderende p-waarde, neemt zo’n test aardig wat tijd in beslag. Zeker in vergelijking met de vorige besproken, grafische, methoden. In de praktijk wordt er daarom, bij de zoektocht naar een geschikte copula voor het modelleren van de afhankelijkheid bij een gegeven dataset, vaak voor het uitvoeren van een test een eerste selectie gemaakt met behulp van grafische methoden. De copula’s die in deze grafische selectiemethoden overeind blijven staan en aangeduid worden als deze met een goede fit, worden dan met behulp van een goodness-of-fit test gecontroleerd. Goodness-of-fit testen worden in de praktijk dus dikwijls gebruikt om te controleren of de copula, die aan de hand van grafische elementen aanschouwd kan worden als de ‘beste’, al dan niet ook aanvaardbaar is.
8.4
Conclusie voor simulatie
Bij deze copula selectiemethode worden conclusies omtrent het aanduiden van een copula die de afhankelijkheid tussen twee variabelen X en Y goed beschrijft, in tegenstelling tot de andere selectiemethoden niet op basis van grafische eigenschappen genomen, maar op basis van p-waarden verkregen uit een goodness-of-fit test. Het beslissen op basis van p-waarden in plaats van op basis van grafische elementen is, samen met de mogelijkheid om de theorie eenvoudig uit te breiden naar meerdere dimensies, een groot voordeel van deze selectiemethode. Op basis van een p-waarde kan een besluit namelijk met grotere zekerheid getrokken worden dan op basis van grafische elementen. Deze copula selectiemethode kan dus op twee manieren gebruikt worden;
Hoofdstuk 8. Copula selectie met behulp van statistische testen, Goodness-of-fit
82
Ten eerste als een op zichzelf staande selectiemethode voor het bepalen van de meest geschikte copula bij een gegeven dataset, maar daarbovenop ook ter controle van de voorgaande grafische copula selectiemethoden. Gezien de bootstrap procedure bij het berekenen2 van een benaderende p-waarde behoorlijk wat tijd in beslag neemt, is deze tweede manier in de praktijk de meest toegepaste. Echter, gezien wij ons in de simulatiestudie van Deel III beperken tot 6 copula’s, zullen wij bovenstaande teststatistiek Sn en bijbehorende p-waarde berekenen voor elk van onze te onderzoeken copula’s. Herinner hierbij dat een te grote waarde van de teststatistiek Sn een indicatie is voor het verwerpen van de nulhypothese, waarbij de nulhypothese in onze simulaties erin zal bestaan: H0 : Copula C is geschikt voor het modelleren van de afhankelijkheid van de dataset. Ook een kleine p-waarde vertaalt zich in het verwerpen van bovenstaande nulhypothese. Gezien het gangbare significantieniveau van 5% voor financi¨ele toepassingen vaak als niet streng genoeg wordt aanschouwd, zullen wij in onze simulatiestudie van Deel III werken en beslissingen trekken op het 1%-significantieniveau. Verder nemen wij in onze simulatiestudie het aantal simulaties van onze bootstrap, N , gelijk aan 1000 en gebruiken we voor de schatter van θ, of dus bij θˆn = Tn (Un , . . . , Un ), uiteraard de methode gebaseerd op Kendall’s tau zoals beschreven staat in Sectie 5.3.1.
2
Hiervoor kunnen we geen beroep doen op reeds voorgeprogrammeerde programma’s in R, daar de in R reeds ge¨ımplementeerde teststatistieken uit de ‘copula’ bibliotheek niet toe te passen zijn op de copula’s die wij in onze simulatiestudie beschouwen. Dit onder meer daar we eigenhandig data zijn gaan genereren uit deze verschillende copula’s en we op die manier niet werken met elementen uit de virtuele copulaklasse in R, iets wat noodzakelijk is om het commando ‘gofCopula’ uit de ‘copula’ bibliotheek van R te kunnen toepassen. Door zelf de statistiek Sn te gaan programmeren is het ons uiteindelijk gelukt om bij iedere goodness-of-fit test waarden van deze teststatistiek te bekomen. De hierbij behorende p-waarden worden bepaald met behulp van een zelf geschreven bootstrap procedure.
Deel III Simulaties
83
Hoofdstuk 9 Algemeenheden van de simulaties In het laatste deel van deze masterproef, “Simulaties”, passen we de beschreven copula selectiemethoden in voorgaande Deel II, ‘Copula selectiemethoden’, toe op verschillende datasets. Zo gaan we voor twee verschillende datasets via beschreven grafische methoden van copula selectie telkens op zoek naar de meest geschikte copula volgens elke selectiemethode. Uiteraard gaan we voor deze ‘meest geschikte’ copula met behulp van een goodness-of-fit test ook na of deze copula al dan niet aanvaaardbaar is. De copula’s die we hierbij gaan beschouwen, zijn deze opgesomd in Appendix B.1, met name de Gaussische en Student-t copula voor de elliptische copula’s, de FarlieGumbel-Morgenstern copula en wat betreft de archimedische copula’s beschouwen we de Clayton, Frank en Gumbel copula. Heel deze studie werd gedaan met behulp van het computerprogramma R. Beginnen doen we voor iedere dataset met de copula selecties beschreven in Hoofdstuk 5. We gaan ons hierbij echter telkens beperken tot de methode gebaseerd op Kendall’s tau. Dit omwille van het feit dat beide methoden, gebaseerd op Spearman’s rho en Kendall’s tau, volledig analoog verlopen, maar de Spearman’s rho waarden van de te onderzoeken copula’s veel moeilijker te bepalen zijn dan hun Kendall’s tau waarden, ´ en van de redenen hiervoor is uiteraard dat er voor zoals ook te zien in Appendix B.2. E´ archimedische copula’s een rechtstreeks verband bestaat tussen de generatorfunctie en de Kendall’s tau waarde, waarbij de integraal in uitdrukking (2.3.2) ofwel analytisch ofwel numeriek berekend kan worden. Iets wat voor de Spearman’s rho waarden van archimedische copula’s voorlopig nog niet het geval is. Verder zal elk van de twee komende hoofdstukken, waarbij in elk hoofdstuk een andere dataset onderzocht wordt, afgesloten worden met een Sectie ‘Conclusie simulatie vergelijkende studie’ waarin uiteraard de conclusie van de gedane simulatie, maar ook een vergelijkende studie tussen de uitkomsten van de verschillende selectiemethoden zal staan; Duiden ze allen dezelfde copula aan als meest geschikte voor de gegeven data? 84
Hoofdstuk 9. Algemeenheden van de simulaties
85
Welke voordelen heeft de ene copula selectiemethode ten opzicht van de andere?,...
9.1
Algemene werkwijze van de schattingsmethode voor het empirisch onderzoek
Daar we in elk van onze in Deel II beschreven copula selectiemethode de schattingsmethoden uit Hoofdstuk 5 telkens opnieuw moeten toepassen voor ons empirisch onderzoek te kunnen uitvoeren, leggen we hier reeds uit hoe dit concreet gedaan moet worden. Allereerst wordt τn , de empirische Kendall’s tau waarde van de gegeven dataset, bepaald. Een volgende stap bestaat erin na te gaan welke van de in Appendix B.1 opgesomde copula’s een afhankelijkheidsgebied van τn beschrijven. Hierbij kan Tabel B.2.1 in deze Appendix gehanteerd worden. Voor de overblijvende copula’s, dit zijn de copula’s waarvoor τn deel uitmaakt van het Kendall’s tau gebied van de copula, dient er vervolgens een schatting gemaakt te worden van de copula parameter(s). Voor iedere onderzochte copula waarbij de copula parameter e´ e´ n-dimensionaal is, dit zijn de Gaussische copula, Clayton, Frank, Gumbel en Farlie-Gumbel-Morgenstern copula, kan dit volgens de directe methode, zijnde de schattingsmethode gebaseerd op Kendall’s tau beschreven in Sectie 5.3.1. Voor de Student-t copula, die een twee-dimensionale copula parameter heeft bestaande uit de correlatieco¨effici¨ent r en het aantal vrijheidsgraden ν, dienen we eerst r te schatten met behulp van de methode beschreven in 5.3.1 om vervolgens ν te schatten met een maximum pseudolikelihood-schatter (Sectie 5.3.3). De relatie tussen Kendall’s tau en de copula parameter zijn voor iedere van de zes onderzochte copula’s terug te vinden in Tabel B.2.1. De hierboven beschreven procedure wordt voor de eerste dataset, dit is in Hoofdstuk 10, nog eens uitvoerig beschreven. Bij de andere dataset gaan we hier sneller over en wordt dit niet meer gedaan. Wel zal er bij het begin van iedere dataset een tabel weergegeven worden waarin aangegeven zal staan welke copula’s daadwerkelijk onderzocht dienen te worden (dit zijn de copula’s waarbij τn in het Kendall’s tau gebied ligt) alsook wat de schattingen van de copula parameters zijn.
Daar we bij onze studie in de volgende hoofdstukken geregeld zullen botsen op ‘ties’ in de gegeven dataset, bieden we hier, in het Hoofdstuk ‘Algemeenheden van de simulaties’, reeds een oplossing voor.
Hoofdstuk 9. Algemeenheden van de simulaties
9.2
86
Data met ‘ties’
Het allereerste wat we bij iedere dataset zullen moeten doen, is het ranken van de data. Hierbij botsen we echter vaak op een probleem, namelijk de aanwezigheid van ‘ties’ in de data. Hiermee bedoelen we het bestaan van waarden Xl = Xk voor l 6= k. Computerprogramma R biedt ons 5 mogelijke methoden voor het oplossingen van dit probleem bij het ranken van de data, zijnde de random methode, de gemiddelde rank methode, de first, minimum en maximum methode. Om tussen deze vijf methoden de meest correcte te kiezen, leggen we ze kort even uit aan de hand van een voorbeeld. Voorbeeld 9.2.1 Stel we hebben vector x = (2,5,3,8,8,1,9), dan krijgen we als ranken diegene zoals opgesomd in Tabel 9.2.1.
Random Gemiddelde rank First Minimum Maximum
Ranken (2,4,3,5,6, 1, 7) of (2,4,3,6,5,1,7) (2,4,3,5.5,5.5,1,7) (2,4,3,5,6,1,7) (2,4,3,5,5,1,7) (2,4,3,6,6,1,7)
Tabel 9.2.1: Mogelijke ranken van vector x = (2,5,3,8,8,1,9).
De meest intu¨ıtieve methode lijkt op het eerste zicht deze van de gemiddelde ranken, omdat daar geen van beide (zelfde) resultaten bevoordeeld wordt. Echter bij deze methode duiken er problemen op bij de definitie van concordante paren, daar het product (R1 − R2 )(S1 − S2 ) zo nul kan worden en we in de theorie besloten dat dit slechts voorkwam met kans nul, daar we onderstelden met continue variabelen te maken te hebben. Ditzelfde probleem duikt uiteraard ook op bij de minimum en de maximum methoden. De overige twee methoden, random en first, zullen min of meer eenzelfde resultaat opleveren, daar de data ook op willekeurige manier gegeven en in lijsten opgesomd werd. Op deze twee methoden komt bovendien elke rank voor en is er bijgevolg geen probleem met concordantie. De vijf verschillende methoden worden nogmaals ge¨ıllustreerd in het volgende hoofdstuk, bij de dataset van Frees en Valdez. Nadien zullen wij er echter, indien nodig, steeds voor kiezen om meteen aan de slag te gaan met de random methode om ties in de gegeven dataset weg te werken. Dat deze keuze het verstandigste is, wordt bevestigd in [39]. Echter zal ook, in Sectie 10.5.1 bij de goodness-of-fit test van de eerste dataset, met behulp van verschillende simulaties aangetoond worden dat deze methode inderdaad een correcte manier is om ‘ties’ uit de data te verwijderen en de resultaten aldus doende niet be¨ınvloed worden.
Hoofdstuk 10 Een verzekeringsmaatschappij en zijn vergoedingen/kosten, dataset In dit hoofdstuk illustreren we, met behulp van deels beschikbare en deels zelf geschreven programma’s in R, de omschreven methoden van copula selectie uit het vorige deel van deze masterproef. Meer bepaald gaan we op zoek naar de meest geschikte copula voor het modelleren van een verzekeringsmaatschappij zijn uitbetaalde schadevergoedingen. De dataset die we hiervoor gebruiken is deze uit [25], voor het eerst beschouwd door Frees en Valdez, maar ondertussen e´ e´ n van de meest gebruikte dataset wanneer er gesproken wordt over copula selectie.
10.1
Dataset ‘Frees en Valdez’
De hierboven ge¨ıntroduceerde dataset van Frees en Valdez bestaat uit 1500 aselecte aansprakelijkheidsvorderingen van een verzekeringsmaatschappij. Elke vordering bestaat uit een betaling van een schadeloosstelling (= LOSS) en de kosten toe te wijten aan deze schadebetaling (= ALAE), hierbij denken we aan het ereloon van een advocaat, kosten bij het onderzoeken van de vordering,... Deze twee variabelen, LOSS en ALAE, zullen dan ook de variabelen zijn die ons het meest interesseren. Echter voor de volledigheid hebben we per vordering, bovenop de informatie wat de vergoeding en de kosten betreft, nog twee andere variabelen. Deze zijn de ‘Policy limit’ die de in de polis beschreven maximale schadevergoeding weergeeft alsook de binaire variabele ‘Censored’ die aangeeft of de variabele LOSS al dan niet gecensureerd is. Het verlies aan data door censureren is onvermijdelijk daar, gezien het bestaan van een maximale schadevergoeding, de betaalde schadevergoeding en bijgevolg dus het bedrag in variabele LOSS, niet groter kan zijn dan deze maximale grens. Voor 148 vorderingen was de maximale grens van de schadevergoeding ongekend, voor deze polissen onderstellen we dat er geen schadelimiet bestaat. 87
Hoofdstuk 10. Een verzekeringsmaatschappij en zijn vergoedingen/kosten, dataset 88
Een samenvatting over de statistieken van de data wordt weergegeven in Tabel 10.1.1. Zoals te zien hebben we hier slechts bij 34 van de 1500 vorderingen te maken met gecensureerde variabele LOSS. Hoe dan ook mogen we deze gecensureerde data niet negeren en zomaar verwijderen uit onze dataset; zo hebben we bijvoorbeeld een veel kleinere gemiddelde LOSS bij de niet gecensureerde data in vergelijking met de gecensureerde data. Bijgevolg zullen we in het verloop van dit hoofdstuk met alle 1500 observaties werken en niet enkel met de 1466 niet gecensureerde.
Aantal Gemiddelde Mediaan Standaard deviatie Minimum Maximum
ALAE 1500 12588 5471 28146 15 501863
LOSS 1500 41208 12000 102748 10 2173595
Policy limit 1352 559098 500000 418694 5000 7500000
LOSS (Uncensored) 1466 37110 11048 92513 10 2173595
LOSS (Censored) 34 217491 100000 258205 5000 1000000
Tabel 10.1.1: Samenvatting van dataset ‘Frees en Valdez’.
Gezien voor onze 1500 vorderingen uit de dataset, beide parameters LOSS en ALAE een logaritmische schaal hebben, gaan we naar hun natuurlijke logaritmen gaan kijken om een idee te krijgen over hun onderlinge relatie. In Figuur 10.1.1 wordt de scatterplot van de natuurlijke logaritmen van de betaalde schadevergoeding (X) en de kost hieraan verbonden (Y ) voor de 1500 vorderingen weergegeven. Uit deze figuur kan men een sterke afhankelijkheid tussen de variabelen LOSS en ALAE afleiden.
Wat volgt in de rest van dit hoofdstuk is het toepassen van de beschreven copula selectiemethoden in voorgaande Deel II, ‘Copula selectiemethoden’, op de zonet beschreven data van Frees en Valdez.
10.2
Selectie gebaseerd op Kendall’s tau
Het allereerste wat we voor deze methode moeten doen, is het ranken van de data LOSS en ALAE. Hierbij botsen we echter meteen op een probleem, iets wat ook duidelijk zichtbaar is in Figuur 10.1.1, namelijk de aanwezigheid van ‘ties’ in de data van LOSS. Hiermee bedoelen we het bestaan van waarden Xl = Xk voor l 6= k in de data van LOSS. Bij nader onderzoek wordt dit onmiddellijk bevestigd voor de variabele LOSS,
Hoofdstuk 10. Een verzekeringsmaatschappij en zijn vergoedingen/kosten, dataset 89
Figuur 10.1.1: Scatterplot van de natuurlijke logaritmen van LOSS en ALAE voor de ‘Frees en Valdez’ dataset. maar blijkt ook dat er zich ‘ties’ voordoen in de data van ALAE. Er kan nagegaan worden dat er zich slechts 541, resp. 1401 unieke waarden voordoen bij de variabele LOSS, resp. ALAE. Een te groot aantal om te negeren dus. Zoals beschreven in Sectie 9.2, biedt computerprogramma R ons 5 mogelijke methoden voor het oplossingen van dit probleem bij het ranken van de data, namelijk de random methode, de gemiddelde rank methode, de first, minimum en maximum methode. Zoals reeds geargumenteerd in het vorige hoofdstuk, kiezen we ervoor om met de random methode te werken. Het resultaat hiervan, na herschaling met (1500 + 1) of dus de zogenaamde pseudo-observaties worden getoond in Figuur 10.2.1. Echter, voor de volledigheid, worden voor deze dataset ook de output van de andere methoden gegeven in Figuur E.1.1 van Appendix E.1. Uit Figuur 10.2.1 mogen we een positieve afhankelijkheid tussen de variabelen LOSS en ALAE concluderen, die zich het sterkst manifesteert in de upper tail. Dit wil met andere woorden zeggen dat, hoe groter de betaling van de schadeloosstelling is, des te meer kosten opgetekend zullen worden die toe te wijten zijn aan deze welbepaalde schadebetaling. Deze afhankelijkheid willen we nu gaan beschrijven met een copula. In de rest van deze sectie gaan we dan ook op zoek naar de best bijpassende copula. Om te weten welke copula’s we hierbij moeten beschouwen, berekenen we voor de data eerst
Hoofdstuk 10. Een verzekeringsmaatschappij en zijn vergoedingen/kosten, dataset 90
de schatter van Kendall’s tau, deze blijkt een schatting van 0.315 te hebben.
Figuur 10.2.1: Pseudo-observaties geconstrueerd uit de LOSS en ALEA van de verzekeringsdata, met behulp van de random methode bij het verwijderen van de ‘ties’. Wanneer we dan in Tabel B.2.1 van Appendix B.2 het gebied van de Kendall’s tau waarden voor de te onderzoeken copula’s gaan bekijken, zien we dat we de Farlie-GumbelMorgenstern copula buiten beschouwing moeten laten. Deze copula kan namelijk niet zo’n groot afhankelijkheidsgebied beschrijven. De overige vijf copula’s dienen wel onderzocht en gemodelleerd te worden. Echter, wegens de eigenschappen van de Clayton en de Frank copula, zouden we er ook reeds kunnen vanuit gaan dat deze copula’s niet de meest geschikte zullen zijn. Dit daar de afhankelijkheid bij de Clayton copula zich vooral manifesteert in de lower tail, zoals in Sectie 1.3.4 reeds opgemerkt werd, en de Frank copula een symmetrie vertoont in de lower en upper tail, wat niet het geval is in deze te onderzoeken dataset. De output van de figuren geconstrueerd uit deze twee copula’s zullen we hier in dit Hoofdstuk echter wel meegeven, maar worden omwille van net genoemde redenen verder niet in detail besproken of ge¨ınterpreteerd. Wanneer de nodige copuladichtheden, generatorfuncties (Tabel B.1.1 in Appendix B.1) en cholesky decomposities berekend zijn, kan er, met behulp van de algoritmen uit Hoofdstuk 3, data gegenereerd worden uit de nog vijf te onderzoeken copula’s. In deze algoritmen moeten uiteraard schattingen voor de copula parameter(s) meegegeven wor-
Hoofdstuk 10. Een verzekeringsmaatschappij en zijn vergoedingen/kosten, dataset 91
den. Bij vier van de vijf copula’s zijn deze schattingen eenvoudig te bekomen, namelijk door gebruik te maken van de methode beschreven in Sectie 5.3.1, de ‘Kendall’s tau gebaseerde schatter’. In dit specifieke geval, voor de data van Frees en Valdez, hebben we een τn gelijk aan 0.315 en worden de relaties tussen Kendall’s tau en de copula parameter θ weergeven in Tabel B.2 van Appendix B.2. Echter voor de Student-t copula dienen er twee copula parameters geschat te worden, namelijk de correlatie r en het aantal vrijheidsgraden ν. In dit geval moet eerst de correlatie geschat worden aan de hand van de ‘Kendall’s tau gebaseerde schatter’ en kan het aantal vrijheidsgraden daarna geschat worden door het maximaliseren van de log-likelihood functie, of dus met de methode zoals beschreven in Sectie 5.3.3. De schattingen van de copula parameter(s) van iedere onderzochte copula worden weergegeven in Tabel 10.2.1 τn
Copula FGM Gaussische Student-t
0.315 Clayton Frank Gumbel
θˆ × rˆ = 0.4749 rˆ = 0.4749 νˆ = 365 ˆ θ = 0.9197 θˆ = 3.0894 θˆ = 1.4599
Tabel 10.2.1: Schattingen van de copula parameters, bepaald met behulp van Tabel B.2.1. Copula’s die het afhankelijkheidsgebied τn = 0.315 niet beschrijven, hebben een θˆ waarde × meegekregen.
In Figuur 10.2.2 zijn de scatterplots te zien van 1500 gesimuleerde data uit de vijf te onderzoeken copula’s: Gaussische, Student-t, Clayton, Frank en Gumbel copula. Merk op dat de output van de simulatie met de Gaussische copula in grote mate overeenkomt met de output van de simulatie met de Student-t copula. Dit is te verklaren daar we bij de Student-t copula te maken hebben met een groot aantal vrijheidsgraden, 365, waardoor de dichtheid van de Student-t verdeling de dichtheid van de normale verdeling benadert zodat het verschil tussen een Student-t verdeling en een normale verdeling verwaarloosbaar wordt en dus de Student-t copula met andere woorden de Gaussiche copula benadert. Wanneer we de scatterplot in Figuur 10.2.1 nu vergelijken met deze uit Figuur 10.2.2, zien we dat de Gumbel copula de meest geschikte copula is voor het modelleren van de afhankelijkheidsstructuur tussen de data van LOSS en ALAE en dit voor een schatting θˆ gelijk aan 1.4599 voor de copula parameter. Onze keuze van de Gumbel copula als meest geschikt kan geargumenteerd worden daar de Gumbel copula met de net vermelde
Hoofdstuk 10. Een verzekeringsmaatschappij en zijn vergoedingen/kosten, dataset 92
schatting van de copula parameter positief afhankelijk is, boven-staartafhankelijkheid beschrijft, maar geen beneden-staartafhankelijkheid. Eigenschappen die ook allemaal te zien zijn is de scatterplot van de ranken van onze data.
10.3
Selectie gebaseerd op chi-plots
In de selectiemethode gebaseerd op chi-plots worden beslissingen omtrent de afhankelijkheid genomen uit twee scatterplots, waarbij de eerste scatterplots diegenen zijn geconstrueerd in de methode gebaseerd op Kendall’s tau uit vorige sectie. De tweede scatterplots zijn dan de zogenaamde chi-plots. De scatterplot in Figuur 10.2.1 van de pseudo-observaties geconstrueerd uit LOSS en ALAE suggereerde reeds een positieve afhankelijkheid tussen de twee variabelen. Deze conclusie wordt in deze copula selectiemethode bevestigd. Zo geeft Figuur 10.3.1 de chi-plot weer geconstrueerd uit dezelfde data en is hierin duidelijk te zien dat bijna alle punten zich buiten de betrouwbaarheidsband bevinden en dit telkens met een positieve waarde van λi . Dit komt inderdaad neer op een positieve associatie tussen de variabelen LOSS en ALAE. De chi-plot van Figuur 10.3.1 moeten we nu gaan vergelijken met de chi-plots geconstrueerd uit de gesimuleerde data van onze vijf te onderzoeken copula’s, zijnde de Gaussische copula, Student-t copula, Clayton, Frank en Gumbel copula. Deze chi-plots zijn in respectievelijke volgorde te zien we in Figuur 10.3.2. De schatting(en) van de copula parameter(s) zijn uiteraard dezelfde als de schattingen bepaald en beschreven in Sectie 10.2. Zo werden in Figuur 10.3.2 de chi-plots geconstrueerd uit gesimuleerde data uit de verschillende copula’s met als schattingen van de copula parameter deze gegeven in Tabel 10.2.1. Wanneer we de chi-plot in Figuur 10.3.1 vervolgens vergelijken met deze uit Figuur 10.3.2, zien we dat de Gumbel copula de meest geschikte copula is voor het modelleren van de afhankelijkheidsstructuur tussen de data van LOSS en ALAE. De besluitvorming uit vorige selectiemethode gebaseerd op Kendall’s tau wordt hier dus bevestigd.
10.4
Selectie gebaseerd op K-plots
In de copula selectie met behulp van K-plots worden beslissingen omtrent de afhankelijkheid genomen uit twee scatterplots, waarbij opnieuw, net als in vorige sectie, de eerste scatterplots diegenen zijn geconstrueerd in de selectiemethode gebaseerd op Kendall’s tau uit Sectie 10.2. De tweede scatterplots zijn de zogenaamde K-plots.
Hoofdstuk 10. Een verzekeringsmaatschappij en zijn vergoedingen/kosten, dataset 93
De K-plot geconstrueerd uit de data van LOSS en ALAE wordt weergegeven in Figuur 10.4.1. Hieruit kunnen we opnieuw een positieve afhankelijkheid opmaken, gezien bijna alle punten in de K-plot zich boven de hoofdiagonaal bevinden. Onze conclusie van positieve afhankelijkheid die we trokken uit Figuur 10.2.1 van de eerste copula selectiemethode gebaseerd op Kendall’s tau wordt hier dus bevestigd. Een andere conclusie die we trokken uit de eerste selectiemethode, dat deze positieve afhankelijkheid zich vooral manifesteert in de upper tail, is ook duidelijk zichtbaar in Figuur 10.4.1. In de rechter bovenhoek van deze figuur liggen de punten namelijk net onder de gebogen, meegetekende, curve, wat wijst op een sterke positieve associatie in de upper tail. De K-plot van Figuur 10.4.1 moeten we nu gaan vergelijken met de K-plots geconstrueerd uit de gesimuleerde data van onze vijf te onderzoeken copula’s. Deze zijn terug te vinden in Figuur 10.4.2. Verder zijn de schattingen van de copula parameter(s) alweer dezelfde als de schattingen bepaald en beschreven in Sectie 10.2, of dus deze in Tabel 10.2.1. Als we vervolgens de K-plot in Figuur 10.4.1 vergelijken met deze uit Figuur 10.4.2, wordt opnieuw de Gumbel copula aangegeven als de meest geschikte copula voor het modelleren van de data LOSS en ALAE. Hetzelfde besluit als uit vorige sectie alsook uit Sectie 10.2, kan dus getrokken worden, met dezelfde argumentatie. Echter, de besluitvorming is hier sterker, daar we ons nu baseren op twee plots in plaats van enkel op de scatterplot van de gerankte data.
10.5
Goodness-of-fit test
Tot slot voeren we op de vijf te onderzoeken copula’s de goodness-of-fit test uit die beschreven wordt in Hoofdstuk 8. De resultaten hiervan zijn terug te vinden in Tabel 10.5.1. Copula Gaussische Student-t Clayton Frank Gumbel
Sn 0.1037 0.1035 0.5511 0.1377 0.0236
p-waarde < 10−3 < 10−3 < 10−3 < 10−3 0.1484
Tabel 10.5.1: Goodness-of-fit: p-waarden en waarden van de teststatistiek Sn .
In bovenstaande tabel is duidelijk te zien dat slechts e´ e´ n copula de goodness-of-fit test doorstaat, zijnde de Gumbel copula. Voor deze copula verkrijgen we namelijk een grote p-waarde van 0.1484, waardoor we zelfs op het 1%-significantieniveau de nulhypothese van deze test,
Hoofdstuk 10. Een verzekeringsmaatschappij en zijn vergoedingen/kosten, dataset 94
H0 : Gumbel copula is geschikt voor het modelleren van de afhankelijkheid tussen de variabelen LOSS en ALAE van de Frees en Valdez dataset, niet kunnen verwerpen. De p-waarden van de overige testen op de andere vier copula’s daarentegen hebben steeds een waarde kleiner dan 10−3 . Hierdoor kunnen de nulhypothesen bij deze testen wel duidelijk verworpen worden en mogen we aldus concluderen dat de Gaussische, Student-t, Clayton en Frank copula niet geschikt zijn voor het modelleren van de afhankelijkheid tussen de variabelen LOSS en ALAE. We merken hier ook op dat de waarden van de vier teststatistieken bij deze copula’s merkelijk groter zijn dan de waarde van de teststatistiek uitgevoerd op de Gumbel copula, wat tevens overeenstemt met de theorie die we lieten optekenen in Hoofdstuk 8.
10.5.1
Illustratie werking ‘random’ methode voor de ties
In Sectie 9.2 werd het probleem omtrent het voorkomen van ties in de data reeds uitvoerig beschreven. Als oplossing wordt in deze sectie geopperd om de ties te verwijderen met behulp van de random methode. Om aan te tonen dat het gebruik van deze random methode voor het verwijderen van ties uit de data geen invloed uitoefent op de resultaten, deden we bovenstaande analyse van Sectie 10.5 herhaaldelijke keren. Zo rankten we de data van LOSS en ALAE vijf maal en pasten wel telkens op iedere copula de goodness-of-fit test toe beschreven in Hoofdstuk 8. De resultaten hiervan zijn weergegeven in Tabel 10.5.2. Copula Gaussische Student-t Clayton Frank Gumbel
Gem. p-waarde < 10−3 < 10−3 < 10−3 < 10−3 0.1533
Min. p-waarde < 10−3 < 10−3 < 10−3 < 10−3 0.1479
Max. p-waarde < 10−3 < 10−3 < 10−3 < 10−3 1.1598
Tabel 10.5.2: Resultaten van 5 goodness-of-fit testen: de gemiddelde, kleinste en grootste p-waarden.
Zoals te zien in bovenstaande tabel, zouden steeds dezelfde conclusies getrokken worden in elk van de simulaties. Met name: de Gumbel copula wordt aangeduid als de meest geschikte voor het modelleren van de afhankelijkheid tussen de variabelen LOSS en ALAE. Dat de resultaten van Tabellen 10.5.1 en 10.5.2 echter zo dicht bij elkaar liggen, heeft natuurlijk alles te maken met het feit dat we doorheen heel onze simulatiestudie voor de bootstrap procedure het aantal simulaties N = 1000 namen, waardoor grote veranderingen zich niet zullen voordoen wanneer men een tweede of derde maal
Hoofdstuk 10. Een verzekeringsmaatschappij en zijn vergoedingen/kosten, dataset 95
de test achtereenvolgens gaat uitvoeren. Gezien uit alle grafische copula selectiemethoden de Gumbel copula met parameterschatting θˆ = 1.4599 als meest geschikte naar voren kwam en deze copula ook de goodness-of-fit test doorstond, mogen we met grote zekerheid besluiten dat de Gumbel copula een zeer geschikte copula is voor het modelleren van de afhankelijkheid tussen de variabelen LOSS en ALAE uit de dataset van Frees en Valdez.
10.6
Conclusie simulatie - vergelijkende studie
Met iedere grafische copula selectiemethode komen we tot dezelfde conclusie, namelijk: uit de copula’s die wij in deze simulatiestudie aanschouwen, komt de Gumbel copula naar voren als de meest geschikte copula voor het modelleren van de afhankelijkheid tussen de variabelen LOSS en ALAE en dit voor een copula parameter schatting θˆ gelijk aan 1.4599. Deze conclusie wordt bovendien bevestigd door de copula selectiemethode gebaseerd op een goodness-of-fit test, waarmee we dus met grote zekerheid mogen concluderen dat de Gumbel copula inderdaad een zeer geschikte copula is voor het modelleren van de afhankelijkheid tussen de variabelen LOSS en ALAE uit de dataset van Frees en Valdez. Hiermee hebben we aangetoond dat grafische selectiemethoden zeker hun nut hebben wanneer er een geschikte copula dient geselecteerd te worden bij een gegeven dataset. Men dient in zo’n geval dus niet telkens, op iedere copula, een test uit te voeren die heel wat tijd in beslag neemt. Men kan gerust eerst via grafische copula selectiemethoden de meest geschikte copula’s gaan selecteren uit de verzameling copula’s die men beschouwd en pas daarna op dit select clubje van overblijvende copula’s een goodness-of-fit test uitvoeren om te kijken welke van de copula’s nu het meest geschikt is. Hierdoor, door eerst met grafische selectiemethoden te werken en daarna pas met een test, zal men veel tijd besparen. Hoewel iedere copula selectiemethode dezelfde copula naar voren schuift, kunnen er bij deze simulatie op de dataset van Frees en Valdez toch enkele verschillen tussen de gebruikte grafische selectiemethoden opgemerkt worden. Zo zou men bij de selectiemethode gebaseerd op Kendall’s tau kunnen denken dat ook de Student-t copula eventueel in aanmerking zou kunnen komen voor het modelleren van de afhankelijkheid, terwijl dit bij de methode gebaseerd chi-plots absoluut niet meer het geval is. Men kan namelijk grote verschillen opmerken tussen de chi-plot geconstrueerd uit de Student-t copula en deze van de data. De extra plot die beschouwd wordt bij onze tweede selectiemethode, de chi-plot, geeft dus duidelijk een meer gedetailleerde informatie wat betreft de associatie tussen de variabelen en kan bijgevolg dus helpen wanneer er via de methode gebaseerd op Kendall’s tau eigenlijk twee copula’s naar voren komen met een geschikte fit. In die zin kan de selectiemethode gebaseerd op een chi-plot zeker gezien worden als een uitbreiding op de methode gebaseerd op Kendall’s tau. Hierdoor zullen con-
Hoofdstuk 10. Een verzekeringsmaatschappij en zijn vergoedingen/kosten, dataset 96
clusies getrokken met de methode gebaseerd op een chi-plot ook met grotere zekerheid genomen kunnen worden, men baseert zich bij deze methode immers niet op e´ e´ n, maar op twee scatterplots. Eenzelfde situatie doet zich voor bij de selectie gebaseerd op Kplots in vergelijking met deze gebaseerd op Kendall’s tau. Met dezelfde redenering en argumentatie komt men tot identieke conclusies als net besproken in het geval van de selectie gebaseerd op chi-plots. Verder is het zo dat voor zowel de methode gebaseerd op chi-plots alsook deze gebaseerd op K-plots het visueel sneller zichtbaar is dat de variabelen LOSS en ALAE positief afhankelijk zijn van elkaar. In de chi-plot van de data bevinden bijna alle punten zich immers buiten de betrouwbaarheidsband en dit voor uitsluitend positieve waarden van χ. Ook in de K-plot is de positieve afhankelijkheid meteen duidelijk door het feit dat alle punten zich boven de hoofddiagonaal bevinden. De positieve afhankelijkheid tussen de variabelen kon zeker ook opgemerkt worden in de scatterplot behorend bij onze eerste selectiemethode, maar daar diende er wel met meer aandacht naar de plot gekeken te worden gezien deze positieve afhankelijkheid bij deze plot minder sterk/duidelijk tot uiting komt. Dit laatste is een gevolg van het feit dat we bij deze scatterplot te maken hebben met 1500 punten die verspreid liggen doorheen heel de figuur. Tot slot kunnen we uit deze simulatie ook nog een duidelijk voordeel van de selectiemethode gebaseerd op K-plots opmerken in vergelijking met de methode gebaseerd op chi-plots. Zo kwam uit de scatterplot behorend bij de selectiemethode gebaseerd op Kendall’s tau een positieve afhankelijkheid naar voren die zich vooral manifesteert in de upper tail. Deze situatie is ook duidelijk zichtbaar in de K-plot van de data. In de rechter bovenhoek van deze K-plot bevinden de punten zich namelijk zo goed als op de curve, wat wijst op een zeer sterke positieve associatie tussen de variabelen in de upper tail. Daarentegen kan uit de chi-plot van de data deze sterke afhankelijkheid in de upper tail niet gehaald worden. Merk op dat al de verschillen en opmerkingen tussen de verschillende grafische selectiemethoden in bovenstaande paragraaf ook reeds aan bod kwamen in Deel II bij de beschrijving en opbouw van de selectiemethoden. Onze simulatie staaft dus de theorie die we in Deel II reeds lieten optekenen.
Hoofdstuk 10. Een verzekeringsmaatschappij en zijn vergoedingen/kosten, dataset 97
Figuur 10.2.2: Scatterplots van 1500 data gesimuleerd uit de onderzochte copula’s, alsook de schattingen van hun copula parameter(s).
Hoofdstuk 10. Een verzekeringsmaatschappij en zijn vergoedingen/kosten, dataset 98
Figuur 10.3.1: Chi-plot geconstrueerd uit de LOSS en ALEA van de verzekeringsdata.
Hoofdstuk 10. Een verzekeringsmaatschappij en zijn vergoedingen/kosten, dataset 99
Figuur 10.3.2: Chi-plots van de 5 onderzochte copula’s.
Hoofdstuk 10. Een verzekeringsmaatschappij en zijn vergoedingen/kosten, dataset 100
Figuur 10.4.1: K-plot geconstrueerd uit de LOSS en ALEA van de verzekeringsdata.
Hoofdstuk 10. Een verzekeringsmaatschappij en zijn vergoedingen/kosten, dataset 101
Figuur 10.4.2: K-plots van de 5 onderzochte copula’s.
Hoofdstuk 11 Een autoverzekeringsmaatschappij en zijn schadevordering, dataset We passen opnieuw, met behulp van deels beschikbare en deels zelf geschreven programma’s in R, de in Deel II beschreven copula selectiemethoden toe op een dataset. Ditmaal op een verzekeringsdataset van De Jong en Heller [9]. Meer bepaald gaan we op zoek naar de meest geschikte copula voor het modelleren van de afhankelijkheid tussen de waarde van het voertuig en de uitbetaalde schadevergoedingen van een autoverzekeringsmaatschappij.
11.1
Dataset ‘De Jong en Heller’
De hierboven ge¨ıntroduceerde dataset van De Jong en Heller is gebaseerd op de polissen van een autoverzekering die aangegaan werden in 2004 of 2005, voor een duurtijd van e´ e´ n jaar. Dit waren voor deze welbepaalde verzekeringsmaatschappij in totaal 67856 polissen. De variabelen waaruit iedere polis bestaat zijn weergegeven in Tabel 11.1.1. De variabelen die ons het meest interesseren, en waarvan we de afhankelijkheid zullen bepalen, zijn de variabelen ‘Waarde voertuig’ en ‘Schadevordering’. We gaan met andere woorden op zoek naar de associatie tussen de waarde van een voertuig en de door de autoverzekeraar uitbetaalde sommen bij het voorkomen van een schadegeval. Bijgevolg zijn we dus enkel ge¨ınteresseerd in polissen waarbij zich, in de loop van het verzekerde tijdperk, minstens e´ e´ n schadegeval heeft voorgedaan. Met andere woorden, in de polissen waarvoor de variabele ‘Schadegeval’ een waarde 1 heeft. Dit zijn er 4628, of dus 6.8% van de totale portefeuille bestaande uit de 67856 autoverzekeringscontracten. Echter, gezien we met een gewone computer niet in staat zijn om alle nodige plots te genereren voor zo’n grote dataset, splitsen we deze data in min of meer twee gelijke groepen en dit naar gelang de leeftijd van de verzekeringnemer. 102
Hoofdstuk 11. Een autoverzekeringsmaatschappij en zijn schadevordering, dataset103 Variabele Leeftijd verzekeringnemer Geslacht Woonomgeving bestuurder Waarde voertuig Leeftijd voertuig Carrosserie type
Schadevoorval Schadevordering
Categorie¨en 1 (jongste), 2, 3, 4, 5, 6 man, vrouw A, B, C, D, E, F $0 - $350 000 1 (nieuw), 2, 3, 4 bus, cabriolet, tweedeursauto, vijfdeursauto, gemotoriseerde caravan, vrachtwagen, toerauto, gesloten bestelwagen, stationwagen, minibus 0 (nee), 1 (ja) $0 - $57 000 ($0 als geen schadevoorval)
Tabel 11.1.1: Variabelen van de dataset van De Jong en Heller.
Een eerste groep, die we aanduiden met de ‘jonge chauffeurs’, bestaat uit alle polissen waarbij zich minstens e´ e´ n schadegeval heeft voorgedaan en waarbij de variabele ‘Leeftijd verzekeringnemer’ waarde 1, 2 of 3 heeft. Deze groep heeft een totaal van 2286 polissen. De tweede groep daarentegen wordt de groep ‘oude chauffeurs’ genoemd, bevat 2338 polissen en bestaat dan weer uit alle polissen waarbij zich een schadegeval heeft voorgedaan en waarbij de variabele ‘Leeftijd verzekeringnemer’ waarde 4, 5 of 6 heeft.
Wat volgt in de rest van dit hoofdstuk is het toepassen van de beschreven copula selectiemethoden in voorgaande Deel II, ‘Copula selectiemethoden’, op de zonet beschreven data van De Jong en Heller en dit telkens voor zowel de jonge als de oude chauffeurs.
11.2
Selectie gebaseerd op Kendall’s tau
11.2.1
Jonge chauffeurs
In de groep met de jonge chauffeurs is de Kendall’s tau waarde van de data gelijk aan −0.0119. Hiermee kunnen de copula parameters geschat worden voor de te onderzoeken copula’s uit Appendix B.1. Deze waarden bevinden zich in de linkse tabel van Tabel 11.2.1, hierin staat ook aangeduid welke copula’s het afhankelijkheidsgebied van τn = −0.0119 niet beschrijven. De scatterplot van de gerankte data van de jonge chauffeurs wordt weergegeven in linkse afbeelding van Figuur 11.2.1, terwijl de scatterplots van de gegenereerde data
Hoofdstuk 11. Een autoverzekeringsmaatschappij en zijn schadevordering, dataset104
τn
-0.0119
θˆ Copula θˆ = −0.0536 FGM Gaussische rˆ = −0.0187 Student-t rˆ = −0.0187 νˆ = 465 Clayton θˆ = × Frank θˆ = −0.1071 θˆ = × Gumbel
τn
-0.0178
θˆ Copula θˆ = −0.0801 FGM Gaussische rˆ = −0.0280 Student-t rˆ = −0.0280 νˆ = 465 Clayton θˆ = × Frank θˆ = −0.1602 θˆ = × Gumbel
Tabel 11.2.1: Schattingen van de copula parameters bij de dataset van de jonge (links) en oude (rechts) chauffeurs, bepaald met behulp van Tabel B.2.1. Copula’s die het afhankelijkheidsgebied τn niet beschrijven, hebben een θˆ waarde × meegekregen.
uit de Gaussische, Student-t, Frank en Farlie-Gumbel-Morgenstern copula weergegeven worden in Figuur 11.2.2. Gezien alle punten mooi verspreid liggen, kan uit deze figuren enkel afgeleid worden dat de variabelen ‘Waarde auto‘ en ‘Schadevordering’ zo goed als onafhankelijk zijn voor de jonge chauffeurs. Met andere woorden dat er voor de jonge chauffeurs weinig of geen verband bestaat tussen de waarde van het verzekerde voertuig en de door de verzekeraar uitbetaalde schadevergoeding in geval van een gedekt schadegeval. Deze conclusie wordt bevestigd door de kleine Kendall’s tau van de data, met name τn = −0.0119. De vraag of onze vier onderzochte copula’s deze afhankelijkheidsstructuur al dan niet goed beschrijven, kan moeilijk uit de schatterplots van Figuur 11.2.2 gehaald worden omwille van het vele aantal punten. Alleszins is het wel zo dat, op basis van de scatterplot, geen enkele van deze vier onderzochte copula’s boven de anderen uitsteekt met een betere fit.
11.2.2
Oude chauffeurs
In de groep met de oude chauffeurs is de Kendall’s tau waarde van de data gelijk aan −0.0178. De copula parameters schattingen bevinden zich in de rechter tabel van Tabel 11.2.1, hierin staat ook duidelijk aangeduid welke copula’s het afhankelijkheidsgebied van τn = −0.0178 niet beschrijven. De scatterplot van de gerankte data van de oude chauffeurs wordt weergegeven in rechtse afbeelding van Figuur 11.2.1, terwijl de scatterplots van de gegenereerde data uit de Gaussische, Student-t, Frank en Farlie-Gumbel-Morgenstern copula weergegeven worden in Figuur 11.2.3. Uit deze figuren kan opnieuw, omwille van de mooie spreiding van de punten, enkel afgeleid worden dat de variabelen ‘Waarde auto‘ en ‘Schadevordering’ voor de oude chauffeurs zo goed als onafhankelijk zijn. Met andere woorden dat er
Hoofdstuk 11. Een autoverzekeringsmaatschappij en zijn schadevordering, dataset105
Figuur 11.2.1: Pseudo-observaties geconstrueerd uit de verzekeringsdata van De Jong en Heller voor de jonge (links) en oude (rechts) chauffeurs. voor de oude chauffeurs weinig of geen verband bestaat tussen de waarde van het verzekerde voertuig en de door de verzekeraar uitbetaalde schadevergoeding in geval van een gedekt schadegeval. Deze conclusie wordt bevestigd door de kleine Kendall’s tau van de data, met name τn = −0.0178. Opnieuw steekt geen enkele copula boven de anderen uit met een betere fit, maar verder kan op de vraag of onze vier onderzochte copula’s de afhankelijkheidsstructuur tussen de variabelen ‘Waarde auto‘ en ‘Schadevordering’ voor de oude chauffeurs goed beschrijven, niet geantwoord worden.
11.3
Selectie gebaseerd op chi-plots
In de selectiemethode gebaseerd op chi-plots worden beslissingen omtrent de afhankelijkheid genomen uit twee scatterplots, zijnde de plot uit vorige sectie en de chi-plot.
11.3.1
Jonge chauffeurs
De chi-plot van de data met de jonge chauffeurs wordt weergegeven in de linkse afbeelding van Figuur 11.3.1. Uit deze figuur kunnen we, door het feit dat het grootste deel van de punten zich binnen de betrouwbaarheidsband bevinden, inderdaad afleiden dat de variabelen ‘Waarde auto’ en ‘Schadevordering’ vrij onafhankelijk zijn en er hooguit een zeer lichte afhankelijkheid is tussen deze variabelen. Enkele punten bevinden zich buiten de betrouwbaarheidsband, maar zowel voor positieve als negatieve waarden van χ, waardoor we niets kunnen concluderen over het feit of deze lichte afhankelijkheid
Hoofdstuk 11. Een autoverzekeringsmaatschappij en zijn schadevordering, dataset106
positief of negatief is. De chi-plots van de vier te onderzoeken copula’s worden weergegeven in Figuur 11.3.2. Wanneer we nu de chi-plots in deze figuur vergelijken met de linkse chi-plot van Figuur 11.3.1, zouden we de Gaussiche copula en de Frank copula verkiezen boven de andere twee copula’s, daar deze copula’s in hun chi-plot ook enkele punten hebben die zich buiten de betrouwbaarheidsband bevinden en dit voor zowel positieve als negatieve waarden van χ, net als het geval is bij de data van de jonge chauffeurs. Echter, er blijven grote verschillen bestaan tussen de chi-plot van de data en de chi-plots van de twee te verkiezen copula’s, zo liggen de punten in de linkse chi-plot van Figuur 11.3.1 meer verspreid en zijn er in deze figuur grotere |χ| waarden op te tekenen in vergelijking met de chi-plots in Figuur 11.3.2. We kunnen met ander woorden weinig besluiten en geen copula aanduiden waarvan we zeker zijn dat deze de afhankelijkheidsstructuur tussen de variabelen ‘Waarde auto’ en ‘Schadevordering’ voor de jonge chauffeurs correct zal beschrijven.
11.3.2
Oude chauffeurs
De chi-plot van de data met de oude chauffeurs wordt weergegeven in de rechtse afbeelding van Figuur 11.3.1. Uit deze figuur kunnen we, opnieuw door het feit dat het grootste deel van de punten zich binnen de betrouwbaarheidsband bevinden, afleiden dat de variabelen ‘Waarde auto’ en ‘Schadevordering’ vrij onafhankelijk zijn en er hooguit een zeer lichte afhankelijkheid is tussen deze variabelen. Enkele punten bevinden zich buiten de betrouwbaarheidsband, maar zowel voor positieve als negatieve waarden van χ, waardoor we niets kunnen concluderen over het feit of deze lichte afhankelijkheid al dan niet negatief of positief is. De chi-plots van de vier te onderzoeken copula’s worden weergegeven in Figuur 11.3.3. Wanneer we nu de chi-plots in deze figuur vergelijken met de rechtse chi-plot van Figuur 11.3.1, zouden we de Frank copula verkiezen boven de andere copula’s, daar deze copula in zijn chi-plot ook enkele punten heeft die zich buiten de betrouwbaarheidsband bevinden en dit voor positieve en negatieve waarden van χ, net als het geval is bij de data van de oude chauffeurs. Ook bij de Gaussische en Student-t copula bevinden er zich punten buiten de betrouwbaarheidsband, maar deze punten hebben telkens een negatieve χ waarde. Echter blijven er grote verschillen bestaan tussen de chi-plot van de data van de oude chauffeurs en de chi-plot van de Frank copula. Opnieuw liggen de punten in de chi-plot van de data meer verspreid en zijn er in deze figuur grotere |χ| waarden op te tekenen in vergelijking met de chi-plot van de Frank copula. We kunnen met ander woorden niet veel besluiten alsook geen copula aanduiden waarvan we zeker zijn dat deze de afhankelijkheidsstructuur tussen de variabelen ‘Waarde auto’ en ‘Schadevordering’ voor de oude chauffeurs goed zal beschrijven.
Hoofdstuk 11. Een autoverzekeringsmaatschappij en zijn schadevordering, dataset107
11.4
Selectie gebaseerd op K-plots
In de selectiemethode gebaseerd op K-plots worden beslissingen omtrent de afhankelijkheid genomen uit twee scatterplots, zijnde de plot uit Sectie 11.2 en de K-plot van de data.
11.4.1
Jonge chauffeurs
De K-plot van de data bestaande uit de jonge chauffeurs wordt weergegeven in de linkse afbeelding van Figuur 11.4.1. Uit deze figuur kunnen we, omwille van het feit dat de punten zich voornamelijk rond de hoofddiagonaal x = y bevinden of net onder deze rechte liggen, afleiden dat de variabelen ‘Waarde auto’ en ‘Schadevordering’ zeer licht negatief afhankelijk zijn van elkaar. De K-plots van de vier te onderzoeken copula’s worden weergegeven in Figuur 11.4.2. Wanneer we de K-plots in deze figuur vergelijken met de linkse K-plot van Figuur 11.3.1, komen we tot volgende bevindingen; De Farlie-Gumbel-Morgenstern en Gaussische copula komen niet in aanmerking, dit omdat uit hun K-plots blijkt dat ze in een gedeelte van het domein een lichte positieve afhankelijkheid vertonen daar de punten zich op deze plaatsen vooral net boven de hoofddiagonaal bevinden. Bij de Student-t en Frank copula daarentegen, bevinden het merendeel van de punten zich, net als bij de data van de jonge chauffeurs, rond de rechte x = y of net onder deze rechte. Echter, als we tussen de Frank en Student-t copula moeten kiezen, kiezen we de Frank copula. Dit omwille van het feit dat de Student-t copula een te grote negatieve afhankelijkheid lijkt weer te geven in vergelijking met de data van de jonge chauffeurs. We baseren ons hierbij vooral op de punten in de rechter bovenhoek. Echter blijven er grote verschillen bestaan tussen de K-plot in de linkse afbeelding van Figuur 11.4.1 en de K-plot van de Frank copula. Zo beschrijft de Frank copula op bepaalde plaatsen een positieve afhankelijkheid, zo bevinden voor H(i) ∈ [7, 8] de punten zich net boven de hoofddiagonaal, wat absoluut niet het geval is voor de K-plot van de data. Met andere woorden, op basis van de copula selectiemethode gebaseerd op K-plots, kunnen we ook geen copula aanduiden waarvan we zeker zijn dat deze de afhankelijkheidsstructuur tussen de variabelen ‘Waarde auto’ en ‘Schadevordering’ voldoende goed beschrijft.
11.4.2
Oude chauffeurs
De K-plot van de data bestaande uit de oude chauffeurs wordt weergegeven in de rechtse afbeelding van Figuur 11.4.1. Uit deze figuur kunnen we, omwille van het feit dat de punten zich voornamelijk net onder de hoofddiagonaal x = y bevinden, afleiden dat de variabelen ‘Waarde auto’ en ‘Schadevordering’ negatief afhankelijk zijn van elkaar.
Hoofdstuk 11. Een autoverzekeringsmaatschappij en zijn schadevordering, dataset108
De K-plots van de vier te onderzoeken copula’s worden weergegeven in Figuur 11.4.3. Wanneer we de K-plots in deze figuur vergelijken met de rechtse K-plot van Figuur 11.3.1, komen we tot volgende bevindingen; De Gaussische copula komt niet in aanmerkingen, dit daar uit de K-plot blijk dat deze in een gedeelte van het domein een lichte positieve afhankelijkheid vertoont. De punten in de K-plot van de Gaussische copula bevinden zich namelijk vooral net boven de hoofddiagonaal. Ook de Student-t copula is niet geschikt, daar deze ofwel eerder een onafhankelijke data beschrijft ofwel een te negatief afhankelijke data. Voor dit laatste baseren we ons vooral op de punten in de rechter bovenhoek. De Frank copula en Farlie-Gumbel-Morgenstern copula zijn met andere woorden te verkiezen boven de twee andere. Zo komt de negatieve afhankelijkheid die we uit hun K-plots kunnen afleiden het meest overeen met de afhankelijkheid die we konden opmerken in de K-plot van de data met de oude chauffeurs. Tussen deze twee copula’s, Frank en Farlie-Gumbel-Morgenstern, kiezen, is moeilijk. Echter blijven er wel significante verschillen bestaan tussen de K-plot van de data bestaande uit de oude chauffeurs en de K-plots van zowel de Frank als Farlie-Gumbel-Morgenstern copula. Hierdoor kunnen we opnieuw geen copula naar voor schuiven die de afhankelijkheidsstructuur tussen de variabelen ‘Waarde auto’ en ‘Schadevordering’, met zekerheid, voldoende goed beschrijft.
11.5
Goodness-of-fit test Copula FGM Gaussische Student-t Frank
Sn 0.0670 0.0672 0.0673 0.0670
p-waarde < 10−3 < 10−3 < 10−3 < 10−3
Copula FGM Gaussische Student-t Frank
Sn 0.1011 0.1029 0.1028 0.1011
p-waarde < 10−3 < 10−3 < 10−3 < 10−3
Tabel 11.5.1: Goodness-of-fit: p-waarden en waarden van de teststatistiek Sn voor de jonge (links) en oude (rechts) chauffeurs.
11.5.1
Jonge chauffeurs
Tot slot voeren we op de vier te onderzoeken copula’s de goodness-of-fit test met teststatistiek Sn uit. De resultaten hiervan voor de jonge chauffeurs zijn terug te vinden in de linkse tabel van Tabel 11.5.1. In deze tabel is duidelijk te zien dat geen enkele van onze copula’s de goodness-of-fit test doorstaat. Voor elk van deze copula’s verkrijgen we namelijk een grote waarde van de teststatistiek met als gevolg hiervan een p-waarde kleiner dan 10−3 . Hierdoor wordt de nulhypothese,
Hoofdstuk 11. Een autoverzekeringsmaatschappij en zijn schadevordering, dataset109
H0 : Copula C is geschikt voor het modelleren van de afhankelijkheid tussen de variabelen ‘Waarde auto’ en ‘Schadevordering’ voor de jonge chauffeurs, bij iedere copula verworpen. Hierdoor moeten we concluderen dat zowel de Gaussische, Student-t, Frank als de Farlie-Gumbel-Morgenstern copula niet voldoende geschikt zijn voor het modelleren van de afhankelijkheid tussen de variabelen ‘Waarde auto’ en ‘Schadevordering’ voor de jonge chauffeurs.
11.5.2
Oude chauffeurs
Tot slot voeren we op de vier te onderzoeken copula’s de goodness-of-fit test uit die beschreven wordt in Hoofdstuk 8. De resultaten voor de oude chauffeurs zijn hiervan terug te vinden in rechtse tabel van Tabel 11.5.1. Deze tabel maakt duidelijk dat geen enkele van onze copula’s de goodness-of-fit test doorstaat. Voor elk van deze copula’s verkrijgen we namelijk een grote waarde van de teststatistiek met als gevolg hiervan een p-waarde kleiner dan 10−3 . Hierdoor wordt de nulhypothese, H0 : Copula C is geschikt voor het modelleren van de afhankelijkheid tussen de variabelen ‘Waarde auto’ en ‘Schadevordering’ voor de oude chauffeurs, bij iedere copula opnieuw verworpen. Hierdoor moeten we besluiten dat geen enkele van de copula’s die wij in deze simulatiestudie aanschouwen voldoende geschikt is voor het modelleren van de afhankelijkheid tussen de variabelen ‘Waarde auto’ en ‘Schadevordering’ voor de oude chauffeurs.
11.6
Conclusie simulatie - vergelijkende studie
Allereerst merken we op dat er in bovenstaande simulatiestudie amper verschillen op te tekenen zijn tussen de jonge en de oude chauffeurs. Met andere woorden, het verband tussen de variabelen ‘Waarde auto’ en ‘Schadevordering’ is hetzelfde voor zowel de jonge als de oude chauffeurs. Dit is de reden waarom we deze sectie met de conclusies en vergelijkingen tussen de verschillende selectiemethoden niet zullen opsplitsen in twee groepen naar gelang de leeftijd van de verzekeringnemer. Uit de grafische methoden hadden we bij deze dataset al een vermoeden dat de beste copula onder de geselecteerden toch niet aanvaardbaar zou zijn voor het modelleren van de afhankelijkheid tussen de variabelen ‘Waarde auto’ en ‘Schadevordering’. Dit werd bevestigd door onze goodness-of-fit test, daar alle in de simulatiestudie beschouwde copula’s verworpen werden. Hiermee hebben we aangetoond dat wanneer er op basis van de grafische methoden vermoed kan worden dat de door deze grafische methoden
Hoofdstuk 11. Een autoverzekeringsmaatschappij en zijn schadevordering, dataset110
geselecteerde beste copula uiteindelijk toch niet zal voldoen, dit tevens bevestigd wordt door de goodness-of-fit test die deze beste copula inderdaad zal verwerpen. Dit toont nogmaals aan dat grafische selectiemethoden kunnen gebruikt worden om de meest geschikte copula te selecteren uit een verzameling van beschouwde copula’s, maar men op deze meest geschikte copula wel nog steeds een goodness-of-fit test moet uitvoeren om te controleren of deze copula wel effectief goed genoeg/aanvaardbaar is. Verder toont deze simulatie ook nog aan dat werken met een kleine set van copula families, wat vaak gebeurt in de toegepaste literatuur, niet altijd een voldoende nauwkeurige benadering oplevert. In gevallen waarbij geen enkele van de onderzochte copula’s de goodness-of-fit test doorstaat, moet men op zoek gaan naar een andere copula die beter/wel geschikt is voor het modelleren van de afhankelijkheid tussen de onderzochte variabelen. Hiervoor bestaan er twee manieren/oplossingsmethoden: 1. De verzameling van de te onderzoeken copula’s uitbreiden met andere, extra copula families, totdat e´ e´ n van deze copula’s de goodness-of-fit test doorstaat. 2. Door middel van transformaties op de reeds onderzochte copula’s1 tot nieuwe copula uitdrukkingen komen die een betere fit opleveren wanneer er een goodnessof-fit test op uitgevoerd wordt. Wanneer we onze simulatiestudie verder zouden zetten volgens de eerste oplossingsmethode, zouden we onze selectie van copula’s uit Appendix B.1 moeten uitbreiden met meerdere copula’s. Dit alles hebben we gedaan met zes copula’s, meer bepaald breidde we de verzameling van te onderzoeken copula’s uit met de Plackett copula, alsook met de archimedische copula’s Gumbel-Barnett en copula nummer 10, 13, 16 en 17 van [47]. Echter, we kwamen steeds tot hetzelfde resultaat, namelijk dat geen enkele van deze copula’s voldoende geschikt is voor het modelleren van de afhankelijkheid tussen de variabelen ‘Waarde auto’ en ‘Schadevordering’. Iedere van de net opgesomde copula’s werd namelijk verworpen wanneer we een goodness-of-fit test uitvoerden. Gezien de focus in deze masterproef ligt op het selecteren van de meest geschikte copula onder de copula’s die oorspronkelijk beschouwd worden, zijn we verder niet meer op zoek gegaan naar nog meer copula’s die eventueel wel geschikt zouden kunnen zijn. Indien we daarentegen te werk zouden gaan met de tweede hierboven opgesomde oplossingsmethode, zouden we kunnen verder werken met de Frank copula. Na het toepassen van onze goodness-of-fit test werd wel duidelijk dat deze copula verre van een goede fit blijkt te hebben voor het modelleren van de afhankelijkheid tussen de variabelen 1
In de praktijk zullen er transformaties uitgevoerd worden op de copula die, door de grafische selectiemethoden, als beste naar voren geschoven wordt, maar die door de goodness-of-fit test alsnog verworpen wordt en bijgevolg dus niet goed genoeg blijkt te zijn.
Hoofdstuk 11. Een autoverzekeringsmaatschappij en zijn schadevordering, dataset111
‘Waarde auto’ en ‘Schadevordering’. Echter kon de Frank copula bij de grafische selectiemethoden wel gezien worden als de betere van de onderzochte copula’s en dit voor zowel de jonge als de oude chauffeurs. Door middel van het uitvoeren van transformaties, zoals deze beschreven in [44], zouden we de Frank copula kunnen aanpassen naar een nieuwe copula met een betere fit. Echter, gezien wij ons in deze masterproef focussen op het selecteren van de meest geschikte copula onder de copula’s die beschouwd worden en in mindere mate focussen op het construeren van een geschikte copula bij een gegeven dataset, gaan we hier verder niet op in en verwijzen we wat de transformaties betreft door naar de literatuur. Tot slot van deze sectie merken we bij deze simulatie op de dataset van De Jong en Heller nog enkele verschillen op tussen de gebruikte grafische copula selectiemethoden. Zo zou men bij de selectiemethode gebaseerd op Kendall’s tau kunnen denken dat alle te onderzoeken copula’s eventueel in aanmerking zouden kunnen komen voor het modelleren van de afhankelijkheid, terwijl dit bij zowel de methode gebaseerd op chi-plots als deze gebaseerd op K-plots absoluut niet meer het geval is. Men kan namelijk zowel voor de chi-plot als voor de K-plot grote verschillen opmerken tussen de plot van de data en deze van de verschillende copula’s. Ook zou men afgaande op de scatterplots in de methode gebaseerd op Kendall’s tau kunnen denken dat de variabelen ‘Waarde auto’ en ‘Schadevordering’ geheel onafhankelijk van elkaar zijn. Dit door het feit dat de punten zich in de scatterplot van de data over heel het gebied bevinden. Pas door de andere grafische methoden te gebruiken, werd echt duidelijk dat deze variabelen niet geheel onafhankelijk zijn van elkaar. Dit laatste, niet geheel onafhankelijke data, werd ook nog eens bevestigd door onze goodness-of-fit test, daar verschillende van onze beschouwde copula modellen immers de onafhankelijke copula bevatten in hun range en deze copula’s toch stuk voor stuk verworpen werden door de test. Dit maakt duidelijk dat de Kendall’s tau methode best nooit op zichzelf gebruikt wordt, daar er op die manier verkeerde conclusies getrokken zouden kunnen worden. Het uitbreiden van deze selectiemethode met een chi-plot, of liefst zelfs een K-plot, is echt wel aangeraden. Verder kan er in deze simulatie ook een voordeel opgetekend worden van de selectiemethode gebaseerd op K-plots in vergelijking met de methoden gebaseerd op Kendall’s tau en chi-plots. Zo is het dat de negatieve afhankelijkheid van de data, hoe klein deze ook is, meteen tot uiting komt in de K-plot. Dit doordat de punten zich in de K-plot van de data voornamelijk op en net onder de hoofddiagonaal bevinden. Deze (kleine) negatieve afhankelijkheid kan daarentegen niet opgemaakt worden uit de chi-plot van de data, alsook niet uit de scatterplot van de data. Merk op dat al de verschillen en opmerkingen in bovenstaande paragraaf ook reeds aan bod kwamen in Deel II bij de beschrijving en opbouw van de grafische selectiemethoden.
Hoofdstuk 11. Een autoverzekeringsmaatschappij en zijn schadevordering, dataset112
Figuur 11.2.2: Scatterplots van 2286 jonge chauffeurs data gesimuleerd uit de onderzochte copula’s, alsook de schattingen van hun copula parameter(s).
Hoofdstuk 11. Een autoverzekeringsmaatschappij en zijn schadevordering, dataset113
Figuur 11.2.3: Scatterplots van 2338 oude chauffeurs data gesimuleerd uit de onderzochte copula’s, alsook de schattingen van hun copula parameter(s).
Hoofdstuk 11. Een autoverzekeringsmaatschappij en zijn schadevordering, dataset114
Figuur 11.3.1: Chi-plots geconstrueerd uit de verzekeringsdata van De Jong en Heller, links voor jonge chauffeurs, rechts voor oude.
Hoofdstuk 11. Een autoverzekeringsmaatschappij en zijn schadevordering, dataset115
Figuur 11.3.2: Chi-plots van data gesimuleerd uit de onderzochte copula’s voor de jonge chauffeurs.
Hoofdstuk 11. Een autoverzekeringsmaatschappij en zijn schadevordering, dataset116
Figuur 11.3.3: Chi-plots van data gesimuleerd uit de onderzochte copula’s voor de oude chauffeurs.
Hoofdstuk 11. Een autoverzekeringsmaatschappij en zijn schadevordering, dataset117
Figuur 11.4.1: K-plots geconstrueerd uit de verzekeringsdata van De Jong en Heller, links voor jonge chauffeurs, rechts voor oude.
Hoofdstuk 11. Een autoverzekeringsmaatschappij en zijn schadevordering, dataset118
Figuur 11.4.2: K-plots van data gesimuleerd uit de onderzochte copula’s voor de jonge chauffeurs.
Hoofdstuk 11. Een autoverzekeringsmaatschappij en zijn schadevordering, dataset119
Figuur 11.4.3: K-plots van data gesimuleerd uit de onderzochte copula’s voor de oude chauffeurs.
Conclusie Copula modelling voor het bepalen van de afhankelijkheid tussen variabelen heeft vele succesvolle toepassingen in de actuari¨ele wetenschap en het risk management. Zo is het modelleren van de afhankelijkheid met behulp van copula’s van essentieel belang voor de risicomanagers van vandaag. Voor deze personen is het onder meer een niet te missen hulpmiddel bij de constructie van portefeuilles. In deze masterproef hebben wij verschillende methoden van copula selectie behandeld en onderzocht, waarbij we op e´ e´ n selectiemethode na de focus gelegd hebben op grafische methoden. De meest eenvoudige copula selectiemethoden die aan bod kwamen in deze masterproef, en tevens de bouwstenen vormen van de overige methoden, zijn de selecties gebaseerd op Spearman’s rho en Kendall’s tau, waar beslissingen genomen worden met behulp van de scatterplot van de ranken van de gegeven dataset. Niet tegenstaande dat deze methoden gelijklopend zijn in opbouw en constructie, is de methode gebaseerd op Kendall’s tau een veel effici¨entere en meer bruikbare methode in de praktijk vergeleken met de Spearman’s rho tegenhanger. Bij deze methoden worden de copula parameters θ namelijk geschat door middel van de relatie tussen θ en de empirische waarde van Spearman’s rho of Kendall’s tau en na diverse berekeningen gemaakt te hebben, was het duidelijk dat de verbanden makkelijker te bepalen zijn voor Kendall’s tau dan voor Spearman’s rho. De selectiemethoden gebaseerd op Spearman’s rho en Kendall’s tau breidden we in deze masterproef vervolgens uit door de methode gebaseerd op chi-plots. Bij deze selectiemethode kunnen conclusies met grotere zekerheid getrokken worden, daar deze methode beroep doet op niet e´ e´ n, maar twee scatterplots. Een nadeel van de chi-plot methode, wat ook in de simulatiestudie tot uiting kwam, is echter dat men er weinig informatie uithaalt wat betreft de staartafhankelijkheden. Een bijkomende tekortkoming is het feit dat deze methode niet uit te breiden is naar meerdere dimensies. Om deze twee problemen te voorkomen, hebben we dan ook een nieuwe, verbeterde selectiemethode ingevoerd, met name de methode gebaseerd op K-plots. Voor de implementatie in R van deze verbeterde selectiemethode hebben we eerst de problemen met de binomiaalco¨efici¨enten voor het bepalen van grootheid Wi:n opgelost, waarna we een pro120
Conclusie
121
gramma geschreven hebben die bij iedere gegeven dataset steeds een correcte K-plot genereert. Dat deze copula selectiemethode gebaseerd op K-plots gezien kan worden als een verbetering op de hiervoor reeds vermelde methoden en bijgevolg deze methoden overtreft, werd vervolgens ook duidelijk aangetoond in de simulatiestudie. Daar we ons in deze masterproef niet wilden blindstaren op grafische selectiemethoden, introduceerden en implementeerden we ook een selectiemethode gebaseerd op een test/teststatistiek. We schreven hiervoor een goodness-of-fit test in R en bepaalden aan de hand van een zelf geprogrammeerde bootstrap procedure de p-waarden behorend bij deze statistiek. Op die manier worden er bij deze methode geen beslissingen genomen aan de hand van grafische eigenschappen, maar kan dit gedaan worden met behulp van p-waarden. Deze methode van copula selectie kan dus op twee manieren gebruikt worden. Allereerst als een op zichzelf staande methode, door voor elke van de beschouwde copula’s de bijhorende p-waarde te berekenen. Anderzijds kan deze selectiemethode ook gebruikt worden om te controleren of een copula, die naar voren kwam via een grafische selectiemethode, al dan niet ook aanvaardbaar is. Grafische selectiemethoden brengen immers steeds de beste onder de beschouwde copula’s naar voren, maar dit geeft geen garantie over het feit of deze copula wel degelijk aanvaardbaar is. Het uitvoeren van een goodness-of-fit test op de door de grafische methoden geselecteerde beste copula blijft dus noodzakelijk. Dit alles werd in deze masterproef tevens ge¨ıllustreerd in de simulatiestudie. In het geval waar geen enkele van de beschouwde copula’s goed genoeg blijkt te zijn voor het modelleren van de afhankelijkheid tussen de onderzochte variabelen, moet er uiteraard op zoek gegaan worden naar een andere copula die beter/wel geschikt is. In deze masterproef werden voor dergelijke gevallen twee oplossingen aangeboden, namelijk het uitbreiden van de verzameling van onderzochte copula’s of, als alternatief, het uitvoeren van transformaties op de copula die uit de grafische selectiemethoden als de beste naar voren kwam, maar in de goodness-of-fit test niet goed genoeg bleek te zijn. Uiteindelijk hebben we in deze masterproef door middel van een simulatiestudie aangetoond dat grafische selectiemethoden wel degelijk hun nut hebben, ze brengen immers steeds een beste onder de beschouwde copula’s naar voren. Hierdoor kan er in de praktijk veel tijd bespaard worden. Zo hoeft men niet op iedere copula steeds een tijdrovende test gaan uit te voeren, maar kan men eerst een selectie gaan maken met behulp van grafische selectiemethoden, om dan uiteindelijk door middel van een goodness-of-fit test te gaan bepalen welke van de nog overblijvende copula’s nu diegene is met de beste fit.
Conclusie
122
In verder onderzoek zouden we ook de meest recente grafische selectiemethode, in 2013 ontwikkeld door Michiels en De Schepper [45], in R kunnen implementeren en via een simulatiestudie nagaan of deze methode bij een gegeven dataset de beste copula voor het beschrijven van de afhankelijkheid naar voren brengt. Ook zouden in verder onderzoek de copula transformaties, die zorgen voor een betere fit, ge¨ımplementeerd kunnen worden in de simulatiestudie.
Bibliografie [1] K. Aas (2004), Modelling the dependence structure of financial assets: A survey of four copulas, Norwegian Computing Center: Technical report, Norway. [2] K. Aas, C. Czado, A. Frigessi and H. Bakken (2007), Pair-copula constructions of multiple dependence, Elsevier. [3] T. W. Anderson (1962), On the Distribution of the Two-Sample Cramervon Mises Criterion, The Annals of Mathematical Statistics. [4] J. R. Blum, J. Kiefer and M. Rosenblatt (1961), Distribution free tests of independence based on the sample distribution function, Ann. Math. Statist. [5] C. B. Borkowf (2002), Computing the nonnull asymptotic variance and asymptotic ralative efficiency of Spearman’s rank correlation, Comput. Stat. Data Anal. [6] P. Cap´era`a, A. L. Goug`eres and C. Genest (1997), Distributions with given Marginals and Moment Problems, Chapter A stochastic ordering based on a decomposition of Kendall’s tau, Dodrecht: Kluwer. [7] C. Croux, Cursus Statistische methoden II, Vrije Universiteit Brussel, Belgi¨e. [8] C. Czado (2010), Pair-copula constructions of multivariate copulas, Springer. [9] P. De Jong and G. Z. Heller (2008), Generalized linear models for insurance data, International series on Actuarial science, Cambridge. [10] A. De Schepper, Cursus Actuari¨ele modellen, Universiteit Antwerpen, Belgi¨e. [11] P. Deheuvels (1979), La fonction de d’epence empirique et ses propri´eties: Un tst non param´etrique d’ind´ependance, Bull,. Cl. Sci., Acad. R. Belg. [12] M. Denuit, J. Dhaene, M. Goovaerts and R. Kaas (2005), Actuarial theory for dependent risks: Measures, orders and models. [13] D. Dereniowski and M. Kabula (2003), Parallel processing and applied mathematics, Springer, Czestochowa, Poland. 123
Bibliografie
124
[14] D. Dereniowski and M. Kabula (2004), Cholesky factorization of matrices in parallel and ranking graphs, Dep. of algorithms and modelling of systems, Gdansk University of Technology, Poland. [15] U. Einmahl, Cursus Kanstheorie, Vrije Universiteit Brussel, Belgi¨e. [16] U. Einmahl, Cursus Maattheorie, Vrije Universiteit Brussel, Belgi¨e. [17] P. Embrechts, F. Lindskog and A. J. McNeil (2001), Modelling dependence with copulas and applications to risk management, Dep. of Math., Z¨urich, Switzerland. [18] P. Embrechts, F. Lindskog and A. J McNeil (2003), Modelling dependence with copulas and applications to risk management, In S.T. Rachev, editor, Handbook of heavy tailed distributions in finance, Elsevier, North-Holland. [19] P. Embrechts, A. J. McNeil and D. Straumann (1999), Correlation and dependence in risk management: Properties and pitfalls, Risk management: Value at risk and beyond, Cambridge University Press, Cambridge, U.K.. [20] P. Embrechts, A. J. McNeil and D. Straumann (2002), Correlation and dependence in risk management: Properties and pitfalls, Risk management: Value at risk and beyond, Cambridge University Press, Cambridge, U.K. [21] J. D. Fermanian (2005), Goodness-of-fit test for copulas, Journal of Multivariate Analysis. [22] J. D. Fermanian, D. Radulovi´c and M. H. Wegkamp (2004), Weak convergence of emirical copula processes, Bernoulli 10. [23] N. I. Fisher and P. Switzer (1985), Chi-plots for assessing dependence, Biometrica. [24] N. I. Fisher and P. Switzer (2001), Graphical assessment of dependence: Is a picture worth 100 tests?, The American Statistician. [25] E. Frees and E. Valdez (1998), Understanding relationships using copulas, North American Actuarial Journal. [26] P. Gaenssler and W. Stute (1987), Seminar on empirical processes, Birkh¨auser, Basel, Switzerland. [27] C. Genest and J. C. Boies (2003), Detecting dependence with Kendall plots, The American Statistician. [28] C. Genest and A.C. Favre (2007), Everything you always wanted to know about copula modelling but were afraid to ask, Journal of hydrologic engineering.
Bibliografie
125
[29] C. Genest and R. J. MacKay (1986), Copules archim´ediennes et familles de lois bidimensionnelles dont les marges sont donn´ees, Can. J. Stat. [30] C. Genest, J.F. Quessy and B. R´emillard (2006), Goodness-of-fit procedures for copulas models based on the probability integral transformation, Scandinavian Journal of Statistics. [31] C. Genest and B. R´emillard (2008), Validity of the parametric bootstrap for goodness-of-fit testing in semiparametric models, Annales de l’institut Henri Poincar´e, Probabilit´es et Statistiques. [32] C. Genest, B. R´emillard and D. Beaudoin (2009), Goodness-if-fit tests for copula’s: A revieuw and a power study, Insurance: Mathematics and Economics. [33] C. Genest and L. P. Rivest (1993), Statistical inference procedures for bivariate archimedian copulas, J. Am. Stat. Assoc. [34] C. Genest and L. P. Rivest (2001), On the multivariate probability integral transformation, Statistics and probability letters. [35] W. Ho¨effding (1940), Maszstabinvariante Korrelationtheorie, Schriftenr. Math. Inst., Berlin University, Germany. [36] W. Ho¨effding (1948), A class of statistics with asymptotically normal distribution, Ann. Math. Stat. [37] T. Kadankova, Cursus Statistiek voor actuari¨ele wiskunde, Vrije Universiteit Brussel, Belgi¨e. [38] T. Kadankova, Cursus Wiskundige statistiek, Vrije Universiteit Brussel, Belgi¨e. [39] I. Kojadinovic and J. Yan (2010), Modelling multivariate distributions with continious margins using the copula R package, Journal of Statistical Software. [40] W. H. Kruskal (1958), Ordinal measures of association, J. Amer. Statist. Assoc. [41] D. Kurowicka and H. Joe (2011), Dependence Modelling: Vine Copula Handbook, World Scientific. [42] F. Lindskog, A. Mcneil and U. Schmock (2003), Kendalls tau for elliptical distributions, Evaluation and Management, In Credit Risk: Measurement, Evaluation and Management, Physica-Verlag. [43] H. E. Maache and Y. Lepage (2003), Spearman’s Rho and Kendall’s Tau for Multivariate Data Sets, Institute of Mathematical Statistics.
Bibliografie
126
[44] F. Michiels and A. De Schepper (2010), How to improve the fit of Archimedean copulas by means of transforms, Springer-Verlag. [45] F. Michiels and A. De Schepper (2013), A new graphical tool for copula selection, Journal of Computional and Graphical Statistics. [46] R.B. Nelsen (1996), Nonparametric Measures of Multivariate Association, Institute of Mathematical Statistics. [47] R.B. Nelsen (2006), An introduction to coplulas, Berlin: Springer-Verlag. [48] D. Oakes (1982), A model for association in bivariate survival data, J. R. Stat. Soc. Ser. B (stat. Methodol.). [49] J. J. Quesada-Molina (1992), A generalization of an identity of Ho¨effding and some applicaions, J. Ital. Stat. Soc. [50] B. Schweizer and E. F. Wolff (1981), On nonparametric measures of dependence for random variables, Ann. Statist. [51] H. Tsukahara (2005), Semiparametric estimation in copula models, The Canadian Journal of Statistics.
Index 2-plaats re¨ele functie, 6 2-stijgende functie, 6 H-volume, 6, 12 n-plaats re¨ele functie, 12 n-stijgende functie, 13
Marginalen, 7, 13 Maximum copula, 16 Minimum copula, 16
Archimedische copula, 18
Pearson correlatieco¨effici¨ent, 22, 23, 25, 47 Pseudo-inverse, 18
Chi-plot, 58 Cholesky decompositie, 34 Clayton copula, 19 Concordant, 25 Concordante ordening, 10 Conditionele copula, 32 Copula, 8, 13 Copuladichtheid, 9, 14 Debye functie, 131 Delta methode, 51 Discordant, 25
Onafhankelijke copula, 16
QQ-plot, 65 Schaal-invariant, 23 Spearman’s rho, 23, 47 Spearman’s rho-gebaseerde schatter, 53 Staartafhankelijkheids-co¨effici¨enten, 28 Student-t copula, 17 Subcopula, 8, 13
Empirische copula, 46, 78 Farlie-Gumbel-Morgenstern copula, 17 Fr´echet-Ho¨effding grenzen, 9, 14 Frank copula, 20 Gaussische copula, 17 Gegronde functie, 7, 13 Goodness-of-fit test, 77 Gumbel-Hougaard copula, 20 K-plot, 68 Kendall’s tau, 25, 26, 48 Kendall’s tau-gebaseerde schatter, 51
127
Bijlage A Univariate verdelingen A.1
Normale verdeling
De normale verdeling wordt genoteerd met N (µ, σ 2 ) en heeft een dichtheidsfunctie gelijk aan 1 1 2 f (x) = √ exp − 2 (x − µ) . 2σ 2πσ 2 Het gemiddelde en de variantie van een stochastische variabele X v N (µ, σ 2 ) zijn gelijk aan E(X) = µ, resp. V ar(X) = σ 2 . De standaardnormale verdeling N (0, 1) is een normale verdeling N (µ, σ 2 ) waarbij µ = 0 en σ = 1. De standaardnormale cumulatieve verdelingsfunctie is gelijk aan Rx 2 Φ(x) = −∞ √12π e−t /2 dt, voor −∞ < x < ∞. Wanneer X v N (µ, σ 2 ), geldt dat X −µ v N (0, 1). σ Een belangrijke eigenschap van de normale verdeling is dat een lineaire transformatie van een normale verdeling opnieuw normaal verdeeld is. Hierdoor hebben we dat, wanneer X1 , . . . , Xn onafhankelijke en identieke normaal verdeeld zijn met parameters µ en σ, de som Y = X1 + . . . + Xn een normale verdeling is met E(Y ) = nµ en V ar(Y ) = nσ 2 . Z=
A.2
Gamma verdeling
Als een stochastische variabele X een Gamma verdeling heeft met parameters k > 0 en θ > 0, dit is X v Γ(k, θ), dan is zijn dichtheidsfunctie gegeven door 128
129
Bijlage A. Univariate verdelingen
f (x) =
θk xk−1 e−θx Γ(k)
, voor x > 0.
Hierin is Γ(k), met k > 0, de Gamma functie gedefinieerd door Z ∞ Γ(k) = tk−1 e−t dt 0
= (k − 1)!, waarbij de tweede gelijkheid geldt indien k een positief geheel getal is. Het gemiddelde en de variantie van een stochastische variabele X v Γ(k, θ) zijn gelijk aan E(X) = kθ , resp. V ar(X) = θk2 . De exponenti¨ele verdeling, genoteerd als exp(θ), is een speciaal geval van de net beschreven Gamma verdeling Γ(k, θ), namelijk deze waarbij k = 1. De dichtheidsfunctie van een exponentieel verdeelde variabele is bijgevolg f (x) = θe−θx , met x > 0. Wanneer X v exp(θ) dan hebben we E(X) =
1 θ
en V ar(X) =
1 . θ2
Een belangrijke eigenschap van de Gamma verdeling is dat, wanneer X1 , . . . , Xk onafhankelijke en identiek exponentieel verdeeld zijn met parameter θ, de som Y = X1 + . . . + Xk de Γ(k, θ)-verdeling heeft.
A.3
Chikwadraat verdeling
De Chikwadraat verdeling met ν vrijheidsgraden wordt aangeduid door χ2ν . De dichtheidsfunctie van een χ2ν -verdeelde stochastische variabele X wordt gegeven door f (x) =
1 x(ν/2)−1 e−x/2 , Γ(ν/2)2ν/2
met x ∈ R en ν = 1, 2, . . .,
heeft gemiddelde E(X) = ν en variantie V ar(Y ) = 2ν. De Gamma verdeling met k = ν2 en θ = 12 is de Chikwadraat verdeling χ2ν met ν vrijheidsgraden. Verder heeft het kwadraat van een standaardnormaal verdeelde variabele een χ21 -verdeling of dus hebben we dat, wanneer Z1 , . . . , Zν onafhankelijke en identiek standaardnormaal verdeeld zijn, de som Y = Z12 + . . . + Zν2 v χ2ν .
A.4
Student-t verdeling
Als Z v N (0, 1) onafhankelijk is van V v χ2ν , met ν > 0, dan heeft √ZV een Student-t verdeling tν met ν vrijheidsgraden.
ν
130
Bijlage A. Univariate verdelingen
De dichtheidsfunctie van een tν -verdeelde stochastische variabele X wordt gegeven door − ν+1 2 Γ ν+1 x2 2 f (x) = 1 + ν Γ ν2 en heeft, als ν > 1, een gemiddelde E(X) = 0 en een variantie V ar(X) = ν > 2.
ν ν−2
wanneer
Bijlage B Overzicht van de copula families B.1
Copula, generator en copulaparameter
Het overzicht van de gebruikte copula families wordt gegeven in het bivariate geval. Allereerst te beginnen met de copula uitdrukkingen en het gebied van de copulaparameter. C# FGM Gaussische Student-t Clayton Frank Gumbel
Cθ (u, v) uv + θuv(1 − u)(1 − v) Φr (Φ−1 (u), Φ−1 (v)) −1 tr,ν (t−1 ν (u), tν (v)) − θ1 −θ −θ (u h + v − 1) i −θu
−θv
−1) − 1θ 1 + (e −1)(e e−θ −1 1 exp(− (− ln u)θ + (− ln v)θ θ
ϕθ (x) 1 −θ (x − 1) θ
− ln
e−θx −1 e−θ −1
(− ln x)θ
Gebied copulaparameter θ ∈ [−1, 1] r ∈] − 1, 1] r ∈] − 1, 1], ν > 2 θ ∈]0, +∞[ ] − ∞, +∞[\{0} θ ∈] − 1, +∞[
Tabel B.1.1: Overzicht van de copula uitdrukkingen, generatorfuncties en het gebied van de copulaparameter.
B.2
Afhankelijkheidsmaten
In deze sectie wordt er gebruik gemaakt van de Debeye functie. Definitie B.2.1 De functie Dn (θ), Debye functie, is voor n = 1, 2, . . . gedefinieerd als Z n θ tn Dn (θ) = n dt. θ 0 exp(t) − 1 131
132
Bijlage B. Overzicht van de copula families C# ρ τ θ 2 θ FGM 3 9 6 r 2 Gaussische arcsin 2 arcsin r π π r 6 2 Student-t arcsin 2 arcsin r π π θ Clayton Gecompliceerd θ+2 1 (−θ)] +1 Frank 1 − 12 [Db (−θ)−D 4 D1 (θ)−1 θ θ θ−1 Gumbel Geen gesloten uitdrukking θ
Gebied Kendall’s tau [− 92 , 29 ] [−1, 1] [−1, 1] [0, 1] [−1, 1] [0, 1]
Tabel B.2.1: Overzicht van de afhankelijkheidsmaten Spearman’s rho en Kendall’s tau.
De gesloten intervallen in de laatste kolom van Tabel B.2.1 zijn, als men kijkt naar het gebied van de copula parameter (Tabel B.1.1), vaak slechts open of half-open intervallen. In deze tabel worden echter de limietwaarden ook mee opgenomen. Dit zorgt niet voor problemen daar de randwaarden van Kendall’s tau, 1 en −1, in de praktijk niet voorkomen. C# FGM Gaussische Student-t Clayton Frank Gumbel
λL (C) 0 0 √
2tν+1 −
√ ν+1 √ 1−r 1+r 1
2− θ 0 0
λU (C) 0 0 √
2tν+1 −
√ ν+1 √ 1−r 1+r
0 0 1 2 − 2θ
Tabel B.2.2: Overzicht van de staartafhankelijkheden.
Bijlage C Simulatiemethoden In Hoofdstuk 3 van deze thesis, ‘Simulatiemethoden’, worden algoritmen gegeven die gebruikt kunnen worden om data te genereren uit een copula. In deze bijlage verklaren wij de werking van deze verschillende simulatiemethoden. Beginnen doen we met de conditionele simulatiemethode die gebruikt kan worden om data te genereren uit een willekeurige copula. Daarna verklaren we de simulatie uit een Gaussische copula, alsook de simulatie uit een archimedische copula. De simulatiemethode om data te genereren uit een Student-t copula wordt hier niet verklaard, dit omwille van de analogie met de verklaring van de simulatiemethode die gebruikt wordt om data te genereren uit een Gaussische copula.
C.1
De conditionele simulatiemethode
Zij U, V1 twee onafhankelijke uniform(0, 1) verdeelde variabelen. Definieer dan voor u, v ∈ [0, 1] de functie ∂ C(u, v) ∈ [0, 1], cu (v) = ∂u waarbij C de beschouwde copula is. Functie cu (v) wordt de conditionele copula ge[−1] noemd. Definieer vervolgens de variabele V = cU (V1 ). Dan bewijzen we dat (U, V ) gezamenlijke verdelingsfunctie C hebben. Bewijs. Het is duidelijk dat zowel de toevalsvariabele U als V waarden tussen 0 en 1
133
134
Bijlage C. Simulatiemethoden
hebben. Verder volgt er dat P(U ≤ u, V ≤ v) = P(U ≤ u, V1 ≤ cU (v)) Z u P(V1 ≤ cU (v)|U = s)dP(U ≤ s) = Z0 u P(V1 ≤ cs (v)|U = s)ds = 0 Z u P(V1 ≤ cs (v))ds = 0 Z u = cs (v)ds 0 Z u ∂ = C(s, v)ds 0 ∂u = C(u, v) − C(0, u) = C(u, v), waarbij onder andere gebruik gemaakt werd van het feit dat U en V1 onafhankelijk zijn, alsook dat deze beiden uniform verdeeld zijn op het eenheidsinterval [0, 1]. Bovenstaande redenering toont aan dat de beschreven simulatiemethode uit Sectie 3.1 inderdaard data genereert uit de gegeven copula.
C.2
Simulatie uit een Gaussische copula
Zij (Z1 , Z2 ) twee onafhankelijke standaardnormaal verdeelde toevalsvariabelen. Met andere woorden, we kunnen schrijven dat (Z1 , Z2 )t ∼ N (0, I), met I de twee-dimensionale eenheidsmatrix. Het is een welbekend resultaat dat dan voor een 2 × 2 matrix A telkens geldt dat (Y1 , Y2 )t = A(Z1 , Z2 )t ∼ N (0, AIAt ). Indien we nu voor A de onderdriehoeksmatrix nemen van de Cholesky decompostitie van een gegeven correlatiematrix Σ, dan volgt er uit het re¨eel zijn van die matrix A dat A∗ = At . Bovendien kunnen we dan besluiten dat (Y1 , Y2 )t ∼ N (0, Σ).
135
Bijlage C. Simulatiemethoden
Indien nu Φ de verdelingsfunctie is behorend bij de standaardnormale verdeling, en we (U, V ) = (Φ(Y1 ), Φ(Y2 )) stellen, dan volgt er meteen dat de gezamenlijke verdelingsfunctie van (U, V ) gelijk is aan de Gaussische copula met correlatiematrix Σ. Dit is immers de definitie van deze copula. Hieruit kunnen we dan ook concluderen dat Algoritme 3.2.2 inderdaad trekkingen genereert uit de Gaussische copula met correlatiematrix Σ.
C.3
Simulatie uit een archimedische copula
Zij C een archimedische copula met generatorfunctie ϕ. Anders gezegd, we kunnen schrijven dat C(u, v) = ϕ[−1] (ϕ(u) + ϕ(v)). Stel verder U en V twee uniform-[0, 1] verdeelde variabelen die gezamenlijke verdelingsfunctie C hebben. Tot slot defini¨eren we de twee toevalsvariabelen S, W met S=
ϕ(U ) ϕ(U ) + ϕ(V )
en
W = ϕ[−1] (ϕ(U ) + ϕ(V )).
Aangezien de beschouwde copula C een archimedische copula is, volgt er voor de gezamenlijke verdelingsfunctie H van (S, W ) dat H(s, w) = sKC (w). Dit resultaat werd onder andere aangetoond door Nelsen [47]. Hieruit kan men besluiten dat S en W onafhankelijk zijn, S uniform verdeeld is op het eenheidsinterval en W verdelingsfunctie KC heeft. Tot slot kunnen we uit de definitie van S en W afleiden dat U = ϕ[−1] (Sϕ(W )) en
V = ϕ[−1] ((1 − S)ϕ(W )).
Indien s, t nu twee onafhankelijke trekkingen zijn uit een uniform-[0, 1] verdeelde varia[−1] bele, en we w = KC (t) stellen, dan volgt er meteen dat s, respectievelijk w trekkingen zijn uit de onafhankelijke toevalsvariabelen S en W . Hierbij is S uniform verdeeld op het eenheidsinterval en heeft W verdelingsfunctie KC . Dit toont aan dat Algoritme 3.4.1 inderdaad trekkingen genereert uit de archimedische copula C.
Bijlage D Chi-plots en K-plots De figuren in dit hoofdstuk behoren bij Hoofdstuk 6 en Hoofdstuk 7. Ze helpen ons bij de interpretatie van een chi-plot, K-plot.
D.1
Onafhankelijke data
In Figuur D.1.1 is de scatterplot (links), de chi-plot (midden) en de K-plot (rechts) te zien van 100 punten (Xi , Yi ), die afkomstig zijn uit het koppel (X, Y ) waarbij X en Y toevalsvariabelen zijn met een standaardnormale verdeling die een correlatieco¨effici¨ent van 0.045 hebben.
Figuur D.1.1: Scatter-, chi- en K-plot van onafhankelijke data, r = 0.045.
D.2
Positief afhankelijke data
In Figuur D.2.1 is bovenaan de scatterplot (links), de chi-plot (midden) en de K-plot (rechts) te zien van 100 punten (Xi , Yi ), die afkomstig zijn uit het koppel (X, Y ) waarbij 136
Bijlage D. Chi-plots en K-plots
137
X en Y positief afhankelijke toevalsvariabelen zijn met een correlatie van 0.633. Terwijl de onderste lijn van deze figuur de scatterplot (links), de chi-plot (midden) en de K-plot (rechts) tonen van twee perfect positief afhankelijke toevalsvariabelen X en Y .
Figuur D.2.1: Scatter-, chi- en K-plot van positief afhankelijke data, r = 0.633 (boven) en r = 1 (onder).
D.3
Negatief afhankelijke data
In Figuur D.3.1 is bovenaan de scatterplot (links), de chi-plot (midden) en de K-plot (rechts) te zien van 100 punten (Xi , Yi ), die afkomstig zijn uit het koppel (X, Y ) waarbij X en Y negatief afhankelijke toevalsvariabelen zijn met een correlatie van −0.753. Terwijl de onderste lijn van deze figuur de scatterplot (links), de chi-plot (midden) en de K-plot (rechts) tonen van twee perfect negatief afhankelijke toevalsvariabelen X en Y.
Bijlage D. Chi-plots en K-plots
138
Figuur D.3.1: Scatter-, chi- en K-plot van positief afhankelijke data, r = −0.573 (boven) en r = −1 (onder).
Bijlage E Dataset ‘Frees en Valdez’ De figuren in deze bijlage behoren bij Hoofdstuk 10, ‘Een verzekeringsmaatschappij en zijn vergoedingen/kosten, dataset’.
E.1
Oplossingsmethoden voor ties in de data
Voor het verwijderen van de ‘ties’ in de data van LOSS en ALAE werd gebruik gemaakt van de random methode waarvan de output reeds in Figuur 10.2.1 werd meegegeven. De output voor de overige methoden (gemiddelde rank, first, minimum en maximum) worden weergegeven in Figuur E.1.1.
139
Bijlage E. Dataset ‘Frees en Valdez’
140
Figuur E.1.1: Pseudo-observaties geconstrueerd uit de LOSS en ALEA van de verzekeringsdata, met behulp van vier verschillende methoden.