Het verhaal van de financi¨ ele staart Jan Beirlant, Goedele Dierckx Universitair Centrum voor Statistiek en Departement Wiskunde, KULeuven In het secundair onderwijs wordt de “8-uur wiskunde”nauwelijks nog aangeboden. Twee klasuren worden ingewisseld voor vakoverschrijdend werk. Dit artikel, een eerste in een rij van twee, wil een voorbeeld geven van lesmateriaal dat binnen het kader van dergelijke vakoverschrijdende invulling en vanuit het perspectief van de wiskundeleraar, als input kan gebruikt worden om bijvoorbeeld samen met een collega economie tot een gepaste invulling te komen. Deze tekst sluit aan bij de lezing Werken met Statistiek in de wetenschappen, die gehouden werd op 23 april 2005 op een studiedag van het VlieberghSciencecentrum. Naast dit voorbeeld wordt later nog een voorbeeld van het gebruik van statistiek in de geografie in het vooruitzicht gesteld.
1
Inleiding
In de statistiek concentreerde men zich in eerste instantie op het ontwikkelen van theorie¨en voor gemiddeldes. Dit leverde een aantal belangrijke resultaten op, waarbij de normale verdeling een sleutelrol speelt. Wanneer er extreem grote waarnemingen optreden en wanneer deze extremen net het onderwerp van discussie zijn, blijken deze methoden echter foute antwoorden op te leveren, . Denken we, bijvoorbeeld, aan de grootste verliezen op de beurs: de vraag die men hier kan stellen is, hoe vaak men een beurscrash zoals deze van 19 oktober 1987 kan verwachten, of anders gesteld, wat de terugkeerperiode van een dergelijke onheilstijding wel is. Het mag duidelijk zijn dat deze vraag hier gesteld wordt op een zeer algemeen niveau en geen rekening kan of wil houden met specifieke andere economische of maatschappelijke informatie die aan de grondslag van een dergelijke gebeurtenis kan liggen. Tevens moeten we ervan uitgaan dat deze “economische wereld”waarin dergelijk fenomeen zich kan voordoen niet wijzigt of ”stationair”blijft. Dit laatste is zeer belangrijk als men de aangeboden oplossing ook als een voorspeller gaat hanteren. 1
In dit artikel zullen we aantonen dat de normale verdeling geen goed model is om deze extreme verliezen te beschrijven. De vraag stelt zich dan natuurlijk wat wel een goed model is. We zullen proberen aan te tonen hoe een wiskundige stelling hier het antwoord levert en alternatieven voorstelt. Als voorbeeld bestuderen we de resultaten van de Dow Jones van 1954 tot 2004. Tabel 1: De 10 grootste Dow Jones verliezen (1954-2004). datum 19-10-87 26-10-87 27-10-97 14-09-01 13-10-89 08-01-88 26-09-55 31-08-98 28-05-62 14-04-00
slotkoers 1738.74 1793.93 7161.15 8920.70 2569.26 1911.31 455.56 7539.07 576.93 10305.77
negatieve logreturn 0.2563 0.0838 0.0745 0.0740 0.0716 0.0710 0.0677 0.0658 0.0588 0.0582
In de financi¨ele wereld drukt men de verliezen van de Dow Jones vaak uit in termen van logreturns. Stel St , de slotkoers van de Dow Jones op dag t, dan is de logreturn Xt voor die dag gedefinieerd als Xt = ln(St ) − ln(St−1 ). Indien de beurswaarde constant blijft dan zal de logreturn dus nul zijn, daalt (respectievelijk stijgt) de waarde, dan is de logreturn negatief (respectievelijk positief). Tabel 1 geeft de 10 grootste verliezen van de Dow Jones in de periode 1954-2004 weer. Hierbij staat het begrip negatieve logreturn voor de van teken veranderde verlieswaarden.
2
Normale verdeling ?
In de financi¨ele wereld wordt vaak het Black-Scholes model gebruikt om (negatieve) logreturns te modelleren. De faam van beider auteurs in de wetenschappelijke wereld is bijzonder groot. Black en Scholes ontvingen trouwens in 1997 de Nobelprijs voor Economie. De normale verdeling wordt in hun voorstel gebruikt om het gedrag van (negatieve) logreturns te beschrijven. Dit lijkt, op het eerste zicht tenminste, niet zo’n slechte keuze wanneer we over het histogram van de negatieve logreturns een normale dichtheid aanpassen zoals in Figuur 1. Het rekenkundig gemiddelde van de Dow Jones 2
logreturns is x¯ = 0.000264765, en de variantie van deze gegevens is gelijk aan s2 = 0.00025. De getekende dichtheidscurve wordt gegeven door de formule 2 ! 1 x − x¯ 1 exp − f (x) = √ . (1) 2 s 2πs2
-0.04
-0.02
0.00 0.02 neglogreturn
0.04
Figuur 1: Histogram van de negatieve logreturns (1954-2004) met normale dichtheid. Wanneer we echter het normale model (met gemiddelde 0.000264765 en met variantie 0.00025) hanteren om te berekenen hoe vaak we verwachten dat extreme negatieve logreturns voorkomen, dan lijken de berekende kansen niet overeen te komen met de observaties. Zo werd de laatste 50 jaar, 10 keer een waarde geobserveerd die groter is dan of gelijk is aan 0.0582. Berekenen we echter de kans P (negatieve logreturn > 0.0582) met behulp van de normale verdeling, dan is deze gegeven door 0.00011. Aangezien er voor de Dow Jones jaarlijks ± 250 observaties zijn en 0.00011 1 betekent dit dat we verwachten dat de waarde 0.0582, of een nog ≈ 35×250 extremere waarde, slechts 1 keer in de 35 jaar voorkomt, tenminste ... als het normale model voldoet. Deze 35 jaar noemt men de terugkeerperiode van de waarde 0.0582. Aangezien er voor de Dow Jones 250 observaties per jaar zijn, wordt de terugkeerperiode T hier dus gedefinieerd door de volgende relatie: P ( (negatieve) logreturn > x ) = 3
1 250T
We pasten deze relatie reeds toe voor x = 0.0528 onder het normale model. Analoge kansen en terugkeerperiodes werden berekend voor geobserveerde negatieve logreturns uit Tabel 1. De resultaten kunnen afgelezen worden in Tabel 2. Tabel 2: De 10 grootste Dow Jones verliezen (1954-2004). logreturn x kans P(logreturn 6 x) Terugkeerperiode T 1 0.00011≈ 35×250 1 5.29 10−8 ≈ 75000×250 10−56 ≈ 10531×250
-0.0582 -0.0838 -0.2563
35 jaar 75000 jaar 1053 jaar
Uit Tabel 2 blijkt dat de normale verdeling geen goed model is om de extreme waarden van de negatieve logreturn te beschrijven. De tweede grootste crashwaarde, -0.0838, zou pas om de 75000 jaar verwacht worden. Een homo sapiens met een eeuwig leven zou het al eens kunnen gezien hebben tot nu toe. De grootste verlieswaarde, -0.2563, is eigenlijk helemaal niet mogelijk op basis van de bovenstaande berekening: merk namelijk op dat de big bang ongeveer 15 109 jaar geleden is. De fout die we maken met het gebruik van de normale verdeling hier, merken we ook op als we inzoomen op de rechterstaart in Figuur 1. Dit levert Figuur 2. De staart van de normale verdeling is blijkbaar te “licht” om de extreme waarden in het histogram goed te beschrijven.
0.020
0.025
0.030 0.035 0.040 neglogreturn
0.045
0.050
Figuur 2: Rechterstaart van het histogram van de negatieve logreturns (19542004) met normale dichtheid.
4
3
Het verhaal van de staart...
10 20 30 40 50 60
Als de normale verdeling geen goed model is om de staart van de (negatieve) logreturns te beschrijven, rijst natuurlijk de vraag welk model dan wel goed aansluit bij de extreme negatieve logreturns. Om een antwoord op deze vraag te formuleren, blijkt uit Figuur 2 dat we op zoek moeten gaan naar een verdeling met “dikkere”staarten dan de normale verdeling. De normale dichtheid in Figuren 1 en 2 werd gegeven door de formule (1). De rechterstaart van de normale neemt exponentieel snel af als x toeneemt. Men spreekt in dit geval van een lichte staart. Er bestaan echter ook dichtheden met zwaardere staarten, die minder snel dalen als x toeneemt, zodat extreme waarden waarschijnlijker worden. Dit is ge¨ıllustreerd in Figuur 3.
lichtstaartig
0
zwaarstaartig
0.0
0.01
0.02
0.03
0.04
0.05
Figuur 3: P(X > 0.04) is groter voor zwaarstaartige dan voor lichtstaartige verdelingen. Een voorbeeld van een zwaarstaartige verdeling is de Pareto verdeling met als dichtheid αβ α f (x) = α+1 , x > β, α > 0, β > 0 x waarbij de dichtheid daalt volgens een machtsfunctie, als x toeneemt. Maar ook andere zwaarstaartige verdelingen, waarbij de dichtheid daalt volgens een macht, zijn gekend. Deze zwaarstaartige verdelingen hebben wel allemaal de volgende eigenschap gemeen. Deze eigenschap beschrijft het gedrag boven een grote waarde u. Deze wiskundige stelling is gebaseerd op resultaten van Balkema en de Haan (1974) en van Pickands (1975):
5
de verdelingsfunctie F (y) = P (Y 6 y) van overschrijdingen Y = X − u boven een drempelwaarde u kan goed benaderd worden door de formule 1 − (1 + γy/σ)−1/γ indien u voldoende groot is (met gebruik van passende waarden voor γ en σ).
-0.1
negatieve logreturn 0.0 0.1 0.2
Dit gedrag merken we ook op bij de (negatieve) logreturns. In Figuur 4 werden de overschrijdingen van de negatieve logreturns boven een “hoge” drempelwaarde u = 0.02 aangeduid.
overschrijding boven u=0.02
u=0.02
11/1954 0
2000
4000
6000
8000
10000
11/2004 12000
Figuur 4: Overschrijdingen boven de drempelwaarde u = 0.02 voor de negatieve logreturns (1954-2004).
0
0
5
10
15
20
20 40 60 80 100 120 140
Vervolgens werden de overschrijdingen uit Figuur 4 uitgezet in het histogram in Figuur 5.
0.00
0.05 0.10 0.15 0.20 overschrijdingen boven 0.02
0.01
0.02 0.03 0.04 0.05 overschrijdingen boven 0.02
0.06
Figuur 5: Histogram van overschrijdingen van negatieve logreturns boven de drempelwaarde u = 0.02 met aangepast model met γˆ = 0.369 en σ ˆ = 0.0053 (a) voor de hele verdeling; (b) voor de rechterstaart van de verdeling.
6
Dit histogram kan dus veel beter benaderd worden met een dichtheid die correspondeert met de verdelingsfunctie 1 − (1 + γx/σ)−1/γ . Op basis van de historische gegevens kunnen schattingen voor γ en σ voorgesteld worden. Dit model werd in Figuur 5(a) gefit en levert een goede beschrijving van de overschrijdingen. Ook voor de extreme waarden, zoals we zien in figuur 5(b) waar we inzoomden op de rechterstaart van de verdeling. Men kan het model nu ook gebruiken om kansen en terugkeerperiodes in te schatten. In Tabel 2 berekenden we reeds terugkeerperiodes, onder het normale model. De bekomen schattingen kwamen niet overeen met wat geobserveerd werd. Men kan nu analoge berekeningen maken, maar onder het gefitte model in Figuur 5. In Beirlant et al. (2005) werd zo onder andere de terugkeerperiode van de logreturn waarde voorspeld, die correspondeert bij de crash van 19 oktober 1987. Hierbij werd het model aangepast op basis van alle andere gegevens van 1954 tot 2004. De verwachte terugkeerperiode van de crash in 1987 wordt nu als 50 jaar ingeschat.
4
Conclusie
De auteurs menen dat het bovenstaand materiaal mogelijks kan verwerkt worden tot lesmateriaal in een wiskunde klas van zodra de begrippen histogram, normale kansverdeling, steekproefgemiddelde en standaarddeviatie, en het aanpassen van een dichtheid aan een histogram gekend zijn. Tevens moeten de studenten in staat zijn kansen te berekenen onder een normale dichtheidscurve. Wat is de mogelijke meerwaarde in het kader van hun opleiding? Vooreerst wordt de leerstof over de normale verdeling op een realistisch welbekend probleem toegepast. Verder kan dergelijk voorbeeld een taai misverstand uit de wereld helpen: niet alles is normaal verdeeld, zelfs niet indien er veel gegevens mee gemoeid zijn. De centrale limietstelling wordt vaak foutief als motivatie voor de normale verdeling gehanteerd! Het voorbeeld waarschuwt voor een andere fout met een kleine terugkeerperiode: statistische grafieken worden vaak misbruikt om het gelijk te halen (zie onze Figuur 1). Statistiek is eveneens uitstekend geschikt om onderscheid te leren maken tussen functies en om het belang van die verschillen te leren kennen. Tenslotte: het hoopt het belang aan te tonen van een wiskundige stelling. In plaats van 7
”trial and error”waar de economist toe gedoemd lijkt indien Pickands zijn stelling niet had geformuleerd, kan men nu een eenduidige methode naar voor halen net zoals dit het geval was voor ”centrale”kansberekeningen omtrent een rekenkundig gemiddelde op basis van de alomtegenwoordige centrale limietstelling. Er worden in het wiskundig onderzoek nog steeds belangrijke stellingen geformuleerd die voor tal van andere wetenschappelijke disciplines toepassingen inhouden!
5
Bibliografie 1. A. Balkema, L. de Haan, Residual life at great age, Ann. Probab. 2, 792-804 (1974). 2. J. Beirlant, W. Schoutens and J. Segers, Mandelbrot’s Extremism, Wilmott magazine (2005), March Issue, 97-103. 3. J. Beirlant, Y. Goegebeur, J. Segers and J. Teugels, Statistics of Extremes: Theory and Applications, Wiley, 2004. 4. J. Pickands III, Statistical inference using extreme order statistics, Ann. Statist. 3, 119-131 (1975).
8