Onderzoek naar een nieuwe tarifering voor autoverzekeringen Een analyse van de portefeuille van Bruns ten Brink Assuradeuren B.V.
Trefwoorden: Generalized Linear Models, Mixed Poisson-verdeling, Lognormale verdeling, Bayesiaanse statistiek, Bonus/Malus-systeem
Universiteit van Amsterdam Master of Science in Actuarial Science and Mathematical Finance Uitgevoerd door: Frank van Berkum 30 augustus 2010 Eerste begeleider: Dr. K. Antonio Tweede begeleider: Prof. Dr. R. Kaas
2
Inhoudsopgave 1.
Inleiding ............................................................................................................................................ 1
2.
Mogelijkheden tot bepalen tarifering .................................................................................................. 3
3.
Organisatiestructuur in de markt ........................................................................................................ 5 3.1
Een tussenschakel ...................................................................................................................... 5
3.2
Nog een tussenschakel ............................................................................................................... 5
3.3
Bruns ten Brink .......................................................................................................................... 6
4.
Databeschrijving ................................................................................................................................ 7 4.1
Beschrijving variabelen .............................................................................................................. 7
4.2
Schadestatistieken voor verschillende variabelen .......................................................................15
5.
Claimfrequentie ................................................................................................................................21 5.1
Mogelijke verdelingen ..............................................................................................................21
5.2
Bepalen verdeling claimfrequentie ............................................................................................23
5.3
Totstandkoming en selectie van model claimfrequentie .............................................................26
5.4
Het model: personenauto’s ........................................................................................................29
5.5
Het model: bestelauto’s .............................................................................................................34
6.
Claimhoogte .....................................................................................................................................37 6.1
Mogelijke verdelingen ..............................................................................................................37
6.2
Bepalen verdeling claimhoogte .................................................................................................38
6.3
Het model: personenauto’s ........................................................................................................41
6.4
Het model: bestelauto ................................................................................................................46
7.
Relatieve premies .............................................................................................................................49 7.1
Het Bonus/Malus-systeem .........................................................................................................49
7.2
Limietverdeling populatie over BM-treden ................................................................................52
7.3
Relatieve premies ......................................................................................................................54
7.4
Te gebruiken BM-systeem ........................................................................................................61
8.
Premiestelling ...................................................................................................................................63 8.1
Premiestelling personenauto’s ...................................................................................................63
8.2
Premiestelling bestelauto’s ........................................................................................................66
8.3
Controle financieel evenwicht ...................................................................................................67
9. 10.
Conclusie en aanbevelingen ..............................................................................................................73 Literatuurlijst ................................................................................................................................75
Appendix A.
Parameterschattingen voor interactietermen ...................................................................77
Appendix B.
Gebruikte R-code ..........................................................................................................81
1.
Inleiding
Autobezitters moeten verplicht een Wettelijke Aansprakelijkheidsverzekering afsluiten. Dit is om bij een ongeval de schade aan de auto van de tegenpartij te dekken. Hiernaast kan men ervoor kiezen om de dekking uit te breiden, zodat ook schade aan de eigen auto verzekerd is. De premie die hiervoor betaald moet worden, is afhankelijk van de gekozen dekking en van bepaalde karakteristieken van de klant en de te verzekeren auto. Voorbeelden van belangrijke karakteristieken zijn de leeftijd en de woonplaats van de bestuurder en het gewicht van de auto. Bij het aangaan van een nieuwe polis wordt de premie bepaald aan de hand van de hiervoor genoemde karakteristieken. Vervolgens wordt de premie in de meeste landen jaarlijks aangepast aan de hand van het schadeverloop. Mensen die niets claimen krijgen korting op de premie en mensen die wel claimen moeten meer premie betalen. Het gebruik van een Bonus/Malus-systeem is in Nederland een veelgebruikte manier om de premie aan de hand van het schadeverloop aan te passen. Hierbij verplaatst men zich van jaar tot jaar van de ene trede naar de andere. De verplaatsing is afhankelijk van het schadeverloop en de korting op de premie is afhankelijk van de trede waarin men zich bevindt. De premiestelling wordt op een gegeven moment vastgesteld, maar deze dient na verloop van tijd aangepast te worden. Dit komt doordat de risico’s voor de verzekeraar veranderen. Een mogelijke oorzaak voor het veranderen van het risico is een verandering in de samenstelling van de portefeuille met polishouders. Dit kan komen doordat er goede of slechte risico’s komen of weggaan. Een andere mogelijke oorzaak is een verandering van het klimaat. Wanneer het weer extremer wordt, door bijvoorbeeld meer hagel in de herfst en gladdere wegen in de winter, ontstaan er meer ongelukken, waardoor er vaker geclaimd wordt. Dit zijn slechts enkele voorbeelden van redenen waarom de premiestelling van tijd tot tijd geüpdatet dient te worden. Om de verhouding tussen premie en risico goed te houden, is het van belang de premiestelling regelmatig te updaten. Bruns ten Brink Assuradeuren B.V. (hierna Bruns ten Brink genoemd) is een bedrijf dat autoverzekeringen aanbiedt aan personen en bedrijven. Het bedrijf bepaalt de premiestelling, int de premies en handelt de schades af, maar schuift het risico door naar verzekeraars. Bruns ten Brink mag hiervoor een gedeelte van de premie houden, de rest krijgen de verzekeraars om de schades te betalen. De premiestelling is al enige jaren niet grondig aangepast en in het jaar 2009 is er een verlies geleden op de portefeuille. Dit heeft de verzekeraars die het risico overnemen van Bruns ten Brink aanleiding gegeven tot het vragen naar een actieplan om de portefeuille financieel gezonder te maken. Een deel van dit actieplan is het laten onderzoeken hoe de premiestelling aangepast moet worden om de verhouding tussen risico en premie te verbeteren. Het doel van dit onderzoek is om een premiestelling te bepalen waarmee de polishouders betalen voor het risico dat ze opleveren. Om dit te bewerkstelligen, worden de afzonderlijke componenten van het risico gekwantificeerd. De claimfrequentie en de claimhoogte worden gemodelleerd met behulp van Generalized Linear Models (McCullagh en Nelder, 1989). De kortingen die worden gegeven afhankelijk van het schadeverloop, worden bepaald aan de hand van Bayesiaanse Relatieve Premies (Denuit et al., 1
2007). Alle berekeningen worden gemaakt met het open source programma R. Met dit gratis programma kunnen alle technieken die gebruikt worden, geprogrammeerd worden. Verder is de ondersteuning voor dit programma bijzonder goed te noemen, doordat veel onderzoekers het programma gebruiken en daarnaast andere gebruikers helpen met hun problemen. De opbouw van dit onderzoek is als volgt. In hoofdstuk 2 wordt een overzicht gegeven van verschillende mogelijkheden om de premiestelling te bepalen. Hoofdstuk 3 geeft een globaal overzicht van de markt voor autoverzekeraars, en Bruns ten Brink wordt binnen dit geheel geplaatst. In hoofdstuk 4 worden de data besproken die in het onderzoek gebruikt worden. Vervolgens wordt begonnen met het kwantitatieve onderzoek. Hoofdstuk 5 behandelt het modelleren van de claimfrequentie. Daarna wordt in hoofdstuk 6 het modelleren van de claimhoogte besproken. In het laatste kwantitatieve hoofdstuk worden de relatieve premies bepaald1. De kwantitatieve hoofdstukken beginnen met een theoretische onderbouwing, waarna de resultaten gepresenteerd worden. Hierna worden in hoofdstuk 8 de resultaten samengevoegd en wordt de premiestelling gegeven, samen met een aantal voorbeelden. Hoofdstuk 9 bevat een samenvatting van het onderzoek en aanbevelingen met betrekking tot het beleid. Verder worden er ook suggesties gedaan wat er verder gedaan kan worden om later een betere premiestelling te bepalen.
1
2
De relatieve premies worden gebruikt om de premie aan te passen aan de hand van het schadeverleden.
2.
Mogelijkheden tot bepalen tarifering
Er zijn verschillende redenen mogelijk waarom een verzekeraar de premiestelling zou willen veranderen. Zo kan deze proberen meer klanten binnen te halen door de premie te verlagen. Ook kan het zijn dat de premie niet meer voldoende is om het onderliggende risico te dekken. Dit is het geval bij Bruns ten Brink. Bij Bruns ten Brink werken geen specialisten op het gebied van actuariaat of statistiek in het algemeen. Om zonder specialistische technieken toch op het resultaat te kunnen sturen, kijkt men bij Bruns ten Brink naar de loss ratio. Dit is de verhouding tussen de premie en de schadelast en deze wordt als volgt gedefinieerd.
Loss ratio =
(2.1)
Totale Schadelast Totale Premie
De loss ratio kan men voor afzonderlijke risicocategorieën bepalen. Deze risicomaat is vrij duidelijk uit te leggen aan de directie van een verzekeraar. Als de totale inkomsten van de premies lager zijn dan de totale schadelast, dan is de ratio groter dan een en wordt er verlies gemaakt. Zodra men de loss ratio bepaald heeft voor verschillende risicocategorieën, is duidelijk waar de premie te laag is en kan men de premie daar op aanpassen. Werner en Guven (2007, p.263) stellen dat deze methode niet optimaal is. Zo dient men bij het berekenen van de loss ratio’s de huidige premie te gebruiken. Als dit niet gebeurt, dan zal de loss ratio niet de actuele verhouding tussen risico en premie laten zien en zijn de resultaten die gevonden worden bij het bestuderen van de loss ratio niet geldig. Verder stellen Werner en Guven dat de loss ratio niet goed gemodelleerd kan worden, omdat er geen logische verdeling voor de loss ratio is. Wel kunnen de claimfrequentie en de claimhoogte volgens hen goed gemodelleerd worden. Veel gebruikte verdelingen hiervoor zijn de Poisson-verdeling voor de claimfrequentie en de Gamma-verdeling voor de claimhoogte. Bovendien geldt dat wanneer men verwacht dat de premie goed is, de gemiddelde loss ratio gelijk moet zijn aan de loss ratio waar men op stuurt. Als de gemiddelde loss ratio afwijkt van de verwachting, is het lastig om te concluderen of dit komt door toeval of doordat de premies werkelijk aangepast dienen te worden. Werner en Guven (2007, p.264) stellen daarom voor om de pure premium te modelleren. De pure premium is de totale verwachte schadelast per polis, en is het product van het verwachte aantal claims en de verwachte claimhoogte. De pure premium kan men op verschillende manier modelleren. Door gebruik te maken van de Tweedie-verdeling kan men de pure premium in een stap berekenen (Kaas et al., 2008, p. 317 en Jørgensen, 1997, p. 140). De Tweedie-verdeling is een mengsel van de Poisson- en de Gammaverdeling. Er ligt bepaalde kansmassa op het punt nul, en de rest van de kansmassa is verdeeld over de positieve waarden. Het gemiddelde van de stochast voor de schadelast is te modelleren met behulp van Generalized Linear Models. De covariaten die men gebruikt om het gemiddelde te modelleren, zijn karakteristieken van de polishouder en de verzekerde auto. Een andere manier om de pure premium te modelleren, is door de claimfrequentie en de claimhoogte apart te modelleren. Haberman en Renshaw (1996) gebruiken hiervoor de Poisson-verdeling 3
voor de claimfrequentie en de Gamma-verdeling voor de claimhoogte. In Denuit et al. (2007, pp. 83-86) en Kaas et al. (2008, p. 45) wordt het model voor de claimfrequentie uitgebreid door onzekerheid in de parameter van de Poisson-verdeling te introduceren. Hierdoor wordt de claimfrequentie feitelijk gemodelleerd met de Negatief Binomiale verdeling. Voor de claimhoogte zijn eveneens meerdere verdelingen beschikbaar om te gebruiken bij het modelleren. Een bespreking van een aantal gangbare verdelingen is gegeven in Kaas et al. (2008, pp. 6673). Hier worden de Gamma-, Inverse Gaussian, Lognormale- en de Pareto-verdeling besproken. In Renshaw (1994) worden de Gamma- en de Pareto-verdeling nader besproken. Heller et al. (2007) bespreekt de Gamma- en de Inverse Gaussian-verdeling. Tot slot wordt in Frangos en Vrontos (2001) de Paretoverdeling uitgebreid besproken. De pure premium wordt gebruikt bij het bepalen van de premie bij aanvang van een nieuwe polis. Deze is, zoals eerder genoemd, afhankelijk van karakteristieken van de polishouder en de te verzekeren auto. Dit zijn a priori (= vooraf) variabelen: variabelen die bij het aangaan van een nieuwe polis bekend zijn. Er is echter niets bekend over het karakter en het rijgedrag van de bestuurder. Om bestuurders te belonen wanneer ze goed rijgedrag vertonen (en dus weinig claimen), wordt de premie jaarlijks aangepast aan de hand van het schadeverloop. Dit is een vorm van a posteriori (= achteraf) tarifering: het schadeverloop wordt pas bekend nadat de polis aangegaan is. Ook voor de a posteriori tarifering zijn meerdere methoden ontwikkeld. Frangos en Vrontos (2001) starten met een pure premium, die opgesplitst is in een component voor de claimfrequentie en een voor de claimhoogte. Beide componenten zijn bij aanvang van de polis afhankelijk van bepaalde parameters. Zodra er een schadeverleden ontstaat, worden de parameters geüpdatet, waardoor de premie aangepast wordt. Een andere methode is door de premie elk jaar te verhogen of te verlagen met behulp van vaste stijgings- of kortingspercentages. Deze methode van a posteriori tarifering wordt in Frankrijk gebruikt, en in Pitrebois et al. (2006) wordt deze methode doorgerekend. Wat echter in Nederland gebruikelijk is, is het gebruik van een Bonus/Malus-systeem (Bonus/Malus wordt hierna afgekort met BM). Een BM-systeem bestaat uit treden en bijbehorende kortingspercentages. Afhankelijk van het schadeverloop verplaatst men zich op de BM-trap. De berekening van de bijbehorende kortingspercentage of de relatieve premies, wordt behandeld in Denuit et al. (2007, pp.165-194). In hoofdstuk 5 wordt de verdeling van de claimfrequentie geschat en de verdeling die hieruit volgt wordt gebruikt voor het modelleren van de claimfrequentie. Hetzelfde gebeurt in hoofdstuk 6 voor de claimhoogte. Bruns ten Brink maakt in de huidige tarifering gebruik van een BM-systeem. De werking van een BM-systeem wordt in hoofdstuk 7 verder toegelicht, waarna volgens het raamwerk van Denuit et al. (2007) de relatieve premies berekend worden.
4
3.
Organisatiestructuur in de markt
Oorspronkelijk ging men naar een verzekeraar om een verzekering af te sluiten. De verzekeraar bood aan het risico over te nemen in ruil voor een premie. Tegenwoordig kan men nog steeds rechtstreeks naar een verzekeraar, maar er zijn meerdere manieren om een verzekering af te sluiten. In het volgende worden verschillende manieren toegelicht waarop een verzekering afgesloten kan worden.
3.1
Een tussenschakel
Een andere manier om een verzekering af te sluiten dan in de inleiding
Klant
gesteld, is via een verzekeringsagent. Deze persoon verkoopt de verzekeringen namens de verzekeraars. De agent kent de verschillen tussen de verzekeringen beter dan de persoon die een verzekering zoekt en kan zo
Verzekeringsagent
een goed advies geven over de juiste verzekering. De agent sluit de verzekering voor de klant af bij de verzekeraar en ontvangt voor deze handeling een percentage van de premie. De verzekeraar ontvangt het
Verzekeraar
restant van de premie en loopt het volledige risico. Een risico bij deze marktvorm is dat de verzekeringsagent voornamelijk de verzekeringen Figuur 3.1: structuur van de markt met een tussenschakel
afsluit waarbij zijn commissie het grootst is.
3.2
Nog een tussenschakel
Het kan zijn dat de verzekeraar zich niet bezig wil houden met de premiestelling, maar wel het risico wil dragen in ruil voor premie. Deze vorm leidt tot een iets ingewikkelder structuur. Hierbij gaat de klant nog steeds naar een verzekeringsagent die bij verschillende verzekeraars een verzekering kan afsluiten. Bij deze vorm zit er echter nog een schakel tussen de verzekeringsagent en de verzekeraar. Dit is de assuradeur of gevolgmachtigd agent. Deze tussenschakel bepaalt de premie waarvoor men een risico wil aannemen, maar ze schuift dit risico door naar een verzekeraar of een pool van verzekeraars die dit risico wil nemen. Het is Klant
Verzekeringsagent
gebruikelijk dat een assuradeur een vaste premiestelling heeft en een vaste pool van verzekeraars waar de assuradeur de risico’s onder kan brengen. De assuradeur handelt alle schademeldingen en administratieve handelingen af met de verzekerde en int de premie. Er zijn nu echter twee tussenschakels voordat het risico ondergebracht is.
Assuradeur
Deze twee schakels moeten ook geld verdienen om de gemaakte kosten te dekken. Van de premie die de verzekerde betaalt, gaat er een percentage naar de
Pool van verzekeraars Figuur 3.2: structuur van de markt met twee tussenschakels
verzekeringsagent en een percentage naar de assuradeur. Het restant van de premie gaat naar de pool van verzekeraars. Deze pool bestaat meestal uit twee tot vier verzekeraars die een deel van de premie krijgen en een gelijk deel aan de schade moeten uitbetalen. De verzekeraars bepalen de premiehoogte niet, maar
moeten wel de schades betalen. Zodra er meer betaald wordt aan schades dan er binnen gekomen is aan 5
premie, zullen de verzekeraars zich gaan roeren en vragen naar een actieplan om de verhouding tussen premie en risico op peil te brengen. Dit leidt meestal tot een ander acceptatiebeleid waardoor slechte risico’s niet meer worden aangenomen of tot het aanpassen van de premiestelling.
3.3
Bruns ten Brink
De stage wordt gelopen bij het bedrijf Bruns ten Brink Assuradeuren B.V. Dit bedrijf opereert als assuradeur en heeft dus een premiestelling. De autoverzekeringen brengt Bruns ten Brink onder bij verschillende pools. ASR Verzekeringen zit in alle pools met verschillende verzekeraars die het risico delen. Een klant die een verzekering aangaat, levert een bepaald risico op waar een premie tegenover staat. Deze premie is afhankelijk van kenmerken als de regio waar de bestuurder woont, het gewicht van de auto en het schadeverleden (indien aanwezig). Dit levert de netto premie op, na no-claim korting (of BMkorting). De klant moet echter nog incassokosten en assurantiebelasting betalen, dus de klant betaalt de netto premie plus een opslag; dit is de bruto premie. De afdrachten naar de agenten en Bruns ten Brink zelf worden berekend over de netto premie. Agenten krijgen twintig procent van de netto premie, dit als vergoeding voor het aanleveren van de klant. Bruns ten Brink houdt zelf 13.5% in van de premie om de kosten van het bedrijf te dekken. Het restant gaat naar de pool van verzekeraars. Van de netto premie blijft dus nog 67.5% over om de schades te dekken. Daarnaast willen de verzekeraars eigenlijk winst maken. Daarom sturen de verzekeraars op een loss ratio van ongeveer zestig procent.
6
4.
Databeschrijving
Het doel van dit onderzoek is de tarifering van het bedrijf Bruns ten Brink te updaten. De beschikbare data om dit te verwezenlijken omvat claimgegevens van de jaren 2007 tot en met 2009 van de motorrijtuigenportefeuille.
In
de
motorrijtuigenportefeuille
wordt
onderscheid
gemaakt
tussen
personenauto’s en bestelauto’s. De claimgegevens bestaan uit het volgende:
Leeftijd van de bestuurder
Regio van de bestuurder
Het kortingspercentage aan het begin van het jaar
Ingangsdatum van de polis
De dekking van de polis
Gewicht van de auto
Cataloguswaarde van de auto (indien dekking is CASCO)
Eventueel kortingstarief
Geboekte en verdiende premie
Aantal schades
Totale schadelast
In de dataset zitten nog meer gegevens, zoals de opsplitsing van de totale schadelast naar een reservering voor de schadelast en naar de daadwerkelijke betaling. Wanneer nog niet duidelijk is hoe groot de schade is, wordt er een standaardbedrag gereserveerd. Zodra het werkelijke bedrag bekend is, valt de reservering vrij en komt de schadelast onder de noemer betaling. Voor de analyse is alleen interessant wat de polis aan het einde van het jaar aan schadelast heeft opgeleverd. De rest van dit hoofdstuk is als volgt opgebouwd. In de volgende paragraaf wordt besproken hoe de afzonderlijke variabelen bruikbaar worden gemaakt voor de analyse. Verder wordt weergegeven hoe de variabelen over de portefeuille verdeeld zijn. Daarna wordt onderzocht hoe de claimfrequentie, de claimhoogte en de daaruit volgende loss ratio variëren over de verschillende variabelen.
4.1
Beschrijving variabelen
In deze paragraaf worden de verschillende variabelen besproken. Per variabele wordt toegelicht hoe deze bruikbaar gemaakt wordt voor de analyse en hoe de verdeling van deze variabelen over de portefeuille is. Leeftijd Bestelauto’s worden vaak door meerdere personen binnen een bedrijf gebruikt. Daarom wordt er voor bestelauto’s vaak een standaard geboortedatum of standaard leeftijd ingevuld. In 85% van de gevallen heeft de bestuurder van een bestelauto een leeftijd van vijftig jaar. Doordat de leeftijd van de bestuurder voor de bestelautoportefeuille zo onzuiver is, wordt deze niet nader onderzocht.
7
Voor de personenauto’s wordt de leeftijd wel betrouwbaar opgegeven. Er zijn echter enkele polissen waar de leeftijd ontbreekt. Voor deze polissen wordt de leeftijd gelijk gesteld aan de jongst waarneembare leeftijd, namelijk 18 jaar2. Dit zijn voor het jaar 2009 slechts 23 van de ruim 72.000 polissen. Zo wordt het niet opgeven van een geboortedatum bestraft, want jonge personen moeten over het algemeen een hogere premie betalen.
Figuur 4.1: Verdeling van de leeftijd van de polishouders over de personenautoportefeuille 2009
In figuur 4.1 ziet men de verdeling van de leeftijd van de polishouders in de portefeuille van personenauto’s 2009. De portefeuille bestaat voor een groot gedeelte uit jongeren. Dit kan komen door acties die in eerdere jaren zijn gevoerd om nieuwe, jonge klanten binnen te halen. Verder neemt de proportie in de portefeuille af met de leeftijd. In de figuur lijken er redelijk wat polishouders met een leeftijd van 110 jaar te zijn. Voor deze polissen is het geboortejaar 1900, en dit is waarschijnlijk voor polissen waarbij het werkelijke geboortejaar niet bekend is. De histogrammen voor de jaren 2007 en 2008 verschillen niet veel met die van 2009 en zijn daarom niet opgenomen in het verslag. Regio Bruns ten Brink heeft Nederland, net als de meeste andere verzekeraars in Nederland, opgedeeld in vier regio’s. Deze indeling is gebaseerd op stedelijkheid. Zo bevat regio 1 de meest landelijke gebieden, zijn de regio’s 2 en 3 wat minder landelijk respectievelijk wat stedelijker, en bestaat regio 4 uit de vier grote steden Amsterdam, Rotterdam, Utrecht en Den Haag. Er zijn enkele polissen waarbij de regio niet bekend is. Deze polissen worden in het onderzoek in een aparte regio ingedeeld (regio 5). Dit heeft twee redenen: 2
8
In Nederland mag men pas autorijden wanneer de leeftijd van 18 jaar bereikt is.
(i) er is niet een regio te benoemen waar ze onder zouden moeten vallen en (ii) op deze manier kan er onderzocht worden of het ontbreken van een regio nadelig is voor de loss ratio. In figuur 4.2 is de verdeling van de polissen over de verschillende regio’s weergegeven. De verdeling over de verschillende regio’s is voor de personen- en de bestelauto’s nagenoeg gelijk. Wel valt op dat er bij de bestelauto’s relatief veel polissen zijn waarbij de regio onbekend is. Verder is het verschil tussen personenen bestelauto’s in de ontwikkeling door de jaren heen opmerkelijk: bij de personenauto’s neemt het aantal polissen toe, terwijl het bij de bestelauto’s flink afneemt. Dit komt doordat Bruns ten Brink voor de personenautoportefeuille bepaalde acties heeft ondernomen om meer klanten binnen te krijgen, maar de bestelauto’s heeft men links laten liggen. Tot slot is het opmerkelijk dat regio 1 en regio 3 qua polisaantallen veel groter zijn dan regio 2 en regio 4. Een mogelijke verklaring hiervoor is dat de verschillende regio’s wellicht niet eenzelfde aantal mensen vertegenwoordigen.
Figuur 4.2: Verdeling van polissen over de verschillende regio’s in verschillende jaren. Links voor de personenauto’s, rechts voor de bestelauto’s.
Bonus/Malus-trede bij aanvang schadejaar De hoogte van de premie is afhankelijk van de plaats op de BM-trap. Wanneer men niet claimt, klimt men op de trap, wat leidt tot een korting op de basispremie 3. De verdeling van de BM-treden geeft in enige mate aan wat voor risico’s er in de portefeuille zitten. Bij de verschillende treden horen verschillende kortingspercentages. In tabel 4.1 zijn de BM-treden en de bijbehorende kortingspercentages weergegeven.
Tabel 4.1: BM-treden en bijbehorende kortingspercentages BM-trede 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 korting (in %) -25 0 15 25 35 40 45 50 55 60 65 70 72.5 75 75 75 75 75 75 80
3
De basispremie is afhankelijk van a priori variabelen, als regio en gewicht van de auto.
9
In de gegeven dataset zijn alleen de kortingspercentages aan het begin van het jaar gegeven. In figuur 4.3 is de verdeling van de kortingspercentages weergegeven. Doordat de treden 14 t/m 19 hetzelfde kortingspercentage hebben, is de staaf van 75% het totaal van zes verschillende treden. De laatste trede, die leidt tot een kortingspercentage van tachtig procent, bevat de meeste polissen. Polishouders die niet claimen, komen vanzelf in deze trede terecht en blijven daar zolang ze niet claimen.
Figuur 4.3a: De verdeling van de polishouders van de personenautoportefeuilles over de mogelijke kortingspercentages.
Figuur 4.3b: De verdeling van de polishouders van de bestelautoportefeuilles over de mogelijke kortingspercentages.
10
Ingangsdatum polis Om de claimfrequentie te kunnen schatten, is het belangrijk om te weten hoe lang de klant verzekerd was. Iemand die een jaar lang verzekerd is, heeft een grotere kans om een schade op te lopen dan iemand die slechts een maand verzekerd is, gegeven dezelfde a priori kenmerken. De datasets gaan over verschillende schadejaren en de maximale exposure in een jaar is dus één. Exposures kleiner dan een kunnen voorkomen doordat de polis nieuw is of doordat de polis stop gezet wordt. In de dataset is de ingangsdatum van de polis gegeven. Deze geeft aan of de polis aan het begin van het schadejaar als verzekerd was of dat de polis gedurende het jaar begonnen is. Er is echter geen einddatum bekend. Voor polissen die gedurende het jaar stoppen, kan dus niet de juiste exposure bepaald worden. Dit betekent dat de exposure die later in de berekeningen meegenomen wordt, voor een aantal polissen te hoog is. Dekking De Wettelijke Aansprakelijkheidsverzekering (WA) biedt dekking tegen ongevallen waarbij schade aan de auto van de tegenpartij ontstaat of waarbij de tegenpartij gewond raakt. Deze dekking dekt geen schade aan de eigen auto. Wel kan men ervoor kiezen om de dekking uit te breiden. De uitbreiding Beperkt Casco biedt dekking tegen bijvoorbeeld brand, blikseminslag en diefstal. Dit zijn vooral gebeurtenissen van buitenaf. Daarnaast is er ook nog de Volledig Casco-dekking. Dit is de meest uitgebreide dekking en dekt ook gebeurtenissen als botsingen en van de weg raken. Het is gebruikelijk dat Volledig Casco-dekkingen worden afgesloten voor nieuwe auto’s (nieuw tot 4 jaar), Beperkt Casco voor iets oudere auto’s (4 tot 8 jaar) en alleen WA voor oudere auto’s. In figuur 4.4 is te zien dat personenauto’s voornamelijk WA-verzekerd worden en bestelauto’s voor het grootste gedeelte Volledig Casco. Mogelijk komt dit doordat bestelauto’s sneller afgeschreven worden en daarom over het algemeen nieuwere auto’s zijn. Personenauto’s worden vaak nog doorverkocht en gaan langer mee.
Figuur 4.4: Verdeling van polissen over de verschillende dekkingen in verschillende jaren. Links voor de personenauto’s, rechts voor de bestelauto’s.
11
Gewicht van de auto Het gewicht van de verzekerde auto geeft informatie over het type auto. Een zwaardere auto zal over het algemeen groter zijn en een krachtigere motor bevatten. In figuur 4.5 is te zien dat personenauto’s gemiddeld lichter zijn dan bestelauto’s. Dit is te verklaren doordat bestelauto’s over het algemeen veel vracht moeten kunnen vervoeren, en deze bestelauto’s zullen daardoor groter zijn. Veel particulieren hebben tegenwoordig kleine en lichtere auto’s. Verder zijn personenauto’s er in alle soorten en maten, waardoor de verdeling redelijk lognormaal verdeeld lijkt te zijn. Voor de bestelauto’s zijn er verschillende types die vaak voorkomen. De kleinste hebben een lage cabine, maar een hoge achterbak (bijvoorbeeld een Volkswagen Caddy, ±1.750kg). Een stap groter zijn de grotere bestelbussen, zoals de Ford Transit (±2.750kg). Tot slot zijn er de langere bestelbussen van ongeveer 3.500kg. De drie verschillende soorten bestelauto’s zijn in figuur 4.5 terug te vinden in de drie toppen. Auto’s zwaarder dan 3500kg vereisen een extra rijbewijs en vallen daardoor onder de vrachtwagenverzekeringen.
Figuur 4.5: Verdeling van het gewicht van de auto’s voor de portefeuilles van 2009.
Cataloguswaarde De cataloguswaarde wordt in de huidige tarifering alleen gebruikt voor de Casco-dekking. Voor auto’s die deze dekking niet hebben, is de cataloguswaarde niet bekend. Voor de verdeling van de cataloguswaarde wordt daarom alleen naar de strikt positieve cataloguswaarden gekeken. In figuur 4.6 is voor de personen- en de bestelautoportefeuilles de logaritme van de cataloguswaarde weergegeven. Er is voor gekozen om de logaritme weer te geven, omdat er is gebleken dat de cataloguswaarde lognormaal verdeeld is. Dit betekent dat de rechterstaart van de verdeling van cataloguswaarden dikker is dan de linkerstaart. Er valt op dat de bestelauto’s gemiddeld een iets hogere cataloguswaarde hebben, maar dat er minder spreiding in zit. De personenauto’s hebben een veel bredere verdeling. Dit komt waarschijnlijk doordat er heel goedkope personenauto’s zijn (de hele kleine auto’s als 12
de Ford Ka), maar ook hele dure als de BMW S serie. De bestelauto’s liggen qua cataloguswaarde blijkbaar dichter bij elkaar.
Figuur 4.6: Verdeling van de (log)cataloguswaarde voor de portefeuille van 2009.
Kortingstarief Bruns ten Brink biedt binnen de personenautoportefeuille voor verschillende beroepen (bijvoorbeeld ambtenaren) een kortingstarief aan. Hier wordt alleen bij het aangaan van de polis naar gevraagd en wordt niet gecontroleerd. In het jaar 2009 waren er 29.715 polissen met een kortingstarief, op een totale portefeuillegrootte van 62.524 polissen. Het kortingstarief bestaat niet binnen de bestelautoportefeuille. Geboekte en verdiende premie De definitie van een geboekte premie is de premie die in een bepaald jaar geboekt is. De definitie van een verdiende premie is dat gedeelte van de premie die tot het jaar behoort. Een voorbeeld: stel er wordt op 1 juli een jaarpremie van €100,- geboekt, dan is de geboekte premie voor dat jaar €100,- maar de premie behoort slechts voor de helft tot dit jaar, dus de verdiende premie is dan €50,- In de volgende paragraaf wordt onderzocht hoe de loss ratio’s onder de verschillende variabelen verdeeld zijn. Daarvoor is de verdiende premie van belang. Echter, gedurende het jaar veranderen polissen wel eens, door bijvoorbeeld een wijziging in de dekking. Hierdoor moet de oude premie teruggeboekt worden en een nieuwe premie bijgeboekt. Door een fout in het administratiesysteem (de periode waarop de terugboeking betrekking heeft, klopt niet) kloppen die geboekte en verdiende premies niet. Zo kan het voorkomen dat er een negatief verdiende premie is, terwijl de geboekte premie positief is. Als zowel de geboekte als de verdiende premie negatief zijn, dan wordt de polis verwijderd uit het databestand, omdat er waarschijnlijk geen dekking geleverd is. Het zou kunnen dat de polis wel geldig was gedurende het jaar, maar het weglaten van de polis zorgt voor meer betrouwbaarheid over de resterende
13
data. Voor de resterende polissen wordt verder alleen gekeken naar de polissen met een exposure van één 4. Wanneer bij deze polissen beide premies kleiner zijn dan een bepaalde drempelwaarde (€10,- voor personenauto’s en €100,- voor bestelauto’s), dan wordt de polis verwijderd. In dat geval is de premie te laag om een heel jaar verzekerd te zijn en in dat geval klopt of de exposure of de premie niet. Na deze bewerking kan het nog steeds zo zijn dat een van beide premies negatief of zeer laag is. Als dat het geval is, wordt het maximum van de geboekte en de verdiende premie genomen om zo dicht mogelijk bij de werkelijkheid te komen. Aantal schades Voor elke polis is het aantal claims voor het betreffende schadejaar gegeven. Ook hier zijn de gegevens niet helemaal betrouwbaar. Dit komt doordat klanten een claim kunnen indienen die niet gerechtvaardigd is. Deze claim wordt dan wel geregistreerd, maar tijdens de afwikkeling van de claim blijkt dat hij niet gegrond is en wordt er dus niets uitbetaald. Zodoende wordt het aantal claims voor deze polis positief, maar is er geen schadelast. Wanneer er slechts één schade geclaimd is, kan dit gecorrigeerd worden door het aantal schades op nul te stellen. Wanneer er echter meerdere claims zijn op een polis, waarvan minstens een gerechtvaardigd, maar mogelijk een of meerdere niet, dan klopt de schadelast wel, maar is het aantal claims te hoog. Deze afwijkingen kunnen niet gecorrigeerd worden. Het aantal polissen voor de personenautoportefeuille met meer dan een schade is 1117, op een totaal van 62.524 polissen. Onder deze 1117 zal dus een aantal polissen zijn waarbij het claimaantal te hoog zal zijn. In hoofdstuk 5 wordt deze variabele verder behandeld. Daar wordt onderzocht welke verdeling de claimfrequentie volgt en op welke manier deze gemodelleerd kan worden. Claimhoogte De schades die geclaimd worden kennen een grote variëteit. Er zijn schades als een nieuwe buitenspiegel enerzijds en letselschades die boven de honderdduizend euro kunnen komen anderzijds. Het grootste gedeelte van de schades is echter aan de lage kant, wat ervoor zorgt dat de meeste kansmassa bij de lage schades ligt. Een histogram met de logaritme van de claimhoogtes lijkt erg op de pdf van de normale verdeling (zie figuur 4.7). De histogrammen voor de personenauto’s en voor de bestelauto’s lijken enigszins op een normale verdeling, zij het met meerdere toppen. Beide hebben een piek rond het punt 5, dit zijn schades van rond de €150,-5. Verder hebben beide histogrammen ongeveer op dezelfde plekken pieken, wat kan duiden op standaard reparaties met standaard prijzen. In hoofdstuk 6 wordt verder gekeken naar de verdeling van de claimhoogte en hoe deze gemodelleerd kan worden.
4
Voor polissen met een exposure kleiner dan 1 zou er een functie voor de drempelwaarde gedefinieerd moeten worden die afhankelijk is van de exposure. 5 Om de originele claimhoogte te krijgen, neem men de exponent van de x-as. Voorbeeld: exp(5) 148.41
14
Figuur 4.7: Verdeling van de logaritme van de claimhoogtes
4.2
Schadestatistieken voor verschillende variabelen
In deze paragraaf worden voor verschillende risicokenmerken de claimfrequentie, de claimhoogte en de loss ratio behandeld. Op deze manier wordt inzicht verkregen in welke variabelen invloed hebben op de claimfrequentie, claimhoogte en voor welke risicocategorieën de premie niet voldoende is om de schadelast te dekken. Dit wordt gedaan voor de personenauto- en de bestelautoportefeuille van 2009. Voor de portefeuilles van 2007 en 2008 worden alleen de verschillen met de portefeuille van 2009 behandeld. Eerst wordt toegelicht hoe de claimfrequentie, de claimhoogte en de loss ratio berekend worden. Vervolgens worden voor verschillende risicokenmerken de hiervoor genoemde statistieken besproken. Tot slot volgt een korte bespreking van de ontwikkeling door de jaren heen. 4.2.1
Berekening schadestatistieken
Wanneer iedereen het hele jaar verzekerd is, wordt de gemiddelde claimfrequentie berekend door het aantal claims te delen door het aantal polissen. Er zijn echter veel polissen die niet gedurende het hele jaar verzekerd waren. Daarom moet er in de berekening van de claimfrequentie rekening gehouden worden met de exposure van een polis. Definieer xj als het aantal het aantal claims behorende tot polis j. De claimfrequentie voor een bepaalde risicocategorie i wordt dan als volgt berekend.
x I ( j) ClaimFrequentie(i) expo I ( j) n
(4.1)
j 1
j
[i ]
n
j 1
j
[i ]
Voor de polissen die tot risicocategorie i horen, wordt het aantal schades opgeteld en gedeeld door de totale exposure die tot die risicocategorie hoort. Hierbij is de indicatorfunctie I[i ] ( j ) gelijk aan een wanneer polis j behoort tot risicocategorie i en nul wanneer dit niet het geval is. De gemiddelde claimhoogte voor een risicocategorie i wordt als volgt berekend. Men telt de totale schadelast per polis op die tot een bepaalde risicocategorie i hoort en deelt dit door de som van het aantal schades dat tot die risicocategorie behoort. 15
Claimhoogte(i )
(4.2)
n j 1 n j 1
s j I[ i ] ( j ) x j I[ i ] ( j )
Om vervolgens te kunnen bepalen of de premie enigszins dekkend was voor het risico dat gelopen werd op een bepaalde risicocategorie, wordt ook de loss ratio berekend. De loss ratio wordt berekend door de totale schadelast voor een bepaalde risicocategorie te delen door de totale verdiende premie voor die risicocategorie. Hier hoeft geen rekening gehouden te worden met de exposure, omdat die al verwerkt zit in de verdiende premie: deze heeft alleen betrekking tot de periode dat de polis verzekerd was.
LossRatio(i )
(4.3)
n j 1
n j 1
s j I[ i ] ( j )
prj I[i ] ( j )
Van de verdiende premie moeten de tekencommissies voor de agenten en Bruns ten Brink zelf nog afgehaald worden. Dit betekent dat er van de premie nog maar 67.5% van de premie overblijft om de schades te dekken. Wanneer de loss ratio hoger is dan 0.675 lijdt de verzekeraar dus verlies, zoals toegelicht in hoofdstuk 3. Nu de formules bekend zijn, kunnen de statistieken voor de verschillende risicokenmerken berekend worden. 4.2.2
Schadestatistieken voor bepaalde risicokenmerken
Uit de vorige paragraaf is gebleken dat niet alle risicokenmerken voor zowel de personenauto’s als voor de bestelauto’s van belang zijn. Daarom wordt er nu alleen gekeken naar de kenmerken die wel van belang bleken te zijn. Eerst wordt de personenautoportefeuille behandeld, daarna de bestelautoportefeuille. Personenauto’s In tabel 4.2 is te zien dat bij de verschillende dekkingen de claimfrequentie oploopt met de hoogte van de dekking. Dit is vrij logisch, omdat bij een uitgebreidere dekking meer geclaimd mag worden. De claimhoogte loopt echter niet op met de dekking. De gemiddelde claimhoogte is voor WA iets hoger dan voor WA+BC, maar voor WA+CASCO is de claimhoogte significant hoger. De loss ratio voor WA en WA+CASCO zijn te hoog, maar die voor WA+BC ligt onder de 0.6. De premiestelling voor WA+BCverzekeringen lijkt aardig op peil te zijn. Verder is te zien dat de stedelijker regio’s hogere claimfrequenties hebben, en ook de claimhoogte is daar hoger. De loss ratio is voor alle regio’s te hoog: de premie die nu gevraagd wordt, ligt blijkbaar te laag. De cijfers over het kortingstarief spreken redelijk voor zich. De claimfrequentie en de claimhoogte liggen hoger dan voor gewone polissen. De loss ratio ligt ook ver boven die van gewone polissen. Als het oorspronkelijk idee was dat mensen een kortingstarief mochten betalen omdat ze minder risico opleverden, dan is dat idee achterhaald. De mensen met een kortingstarief leveren meer risico op en verdienen dus geen korting.
16
Een hoger gewicht van de auto lijkt ook te leiden tot hogere claimfrequenties en hogere claimhoogtes. Er zijn geen uitschieters in loss ratio, dus de premie houdt redelijk rekening met het gewicht van de auto. De cataloguswaarde is, zoals in paragraaf 4.1 reeds gemeld, alleen bekend voor de polissen die een WA+Casco-dekking hebben. De cijfers in de tabel over de cataloguswaarde zeggen daarom alleen iets over de polissen met een WA+Casco-dekking. De claimfrequentie lijkt te stijgen met de cataloguswaarde, maar de claimhoogte lijkt niet af te hangen van de cataloguswaarde. De loss ratio’s vertonen ook geen duidelijk uitschieters. Voor de leeftijden is te zien dat de jongeren (t/m 24 jaar) vaker claimen en dat hun claimbedragen ook hoger zijn dan gemiddeld. Jongeren zijn dus vrij slechte risico’s. De leeftijden daarboven vertonen allemaal een gelijk claimgedrag. De claimfrequenties en de claimhoogtes zijn ongeveer gelijk en ook de loss ratio’s verschillen weinig. De hoogste leeftijdscategorie heeft wel een hoge gemiddelde claimhoogte. Echter, de exposure voor deze categorie is vrij laag en in deze categorie is een grote claim ingediend. Dit leidt tot een vertekend beeld. Bij de BM-treden (weergegeven in kortingspercentages) is duidelijk te zien dat in de lage treden de slechte risico’s zitten. De claimfrequentie is ongeveer één in de malustrede, wat betekent dat gemiddeld elke polis in deze trede een claim per jaar heeft. In hogere treden neemt de claimfrequentie snel af, tot een redelijk stationair niveau vanaf trede 7. Hetzelfde geldt voor de claimhoogte. Lagere treden hebben gemiddeld hogere claimhoogtes en de gemiddelde claimhoogte neemt af met de hoogte van de trede. De daling zet hier echter wel wat langer door dan bij de claimfrequentie. De loss ratio’s voor de laagste treden zijn zeer slecht. In deze treden wordt meer schade geclaimd dan dat er aan premie binnenkomt. Enige solidariteit tussen de hoge en de lage treden is nog goed te praten, maar de BM-trap zorgt er in dit geval niet voor dat men betaalt naar het risico dat men oplevert. Voor de hogere treden zijn de loss ratio’s redelijk tot goed. Het ligt dus voor de hand om wat te onderzoeken hoe er een beter financieel evenwicht bereikt kan worden.
17
Tabel 4.2: Schadestatistieken personenautoportefeuille 2009 Dekking Claimfrequentie Claimhoogte (€) Loss ratio
WA 0.084 2316.17 0.759
WA+BC WA+CASCO 0.234 0.265 770.97 1360.57 0.583 0.781
Regio 1 0.156 1364.69 0.734
Regio 2 0.155 1350.98 0.697
Nee 0.156 1387.64 0.661
Ja 0.168 1375.91 0.796
Regio Claimfrequentie Claimhoogte (€) Loss ratio
Regio 3 0.165 1370.76 0.701
Regio 4 0.175 1714.90 0.794
Regio 5 0.201 1090.87 0.624
Kortingstarief Claimfrequentie Claimhoogte (€) Loss ratio Gewicht (in kg) Claimfrequentie Claimhoogte (€) Loss ratio
(0,750) [750;1000) 0.082 0.134 1374.99 1491.73 0.579 0.735
[1000;1250) 0.180 1359.89 0.750
[1250;1500) [1500;1750) [1750; ∞) 0.228 0.246 0.246 1270.75 1110.87 1213.93 0.710 0.517 0.481
Cataloguswaarde (in 1000€'s): alleen voor dekking = Volleding casco (0-10] (10-20] (20-30] (30-40] Claimfrequentie 0.192 0.246 0.292 0.342 Claimhoogte (€) 1041.52 1392.17 1354.47 1428.59 Loss ratio 0.639 0.886 0.773 0.766
(40-50] 0.315 1405.70 0.560
(50-60] 0.353 1299.91 0.493
(60-70] 0.373 1328.31 0.508
(70-80] 0.300 4272.14 1.078
(80-90] 0.382 458.58 0.135
(90-100] 0.378 1039.24 0.292
(100-∞) 0.155 625.66 0.069
55 0.128 1362.35 0.516
60 0.131 1518.91 0.694
65 0.118 1005.39 0.413
Leeftijd Claimfrequentie Claimhoogte (€) Loss ratio
18-21 0.224 1692.41 0.903
22-24 0.173 1834.09 0.802
25-34 0.163 1359.94 0.737
35-44 0.149 1202.83 0.610
45-54 0.158 1330.59 0.695
55-64 0.150 1210.55 0.641
65-74 0.159 1230.98 0.661
> 75 0.165 2225.43 1.155
0 0.486 1950.72 1.572
15 0.257 2452.04 1.156
25 0.278 2014.38 1.328
35 0.205 1910.84 0.954
40 0.206 1892.85 0.944
45 0.173 1504.07 0.652
50 0.166 1727.09 0.851
BM-kortingspercentages Claimfrequentie Claimhoogte (€) Loss ratio
-25 0.961 1955.96 3.281
70 0.120 1339.72 0.573
72.5 0.145 925.67 0.508
75 0.158 1116.75 0.655
80 0.135 776.26 0.406
Bestelauto’s Voor de bestelauto’s wordt niet gekeken naar de variabelen leeftijd en korting. De variabele leeftijd is niet zuiver, doordat er vaak een standaard leeftijd opgegeven wordt. Dit omdat in een bedrijfsauto vaak meerdere mensen rijden. Verder bestaat er voor de bestelautoportefeuille geen kortingstarief. De schadestatistieken zijn weergegeven in tabel 4.5. De verschillen in de claimfrequentie onder de verschillende regio’s zijn net als bij de personenauto’s klein, maar wel aanwezig. Vergeleken met de personenauto’s zijn de claimfrequenties hoger bij bestelauto’s. De claimhoogte daalt met de stedelijkheid, net als de loss ratio. Voor de verschillende dekkingen liggen de claimfrequentie hoger dan bij de personenauto’s. Bij verzekeringen voor bestelauto’s wordt dus meer geclaimd dan voor personenauto’s. Een mogelijke verklaring hiervoor is dat bestelauto’s vaker op de weg zijn. Vergelijking over verschillende jaren Over de jaren heen zijn er voor de verschillende risicocategorieën nauwelijks verschillen wat betreft de gemiddelde claimhoogte. In tabel 4.3 en tabel 4.4 zijn de claimfrequenties voor de verschillende dekking voor de verschillende jaren weergegeven. Hierin is goed te zien dat de claimfrequentie voor de WA-verzekering ongeveer gelijk blijft. Bij de WA+BC en WA+Casco-verzekeringen is de claimfrequentie echter wel flink gestegen door de jaren heen. Een mogelijke verklaring hiervoor is dat het weer in 2008 en 2009 slechter was dan in 2007. Zo was er in de zomer van 2009 een hagelbui met grote hagelstenen, die tot veel claims leidde. De loss ratio’s kunnen niet vergeleken worden, omdat de onderliggende premies tussentijds veranderd zijn.
Tabel 4.3: Claimfrequentie personenauto's Jaar 2007 2008 2009
Jaar
Dekking WA 0.075 0.075 0.084
WA+BC 0.118 0.182 0.234
Tabel 4.4: Claimfrequentie bestelauto's
WA+Casco 0.154 0.216 0.265
Dekking
2007 2008
WA 0.099 0.099
WA+BC 0.138 0.206
WA+Casco 0.225 0.283
2009
0.090
0.236
0.329
19
Tabel 4.5: Schadestatistieken bestelautoportefeuille 2009 Dekking WA
WA+BC
WA+CASCO
Claimfrequentie
0.090
0.236
0.329
Claimhoogte (€)
2123.44
902.30
1178.70
0.440
0.485
0.583
Regio 1
Regio 2
Regio 3
Regio 4
Regio 5
Claimfrequentie
0.222
0.233
0.267
0.270
0.370
Claimhoogte (€)
1496.22
1064.69
1064.29
769.03
844.93
0.640
0.452
0.500
0.321
0.481
(0,750)
[750;1000)
Claimfrequentie
0.096
0.181
0.244
0.289
0.302
0.178
Claimhoogte (€)
1069.08
1225.69
1142.16
1134.10
1263.87
1518.23
0.232
0.485
0.551
0.582
0.612
0.397
(0-10]
(10-20]
(20-30]
(30-40]
(40-50]
(50-60]
(60-70]
(70-80]
(80-90]
(90-100]
(100-∞)
Claimfrequentie
0.155
0.296
0.342
0.382
0.374
0.323
0.423
2.000
NaN
NaN
0.000
Claimhoogte (€)
2614.22
1118.94
1280.16
970.23
1391.26
432.29
1037.50
354.25
NaN
NaN
0.000
0.945
0.559
0.656
0.460
0.610
0.152
0.371
0.567
NaN
NaN
0.000
3
4
5
6
7
8
9
10
11
Loss ratio Regio
Loss ratio Gewicht (in kg)
Loss ratio
[1000;1250) [1250;1500) [1500;1750)
[1750; ∞)
Cataloguswaarde (in 1000€'s)
Loss ratio
=>
NaN betekent dat er geen polissen in de betreffende categorie zijn.
Bonus/malus-trede (1=malus, 15=bonus) 1
2
12
13
14
15
Claimfrequentie
0.989
0.492
0.324
0.233
0.206
0.290
0.270
0.187
0.286
0.274
0.283
0.243
0.203
0.249
0.172
Claimhoogte (€)
2330.10
1657.03
3169.89
1066.10
1431.75
1344.00
1123.91
1666.43
1082.96
1358.81
1629.27
941.00
906.54
931.23
550.36
2.045
0.709
1.037
0.300
0.352
0.558
0.414
0.445
0.458
0.607
0.776
0.470
0.406
0.551
0.270
Loss ratio
5.
Claimfrequentie
De claimfrequentie bepaalt voor een groot gedeelte het risico dat een verzekeraar loopt. Het is daarom van groot belang de claimfrequentie goed te modelleren. In dit hoofdstuk wordt de claimfrequentie gemodelleerd aan de hand van a priori variabelen, dat wil zeggen variabelen die bij het aangaan van de polis bekend zijn. Dit hoofdstuk is als volgt opgebouwd. Eerst wordt de Poisson-verdeling behandeld, en vervolgens wordt toegelicht hoe de Negatief Binomiale verdeling volgt uit de Poisson-verdeling. De Negatief Binomiale verdeling kan als een uitbreiding van de Poisson-verdeling gezien worden; de fit van de Negatief Binomiale verdeling zal dus beter zijn dan die van de Poisson-verdeling. Met behulp van Maximum Likelihood wordt onderzocht wat het verschil in de fit is tussen de twee verdelingen. Daarna wordt getracht de claimfrequentie te modelleren aan de hand van verschillende covariaten. Hiertoe wordt eerst de theorie hierachter besproken, waarna de resultaten gepresenteerd worden.
5.1
Mogelijke verdelingen
In deze paragraaf worden verschillende verdelingen besproken die gebruikt kunnen worden om de claimfrequentie te modelleren. Eerst wordt de meest gebruikte verdeling besproken, de Poissonverdeling. Vervolgens wordt toegelicht hoe het model aangepast kan worden om rekening te houden met fracties van verzekeringsjaren. Tot slot wordt er behandeld hoe er onzekerheid in de parameter van de Poisson-verdeling opgenomen kan worden en hoe dit leidt tot de gereparametriseerde Negatief Binomiale verdeling. 5.1.1
Poisson verdeling
Het aantal keren dat een polishouder claimt in een bepaald jaar is een toevalsvariabele die de waarden 0, 1, 2, … kan aannemen. De meeste polishouders zullen nul claims indienen, wat betekent dat er flink wat kansmassa op het punt nul ligt. Een veelgebruikte kansverdeling om de claimfrequentie te modelleren, is de Poisson-verdeling. Deze verdeling is afhankelijk van een parameter, λ. De verdeling is als volgt gedefinieerd: (5.1)
P N k e
k k!
k 0,1,2,...
, E[ N ] Var[ N ]
Het is mogelijk dat polishouders niet het gehele jaar verzekerd zijn, maar slechts een deel daarvan. Om dit in het model op te nemen, wordt de parameter λ vermenigvuldigd met de fractie van het jaar dat de polishouder verzekerd is (wordt hier weergegeven door d). De kansdichtheid verandert als volgt: (5.2)
P( N k ) e d
d k!
k
,
k 0,1, 2,...
21
5.1.2
Mixed Poisson-verdeling
Het model kan verder uitgebreid worden door onzekerheid in de parameter λ te introduceren. Dit kan wenselijk zijn wanneer de portefeuille niet perfect homogeen is. De onzekerheid in de parameter λ wordt geïntroduceerd door de parameter λ met een stochast te vermenigvuldigen. Stel nu dat Θ de onzekerheid in de parameter λ weergeeft. De kansverdeling die dan verkregen wordt, ziet er als volgt uit. P( N k | d e d
(5.3)
( d )k k!
Verder in het onderzoek wordt gewerkt met onconditionele kansen. Deze zijn te verkrijgen door de conditionele kans over de stochast te integreren. Dit gebeurt als volgt.
P( N k ) E[ P( N k | ] e d
( d )k k!
dF ( )
Hierbij is dF ( ) de verdelingsfunctie van de onzekerheidsparameter. 5.1.3
Negatief Binomiale verdeling
Bij het modelleren van de claimfrequentie worden a priori variabelen gebruikt. De effecten van de variabele die pas na verloop van tijd zichtbaar worden (de a posteriori variabelen) worden opgevangen in de stochast . Het is van belang dat de verwachting van de premie a priori gelijk is aan de verwachting a posteriori. Dit is het geval wanneer: E N E E N |
0
k 0 k exp
E
k!
k
dF (
Men dient er dus voor te zorgen dat de verwachting van de stochast gelijk is aan een. Een veel gebruikte verdeling voor de stochast is de Gamma-verdeling (Kaas et al., 2008, p. 45 en Denuit et al., 2007, p. 28). Om er voor te zorgen dat de a priori verwachting gelijk is aan die van de a posteriori, dient met de twee parameters van de Gamma-verdeling aan elkaar gelijk te stellen.De kansdichtheid van de Gamma(α,β)-verdeling is als volgt. (5.4)
P( X x)
x exp( x) ,
x0
Door voor de Gamma-verdeling gelijke parameters te nemen, blijft de verwachting gelijk, maar de variantie verandert van λ naar . Wanneer men nu in de laatste integraal dF ( ) vervangt door f ( )d 1 1e d (de dichtheid van de Gamma-verdeling met gelijke parameters) kan men
θ uitintegreren.
22
P( N k ) E E[ P ( N k | d | ] e d 0
e d
1
( d ) exp( ) k
0
( )
k!
d k !
k ) d ) k 1) d d
k
0
dF ( )
d
=
(5.5)
( d ) k k!
e ( d k d
k
In deze kansdichtheid herkennen we de Negatief Binomiale verdeling met verwachting λ en variantie
.
5.2
Bepalen verdeling claimfrequentie
Om de claimfrequentie te modelleren is het belangrijk dat de juiste verdeling gekozen wordt om mee te modelleren. De kandidaat-verdelingen zijn afhankelijk van een of meerdere parameters. Een veelgebruikte methode om parameters te schatten, is de methode van Maximum Likelihood. Hiermee definieert men een likelihood als het product van alle kansdichtheden, als functie van de parameters van de verdeling. Deze parameters worden geschat door de likelihood te maximaliseren over de vrije parameters. Vandaar de naam Maximum Likelihood. Men kan voor verschillende verdelingen de parameters schatten die de data het beste fit. Er zijn verschillende manieren om vervolgens te onderzoeken welke verdeling de data het beste fit. Een veelgebruikte manier is het vergelijken van de QQ-plots. Deze methode wordt gebruikt in hoofdstuk 6, waar de verdeling van de claimhoogte geschat wordt. Voor de claimfrequentie wordt de empirische pdf vergeleken met de pdf’s van de geschatte verdelingen. In de vorige paragraaf zijn verschillende kansverdelingen toegelicht die mogelijk goed zijn om de claimfrequentie te modelleren. In deze paragraaf worden voor de Poisson-verdeling en de Negatief Binomiale verdeling de parameters geschat met behulp van Maximum Likelihood. Vervolgens worden de hieruit volgende pdf’s met elkaar en met de empirische pdf vergeleken om te bepalen welke verdeling gebruikt wordt om de claimfrequentie te schatten. Deze stappen worden voor de personenautoportefeuille 2009 gedaan. 5.2.1
Poisson-verdeling en Maximum Likelihood
De Poisson-verdeling is afhankelijk van een parameter, λ. Wanneer er rekening gehouden wordt met een exposurecomponent d, is de kansdichtheid van de Poisson(λd)-verdeling is als volgt. P( N k ) e
d
d k!
k
k 0,1,...
,
De likelihoodfunctie (het product van de kansdichtheden van alle n waarnemingen) wordt dan: n
L P ( N i ki ) i 1 n
e di i 1
di
ki
ki !
23
Het doel van de maximum likelihoodschatting is om L te maximaliseren door λ te veranderen. Het is echter makkelijker om de logaritme van de likelihoodfunctie te maximaliseren, want dan wordt er gemaximaliseerd over een som in plaats van over een product. Deze transformatie levert dezelfde resultaten op, omdat de logaritme een monotoon stijgende functie is. n
log L ( di ki log( di ) log(ki !)) i 1
n
n
n
i 1
i 1
i 1
di ki log( di ) log(ki !)
De volgende stap is de logaritme van de likelihoodfunctie te maximaliseren. De parameter waarvoor deze functie maximaal is, wordt gevonden door te differentiëren:
d n n i 1 di i 1 ki 0 d n n ˆ k d
(5.6)
i 1 i
i 1
i
Dit betekent dat de Maximum Likelihood-schatting voor de parameter gelijk is aan het totale aantal claims gedeeld door de totale exposure. Wanneer dit op de data wordt toegepast, volgt eruit dat
ˆ 0.1612 . 5.2.2
Negatief Binomiale verdeling en Maximum Likelihood
Voor de Negatief Binomiale verdeling gebruiken we de parametrisatie zoals afgeleid in de vorige paragraaf. Met behulp van de kansdichtheid kan de loglikelihood afgeleid worden.
ki ) di P( Ni ki ) ) ki 1) di di
ki
n
L P ( N i ki ) i 1
ki ) di i 1 ) ki 1) d i d i n
ki
k ) d ki i i log L log ) k 1) d di i 1 i i n
n
log ki ) log ( log (ki 1) log di ki log idi i 1
d
De twee te schatten parameters voor deze verdeling zijn α en λ. Wanneer men probeert
de
loglikelihood te maximaliseren door te differentiëren, is er geen analytische oplossing beschikbaar. Daarom worden de parameters geschat met behulp van de functie optim in R. Hieruit volgen de volgende schattingen voor de parameters:
ˆ 0.5999, ˆ 0.1628 Deze schatting ligt dicht in de buurt van de schatting die volgt uit het Poisson-model.
24
5.2.3
Vergelijking met empirische data
Voor de Poisson- en de Negatief Binomiale verdeling zijn de parameters geschat. Om nu te bepalen welke van beide verdelingen gebruikt zal worden om de claimfrequentie te modelleren, worden de pdf’s van beide verdelingen vergeleken met de empirische pdf. Degene die de empirische pdf het beste benadert, wordt gebruikt in de rest van het onderzoek. In figuur 5.1 zijn de kansdichtheden van de verdelingen in een histogram weergegeven voor de personenautoportefeuille van 2009. In deze figuur is duidelijk te zien dat zowel de Poisson- als de Negatief Binomiale verdeling de kans op nul claims onderschatten en de kans op één claim overschatten. Voor meer claims zijn de verschillen erg klein. Zoals te verwachten was, benadert de Negatief Binomiale verdeling de empirische data beter dan de Poisson-verdeling. Dit komt, zoals eerder gemeld, doordat de Negatief Binomiale verdeling een uitbreiding is van de Poisson-verdeling. Aangezien een groot gedeelte van het risico voor de verzekeraar in de claimfrequentie zit, is het van belang deze zo goed mogelijk te schatten. Dit geeft een eerste aanleiding om de claimfrequentie te modelleren aan de hand van de Negatief Binomiale verdeling. Echter, later in het onderzoek, bij het bepalen van de relatieve premies, wordt er onzekerheid in de parameter λ van de Poisson-verdeling verondersteld. Hierdoor is het noodzakelijk om de claimfrequentie te modelleren met de Negatief Binomiale verdeling.
Figuur 5.1: Empirische pdf + pdf’s van verdelingen met gefitte parameters voor de personenautoportefeuille 2009
25
5.3
Totstandkoming en selectie van model claimfrequentie
Nu de verdeling van de claimfrequentie bekend is, kan de claimfrequentie gemodelleerd worden. Hierbij is het doel de gemiddelde claimfrequentie te voorspellen aan de hand van bepaalde karakteristieken van de polishouder. Dit zijn karakteristieken die vooraf bekend zijn, zoals regio en leeftijd van de bestuurder, gewicht van de auto en de gekozen dekking. Een veel gebruikte methode om de claimfrequentie te modelleren, is met behulp van Generalized Linear Models (GLM’s). In deze paragraaf wordt eerst toegelicht wat lineaire modellen zijn. Van hieruit wordt de methodiek van de GLM’s uitgelicht. Vervolgens wordt dit toegepast op de claimfrequentie. De modelselectie (het bepalen van de karakteristieken die van belang zijn) en de uitkomsten hiervan sluiten deze paragraaf. 5.3.1
Lineaire modellen
Wanneer men een variabele wil voorspellen aan de hand van bepaalde karakteristieken (of covariaten), kan men gebruik maken van een lineair model. De simpelste vorm is die waarbij een afhankelijke variabele afhankelijk is van een andere variabele en misschien nog een constante. Er wordt een storingsterm toegevoegd, omdat de waarnemingen het resultaat zijn van een steekproef (een ander jaar leidt tot andere waarnemingen en is dus een andere steekproef). yi xi i
Hierbij is α de constante en ε de storingsterm. Veronderstel nu dat xi en i onafhankelijk zijn en dat
i ~ N (0, 2 ) . Onder deze aannames over de kansverdeling leidt het schatten van de parameters α en β met behulp van de kleinste kwadratenmethode tot hetzelfde resultaat als het resultaat dat behaald wordt met de methode van Maximum Likelihood. Definieer de residuen als het verschil tussen de waargenomen en de voorspelde waarde. e i yi a xi b
Hierbij zijn a en b de geschatte parameters voor α en β. De parameters a en b worden nu geschat door de kwadratensom van de residuen te minimaliseren over alle waarnemingen. n
n
min ei2 min yi a xi b a ,b
i 1
a ,b
2
i 1
Dit kan veralgemeniseerd worden door meerdere verklarende variabelen toe te laten. In het algemeen wordt het te schatten model dan: yi xi β i
Hierbij is x een vector met verklarende variabelen (met eventueel een constante erin) en β is een vector met coëfficiënten die bij die verklarende variabelen horen. Deze coëfficiënten worden ook geschat met behulp van de kleinste kwadratenmethode. In het gewone lineaire model voldoen de verkregen schatters aan verschillende mooie eigenschappen; de schatters zijn zuiver en efficiënt. Hierbij wordt echter essentieel gebruik gemaakt van de gedane veronderstellingen over de verdeling, dus normaliteit (symmetrie) van de storingstermen, homoskedasticiteit (alle storingen hebben dezelfde variantie), en een lineair verband
26
tussen de verwachting van de afhankelijke variabele en de verklarende variabelen. Bij het gebruik van Generalized Linear Models kan men deze beperkingen loslaten. 5.3.2
Generalized Linear Models
Hiervoor is gebleken dat lineaire modellen qua mogelijkheden redelijk beperkt zijn. Generalized Linear Models (GLM’s) zijn wat flexibeler. Een GLM bestaat uit drie onderdelen (McCullagh en Nelder, 1989, p.27 en Kaas et al., 2008, pp. 234-235):
De stochastische component; de verdeling van de afhankelijke variabele Yi . Bij lineaire modellen was dit de normale verdeling, bij GLM’s kunnen dit ook andere verdelingen zijn, zoals de Gamma- of de Poisson-verdeling.
p
De systematische component; de covariaten x leveren een lineaire voorspeller η: i xi , j j j 1
waarbij er p verklarende variabelen zijn.
De linkfunctie geeft de link tussen de verwachting i van Yi en de lineaire voorspeller:
i g (i ) . Hierbij is g () de linkfunctie. Bij het lineaire model was de link de identiteitslink. Nu kan de linkfunctie de logaritme zijn of iets anders. Wanneer de stochastische component niet langer normaal verdeeld verondersteld wordt, levert de kleinste kwadratenmethode niet langer de beste schatters voor de parameters β in de zin van Maximum Likelihood. 5.3.3
Claimfrequentie modelleren: GLM en Maximum Likelihood
In paragraaf 5.2 is reeds geprobeerd de claimfrequentie te modelleren aan de hand van de Negatief Binomiale verdeling met behulp van Maximum Likelihood. In die paragraaf werd echter gewerkt met vaste parameters λ en α voor alle polishouders, waarbij de verwachting van de claimfrequentie gelijk was aan λ en de variantie was gelijk aan . Deze veronderstelling van vaste parameters wordt nu losgelaten. Er wordt nog steeds verondersteld dat de parameter α voor alle polishouders gelijk is: deze parameter is van belang voor de variantie van de claimfrequentie, niet voor de verwachting. Om nu onderscheid te kunnen maken naar verschillende kenmerken van de polishouders, zoals regio en leeftijd van de bestuurder, wordt de parameter λ gedefinieerd als functie van deze kenmerken (McCullagh en Nelder, 1989, p.28). E[ Ni ] i f (xi ; β)
Voor de claimfrequentie is het gebruikelijk een multiplicatief model te schatten. Zo worden relatieve opslagen verkregen, wat wenselijk is voor de tarifering. Dit kan men doen door de logaritme als linkfunctie te gebruiken. Een bijkomend voordeel is dat hierdoor negatieve claimfrequenties uitgesloten zijn.
27
E[ N i ] i exp( xi β)
exp(xi β) di ki ) P ( N i ki ) ) ki 1) exp(x i β) di exp(x i β) di
ki
ki
exp(xi β) di ki ) L i 1 ) ki 1) exp( x i β) d i exp( x i β ) d i n exp(xi β) di log ki ) log ( log (ki 1) log ki log exp(xi β) di exp(xi β) di i 1 Het model kan nu geschat worden door de laatste vergelijking (de loglikelihood) te maximaliseren n
over de vector β. Om te bepalen welk model het beste is, moet er een afweging gemaakt worden tussen het aantal toegevoegde variabelen en de verbetering van de fit. 5.3.4
Modelbepaling: Deviances en Degrees of Freedom
Modellen bouwen kan op verschillende manieren. Een manier is om eerst alle variabelen toe te voegen en dan te kijken welke geen toegevoegde waarde hebben. Op deze manier kan men één voor één nietsignificante variabelen uit het model gooien en zo een model met alleen significante variabelen overhouden. Het kan ook precies andersom. Men begint met alleen een constante (het gemiddelde) en voegt zo telkens variabelen toe, en kijkt vervolgens welke de meeste toegevoegde waarde heeft. In dit onderzoek wordt gekozen voor de laatste methode, omdat dit meer inzicht geeft in welke variabele bepalend zijn voor de claimfrequentie en in welke mate. Om te bepalen welke variabelen het meeste toevoegen aan de fit, maakt men een afweging tussen de toegenomen fit (gemeten door de likelihood) en het aantal extra te schatten parameters (Kaas et al. 2008, pp. 245-248). Om een meetbare afweging te kunnen maken, introduceren we de volgende toetsingsgrootheid.
D
(5.7)
2log
Lˆ L
Deze toetsingsgrootheid heet de geschaalde afwijking en meet de logaritme van de ratio tussen de likelihood van het geschatte model ( Lˆ ) en de likelihood van het volledige model ( L ). Hierbij is het volle model een model waarbij voor elke waarneming een parameter geschat wordt, zodat per definitie geldt dat E[ Ni ] ki . De afwijking D wordt herschaald met de parameter , ook wel de dispersieparameter genoemd. De variantie van de verdeling is evenredig met deze parameter; de evenredigheidsfactor hangt af van de verwachting. Echter, omdat er in het gekozen model reeds extra dispersie in de variantie zit door onzekerheid in het Poisson-model in te bouwen, kan de dispersieparameter voor de te schatten modellen gelijkgesteld worden aan één (de overdispersie wordt verwerkt via de parameter α). Tussen twee opeenvolgende modellen kan men de afname in de afwijking bepalen. Dit gaat als volgt. Definieer het eerste, beperktere model als model 1 en het uitgebreidere model, waarbij een verklarende variabele wordt toegevoegd, als model 2. Het tweede model zal een hogere likelihood hebben dan het eerste model, dus de ratio zal groter worden (de ratio ligt tussen nul en één, want de noemer is de maximale likelihood haalbaar). De logaritme van deze ratio is negatief; minus twee maal
28
de logaritme van de ratio is positief. Het uitgebreidere model heeft dus een lagere afwijking. De afname van de afwijking is als volgt af te leiden. Lˆ1 Lˆ 2log 2 L L 2log Lˆ1 2log L 2log Lˆ2 2log L
Dev D1 D2 2log
(5.8)
2 log Lˆ2 log Lˆ1
Deze statistiek is 2 (k ) -verdeeld, waarbij k het aantal extra geschatte parameters is (Kaas et al., 2008, p.248). Wanneer de statistiek een bepaalde kritische waarde overschrijdt, kan men zeggen dat de nulhypothese dat de extra parameters gelijk zijn aan nul, verworpen kan worden. Deze test kan alleen uitgevoerd worden tussen twee in elkaar genestte modellen. Twee genestte modellen zijn modellen waarbij het ene model volgt uit het andere, door één lineaire restrictie los te laten. Dit kan door het toevoegen van een variabele of door een variabele meer “vrijheid” te geven. Stel dat men de variabele leeftijd ingedeeld heeft in, bijvoorbeeld, acht categorieën, waarbij de labels van de categorieën de getallen 1 t/m 8 zijn. Wanneer men één parameter (b) schat voor de categorie-indeling met als verklarende variabele de categorielabels, dan is de bijdrage aan het gemiddelde voor categorie 1 bijvoorbeeld b 1 en voor categorie 5 is de bijdrage b 5 . Het gebruik van de variabele op deze manier wordt in dit onderzoek aangeduid met “de variabele x als numeriek”. Om nu de variabele leeftijd als categorie-indeling meer vrijheid te geven, kan men voor elke categorie een aparte parameter schatten: b 1...b8 . Het gebruik van de variabele op deze manier wordt in dit onderzoek aangeduid met “de variabele x als factor”. Dit komt overeen met voor iedere categorie een dummy te gebruiken. Nu bekend is hoe modellen geschat worden en hoe er een keuze tussen de modellen gemaakt kan worden, kan er nu daadwerkelijk onderzocht worden wat een goed model is om de claimfrequentie te modelleren.
Het model: personenauto’s
5.4
In deze paragraaf wordt onderzocht wat een goed model is voor de claimfrequentie van de portefeuille personenauto’s in het jaar 2009. Belangrijk bij de totstandkoming van dit model is dat het de belangrijkste effecten weet te modelleren en dat er rekening gehouden wordt met de begrijpelijkheid van het model. Op deze manier kan het model uitgelegd worden aan het management van Bruns ten Brink en is het ook voor de klanten begrijpelijk. Verder moeten de gebruikte variabelen allemaal ingedeeld zijn in categorieën. Dit is noodzakelijk voor een later deel in het onderzoek, namelijk wanneer de relativiteiten in hoofdstuk 7 bepaald worden. De variabelen die gebruikt worden, zijn:
Dekking
Regio
Gewicht
Cataloguswaarde
Dummy voor kortingstarief 29
Voor een toelichting op de indeling van de standaard variabelen, zie tabel 5.1. Naast de standaard variabelen, worden er ook nog enkele variabelen gebruikt die van de standaard variabelen zijn afgeleid. Deze worden toegelicht in tabel 5.2. De introductie van de dummy-variabelen is om te controleren of er bepaalde categorieën zijn die zich anders gedragen dan de andere categorieën. Met de variabele wcat controleert men of de claimfrequentie (en in hoofdstuk 6 de claimhoogte) lineair stijgt met het gewicht. Met de variabele logwt wordt gekeken of de claimfrequentie ( in hoofdstuk 6 de claimhoogte) exponentieel stijgt met het gewicht (Kaas et al., 2008, p. 253). Tabel 5.1: Toelichting op indeling standaard variabelen Variabele
Omschrijving
naam
Dekking
De drie verschillende dekkingen
dek
Regio
Oplopend van landelijk naar stedelijk Regio onbekend in aparte categorie
r
Gewicht
Voor personenauto’s (in kg)
wcat
Voor bestelauto’s (in kg)
wcat
Cataloguswaarde
ingedeeld per €10.000
catwc
Korting
dummy voor kortingstarief
kort
Leeftijd
in jaren
lcat
30
# 1 2 3 1 2 3 4 5 1 2 … 5 6 1 2 … 5 6 0 1 2 … 10 11 0 1 1 2 3 … 7 8
Inhoud WA WA+BC WA+Casco landelijk minder landelijk minder stedelijk stedelijk onbekend (0 - 750) [750 - 1000) … [1500 - 1750) [1750 - ∞) (0 - 1500) [1500 - 2000) … [3000 - 3500) [3500 - ∞) 0 (0 -10) [10 - 20) … [90 - 100) [100 - ∞) Geen korting Wel korting [0, 21] [22 , 24] [25 , 34] … [65 , 74] [75 , inf)
Tabel 5.2: Toelichting op indeling van extra variabelen Variabele
Omschrijving
naam
#
Inhoud
Regio
Regio 1 en 2 samen
r2
Gewicht
Dummy voor personenauto's < 750kg
w1
Dummy voor bestelauto's ≥ 3000kg
w56
Dummy voor bestelauto's ≥ 3500kg
w6
1 2 3 4 0 1 0 1 0 1
Voor personenauto's: logaritme van klassenmiddens gedeeld door laagste klassenmidden
logwt
landelijk + minder landelijk minder stedelijk stedelijk onbekend wcat != 1 wcat = 1 wcat != 5,6 wcat = 5,6 wcat != 6 wcat = 6 wcat = 1 wcat = 2 wcat = 3 wcat = 4 wcat = 5 wcat = 6 wcat = 1 wcat = 2 wcat = 3 wcat = 4 wcat = 5 wcat = 6
Klassenmiddens: (625 ; 875 ; … ; 1625 ; 1875) Voor bestelauto's: logaritme van klassenmiddens gedeeld door laagste klassenmidden Klassenmiddens: (1250 ; 1750 ; … ; 3250 ; 3750)
logwt
0 0.1461 0.2553 0.3424 0.4150 0.4771 0 0.1461 0.2553 0.3424 0.4150 0.4771
We beginnen de modelbouw met het nul-model, dat alleen een constante als verklarende variabele bevat. Het model wordt telkens uitgebreid door variabelen toe te voegen. Definieer LR-Stat. als twee maal de toename in de loglikelihood van het beperkte model naar het ruimere model. Definieer df als het aantal extra te schatten parameters. Onder de nulhypothese dat het beperkte model juist is, is LRStat. een 2 (df ) -verdeelde stochast. Als deze grootheid een bepaalde kritieke waarde overschrijdt, geloven we niet meer dat dat door toeval komt, dus verwerpen we de nulhypothese dat de extra parameters geen invloed hebben. Voor de kritieke waarden neemt men in de statistiek vaak de waarde die met 5% kans door toeval overschreden kan worden, dus het 95%-kwantiel van de 2 (df ) verdeling. In dat geval voorspelt het uitgebreide model de data “significant” beter (Kaas et al., 2008, p.248). De totstandkoming van het model is weergegeven in tabel 5.3. Er blijkt in de eerste regressieronde dat de dekking van een polis de belangrijkste voorspeller is van de claimfrequentie. Na het toevoegen van de variabele dekking blijkt gewicht de beste toevoeging aan het model. De toevoeging van dummy’s voor de verschillende gewichtscategorieën levert de meeste verbetering op in de fit. Dit is logisch, omdat er voor elke categorie een parameter geschat wordt. Verder blijkt dat het toevoegen van de variabele logwt een betere fit oplevert dan wcat zelf (voor beide variabelen wordt 31
slechts een parameter geschat). De verhouding tussen verbetering in de fit en het aantal extra te schatten parameters is het beste voor logwt en deze wordt in het model opgenomen. Vervolgens leidt het toevoegen van de variabele regio nog tot een verbetering van het model. Er blijkt dat het verschil tussen regio 1 en regio 2 niet groot is. Daarom wordt verder gemodelleerd met de variabele r2 waarbij deze twee regio’s samen zijn gevoegd. De variabele cataloguswaarde is na de toevoeging van de eerdere variabelen overbodig en levert geen verbetering op aan het model. De cataloguswaarde van de auto heeft dus geen significant effect op de claimfrequentie voor personenauto’s. Tot slot blijkt dat de dummy voor het kortingstarief telkens leidt tot een significant betere fit van het model. Het teken van de parameter is echter positief, wat betekent dat mensen met een kortingstarief vaker claimen. Dit is niet gewenst in de uiteindelijke tarifering, om mensen met een kortingstarief meer te laten betalen. De variabele wordt daarom niet opgenomen in het model. Tabel 5.3: Analyse model claimfrequentie: personenauto's 2009 Modelspecificatie 1 1 + dek 1+r 1 + r2 1 + wcat 1 + as.factor(wcat) 1 + logwt 1 + catwc 1 + as.factor(catwc) 1 + kort 1 + dek + r2 1 + dek + wcat 1 + dek + as.factor(wcat) 1 + dek + logwt 1 + dek + catwc 1 + dek + as.factor(catwc) 1 + dek + kort 1 + dek + logwt + r2 1 + dek + logwt + catwc 1 + dek + logwt + as.factor(catwc) 1 + dek + logwt + kort 1 + dek + logwt + r2 + catwc 1 + dek + logwt + r2 + as.factor(catwc) 1 + dek + logwt + r2 + kort
df
2 x log-lik.
LR-Stat.
∆df
Pr(Chi)
62523 62521 62519 62520 62522 62518 62522 62522 62512 62522 62518 62520 62516 62520 62520 62511 62520 62517 62519 62510 62519 62516 62507 62516
-52104.98 -50240.12 -52096.48 -52096.48 -51709.31 -51667.53 -51680.01 -51541.29 -51479.14 -52092.83 -50215.89 -50108.68 -50089.08 -50096.66 -50202.99 -50185.75 -50159.20 -50070.16 -50095.45 -50088.08 -50003.83 -50068.71 -50060.98 -49963.49
1864.86 8.50 8.50 395.67 437.45 424.97 563.69 625.84 12.15 24.22 131.43 151.04 143.46 37.13 54.37 80.92 26.50 1.21 8.58 92.83 1.45 9.18 106.67
2 4 3 1 5 1 1 11 1 3 1 5 1 1 10 1 3 1 10 1 1 10 1
<2e-16 0.0750 0.0368 <2e-16 <2e-16 <2e-16 <2e-16 <2e-16 0.0005 2.2E-05 <2e-16 <2e-16 <2e-16 1.1E-09 4.1E-08 <2e-16 7.5E-06 0.2713 0.5726 <2e-16 0.2288 0.5156 <2e-16
De parameterschattingen van het uiteindelijke model zijn gegeven in tabel 5.4. Hierin is te zien dat de claimfrequentie stijgt met de dekking. Verder stijgt de claimfrequentie meer exponentieel dan lineair met het gewicht, omdat de toename in likelihood voor de logaritmische indeling groter is. Tot slot leidt 32
een hogere stedelijkheid tot een hoger verwacht aantal claims. De polissen met een onbekende regio hebben een positieve parameter, maar de variantie in deze parameter is te groot om te concluderen dat dit leidt tot een hogere claimfrequentie. Tabel 5.4: Parameterschattingen finale model claimfrequentie personenauto's 2009 Parameter Constante WA+BC WA+CASCO Logwt Regio 3 Regio 4 Regio 5 a (parameter in gamma-verdeling)
Schatting
Standaardfout 6
z-waarde
P[>|z|]
-2.8183 0.9775 1.0755 0.6631 0.0791 0.2738 0.1924
0.0360 0.0288 0.0313 0.0546 0.0244 0.0576 0.3754
-78.39 34.00 34.35 12.16 3.24 4.75 0.51
< 2e-16 < 2e-16 < 2e-16 < 2e-16 0.0012 2.0E-06 0.6084
0.9433
Nu de parameters voor het model bekend zijn, kan de verwachte claimfrequentie voor verschillende polishouders berekend worden. Voor een polishouder met een dekking WA+Casco, die woont in Amsterdam (regio 4) en een auto heeft van 1100kg met een cataloguswaarde van €12.000,-, wordt de verwachte claimfrequentie als volgt berekend.
E N exp(constante WA Casco logwt Regio4 ) exp(2.8183 1.0755 0.6631 0.2553 0.2738) exp(1.2997) 0.2726 In het huidige model is, met opzet, de variabele leeftijd niet meegenomen. Dit is gedaan omdat er een grote correlatie zit tussen de leeftijd en de BM-trede van de polishouder. Dit komt gedeeltelijk doordat jonge mensen niet in de hoogste treden kunnen zitten, vanwege de opbouw van het systeem. Verder schuiven de meeste mensen, omdat ze niet claimen, van jaar tot jaar telkens een trede hoger. Zo verschuift een groot gedeelte van de portefeuille zich langzaamaan naar boven op de trap. Aangezien dit meer onder de a posteriori tarifering valt, is er bewust voor gekozen om het hier niet in op te nemen. Wel worden voor de volledigheid de resultaten gegeven van het model waarin de leeftijdscategorie (zoals omschreven in hoofdstuk 4) opgenomen is. Deze inzichten kunnen gebruikt worden voor het eventueel aanpassen van de inschalingtabel die gebruikt wordt voor het aanvangen van nieuwe polissen. De resultaten zijn gegeven in tabel 5.5. In tabel 5.5 is duidelijk te zien dat de claimfrequentie flink daalt met de leeftijd. Om bijvoorbeeld het verschil tussen een 23-jarige en een 57-jarige te bepalen, neemt men de exponent van
(0.3718) (1.1576) 0.7858 . Dit leidt tot exp(0.7858) 2.1942 , wat betekent dat een 23-jarige (gemiddeld genomen) meer dan twee keer zo vaak claimt als een 57-jarige. Deze inzichten kunnen, zoals eerder gemeld, gebruikt worden bij het aanpassen van de inschalingtabel. Dit wordt in dit onderzoek echter niet verder uitgewerkt, omdat dit niet tot het doel van dit onderzoek hoort.
6
Met de standaardfout wordt een schatting voor de standaardafwijking bedoeld.
33
Tabel 5.5: Parameterschattingen volledige model claimfrequentie personenauto's 2009 Parameter
Schatting
Standaardfout
z-waarde
P[>|z|]
Constante WA+BC WA+CASCO Logwt Regio 3 Regio 4 Regio 5 Lft: 22-24 Lft: 25-34 Lft: 35-44 Lft: 45-54 Lft: 55-64 Lft: 65-74
-2.1916 1.0653 1.3007 0.9171 0.1018 0.3381 0.1908 -0.3718 -0.7449 -1.0349 -1.0674 -1.1576 -1.1856
0.0563 0.0291 0.0333 0.0565 0.0243 0.0576 0.3693 0.0627 0.0547 0.0586 0.0588 0.0653 0.0771
-38.95 36.62 39.02 16.22 4.18 5.88 0.52 -5.93 -13.62 -17.67 -18.15 -17.74 -15.38
< 2e-16 < 2e-16 < 2e-16 < 2e-16 2.9E-05 4.2E-09 0.6050 3.1E-09 < 2e-16 < 2e-16 < 2e-16 < 2e-16 < 2e-16
Lft: >74
-1.2340
0.1115
-11.07
< 2e-16
Om te onderzoeken of er interactietermen zijn die het model kunnen verbeteren, is er nog een regressie uitgevoerd met interactietermen in het model opgenomen. De resultaten van deze regressie staan in Appendix A. Er blijkt dat de toename in de kwaliteit van het model niet significant is. Zelfs al zou dat wel zo geweest zijn, heeft het opnemen van interactietermen zijn bezwaren. Het rekening houden met interactie tussen regio en leeftijd zou bijvoorbeeld kunnen inhouden dat voor jeugdige rijders in de provincie een andere opslag geldt dan voor jongelingen uit de grote stad. Dit is lastig uit te leggen aan de klant. Ook is het tarief met interactietermen complexer in het gebruik. Er worden dus geen interactietermen in het model opgenomen. Het model voor de claimfrequentie van personenauto’s is hiermee afgerond. Er is een basismodel waar verder mee gewerkt wordt en er is gebleken dat het kortingstarief niet leidt tot lagere claimfrequenties. In de volgende paragraaf wordt de claimfrequentie van de bestelautoportefeuille van 2009 onderzocht.
5.5
Het model: bestelauto’s
In deze paragraaf wordt onderzocht wat een goed model is voor de claimfrequentie van bestelauto’s. De variabelen die bij het modelleren gebruikt worden, zijn in de vorige paragraaf toegelicht. Voor de bestelautoportefeuille is het gewicht anders ingedeeld en is er geen sprake van een voordeeltarief. Het model wordt verder op dezelfde manier gebouwd als bij de personenauto’s. De resultaten van het modelleren zijn weergegeven in tabel 5.6. Wederom is dekking de belangrijkste variabele voor het verklaren van de claimfrequentie. Zie tabel 5.7 voor de parameterschatting van het uiteindelijke model. Er blijkt dat de claimfrequentie voor de bestelauto’s lineair stijgt met het gewicht. De categorie met zwaarste bestelauto’s is hier echter een uitzondering op. Voor de categorieën i = 1 … 5 is de opslag 0.1197 i (de werkelijke opslag krijgt men door de exponent te nemen, net als bij de personenauto’s). Voor de zwaarste categorie is de opslag 34
0.1197 6 0.6380 0.0802 . Dit betekent dat de auto’s in de zwaarste categorie, gemiddeld genomen,
minder vaak claimen dan de andere auto’s (de opslag voor de lichtste auto’s is nog steeds 0.1197). Tabel 5.6: Analyse model claimfrequentie: bestelauto's 2009 Modelspecificatie
df
2 x log-lik. LR-Stat.
1 1 + dek 1+r 1 + r2 1 + wcat 1 + as.factor(wcat) 1 + logwt 1 + catwc 1 + as.factor(catwc) 1 + dek + r2 1 + dek + wcat 1 + dek + as.factor(wcat) 1 + dek + w6 1 + dek + wcat + w6 1 + dek + logwt 1 + dek + catwc 1 + dek + as.factor(catwc) 1 + dek + wcat + w6 + r2 1 + dek + wcat + w6 + catwc
5823 5821 5819 5820 5822 5818 5822 5822 5814 5818 5820 5816 5820 5819 5820 5820 5811 5816 5818
-6794.26 -6597.30 -6783.04 -6783.27 -6786.04 -6738.70 -6779.93 -6673.87 -6660.35 -6584.62 -6593.81 -6566.78 -6589.85 -6570.02 -6590.80 -6587.93 -6580.39 -6559.16 -6562.78
196.96 11.22 10.99 8.22 55.56 14.33 120.39 133.91 12.67 3.49 30.51 7.44 27.28 6.49 9.36 16.90 10.86 7.24
1 + dek + wcat + w6 + catwc + r2
5815
-6552.74
10.04
∆df Pr(Chi) 2 4 3 1 5 1 1 9 3 1 5 1 2 1 1 10 3 1
<2e-16 0.0242 0.0118 0.0041 1.0E-10 1.5E-04 <2e-16 <2e-16 0.0054 0.0619 1.2E-05 0.0064 1.2E-06 1.1E-02 0.0022 0.0765 0.0125 0.0071
3 0.0182
Tabel 5.7: Parameterschattingen finale model claimfrequentie bestelauto's 2009 Parameter
Schatting
Standaardfout
z-waarde
P[>|z|]
-2.8532 0.9321 0.9342 0.1197 -0.6380 0.1069 0.1548 0.2958
0.1531 0.1131 0.1577 0.0340 0.1361 0.0416 0.0632 0.1518
-18.64 8.24 5.92 3.53 -4.69 2.57 2.45 1.95
< 2e-16 < 2e-16 0.0000 0.0004 0.0000 0.0102 0.0144 0.0512
Regio 5
0.3986
0.2214
1.80
0.0718
a (parameter in gamma-verdeling)
1.2340
Constante WA+BC WA+CASCO Wcat W6 Cataloguswaarde Regio 3 Regio 4
In Appendix A staan de resultaten van de regressie waarin interactietermen zijn opgenomen. Hieruit blijkt dat het toevoegen van interactietermen niet significant is op een niveau van vijf procent. Verder zijn de enige interactietermen met een significante coëfficiënt interactietermen met regio 5. Deze interactietermen kunnen niet in de tarifering opgenomen worden en er worden dus geen interactietermen in het model opgenomen. 35
36
6.
Claimhoogte
In het vorige hoofdstuk is de claimfrequentie gemodelleerd. De volgende stap in het maken van een tarifering is het modelleren van de claimhoogte. Er zijn verschillende kansverdelingen mogelijk om de claimhoogte te modelleren. Twee verdelingen die hier vaak voor gebruikt worden, zijn de Gamma- en de Lognormale verdeling. Deze twee verdelingen wordt in dit hoofdstuk behandeld. De opbouw van dit hoofdstuk is gelijk aan die van het vorige hoofdstuk. Eerst worden de twee mogelijke verdelingen toegelicht. Met behulp van Maximum Likelihood worden de parameters voor deze verdelingen geschat. Vervolgens wordt met behulp van QQ-plots bepaald welke verdeling gebruikt gaat worden om de claimhoogte te modelleren. Tot slot wordt het schatten van het model toegelicht en worden de resultaten gepresenteerd.
6.1
Mogelijke verdelingen
De claimhoogte is rechtsscheef verdeeld, zie figuur 6.1. Dit betekent dat er vergeleken met een symmetrische verdeling, veel kansmassa in de rechterstaart zit. Twee verdelingen die deze eigenschap bevatten, zijn de Gamma- en de Lognormale verdeling. Er zijn meer verdelingen met deze rechtsscheve eigenschap, maar deze hebben ingewikkeldere kansdichtheden, wat het lastiger maakt een model daaromheen te bouwen. In dit onderzoek wordt daarom alleen naar de Gamma- en de Lognormale verdeling gekeken.
Figuur 6.1: Histogram van de claimhoogtes in de personenautoportefeuille 2009
37
6.1.1
De Gamma-verdeling
De Gamma-verdeling is afhankelijk van twee parameters, zoals in het vorige hoofdstuk gemeld is. De kansdichtheid van deze verdeling is als volgt. f X ( x)
(6.1)
x exp( x) ,
x0
De verwachting, variantie en scheefheid van een gamma(α,β)-verdeling zijn als volgt.
Var[ X ] 2 E[ X ]
2
[X ] 6.1.2
De Lognormale verdeling
De Lognormale verdeling is afgeleid van de normale verdeling. De relatie tussen de twee is als volgt. log X ~ N ( , 2 ) X ~ log N ( )
(6.2)
In woorden is dit als volgt te omschrijven: als de logaritme van een variabele Normaal verdeeld is, dan is de variabele zelf Lognormaal verdeeld. De kansdichtheid van een Lognormale verdeling met parameters μ en σ2 is als volgt. f X ( x)
(6.3)
1 x 2
exp
(log x )2 , 2 2
x0
De verwachting, variantie en scheefheid van de Lognormale verdeling zijn:
E[ X ] e
2
2
Var[ X ] e2 2 e2 2
2
[ X ] (e 2) e 1 2
6.2
2
Bepalen verdeling claimhoogte
Om de gemiddelde claimhoogte te modelleren, is het belangrijk om te weten welke verdeling hiervoor gebruikt moet worden. Het bepalen van die verdeling is het doel van deze paragraaf. Voor de Gammaen de Lognormale verdeling worden de Maximum Likelihood vergelijkingen afgeleid en met behulp van die vergelijkingen worden de parameters geschat. Vervolgens worden met behulp van de geschatte parameters QQ-plots gemaakt. Aan de hand van deze QQ-plots wordt bepaald welke verdeling gebruikt gaat worden om de claimhoogte te modelleren. Voor polissen met meerdere claims wordt de totale schadelast gedeeld door het aantal schades en wordt de gemiddelde schadelast meegenomen in de berekeningen.
38
6.2.1
Maximum Likelihood-schatting voor Gamma-verdeling
In het vorige hoofdstuk is reeds toegelicht wat een Maximum Likelihood-schatting inhoudt. In dit hoofdstuk worden de vergelijkingen daarom afgeleid zonder uitgebreide toelichting. f X ( xi )
xi exp( xi ) m
L i 1
xi exp( xi ) m
log L log i 1
xi exp( xi )
m
( 1) log xi log xi log ( ) i 1
Het maximaliseren van deze laatste vergelijking over α en β door te differentiëren naar deze parameters levert voor β de volgende vergelijking op. m m xi 0 i 1 m m i 1 xi
(6.4)
Voor de parameter α is geen analytische oplossing beschikbaar. Daarom wordt deze parameters geschat met behulp van de functie optim in het programma R. De parameterschattingen die hieruit volgen, zijn als volgt.
ˆ 4.299 10 4
ˆ 0.6163,
De verwachting, variantie en scheefheid, gegeven deze parameterschattingen zijn:
1433.65 Var[ X ] 2 3.335 106 E[ X ]
[X ] 6.2.2
2
2.548
Maximum Likelihood-schatting voor Lognormale verdeling
Net als voor de Gamma-verdeling worden de benodigde vergelijkingen hier uitgewerkt, zonder uitgebreide toelichting. De loglikelihood: f X ( xi ) m
L i 1
1 xi 2 1
xi 2 m
log L i 1
exp
exp
(log xi ) 2 2 2
(log xi ) 2 2 2
(log xi ) 2 log( xi 2 ) 2 2
Deze loglikelihood maximaliseren over de parameters μ en σ leidt tot de volgende vergelijkingen.
39
m
log x
i
i 1
2
0
m
log xi m 0
(6.5)
i 1
m
log xi m i 1
m
(6.6)
log x
i
i 1
2
3
m
m
log xi
0 2
m
i 1
De parameterschattingen die hieruit volgen, zijn als volgt.
ˆ 6.2693
ˆ 2 1.8376
De verwachting, variantie en scheefheid, gegeven deze parameterschattingen zijn: E[ X ] e Var[ X ] e
2
2
2 2 2
1323.59 e2 9.252 106 2
[ X ] (e 2) e 1 19.03 2
2
Hier is duidelijk te zien dat met de geschatte parameters, de verwachting van de Lognormale verdeling lager is dan de verwachting van de Gamma-verdeling. Echter, de scheefheid van de Lognormale verdeling is weer groter dan die van de Gamma-verdeling, wat betekent dat met deze geschatte parameters, de rechterstaart van de Lognormale verdeling dikker is dan bij de Gamma-verdeling. Nu voor beide verdelingen de geschatte parameters bekend zijn, kan er bepaald worden welke van beide gebruikt gaat worden bij het modelleren. 6.2.3
QQ-plots
Een manier om te bepalen welke verdeling de data het beste fit, is om te kijken naar de QQ-plots. Zie Michael (1983) voor een uitgebreide bespreking van deze methode. Om een QQ-plot te maken, sorteert men eerst de empirische data op oplopende volgorde. Voor de verdelingen waarvoor de parameters geschat zijn, bepaalt men de theoretische kwantielen. Het aantal kwantielen dat berekend wordt, is gelijk aan het aantal waarnemingen. Vervolgens zet men de empirische datapunten uit op de x-as en de theoretische kwantielen op de y-as (zie Appendix B voor de gebruikte programmeercode). Wanneer de gekozen verdeling de data goed benadert, zullen alle punten redelijk op een rechte lijn door de oorsprong liggen. In dat geval komen de kwantielen goed overeen. Vandaar de naam QQ-plot (quantile-quantile-plot). De verdeling van de claimhoogte is rechtsscheef. Daarom wordt ervoor gekozen om de logaritme van de empirische en de random gegenereerde datapunten tegen de assen uit te zetten. Op deze manier worden de datapunten links van de mediaan niet op elkaar gedrukt en kan men de fit van de verdeling beter beoordelen. Voor de personenautoportefeuille zijn de QQ-plots weergegeven in figuur 6.2; voor de bestelautoportefeuille in figuur 6.3. 40
Figuur 6.2: QQ-plots voor personenautoportefeuille 2009
Figuur 6.3: QQ-plots voor bestelautoportefeuille 2009
In figuur 6.2 is te zien dat voor de personenautoportefeuille de Lognormale verdeling de data beter fit. Beide verdelingen hebben wijken in de staarten van de verdeling af van de empirische data, maar de mismatch bij de Gamma-verdeling is veel groter dan bij de Lognormale verdeling. Ditzelfde is te zien in figuur 6.3. De Lognormale verdeling zal gebruikt worden om de claimhoogte te modelleren.
6.3
Het model: personenauto’s
In de vorige paragraaf is gebleken dat de Lognormale verdeling de claimhoogte het beste fit en de Lognormale verdeling wordt daarom gebruikt om de claimhoogte mee te modelleren. Net als in het vorige hoofdstuk wordt het model geschat met behulp van een Generalized Linear Model. In deze paragraaf wordt eerst toegelicht hoe het model precies geschat wordt. Vervolgens wordt besproken welke variabelen in het model opgenomen worden. 6.3.1
Opbouw van het model
De claimhoogte wordt geschat met behulp van een Generalized Linear Model (GLM). In hoofdstuk 4 is de structuur van GLM’s al toegelicht. In deze paragraaf wordt toegelicht hoe de theorie van GLM’s hier wordt toegepast. 41
Om de claimhoogte te modelleren, wordt verondersteld dat de claimhoogte Lognormaal verdeeld is. Dit houdt in dat de logaritme van de claimhoogte Normaal verdeeld is met dezelfde parameters. De getransformeerde schadelast (de logaritme ervan) kan geschat worden met een GLM. Hierbij wordt de parameter σ2 voor alle polissen gelijk verondersteld. De parameter μ is de variabele die geschat wordt aan de hand van de verklarende variabelen (Zuanette et al., 2006, p.135). De link functie die gebruikt wordt in de GLM, is de identiteitsfunctie, oftewel i g (i ) i j 1 xi , j . Met deze link functie p
wordt de te maximaliseren (log)likelihood als volgt. f X ( xi )
1 xi 2
exp
(log xi ) 2 2 2
Lognormale verdeling: algemeen
(log xi ) 2 1 exp 2 2 2 (log xi i ) 2 1 f log( X ) (log( xi )) exp 2 2 2
transformatie naar Normale verdeling: algemeen
f log( X ) (log( xi ))
m
L i 1
i , want GLM
(log xi i ) 2 1 exp 2 2 2
m (log xi i ) 2 log L log( 2 ) 2 2 i 1
Hierbij wordt gebruikt dat wanneer X Lognormaal verdeeld is, log( X ) Y normaal verdeeld. Deze loglikelihoodsfunctie kan gemaximaliseerd worden over de parameters βi en σ. Met behulp van de schattingen voor deze parameters, kan men de verwachting van de gemiddelde schadelast bepalen door de verwachting van de Lognormale verdeling te berekenen. De verwachting van de schadelast per risicocategorie is als volgt. E ( X i ) e i
6.3.2
2
2
p 2 exp j 1 xi , j j 2
Implementatie in R
Om de claimhoogte te schatten, wordt het programma R gebruikt7. Om een logaritmische variabele te schatten, kan men de logaritme van deze variabele schatten met behulp van een GLM met een normale verdeling voor het gemiddelde. Het doel van het modelleren van de claimhoogte is om de gemiddelde schadelast per schadegeval te voorspellen. In de dataset is voor elke polis alleen de totale schadelast gegeven; er is geen informatie beschikbaar over de individuele schades indien er meer schades zijn op een polis. Om de informatie uit polissen met meerdere schadegevallen op de juiste manier mee te nemen in het model, wordt als te verklaren variabele de totale schadelast gedeeld door het aantal schades genomen. Echter, het zou kunnen zijn dat de gemiddelde schade voor polissen met meerdere schades hoger of lager ligt dat de gemiddelde schade voor polissen met slechts één schade. Om er voor te zorgen dat dit niet over- of onderschat wordt, wordt elke waarneming (elke polis) een gewicht meegegeven gelijk aan het aantal schades. 7
Voor deze en andere gebruikte code, zie Appendix B.
42
Op deze manier wordt de gemiddelde schade bij een polis met bijvoorbeeld drie schades drie keer opgenomen in de loglikelihood. Het voordeel van deze methode is dat verschillen in gemiddelde claimhoogte bij polissen met verschillende aantallen schades meegenomen worden in het model. Een nadeel is dat er bij de polissen met meerdere schades geen informatie beschikbaar is over de individuele schades. Dit heeft tot gevolg dat er in plaats van bijvoorbeeld vier verschillende claimhoogtes, nu vier maal het gemiddelde van die vier schades wordt meegenomen. Hierdoor wordt de parameter σ2 in kleine mate onderschat. Tabel 6.1: Analyse model claimhoogte: personenauto's 2009 Modelspecificatie 1 1 + dek 1 + wcat 1 + as.factor(wcat) 1 + logwt 1 + w1 1 + r2 1 + catwc 1 + as.factor(catwc) 1 + kort 1 + dek + wcat 1 + dek + as.factor(wcat) 1 + dek + logwt 1 + dek + w1 1 + dek + r2 1 + dek + catwc 1 + dek + as.factor(catwc) 1 + dek + kort 1 + dek + r2 + wcat 1 + dek + r2 + as.factor(wcat) 1 + dek + r2 + logwt 1 + dek + r2 + w1 1 + dek + r2 + catwc 1 + dek + r2 + as.factor(catwc) 1 + dek + r2 + kort 1 + dek*r2 1 + dek + r2 + catwc + wcat 1 + dek + r2 + catwc + as.factor(wcat) 1 + dek + r2 + catwc + logwt 1 + dek + r2 + catwc + w1 1 + dek + r2 + catwc + kort
Resid. Df Resid. Dev. Deviance 7202 7200 7201 7197 7201 7201 7199 7201 7191 7201 7199 7195 7199 7199 7197 7199 7190 7199 7196 7192 7196 7196 7196 7187 7196 7191 7195 7186 7195 7195 7195
15129 12760 15077 15059 15074 15125 15067 15113 15063 15114 12760 12752 12760 12754 12731 12753 12732 12755 12730 12722 12730 12725 12722 12700 12723 12726 12722 12713 12722 12717 12714
2289.60 52.05 70.14 55.16 3.72 62.06 16.22 66.21 15.11 0.35 8.81 0.54 6.59 29.87 7.67 29.04 5.19 0.43 8.27 0.61 6.07 8.33 30.49 7.86 4.41 0.73 9.47 0.33 5.29 7.95
∆df
Pr(Chi)
2 1 5 1 1 3 1 11 1 1 5 1 1 3 1 10 1 1 5 1 1 1 10 1 6 1 5 1 1 1
0 5.4E-13 9.6E-14 1.1E-13 0.0537 2.1E-13 5.6E-05 6.4E-10 0.0001 0.5525 0.1169 0.4622 0.0103 1.5E-06 0.0056 0.0012 0.0227 0.5124 0.1419 0.4330 0.0138 0.0039 0.0007 0.0051 0.6211 0.3932 0.0916 0.5633 0.0214 0.0048
43
6.3.3
Modelselectie
De variabelen die beschikbaar zijn om de claimhoogte te modelleren, zijn dezelfde als die gebruikt werden voor het modelleren van de claimfrequentie. Het selecteren van de variabelen die opgenomen worden in het model geschiedt ook op dezelfde manier als in het vorige hoofdstuk. De resultaten van het modelleren zijn gegeven tabel 6.1. De dekking van de polis is, net als bij de claimfrequentie, de belangrijkste variabele voor het voorspellen. De volgende belangrijke variabele is de regio van de polishouder. De variabele korting wordt niet opgenomen in het model, omdat deze variabele, net als bij de claimfrequentie, leidt tot een opslag. Hij wordt wel telkens weergegeven om aan te geven dat zelfs in de laatste stap de toevoeging van de variabele korting nog flink wat verklarende kracht bevat. Het effect van de korting is niet heel sterk (de parameter is slechts licht positief), maar blijft wel persistent aanwezig. Na het toevoegen van de dekking en de regio wordt het lastiger om het model uit te breiden. Het doel van het modelleren is om een model te krijgen dat te gebruiken is voor een premiestelling. Hierbij is het belangrijk dat het model niet te ingewikkeld wordt en op de klant logisch moet overkomen. Er blijkt dat wanneer voor elke categorie van de cataloguswaarde een dummy opgenomen wordt, de verbetering in de fit het grootst is. De parameters die hieruit volgen, lopen echter niet stijgend op met de cataloguswaarde. Zo zijn er categorieën met een lagere opslag dan de twee aangrenzende categorieën. Dit is niet wenselijk voor de premiestelling en daarom wordt de cataloguswaarde niet op deze manier in het model opgenomen. Wanneer de categorielabels van de cataloguswaarde (1 t/m 11) worden opgenomen in de regressie en hier een parameter voor geschat wordt, blijkt deze toevoeging tot een significante verbetering van het model te leiden. De verhouding tussen de verbetering in de fit en het aantal te schatten parameters is voor deze variabele het beste en wordt dus opgenomen in het model. Na de toevoeging van de cataloguswaarde wordt geprobeerd het model verder uit te breiden. Wanneer dummy’s voor de verschillende gewichtscategorieën worden toegevoegd, blijkt dat het toevoegen van een dummy voor de lichtste auto’s (tot 750kg) leidt tot een significant betere fit van het model. De coëfficiënt van de dummyvariabele heeft een p-waarde van 0.0836 en is dus niet significant op een niveau van 5%, maar de verbetering in de fit heeft een p-waarde van 0.0214 en is wel significant beter. De dummyvariabele wordt daarom toegevoegd aan het model. Andere varianten met variabelen afgeleid van het gewicht van de auto leiden niet tot een beter model. De parameterschattingen voor het model zijn weergegeven in tabel 6.2. Uit het finale model blijkt dat de Wettelijke Aansprakelijkheidsdekking alleen leidt tot de hoogste claims. Een mogelijke verklaring hiervoor is dat mensen met een uitgebreidere dekking vaker kleine schades claimen, zoals een kapotte spiegel. Hierdoor daalt de gemiddelde claim. Verder stijgt de claimhoogte met de stedelijkheid en de cataloguswaarde.
44
Tabel 6.2: Parameterschattingen: finale model claimhoogte personenauto 2009 Parameter
Schatting
Standaardfout
z-waarde
P[>|z|]
Constante WA+BC WA+CASCO Regio 3 Regio 4 Regio 5 Cataloguswaarde
7.0232 -1.2906 -1.0236 0.1016 0.2059 0.3188 0.0436
0.0328 0.0357 0.0683 0.0297 0.0700 0.4438 0.0211
214.24 -36.13 -14.99 3.42 2.94 0.72 2.07
< 2e-16 < 2e-16 < 2e-16 0.0006 0.0033 0.4726 0.0387
Dummy: lichtste auto's
-0.1423
0.0823
-1.73
0.0836
Standaardfout van de regressie
1.3295
In hoofdstuk 5 werd een voorbeeld uitgewerkt hoe de gemiddelde claimfrequentie voor een bepaalde polishouder berekend kon worden vanuit de regressieresultaten. De gemiddelde schadelast voor dezelfde polishouder (dekking WA+Casco, regio 4, 1100kg, €12.000,-) berekent men als volgt.
E S exp(constante WA Casco Regio4 Cataloguswaarde 12 ) exp(7.0232 1.0236 0.2059 2 0.0436 12 1.3295 2 ) exp(6.2927 12 1.32952 ) 1308.30 Uit onderzoek van interactietermen blijkt dat er geen speciale categorieën zijn die, wat claimhoogte betreft, extra aandacht verdienen bij de marketingafdeling. Zie Appendix A voor de resultaten van het onderzoek naar interactietermen. In tabel 6.3 zijn de parameterschattingen gegeven voor wanneer de leeftijdscategorie opgenomen wordt in het model. Er blijkt dat, net als bij de claimfrequentie, de leeftijd van de polishouder van redelijk grote invloed is op de hoogte van de hoogte van de schade. Het effect is minder groot dan bij de claimfrequentie, maar toch nog zeer aanwezig. Dit effect is te verklaren doordat oudere bestuurders over het algemeen meer ervaring hebben en gevaarlijke situaties sneller doorhebben, waardoor ze anticiperen op dit soort situaties. Mocht het dan toch nog fout gaan, dan is de schade in ieder geval minder. De oudere bestuurders worden hier al grotendeels voor beloond middels de BM-trap. Voor nieuwe klanten is dit afhankelijk van het schadeverleden. Wanneer men de resultaten voor leeftijd van claimfrequentie en –hoogte combineert, en het voorbeeld uit hoofdstuk 5 vervolgt (de vergelijking tussen een 23-jarige en een 57-jarige), dan krijgt men het volgende. Het verschil in claimfrequentie-coëfficiënt tussen deze twee is 0.786. Voor de claimhoogte is het verschil (0.023 (0.214)) 0.237 . De exponent van de som van die twee verschillen geeft aan hoeveel hoger de verwachte schadelast is voor de 23-jarige vergeleken met de 57-jarige. Dit is exp(0.786 0.237) 2.782 , wat betekent dat de verwachte schadelast voor de jongere bijna drie keer zo hoog is als voor de oudere bestuurder.
45
Tabel 6.3: Parameterschattingen: volledige model claimhoogte personenauto 2009 Parameter Constante WA+BC WA+CASCO Regio 3 Regio 4 Regio 5 Dummy: lichtste auto's Cataloguswaarde Lft: 22-24 Lft: 25-34 Lft: 35-44 Lft: 45-54 Lft: 55-64 Lft: 65-74 Lft: >74
6.4
Schatting
Standaardfout
z-waarde
P[>|z|]
7.1260 -1.2560 -0.9821 0.1060 0.2207 0.3441 -0.1555 0.0505 0.0231 -0.1192 -0.2443 -0.1396 -0.2144 -0.2698
0.0645 0.0366 0.0699 0.0297 0.0700 0.4433 0.0823 0.0211 0.0768 0.0672 0.0714 0.0717 0.0800 0.0940
110.46 -34.32 -14.04 3.57 3.15 0.78 -1.89 2.39 0.30 -1.77 -3.42 -1.95 -2.68 -2.87
< 2e-16 < 2e-16 < 2e-16 0.0004 0.0016 0.4377 0.0587 0.0167 0.7636 0.0761 0.0006 0.0516 0.0074 0.0041
0.0791
0.1365
0.58
0.5624
Het model: bestelauto
In deze paragraaf wordt de claimhoogte voor bestelauto’s gemodelleerd. Dit gebeurt op dezelfde manier als in de vorige paragraaf en de variabelen die gebruikt worden, zijn hetzelfde als voor het modelleren van de claimfrequentie voor bestelauto’s. 6.4.1
Modelselectie
De resultaten van de modelselectie zijn weergegeven in tabel 6.4. In het uiteindelijke model is de dekking van de polis opgenomen en een dummy voor de zwaarste bestelauto’s 8. Regio blijkt hier geen voorspellende waarde te hebben. Blijkbaar heeft de regio van de polishouder voor bestelauto’s wel invloed op de claimfrequentie, maar niet op de claimhoogte. Na het toevoegen van de dekking en een dummy voor de zwaarste auto’s blijkt de cataloguswaarde nog verklarende waarde te hebben. Uit de parameterschatting van dit model blijkt echter dat de coëfficiënt negatief is, wat betekent dat de gemiddelde claimhoogte daalt met de cataloguswaarde. Dit komt omdat gewicht en cataloguswaarde beide in principe de toename van de schade door de grootte van de auto meten: hoe groter de auto, hoe meer schade wordt aangericht bij een botsing. Er geldt echter ook hoe zwaarder de auto, hoe duurder die is, dus deze kenmerken hebben een hoge correlatie (0.837). Wat overblijft om door de cataloguswaarde verklaard te worden, leidt in ons geval, als al rekening gehouden wordt met gewicht, tot een negatief verband tussen de claimhoogte en de cataloguswaarde. Omdat niet aan klanten valt uit te leggen waarom zij meer premie zouden moeten betalen voor een goedkopere auto bij gelijk gewicht, wordt ervoor gekozen om de cataloguswaarde niet op te nemen in het model. 8
W56 staat voor een dummy voor de gewichtscategorieën vijf en zes, wat neerkomt op auto’s zwaarder dan 3000kg.
46
In tabel 6.5 zijn de parameterschattingen weergegeven. De uitkomsten lijken erg op die van het model voor de claimhoogte van personenauto’s. De WA-dekking leidt tot de hoogste claims en de uitbreiding Beperkt Casco tot de laagste. Verder is het gewicht van invloed op de claimhoogte, alleen is het effect niet zo groot dat er een lineair verband gevonden wordt. Er wordt alleen onderscheid gemaakt tussen bestelauto’s lichter en zwaarder dan 3000kg. Tabel 6.4: Analyse model claimhoogte: bestelauto's 2009 Modelspecificatie
Resid. Df
1 1 + dek 1 + wcat 1 + as.factor(wcat) 1 + logwt 1 + w56 1 + r2 1 + catwc 1 + as.factor(catwc) 1 + dek + wcat 1 + dek + as.factor(wcat) 1 + dek + logwt 1 + dek + w56 1 + dek + r2 1 + dek + catwc 1 + dek + as.factor(catwc) 1 + dek + w56 + r2 1 + dek + w56 + catwc 1 + dek + w56 + as.factor(catwc) 1 + dek *w56
1056 1054 1055 1051 1055 1055 1053 1055 1048 1053 1049 1053 1053 1051 1053 1047 1050 1052 1046 1051
Resid. Dev. Deviance 2198.2 2105.6 2189.5 2184.2 2191.3 2185.1 2195.8 2189.3 2159.9 2096.4 2093.3 2097.8 2094.0 2103.1 2099.6 2071.5 2091.5 2083.5 2054.6 2091.9
92.64 8.67 14.01 6.90 13.08 2.42 8.88 38.26 9.11 12.22 7.81 11.54 2.43 5.93 34.06 2.48 10.49 39.45 2.15
∆df Pr(Chi) 2 1 5 1 1 3 1 8 1 5 1 1 3 1 7 3 1 7 2
< 2e-16 0.0032 0.0156 0.0086 0.0003 0.4899 0.0029 6.7E-06 0.0025 0.0319 0.0052 0.0007 0.4889 0.0148 1.7E-05 0.4786 0.0012 1.6E-06 0.3405
Tabel 6.5: Parameterschattingen: finale model claimhoogte bestelauto's 2009 Parameter Constante WA+BC WA+VC Gewicht: >=3000 kg Standaardfout van de regressie
Schatting
Standaardfout
z-waarde
P[>|z|]
6.9716 -1.0014 -0.8549 0.2256
0.1318 0.1515 0.1382 0.0937
52.88 -6.61 -6.19 2.41
< 2e-16 6.1E-11 8.9E-10 0.0162
1.4102
In de regressie met interactietermen (zie onderin tabel 6.4) zijn geen categorieën te vinden die significant afwijken van de basisvariabelen.
47
48
7.
Relatieve premies
In de vorige twee hoofdstukken is de a priori premiestelling behandeld. De a priori premiestelling is van belang bij het aangaan van een nieuwe polis. Wanneer een polis meerdere jaren verzekerd is, ontstaat er een schadeverleden. Om klanten te belonen wanneer zij claimvrij blijven (of te straffen wanneer ze veel claimen), wordt dit schadeverleden gebruikt in de tarifering. Na een claimvrij jaar daalt de premie, maar na een claim zal de premie stijgen. Dit is een vorm van a posteriori tarifering: er wordt gebruik gemaakt van een variabele die pas bekend wordt na het aangaan van de polis. Tarifering op basis van a priori en a posteriori variabelen is een vorm van credibiliteitstheorie. Hierbij wordt een variabele voorspeld aan de hand van informatie over een kleine groep/individu en informatie over een grotere groep, zie Frangos en Vrontos (2001). In de credibiliteitstheorie wordt er dan een gewogen gemiddelde genomen. Dit is echter lastig om aan de klant uit te leggen hoe zoiets precies werkt. Een commerciële toepassing van de credibiliteitstheorie is het Bonus/Malus-systeem (BM). Bij Bruns ten Brink werkt men ook met een BM-systeem in de tarifering. In dit systeem verschuiven klanten op de trap, afhankelijk van hun schadeverloop. Bij de verschillende treden horen verschillende kortingspercentages. Het uiteindelijk doel van dit hoofdstuk is de kortingspercentages (relatieve premies) te bepalen die horen bij het huidige BM-systeem dat in gebruik is bij Bruns ten Brink. Hiertoe wordt eerst de structuur van het BM-systeem besproken. Vervolgens wordt besproken hoe de verdeling van de polishouders over de BM-treden zich door de tijd heen ontwikkelt en wat de verdeling is in de limiet. Met behulp van de limietverdeling kunnen de relatieve premies afgeleid worden. Tot slot worden deze resultaten toegepast op de portefeuille van Bruns ten Brink en wordt onderzocht hoe de relatieve premies zijn onder andere BM-systemen.
7.1
Het Bonus/Malus-systeem
Het BM-systeem is een systeem ontworpen om verzekerden te belonen als ze schadevrij blijven en ze te straffen als ze schades claimen. Een BM-systeem bestaat uit een trap waar bij de verschillende treden verschillende kortingspercentages horen. Verder is er een stelsel met overgangsregels die bepaalt hoe men zich door de jaren heen verplaatst op de BM-trap, afhankelijk van het schadeverloop. Wanneer een BM-trap bijvoorbeeld uit vijf treden bestaat, dan kan men de laagste trede definiëren als zijnde de malustrede waar men komt als men veel claimt en de hoogste trede als de bonustrede waar men komt door niets te claimen. Na een schadevrij jaar stijgt men op de BM-trap en krijgt men korting op de premie (bonus); na een of meerdere schadeclaims daalt men op de BM-trap en krijgt men een opslag op de premie (malus). Om dit enigszins te verduidelijken, volgt hier een eenvoudig voorbeeld. Stel dat een BM-trap uit vijf treden bestaat en trede 1 is de malustrede en trede 5 is de bonustrede. In de tabel 7.1 is een mogelijk Bonus/Malus-systeem weergegeven.
49
Tabel 7.1: Voorbeeld Bonus/Malus-systeem Trede 5 4 3 2 1
Korting 40% 20% 10% 0% -25%
Trede na # schades 0 5 5 4 3 2
1 3 2 1 1 1
>1 1 1 1 1 1
In dit systeem komen nieuwe polishouders binnen op trede 2, waar ze de basispremie betalen. Na een schadevrij jaar komen ze in trede 3, waar ze 10% korting krijgen op de basispremie. Wordt er echter geclaimd in het eerste jaar, dan komt men in de malustrede en moet men 25% meer betalen. In dit systeem zal men na één schade twee treden dalen, maar met twee of meer schades komt men het volgende jaar altijd in de malustrede. Op het hierboven beschreven systeem kan eindeloos gevarieerd worden. Het aantal treden, de bijbehorende kortingspercentages en de overgangsregels kunnen alle aangepast worden. Dit laat de flexibiliteit van het BM-systeem zien: verzekeraars kunnen grotere trappen maken met grotere kortingen na veel schadevrije jaren. Dit is iets wat polishouders aanspreekt, en daarom gebruiken de meeste autoverzekeraars in Nederland een BM-trap met vijftien of meer treden. In Nederland is het zo dat het schadeverleden van verzekerden centraal geregistreerd wordt. Zodoende loont het niet voor brokkenpiloten om jaarlijks van verzekeraar te wisselen, omdat nieuwe verzekeraars het schadeverleden van een persoon kunnen opvragen. Op deze manier ziet een verzekeraar dat de nieuwe klant een slecht schadeverleden heeft en kan deze zelf besluiten in welke trede de klant in te schalen. 7.1.1
Bonus/Malus-systeem van Bruns ten Brink
Bij Bruns ten Brink maakt men ook gebruik van een BM-systeem. De trap die er gebruikt wordt, bestaat uit twintig treden, waarbij trede 20 de bonustrede is en trede 1 de malustrede. Verder wordt er onderscheid gemaakt tussen (i) geen schades, (ii) een schade, (iii) twee schades en (iv) drie schades of meer. Het systeem bestaande uit de treden, de kortingspercentages en de overgangsregels is weergegeven in tabel 7.2. Bij Bruns ten Brink krijgen polishouders tot trede 15 telkens meer korting, daarna wordt er extra schadeverleden opgebouwd. In trede 20 krijgt men een laatste keer korting. Verder valt iemand die zich in de hoogste trede bevindt niet ver terug in premie na een schade door het opbouwen van schadeverleden. Wanneer iemand meer dan twee keer in één jaar claimt, dan valt diegene direct terug naar de malustrede
50
Tabel 7.2: Bonus/Malus-systeem bij Bruns ten Brink Trede Korting 20 19 18 17 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1
80% 75% 75% 75% 75% 75% 75% 72.5% 70% 65% 60% 55% 50% 45% 40% 35% 25% 15% 0% -25%
Trede na # schades 0 20 20 19 18 17 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2
1 15 13 12 11 10 9 8 7 7 6 6 5 4 3 2 1 1 1 1 1
2 8 7 6 6 5 5 4 3 3 2 2 1 1 1 1 1 1 1 1 1
>2 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
In dit systeem is de premie behorend tot trede 2 gedefinieerd als zijnde de basispremie waarover de korting (of de toeslag) berekend wordt. Het is echter niet zo dat alle nieuwe polishouders zonder schadeverleden in trede 2 binnenkomen. Er wordt een bepaalde inschalingprocedure gehanteerd, waarbij rekening gehouden wordt met de leeftijd van de polishouder en het opgegeven kilometrage. Dit is weergegeven in tabel 7.3. Daarnaast worden mensen die wonen in een van de vier grote steden, te weten Amsterdam, Den Haag, Rotterdam of Utrecht, een trede lager ingeschaald. Dit laatste is niet logisch, aangezien deze extra trede beter in de a priori tarifering opgenomen kan worden. Het effect van het lager inschalen zal na verloop van tijd verdwijnen, terwijl de polishouders nog steeds in de grote stad wonen. Door het op te nemen in de a priori tarifering, blijft het effect behouden. Tabel 7.3: Inschalingtabel naar leeftijd en kilometrage
18-20 jr. 21-23 jr. 24 jr. e.o.
Onbeperkt aantal km
minder dan 20.000 km
minder dan 12.000 km
2 3 3
2 3 6
4 5 8
In het verdere onderzoek zal rekening gehouden worden met de BM-trap en de overgangsregels. Er wordt niet gekeken naar de inschalingtreden, omdat er geen informatie beschikbaar is over het
51
kilometrage. Verder is de inschaling ook meer een instrument voor de marketing; men kan zich zo op specifieke doelgroepen richten door bepaalde inschalingregels aan te passen. Nu het ontwerp van het BM-systeem toegelicht is en de regels van het systeem dat bij Bruns ten Brink gebruikt wordt, bekend zijn, kunnen de overgangsregels en kortingspercentages onderzocht worden. In het volgende wordt onderzocht hoe de kortingspercentages zouden moeten zijn, gegeven een bepaald theoretisch raamwerk. Daartoe wordt eerst de limietverdeling van de populatie over de BM-treden bepaald. Vervolgens worden de kortingspercentages behorend tot die BM-treden berekend en worden deze kortingspercentages vergeleken met de huidige kortingspercentages.
7.2
Limietverdeling populatie over BM-treden
De kern van het BM-systeem is dat polishouders bewegen op de trap. Van jaar tot jaar verandert men van trede, afhankelijk van het schadeverloop. Hoe men zich beweegt op de BM-trap is vastgelegd in de overgangsregels, zoals bijvoorbeeld in tabel 7.2. Definieer de overgangskans pij als de kans dat men zich aan het begin van het jaar in trede i bevindt en aan het einde van het jaar in trede j. Men kan deze kans bepalen voor alle i en j en kan deze vervolgens in een matrix zetten. Definieer de matrix P als de matrix die alle overgangskansen bevat. In hoofdstuk 5 werd voor de kansverdeling van de claimfrequentie de Poisson-verdeling als basis gebruikt en later uitgebreid door onzekerheid in de parameter te brengen. Dit gebeurt ook in dit hoofdstuk. In deze paragraaf wordt uitgegaan van een Poisson-verdeling voor de claimfrequentie. In de volgende pragraaf, waar de relatieve premies berekend worden, wordt onzekerheid in de parameter λ gebracht. Stel dat de overgangskansen Poisson(λ)-verdeeld zijn. De overgangsmatrix behorende tot het BM-systeem weergegeven in tabel 7.1 ziet er dan als volgt uit.
(7.1)
exp( exp( P ( ) 0 0 0
0 0 exp( 0 0
exp( 0 0 exp( 0
0 exp( 0 0 exp(
1 1 1 exp( 1 exp( 1 exp(
Hierbij staan de rijen voor de huidige trede en de kolommen voor de trede in het volgende jaar. De eerste rij en kolom zijn voor de hoogste trede, dus met de hoogste korting. De kans dat men in trede 5 komt, gegeven dat men nu in trede 5 zit, is de kans op nul claims, wat gegeven wordt door exp( . De andere elementen van de matrix kunnen op eenzelfde manier ingevuld worden, waarbij in 1 het sommatieteken staat voor de som van de andere rijelementen. Wanneer men wil onderzoeken hoe de verdeling van de polishouders over de BM-treden na enkele jaren is, is het handig om de meerjarige overgangskansen te definiëren. Definieer Lk als de trede waarin men zich in jaar k bevindt. Definieer vervolgens de kans om van trede i naar trede j in n stappen te gaan: (7.2)
52
pij( n ) ( Pr[ Lk n ( j | Lk ( ) i]
als de kans om van trede i naar trede j te gaan, in n stappen. Stel nu dat er s treden zijn, waarbij trede 1 de laagste is en s de hoogste. Dan is de meerjarige overgangskans uit te drukken in eenjarige overgangskansen. s
(7.3)
s
s
pij( n ) (
p
i1 1 i2 1
ii1
in1 1
( pi1i2 (
pin1 j (
De n-jarige overgangsmatrix is dan als volgt weer te geven.
(7.4)
ps( ,ns) ( (n) p ( (n) P ( s 1, s (n) p ( 1, s
ps( ,ns)1 ( ps( n1,) s 1 ( p1,( ns)1 (
ps( ,1n ) ( ) ps( n1,1 ( ( n) p1,1 (
De subscripts in de matrix lijken niet logisch, maar dit komt door de keuze om de hoogste trede de hoogste korting te geven. Hier is voor gekozen omdat bij Bruns ten Brink dit het geval is. Bij de subscripts moet men niet denken aan de rijen en de kolommen, maar aan de treden. Een handige eigenschap van de overgangsmatrices zoals nu gedefinieerd, is dat ze voldoen aan de eigenschap dat P( n ) ( ) Pn ( ) (Denuit et al. 2007, p.174). Om de meerjarige overgangsmatrix te berekenen, kan
men de n-de macht van de eenjarige overgangsmatrix nemen. In het bewijs hiervoor wordt gebruik gemaakt van de volgende vergelijking. s
(7.5)
pij( n 1) ( pi( n ) ( p j ( 1
Wanneer men onderzoekt wat er gebeurt wanneer n groter wordt, blijkt dat de rijen van de matrix P( n ) ( ) na verloop van tijd alle ongeveer gelijk worden en in de limiet waar n naar oneindig gaat, zijn
alle rijen gelijk. Dit betekent dat het systeem stabiel is; de verdeling van de populatie verandert niet meer. Elke rij bevat dan de verdeling van de populatie over de verschillende staten van het systeem (in dit geval de treden). Definieer π als de limietverdeling en als de kans dat men uiteindelijk in BMtrede terechtkomt (element uit π ). Dan geldt dat (7.6)
lim p( n ) ( 2
n
1 2
Combineer nu vergelijking (7.5) en (7.6) en neem de limiet van n naar oneindig, dan krijgt met de volgende vergelijking. s
(7.7)
j ( ( p j ( 1
Aangezien π een limietverdeling is, is de som van de elementen gelijk aan één. Dit feit samen met vergelijking (7.7) leidt tot het volgende stelsel van vergelijkingen. (7.8)
πT ( πT ( P( T π ( e 1
Hierbij is e een vector bestaande uit enen. Definieer E als zijnde een matrix bestaande uit enen. Dan is de oplossing van dit stelsel vergelijkingen als volgt (Denuit et al. 2007, p.179). (7.9)
πT ( eT (I P( E)1
53
Nu is bekend hoe de limietverdeling van de polishouders over de verschillende BM-treden bepaald kan worden. In de volgende paragraaf wordt dit resultaat gebruikt om de relatieve premies te berekenen.
7.3
Relatieve premies
In de vorige paragraaf is onderzocht hoe de limietverdeling van de polishouders over de BM-treden bepaald kan worden. Hierbij werd uitgegaan van een Poisson-verdeling voor de claimfrequentie. In deze paragraaf wordt onderzocht hoe de relatieve premies berekend kunnen worden. Eerst wordt uitgelegd waarom er met relatieve premies gewerkt wordt en hoe ze gebruikt worden in de tarifering. Vervolgens wordt afgeleid hoe de relatieve premies berekend worden. Tot slot worden voor het BM-systeem van Bruns ten Brink de relatieve premies bepaald. 7.3.1
Achtergrond relatieve premies
Bij de verschillende BM-treden horen in de huidige tarifering verschillende kortingspercentages. Definieer r als de relatieve premie behorende tot de BM-trede . Als de relatieve premie uitgedrukt wordt in procenten, dan is de premie die de polishouder betaalt r % van de basispremie die volgt uit de a priori tarifering. In de a priori
tarifering wordt, zoals in de naam besloten zit, rekening gehouden met
karakteristieken die vooraf bekend zijn. Deze a priori tarifering kan echter niet alle onzekerheid weghalen omtrent de claimfrequentie. Er zijn bijvoorbeeld nog variabelen die invloed hebben op de claimfrequentie, maar waar geen informatie beschikbaar over is. Voorbeelden hiervan zijn het karakter en de reflexen van de bestuurder. Deze onzekerheid wordt samengevat in de stochast , net als in hoofdstuk 5. Het is de bedoeling dat de relatieve premies het effect van deze onzekerheid opvangen. Men wil het verschil tussen de relatieve premie en de verborgen onzekerheid zo klein mogelijk maken. De methode die hier gebruikt wordt, is een in de praktijk veel gebruikte methode, namelijk die van de kwadratische verliesfunctie. Er zijn andere verliesfuncties beschikbaar, zoals de exponentiële verliesfunctie. 7.3.2
Bepalen relatieve premies met kwadratische verliesfunctie
Wanneer men een willekeurige polishouder uit een portefeuille pikt, is onbekend wat zijn claimfrequentie is op basis van a priori variabelen. Verder is er ook niet bekend hoeveel verklarende kracht er in variabelen zit die niet opgenomen zijn in de a priori tarifering. Definieer als de stochast voor de parameter van de claimfrequentie en als de stochast die de residuele verklarende kracht bevat. De totale claimfrequentie van een willekeurige polishouder is het product van deze twee stochasten. De stochast bevat informatie over de variabelen die in de a priori tarifering opgenomen zijn, terwijl de stochast informatie bevat over variabelen die daar juist niet in opgenomen zijn. Daarom kunnen deze twee stochasten onafhankelijk verondersteld worden (Denuit et al. 2007, p.185). Uit de a priori tarifering zijn enkele risicocategorieën ontstaan, die elk een eigen gemiddelde claimfrequentie hebben. Het deel van de totale portefeuille dat tot een bepaalde risicocategorie k 54
behoort, wordt weergegeven met P[ k ] wk . Voor elke risicocategorie wordt wk berekend door de exposure behorende tot de risicocategorie te sommeren en te delen door de totale exposure. Doordat de verschillende risicocategorieën verschillende claimfrequenties hebben, verschillen hun limietverdelingen ook. De kans om in de limiet in een bepaalde BM-trede
te eindigen, wordt als
volgt gedefinieerd.
P[ L ] wk (k )dF (
(7.10)
k
0
Hierbij wordt eerst de limietverdeling bepaald voor de verschillende risicocategorieën, rekening houdend met de onzekerheid omtrent λ, waarna de limietverdeling gemiddeld wordt aan de hand van de verschillende gewichten. De volgende stap is om de kwadratische verliesfunctie te minimaliseren. Het minimaliseren E[( rL )2 ] , leidt ertoe dat de relatieve premie die gevraagd
van de kwadratische verliesfunctie,
wordt, zo goed mogelijk het residuele effect van de verborgen variabelen benadert. Deze relatieve premies moeten voor alle polishouders gelden. Voor een willekeurige polishouder zitten er twee kanselementen in de verliesfunctie, namelijk het residuele effect dat opgevangen wordt in de stochast en de BM-trede waarin de polishouder zich bevindt. Het uitwerken van de kwadratische
verliesfunctie leidt tot het resultaat. s
E[( rL ) 2 ] E ( r ) 2 L P[ L ] 1 s
1
0
( r ) 2 P[ L ]dF (
(7.11)
wk k
s
0
( r ) 2
1
(k dF (
Deze functie wil men minimaliseren voor de vector r , welke de relativiteiten voor de verschillende BM-treden bevat. Door te differentiëren, kan men het optimum bepalen. Om te bepalen of dit een minimum is, dient men naar de tweede afgeleide te kijken. (7.12)
E[( rL )2 ] 2 wk ( r ) (k dF ( 0 0 r k
0
0
wk r (k dF ( wk (k dF ( k
(7.13) r
k
w k
k 0
w k
(k dF (
k 0
(k dF (
Wanneer men vergelijking (7.12) nogmaals differentieert, valt het minteken weg en staan er alleen positieve elementen in de uitdrukking. Dit betekent dat de oplossing in (7.13) de kwadratische verliesfunctie minimaliseert. Wanneer er geen sprake is van a priori tarifering en dus geldt dat E[] , dan vallen de sommaties weg en worden de verschillende lambda’s vervangen door de
gemiddelde lambda. De uitdrukking wordt dan als volgt. 55
(7.14)
r
( dF ( ( dF (
0
0
Een laatste resultaat dat volgt uit Denuit et al. (2007, p.186) is de interactie tussen a priori en a posteriori tarifering. Dit is de verwachte claimfrequentie, gegeven een bepaalde BM-trede.
E[ | L ] k P k | L k
k
(7.15)
P L | k wk PL
k
w ( dF ( w ( dF ( k
k
k
k 0
k 0
k
k
Het theoretische raamwerk om de relatieve premies te berekenen, is nu uitgewerkt. In de volgende sectie wordt de theorie toegepast op het huidige BM-systeem van Bruns ten Brink. Verder wordt in de volgende paragraaf onderzocht hoe de relatieve premies veranderen onder andere BM-systemen. 7.3.3
Resultaten relatieve premies
In hoofdstuk 5 zijn de claimfrequenties voor verschillende risicocategorieën bepaald. Samen met de formules afgeleid in de vorige secties, kunnen de relatieve premies berekend worden voor de verschillende portefeuilles. De resultaten voor de personenautoportefeuille 2009 zijn weergegeven in tabel 7.4. In de tweede kolom zijn de relatieve premies weergegeven voor wanneer er geen rekening gehouden wordt met de a priori tarifering, berekend aan de hand van formule (7.14). In de malustrede moet in dit geval bijna veertien keer zoveel premie betaald worden als in de bonustrede. De derde kolom bevat de relatieve premies wanneer er wel rekening gehouden wordt met de a priori tarifering. Hier zien we dat de referentiepremie (die volgt uit de a priori tarifering) tussen de 14e en 15e trede ligt. De bonustrede heeft een relatieve premie van 0.4263, wat betekent dat in de bonustrede minder dan de helft van de referentiepremie betaald hoeft te worden. In de malustrede is de relatieve premie ruim 2.5: hier moet men dus ruim tweeënhalf keer de referentiepremie betalen. De relatieve premies in deze kolom liggen veel dichter bij elkaar dan die waar geen a priori tarifering gebruikt is. Dit komt doordat er door de a priori tarifering al meer risico gekwantificeerd is, waardoor er minder a posteriori gecorrigeerd hoeft te worden. De vierde kolom bevat dezelfde relatieve premies als die in de derde kolom, maar ditmaal is de relatieve premie in trede 2 als basis genomen. Hier is te zien dat de relatieve premie in de laagste treden het sterkste daalt. In de hoogste treden (uitgezonderd de bonustrede) daalt de relatieve premie nauwelijks meer, terwijl de bonustrede weer een flink lagere premie kent dan de trede erboven. Dit komt door de invloed van de limietverdeling op de relatieve premie. In de vijfde en zesde kolom is de limietverdeling van de polishouders over de BM-treden gegeven, zonder en met a priori tarifering. In de limietverdeling bevindt een groot gedeelte van de portefeuille zich in de bonustrede. Verder is de proportie in de BM-trede dalend met de BM-trede: in 56
de laagste trede zit een relatief grote proportie (uitgezonderd de bonustrede) en hogere treden hebben een steeds kleinere proportie van de portefeuille. Er zijn twee schokken in dit dalende patroon, Tabel 7.4: Resultaten relatieve premies: personenauto's 2009 r zonder a priori
r met a priori
r' met a priori
P( L ) zonder a priori
P( L ) met a priori
20 19 18 17 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2
0.2415 0.5480 0.5701 0.5937 0.6192 0.6465 0.8702 0.9061 0.9622 1.0283 1.1075 1.2043 1.3246 1.4510 1.6193 1.8404 2.0720 2.3627 2.7650
0.4263 0.7525 0.7741 0.7968 0.8205 0.8456 1.0581 1.0861 1.1297 1.1794 1.2370 1.3051 1.3871 1.4673 1.5659 1.6896 1.8137 1.9673 2.1857
0.1951 0.3443 0.3542 0.3645 0.3754 0.3869 0.4841 0.4969 0.5169 0.5396 0.5660 0.5971 0.6346 0.6713 0.7164 0.7730 0.8298 0.9001 1
0.4845 0.0199 0.0218 0.0240 0.0265 0.0294 0.0136 0.0158 0.0165 0.0174 0.0183 0.0194 0.0206 0.0230 0.0243 0.0254 0.0305 0.0388 0.0524
0.4661 0.0229 0.0251 0.0275 0.0304 0.0336 0.0154 0.0177 0.0184 0.0191 0.0199 0.0207 0.0216 0.0236 0.0244 0.0249 0.0294 0.0368 0.0492
0.1343 0.1465 0.1474 0.1485 0.1496 0.1507 0.1606 0.1621 0.1645 0.1673 0.1706 0.1746 0.1795 0.1844 0.1904 0.1979 0.2047 0.2122 0.2211
1
3.3348
2.5135
1.1500
0.0780
0.0734
0.2311
E L
namelijk van de 14e naar de 15e trede en van de 19e naar de 20e trede. Dit is het gevolg van de overgangsregels; men komt in de 15e trede na een schadegeval vanuit de 20e trede, en de 20e trede bevat alle goede risico’s en is een soort van absorptietoestand. Men kan nog wel uit deze trede komen, maar deze trede “absorbeert” goede risico’s: als polishouders hier eenmaal zijn, is er een grote kans dat ze daar blijven. De verschillen tussen de limietverdelingen, waar bij de een wel en bij de ander geen rekening gehouden wordt met covariaten, zijn klein. De verschillen komen doordat individuele risicocategorieën beter beoordeeld worden, waardoor deze een andere individuele limietverdeling krijgen. Door deze vervolgens te middelen aan de hand van de totale exposure behorend tot de risicocategorieën, wordt de limietverdeling van de portefeuille verkregen. Tot slot wordt in kolom 7 de verwachte claimfrequentie (gegeven de BM-trede) weergegeven. Deze is dalend met de hoogte van de BM-trede en geeft een indicatie van de risico’s in de betreffende BM-treden. Deze getallen wijken echter flink af met de gemiddelde claimfrequenties zoals gegeven in tabel 4.2. Een mogelijke verklaring hiervoor is dat de Gamma-verdeling mogelijkerwijs niet voldoende onzekerheid introduceert in de parameter λ van de Poisson-verdeling. Hierdoor wordt de claimfrequentie in de lagere BM-treden onderschat. 57
In tabel 7.5 zijn de resultaten weergegeven voor de bestelautoportefeuille 2009. Hierin zijn ongeveer dezelfde resultaten te zien. De referentiepremie (die volgt uit de a priori tarifering) bevindt zich wel een stuk lager op de trap dan voor de personenautoportefeuille; bij de personenauto’s lag de referentiepremie tussen de 14e en de 15e trede, bij de bestelauto’s ligt die tussen de 8e en de 9e trede. Dit betekent dat er in de bestelautoportefeuille vergeleken met de personenautoportefeuille minder mensen in de hoogste treden zitten, doordat de gemiddelde claimfrequentie hoger ligt. Dit is ook terug te zien in de laatste kolom: de claimfrequenties voor de bestelauto’s, gegeven een BM-trede, liggen bijna de helft hoger vergeleken met de personenauto’s. De hogere claimfrequenties hebben zo weer hun impact op de limietverdeling van de polishouders over de BM-treden. Vergeleken met de personenauto’s zijn er bij de bestelauto’s minder polishouders die in de bonustrede verblijven en is het aantal polishouders in de laagste en de tussenliggende treden hoger. In figuur 7.1 zijn de relatieve premies voor de personenauto- en de bestelautoportefeuille (tabel 7.4 en tabel 7.5; kolom 3) naast elkaar gezet. Het verloop van beide grafieken is ongeveer gelijk. De grafiek voor de bestelauto’s loopt iets steiler naar beneden, maar de verschillen tussen de afzonderlijke treden (de korting na het stijgen van een trede) zijn niet groot. Tabel 7.5: Resultaten relatieve premies: bestelauto's 2009
58
r zonder a priori
r met a priori
r' met a priori
PL l zonder a priori
PL l met a priori
20 19 18 17 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2
0.2168 0.4068 0.4227 0.4398 0.4582 0.4780 0.6196 0.6453 0.6851 0.7319 0.7878 0.8557 0.9392 1.0288 1.1503 1.3109 1.4832 1.7042 2.0144
0.3898 0.5938 0.6089 0.6247 0.6413 0.6588 0.7865 0.8064 0.8369 0.8719 0.9128 0.9616 1.0206 1.0818 1.1626 1.2681 1.3801 1.5233 1.7259
0.2258 0.3441 0.3528 0.3619 0.3716 0.3817 0.4557 0.4672 0.4849 0.5052 0.5289 0.5571 0.5913 0.6268 0.6736 0.7347 0.7996 0.8826 1
0.3304 0.0186 0.0207 0.0230 0.0257 0.0288 0.0148 0.0173 0.0185 0.0198 0.0214 0.0232 0.0255 0.0292 0.0320 0.0348 0.0435 0.0579 0.0827
0.3172 0.0200 0.0222 0.0247 0.0276 0.0310 0.0159 0.0185 0.0197 0.0210 0.0225 0.0243 0.0264 0.0300 0.0325 0.0351 0.0434 0.0572 0.0812
0.1974 0.2165 0.2181 0.2197 0.2214 0.2232 0.2363 0.2384 0.2415 0.2450 0.2490 0.2536 0.2590 0.2643 0.2706 0.2780 0.2848 0.2922 0.3013
1
2.4662
2.0264
1.1741
0.1322
0.1295
0.3128
E L
Figuur 7.1: De relatieve premies weergegeven per BM-trede voor de personenauto- en bestelautoportefeuille. Het verschil tussen beide portefeuilles is klein: de relatieve premies voor de bestelautoportefeuille dalen iets sneller dan bij de personenautoportefeuille. De schokken in de grafiek komen door de schokken in de limietverdeling.
7.3.4
Andere BM-systemen
In de huidige tarifering wordt gebruik gemaakt van een BM-trap met twintig treden. In de vorige sectie is gebleken dat de kortingen van trede tot trede niet veel verschillen en dat in de limiet de meeste treden nauwelijks polishouders bevatten. In deze sectie wordt onderzocht hoe de relatieve premies zijn onder andere BM-systemen. Er worden twee (fictieve) alternatieve systemen voorgesteld die minder treden bevatten. De voorgestelde BM-systemen zijn door de auteur bedacht. Met behulp van deze systemen wordt getracht inzicht te verkrijgen in de impact op de relatieve premies door veranderingen in het BM-systeem. De overgangsregels zijn, net als het aantal treden, arbitrair gekozen, maar de logica erachter is hetzelfde als wat in de praktijk nu gebruikt wordt. De BM-systemen die onderzocht worden, zijn weergegeven in tabel 7.6 en 7.7. Voor de vergelijking wordt de personenautoportefeuille gebruikt. Er wordt niet gekeken naar de bestelautoportefeuille, omdat de resultaten ongeveer gelijk zijn, en het toevoegen van resultaten voor de bestelautoportefeuille draagt niet bij aan een beter begrip of dieper inzicht.
59
Tabel 7.6: Alternatief BM-systeem #1 Trede
Trede na # schades
10 9 8 7 6 5 4 3 2
0 10 10 9 8 7 6 5 4 3
1 7 6 5 4 3 2 1 1 1
2 4 3 2 1 1 1 1 1 1
>2 1 1 1 1 1 1 1 1 1
1
2
1
1
1
Tabel 7.7: Alternatief BM-systeem #2 Trede
Trede na # schades
6 5 4 3
0 6 6 5 4
1 4 3 2 1
>1 1 1 1 1
2
3
1
1
1
2
1
1
De resultaten van de relatieve premies voor de alternatieve BM-systemen zijn weergegeven in tabel 7.8 en 7.9. Hierin is te zien dat wanneer het aantal treden afneemt, dat de verschillen tussen de relatieve premies groter worden. Dit was te verwachten, omdat in feite de treden enigszins samengevoegd worden. Wanneer men van trede verandert, verandert de premie in de onderste treden flink, in de hogere treden wat minder en in de hoogste trede wordt weer een flinke korting gegeven. De resultaten voor de limietverdeling en de claimfrequentie zijn ook ongeveer gelijk aan die voor het huidige BM-systeem. Het enige dat wel opvalt, is dat het percentage polishouders in de hoogste trede wel flink is toegenomen. Een verklaring hiervoor is dat de hoogste trede bij de alternatieve systemen sneller bereikt wordt. Hierdoor worden polishouders sneller “geabsorbeerd” in de hoogste trede in plaats van dat ze een lange tijd onderweg zijn naar die hoogste trede.
60
Tabel 7.8: Resultaten relatieve premies: alternatief systeem #1
10 9 8 7 6 5 4 3 2 1
r zonder a priori
r met a priori
r' met a priori
PL zonder a priori
PL met a priori
0.3760 0.9093 0.9795 1.0605 1.5157 1.7040 1.9646 2.4210 2.8638 3.4990
0.5682 1.0331 1.0826 1.1376 1.4640 1.5722 1.7190 1.9807 2.2241 2.5936
0.2555 0.4645 0.4868 0.5115 0.6582 0.7069 0.7729 0.8906 1 1.1662
0.6101 0.0402 0.0469 0.0554 0.0289 0.0315 0.0346 0.0363 0.0474 0.0687
0.6055 0.0444 0.0513 0.0600 0.0297 0.0316 0.0340 0.0344 0.0445 0.0647
E | L
0.1416 0.1623 0.1651 0.1681 0.1863 0.1927 0.2009 0.2145 0.2244 0.2358
Tabel 7.9: Resultaten relatieve premies: alternatief systeem #2
6 5 4 3 2 1
7.4
r zonder a priori
r met a priori
r' met a priori
PL zonder a priori
PL met a priori
0.4954 1.2799 1.4411 2.2137 2.6933 3.4778
0.6669 1.2581 1.3539 1.8382 2.1077 2.5704
0.3164 0.5969 0.6424 0.8721 1 1.2196
0.6992 0.0626 0.0780 0.0439 0.0515 0.0647
0.6990 0.0662 0.0813 0.0427 0.0493 0.0615
E | L
0.1464 0.1752 0.1804 0.2064 0.2179 0.2336
Te gebruiken BM-systeem
In de vorige paragraaf is onderzocht wat de kortingen zouden moeten zijn voor het huidige BMsysteem volgens het theoretische model. Ook is onderzocht hoe deze kortingen veranderen onder verschillende BM-systemen, waarbij twee alternatieve BM-systemen zijn voorgesteld. De conclusie van de vergelijking tussen de verschillende systemen is dat wanneer het aantal treden te groot wordt, de verschillen tussen de onderlinge relatieve premies (te) klein worden. In de huidige tarifering krijgt men tot de vijftiende trede telkens vijf of tien procent korting, iets wat makkelijk aan de klant uit te leggen is. Daarna krijgen ze geen korting meer op de premie, maar bouwen ze nog wel schadeverleden op, waardoor de terugval in premie na een schade minder wordt. Wanneer voor de overgangsregels van het huidige systeem de relatieve premies berekend worden, blijkt dat de premie van trede tot trede vaak minder dan vijf procent verschilt. Dit komt doordat in de hoogste vijf treden ook nog korting gegeven wordt, waar in de huidige tarifering de premie vanaf trede vijftien gelijk is. Hierdoor wordt de totale korting uitgesmeerd over meer treden. De hoogste trede levert hier echter wel een flinke korting op.
61
Voor de uiteindelijke tarifering dient een keuze gemaakt te worden voor een BM-systeem. Als men een systeem wil met veel treden, kan men kiezen voor het huidige systeem met de bijbehorende relatieve premies. De vraag is echter of de grote hoeveelheid treden leidt tot een beter systeem. Een systeem met minder treden leidt tot grotere kortingen, welke ook eerder bereikt kunnen worden. Dit is voor de klanten misschien wel aantrekkelijker dan een uitgebreider systeem. Dit is een beslissing voor het management. Nu de verschillende onderdelen van de tarifering behandeld zijn, kunnen deze samengevoegd worden waaruit de finale tarifering ontstaat. Dit wordt in het volgende hoofdstuk gedaan. In het volgende hoofdstuk worden ook enkele voorbeelden gegeven van de ontwikkeling van de premie voor verschillende klanten en verschillende schadeverledens.
62
8.
Premiestelling
De premiestelling binnen het bedrijf Bruns ten Brink (en bij de meeste andere autoverzekeraars) bestaat uit een a priori en een a posteriori gedeelte. Over totaal nieuwe klanten, die nog nooit eerder een autoverzekering afgesloten hebben, is slechts beperkte informatie beschikbaar. De informatie die beschikbaar is (de a priori variabelen), leidt tot de pure premium. In hoofdstuk 2 is besloten om de pure premium op te splitsen in twee delen. De pure premium wordt berekend door de verwachte claimfrequentie te vermenigvuldigen met de verwachte schadelast per schadegeval. De claimfrequentie is in hoofdstuk 5 gemodelleerd aan de hand van een GammaMixed-Poisson-verdeling, wat resulteert in een Negatief Binomiale verdeling. De claimhoogte is in hoofdstuk 6 gemodelleerd aan de hand van de Lognormale verdeling. Beide modellen bevatten a priori variabelen. Na verloop van tijd ontstaat er voor iedere polishouder een schadeverleden. Mensen kunnen claimvrij blijven of ze dienen claims in. Verzekeraars willen de premie van de polishouders aanpassen aan het risico dat de polishouders achteraf blijken op te leveren. Dit risico wordt gekwantificeerd in het schadeverleden. Het schadeverleden is een a posteriori variabele: deze wordt pas achteraf bekend. Een systeem om de premie van de polishouders aan te passen aan de hand van het schadeverleden, is met behulp van een Bonus/Malus-systeem. In hoofdstuk 7 is het ontwerp van het BM-systeem toegelicht en zijn de bijbehorende relatieve premies berekend. Nu de afzonderlijke delen van de premiestelling bepaald zijn, kunnen ze samengevoegd worden. In dit hoofdstuk worden de parameterschattingen van de uiteindelijke modellen nogmaals weergegeven en wordt toegelicht hoe men hieruit de algemene premiestelling kan extraheren. Voor enkele voorbeeldpolishouders wordt de premie bepaald die ze dienen te betalen. Hierbij wordt uitgegaan van het BM-systeem dat momenteel gebruikt wordt bij Bruns ten Brink.
8.1
Premiestelling personenauto’s
De resultaten van het modelleren van de claimfrequentie en de claimhoogte voor personenauto’s zijn weergegeven in tabel 8.1 en tabel 8.2. Tabel 8.1: Parameterschattingen finale model claimfrequentie personenauto's 2009 Parameter Constante WA+BC WA+CASCO Logwt Regio 3 Regio 4 Regio 5 a (parameter in gamma-verdeling)
Schatting
Standaardfout
z-waarde
P[>|z|]
-2.8183 0.9775 1.0755 0.6631 0.0791 0.2738 0.1924
0.0360 0.0288 0.0313 0.0546 0.0244 0.0576 0.3754
-78.39 34.00 34.35 12.16 3.24 4.75 0.51
< 2e-16 < 2e-16 < 2e-16 < 2e-16 0.0012 2.0E-06 0.6084
0.9433
63
Tabel 8.2: Parameterschattingen: finale model claimhoogte personenauto 2009 Parameter Constante WA+BC WA+CASCO Regio 3 Regio 4 Regio 5 Cataloguswaarde Dummy: lichtste auto's Standaardfout van de regressie
Schatting
Standaardfout
z-waarde
P[>|z|]
7.0232 -1.2906 -1.0236 0.1016 0.2059 0.3188 0.0436 -0.1423
0.0328 0.0357 0.0683 0.0297 0.0700 0.4438 0.0211 0.0823
214.24 -36.13 -14.99 3.42 2.94 0.72 2.07 -1.73
< 2e-16 < 2e-16 < 2e-16 0.0006 0.0033 0.4726 0.0387 0.0836
1.3295
De formules om het gemiddelde van de claimfrequentie en de claimhoogte te berekenen zijn als volgt. (8.1)
E[ Ni ] i exp(xi β)
(8.2)
2 E ( Si ) exp xi β 2
Om nu duidelijk te maken hoe men vanuit de tabellen 8.1 en 8.2 met behulp van de vergelijkingen (8.1) en (8.2) de premiestelling kan vinden, worden nu enkele voorbeelden gegeven. Voorbeeld 8.1 Klant wil een WA-verzekering, woont in regio 29, auto weegt 1300kg, auto heeft een cataloguswaarde van €15.000 en de klant zit in BM-trede 13. De verwachte claimfrequentie is:
E[ N1 ] exp Dekking Regio Gewicht Cataloguswaarde exp 2.8183 0 0.6631 0.3424+0 0.0750 Hierbij is de opslag voor de regio nul, omdat regio 2 gelijk is aan regio 1 en deze valt binnen de intercept. Het gewicht van de auto valt binnen de vierde categorie, de waarde van logwt die hierbij hoort, is 0.3424 (zie tabel 5.2). Verder is de cataloguswaarde alleen te gebruiken bij de dekking WA+Casco,omdat de cataloguswaarde voor de andere dekkingen niet beschikbaar was. De verwachte schadelast is: E[ S1 ] exp Dekking Regio Gewicht Cataloguswaarde 12 exp 7.0232 0 0 0 12 1.32952 2716.19
De pure premium voor deze klant is het product van de vorige twee uitkomsten:
Pure Premium1 E N1 E S 1 0.0750 2716.19 203.71 De klant bevindt zich in trede 13, dus de premie die hij dient de betalen, is de pure premium vermenigvuldigd met de relatieve premie zoals gegeven in tabel 7.4. Premie1 Pure Premium1 r13 203.71 1.0861 221.25
9
In de regressies is gebleken dat er geen significant verschil zit tussen regio 1 en regio 2.
64
Voorbeeld 8.2 Klant wil een WA+BC-verzekering, woont in regio 4, auto weegt 740kg, auto heeft een cataloguswaarde van €9.000 en de klant zit in BM-trede 3. De verwachte claimfrequentie en claimhoogte zijn:
E[ N 2 ] exp Dekking Regio Gewicht Cataloguswaarde exp 2.8183 0.9775 0.2738 0.6631 0 0 0.2087 E[ S2 ] exp Dekking Regio Gewicht Cataloguswaarde 12 exp 7.0232 1.2906 0.2059 0.1423 0 12 1.32952 796.31
De Pure Premium en de premie die betaald dienen te worden, zijn: Pure Premium 2 E N 2 E S 2 0.2087 796.31 166.19 Premie2 Pure Premium 2 r3 166.19 1.9673 326.94
Voorbeeld 8.3 Klant wil een WA+Casco-verzekering, woont in regio 3, auto weegt 1600kg, auto heeft een cataloguswaarde van €30.000 en de klant zit in BM-trede 20. De verwachte claimfrequentie en claimhoogte zijn:
E[ N 2 ] exp Dekking Regio Gewicht Cataloguswaarde exp 2.8183 1.0755 0.0791 0.6631 0.4150 0 0.2494 E[ S2 ] exp Dekking Regio Gewicht Cataloguswaarde 12 exp 7.0232 1.0236 0.1016 0 0.0436 4 12 1.32952 1286.12
De Pure Premium en de premie die betaald dienen te worden, zijn: Pure Premium 2 E N 2 E S 2 0.2494 1231.25 320.76 Premie2 Pure Premium 2 r3 320.76 0.4263 136.74
65
8.2
Premiestelling bestelauto’s
De resultaten van het modelleren van de claimfrequentie en de claimhoogte voor bestelauto’s zijn weergegeven in tabel 8.3 en tabel 8.4. Tabel 8.3: Parameterschattingen finale model claimfrequentie bestelauto's 2009 Parameter Constante WA+BC WA+CASCO Wcat W6 Cataloguswaarde Regio 3 Regio 4 Regio 5 a (parameter in gamma-verdeling)
Schatting
Standaardfout
z-waarde
P[>|z|]
-2.8532 0.9321 0.9342 0.1197 -0.6380 0.1069 0.1548 0.2958 0.3986
0.1531 0.1131 0.1577 0.0340 0.1361 0.0416 0.0632 0.1518 0.2214
-18.64 8.24 5.92 3.53 -4.69 2.57 2.45 1.95 1.80
< 2e-16 < 2e-16 0.0000 0.0004 0.0000 0.0102 0.0144 0.0512 0.0718
1.2340
Tabel 8.4: Parameterschattingen: finale model claimhoogte bestelauto's 2009 Parameter Constante WA+BC WA+CASCO Gewicht: >=3000 kg Standaardfout van de regressie
Schatting
Standaardfout
z-waarde
P[>|z|]
6.9716 -1.0014 -0.8549 0.2256
0.1318 0.1515 0.1382 0.0937
52.88 -6.61 -6.19 2.41
< 2e-16 6.1E-11 8.9E-10 0.0162
1.4102
Voorbeeld 8.4 Klant wil een WA-verzekering, woont in regio 4, bestelauto weegt 2200kg, auto heeft een cataloguswaarde van €25.000 en de klant zit in BM-trede 11. De verwachte claimfrequentie is:
E[ N 4 ] exp Dekking Regio Gewicht Cataloguswaarde exp 2.8532 0.2958 0.1197 3 0 0.1110 De verwachte schadelast is: E[ S4 ] exp Dekking Regio Gewicht Cataloguswaarde 12 exp 6.9716 0 0 0 12 1.41022 2881.11
De pure premium voor deze klant is het product van de vorige twee uitkomsten:
Pure Premium4 E N4 E S 4 0.1110 2881.11 319.78 De klant bevindt zich in trede 13, dus de premie die hij dient de betalen, is de Pure Premium vermenigvuldigt met de relatieve premie zoals gegeven in tabel 7.4. Premie4 Pure Premium4 r11 319.78 0.8719 278.82
Zie tabel 7.5 voor de gebruikte relatieve premies.
66
Voorbeeld 8.5 Klant wil een WA+BC-verzekering, woont in regio 1, bestelauto weegt 3500kg, auto heeft een cataloguswaarde van €30.000 en de klant zit in BM-trede 17. De verwachte claimfrequentie en claimhoogte zijn:
E[ N5 ] exp Dekking Regio Gewicht Cataloguswaarde exp 2.8532 0.9321 0 0.1197 6 0.6380 0 0.1587 E[ S5 ] exp Dekking Regio Gewicht Cataloguswaarde 12 exp 6.9716 1.0014 0 0.2256 0 12 1.4102 2 1326.28
De Pure Premium en de premie die betaald dienen te worden, zijn: Pure Premium5 E N5 E S 5 0.1587 1326.28 210.48 Premie5 Pure Premium5 r17 210.48 0.6247 131.49
Voorbeeld 8.6 Klant wil een WA+Casco-verzekering, woont in regio 3, bestelauto weegt 1400kg, auto heeft een cataloguswaarde van €15.000 en de klant zit in BM-trede 1. De verwachte claimfrequentie en claimhoogte zijn:
E[ N6 ] exp Dekking Regio Gewicht Cataloguswaarde exp 2.8532 0.9342 0.1548 0.1197 1 0.1069 2 0.2391 E[ S6 ] exp Dekking Regio Gewicht Cataloguswaarde 12 exp 6.9716 0.8549 0 0 0 12 1.4102 2 1225.41
De Pure Premium en de premie die betaald dienen te worden, zijn: Pure Premium6 E N 6 E S 6 0.2391 1225.41 293.00 Premie6 Pure Premium6 r1 293.00 2.0264 593.73
8.3
Controle financieel evenwicht
De claimfrequentie is in hoofdstuk 5 gemodelleerd met behulp van een Generalized Linear Model (GLM) onder de veronderstelling dat de claimfrequentie Negatief Binomiaal verdeeld is. De claimhoogte is in hoofdstuk 6 ook met behulp van een GLM gemodelleerd, waarbij werd verondersteld dat de claimhoogte Lognormaal verdeeld is. Deze twee onderdelen leiden samen tot de a priori tarifering. Voor de a posteriori tarifering zijn in hoofdstuk 7 relatieve premies berekend aan de hand van Bayesiaanse statistiek en met behulp van de concepten van het BM-systeem. Deze drie onderdelen samen leiden tot de uiteindelijke tarifering. Voordat deze tarifering ingevoerd kan worden, moet gecontroleerd worden of de voorgestelde tarifering leidt tot een financieel evenwicht, waarbij de inkomende premies voldoende moeten zijn om de schadelast te dekken. Daartoe wordt in deze paragraaf voor de beide portefeuilles (personen- en 67
bestelauto) voor iedere polis de verwachte claimfrequentie en de verwachte claimhoogte berekend. Samen met de BM-trede en de exposure wordt de premie bepaald die onder de voorgestelde tarifering gevraagd zou zijn. De afzonderlijke delen (verwachte claimfrequentie, verwachte claimhoogte en totale premiesom) worden vergeleken met de kengetallen uit de dataset (gemiddelde claimfrequentie, gemiddelde claimhoogte en totale schadelast). Mogelijke verschillen die uit deze analyse volgen, worden hierna besproken. 8.3.1
Nieuwe tarifering doorberekenen
De resultaten van het doorberekenen van de nieuwe tarifering voor de personenauto- en de bestelautoportefeuille zijn weergegeven in tabel 8.5 en tabel 8.6. Bij de berekening van de premiegegevens op basis van de nieuwe tarifering is rekening gehouden met de exposure van de polis. Tabel 8.5: Controlestatistieken voor personenautoportefeuille 2009 Statistiek Gemiddelde claimfrequentie Gemiddelde schadelast Totale premiesom Totale schadelast Ratio schade/premie
Empirische data
Theoretisch model
0.1361 1632.74 11,760,653
0.1372 1971.29 13,715,231 -
0.8575
Tabel 8.6: Controlestatistieken voor bestelautoportefeuille 2009 Statistiek Gemiddelde claimfrequentie Gemiddelde schadelast Totale premiesom Totale schadelast Ratio schade/premie
Empirische data
Theoretisch model
0.2287 1505.32 -
0.2289 1696.20 1,510,797
1,591,122
-
1.0532
Voor beide portefeuilles blijkt de claimfrequentie goed gemodelleerd te zijn. De verschillen tussen de uitkomsten van het theoretische model en de waarden die volgen uit de dataset, zijn vrij klein. De claimhoogte lijkt minder goed gemodelleerd te zijn. Voor beide portefeuilles is het gemiddelde dat volgt uit het model hoger dan het gemiddelde uit de dataset. Dit zegt echter nog niets over de kwaliteit van het model. Later in deze paragraaf wordt de kwaliteit van het model nader onderzocht. De totale premiesom is voor de personenautoportefeuille veel hoger dan de totale schadelast. Hieruit kan men concluderen dat de voorgestelde tarifering leidt tot te hoge premies voor de personenauto’s. De ratio schade/premie die in tabel 8.5 is weergegeven, hoort bij een perfect model gelijk te zijn aan één. Een waarde lager dan één betekent dat er te veel premie gevraagd wordt; een waarde hoger dan één betekent dat er te weinig premie gevraagd wordt. Dit laatste is het geval bij de bestelautoportefeuille. De tarifering voor bestelauto’s leidt ertoe dat er ongeveer vijf procent te weinig premie binnenkomt. 68
Er dient hierbij opgemerkt te worden dat al deze resultaten het resultaat zijn van een steekproef: de gegevens uit de dataset zijn een steekproef en het model dat hieruit volgt is direct afhankelijk van deze steekproef. Derhalve vertellen deze statistieken niet het hele verhaal, maar ze geven wel een indicatie van de kwaliteit van het model. De totale premiesom is het resultaat van de claimfrequentie, de claimhoogte en de relatieve premies. Uit de tabellen 8.5 en 8.6 blijkt dat het model voor de claimfrequentie redelijk voorspelt. Gegeven dat de mogelijke uitkomsten voor de claimfrequentie (0, 1, 2, …) zijn, waarbij de kansmassa voornamelijk gecentreerd is rond de waarden 0, 1 en 2 (zie figuur 5.1), kan beredeneerd worden dat dit met de Negatief Binomiale verdeling ook redelijk goed gemodelleerd kan worden. De kwaliteit van het model voor de claimhoogte is echter lastiger te beoordelen en wordt daarom in de volgende sectie uitvoeriger besproken. Daarna volgt een toelichting op de relatieve premies. Door een verschil tussen de limietverdeling en de huidige verdeling van de polishouders over de BM-treden, en het ontbreken van bepaalde data in de dataset, kunnen de relatieve premies ook zorgen voor afwijkingen.
Figuur 8.1: Relatieve frequentie histogrammen van de claimhoogte voor bepaalde risicocategorieën uit de personenautoportefeuille 2009.
69
8.3.2
Beoordeling model voor claimhoogte
Uit de tabellen 8.5 en 8.6 lijkt de claimhoogte niet goed voorspeld te worden. Om te onderzoeken in hoeverre dit het geval is, wordt voor verschillende risicogroepen de empirische claimhoogte weergegeven in een histogram, zie figuur 8.1. Over deze histogram is de Lognormale verdeling geplot met parameters behorende tot de betreffende risicogroep; de parameters volgen uit het model. Daarnaast is de verwachte claimhoogte weergegeven door de verticale lijn. De grafiek in het histogram rechtsboven is de enige die duidelijk afwijkt van de empirische data. De andere grafieken lijken de empirische data goed te benaderen. De verschillen in verwachte claimhoogte voor verschillende dekkingen komen duidelijk naar voren, wat na hoofdstuk 4 te verwachten was. Om een duidelijker beeld te krijgen van de kwaliteit van het model, wordt vervolgens gekeken naar dezelfde histogrammen, maar dan op een logaritmische schaal. Daardoor wordt duidelijker hoe
Figuur 8.2: Relatieve frequentie histogrammen van de logaritme van de claimhoogte voor bepaalde risicocategorieën uit de personenautoportefeuille 2009. De dikke lijn geeft de theoretische verdeling weer (op basis van het model); de dunne lijn geeft de empirische verdeling weer.
70
goed de fit van het model is, zie figuur 8.2. Hierin is te zien dat de verdeling van de claimhoogte verschillende toppen kent. In het huidige model kan dit niet opgenomen worden, wat een mogelijke verklaring is voor de enigszins slechte fit van het model. Het uitbreiden van het model, waarbij een mengsel van verdelingen gekozen wordt, kan leiden tot een betere fit. Verder is de variantie van de verdeling ook gelijk verondersteld voor de verschillende risicocategorieën. In figuur 8.2 is echter te zien dat dit niet helemaal opgaat (vergelijk de figuur rechtsboven met de figuur linksonder), wat een ander kritiekpunt op het model is. Het aanpassen van het model zodanig dat hier rekening mee gehouden wordt, zal leiden tot een beter voorspellend model. Het schatten ervan wordt echter lastiger, omdat er een samenstelling van verdelingen geschat dient te worden voor de verschillende toppen, en het aantal te schatten parameters neemt flink toe als de variantie afhankelijk wordt van de risicokenmerken. 8.3.3
Problemen omtrent de relatieve premies
Door de verwachte claimfrequentie en de verwachte claimhoogte met elkaar te vermenigvuldigen, krijgt men de pure premium. Echter, om de premie te bepalen die de polishouder dient te betalen, moet er vermenigvuldigd worden met de relatieve premie behorende tot de BM-trede van de polishouder. Voor de polishouders in de dataset is bekend welk kortingspercentage genoten werd in het betreffende schadejaar. Aangezien het kortingspercentage gekoppeld is aan de BM-treden, kan de BM-trede voor de verschillende polishouders bepaald worden. Echter, het kortingspercentage van 75% wordt in de huidige tarifering in meerdere BM-treden gegeven (trede 14 t/m trede 19). Aangezien alleen het kortingspercentage bekend is en niet de BMtrede, komen al deze polishouders in één grote groep. Waar in de huidige tarifering twintig BM-treden zijn, kan er slechts onderscheid gemaakt worden tussen vijftien verschillende treden. Aangezien in de voorgestelde a posteriori tarifering voor de treden 14 t/m 19 verschillende relatieve premies berekend zijn, kan er in de berekening van de premie die betaald zou moeten worden onder de voorgestelde tarifering voor deze treden niet de juiste premie berekend worden. Voor deze polishouders is namelijk alleen bekend dat ze zich ergens in de treden 14 t/m 19 bevinden. Om de juiste relatieve premie voor deze polishouders te benaderen, wordt voor deze polishouders de gemiddelde relatieve premie behorende tot deze BM-treden gebruikt. Dit leidt er echter wel toe dat de premie niet helemaal zuiver bepaald kan worden voor de polishouders in de treden 14 t/m 19. Verder zijn de relatieve premies berekend aan de hand van de limietverdeling van de polishouders over de BM-treden. In figuur 8.3 zijn voor de personenauto- en de bestelautoportefeuille de limietverdeling en de huidige verdeling over de BM-treden weergegeven. In dit figuur is te zien dat de limietverdeling niet overeenkomt met de huidige verdeling van de polishouders over de BM-treden. Dit leidt er mogelijk toe dat de relatieve premies juist zijn voor polishouders in de limietverdeling, maar niet voor de huidige polishouders in de huidige treden.
71
Figuur 8.3: De verdeling van de polishouders over de BM-treden, in de dataset en in de limiet.
72
9.
Conclusie en aanbevelingen
Het doel van dit onderzoek was het bepalen van een nieuwe premiestelling waarbij de premies overeenkomen met de onderliggende risico’s. De voorgestelde premiestelling bestaat uit drie delen: (i) de claimfrequentie, (ii) de claimhoogte en (iii) de relatieve premie. Het modelleren van de claimfrequentie en de claimhoogte is gedaan met behulp van Generalized Linear Models en het bepalen van de relatieve premies aan de hand van de Bayesiaanse statistiek en concepten van Bonus/Malus-systemen. De uitkomsten van het model voor de claimfrequentie in hoofdstuk 5 zijn redelijk goed. De gemiddelde claimfrequentie die uit het model volgt, is bijna gelijk aan de gemiddelde claimfrequentie uit de dataset. Het model voor de claimhoogte in hoofdstuk 6 lijkt de gemiddelde claimhoogte te overschatten. Voor zowel de personenauto- als de bestelautoportefeuille is de gemiddelde schade enkele honderden euro’s te hoog. Vervolgens zijn in hoofdstuk 7 de relatieve premies berekend, aan de hand van de limietverdeling van de polishouders over de verschillende BM-treden. Doordat de limietverdeling niet overeenkomt met de huidige verdeling van de polishouders over de BM-treden, is er een mismatch tussen de voorgestelde premiestelling en onderliggende risico’s, zoals blijkt uit hoofdstuk 8. De uitkomsten van het onderzoek dienen niet ingevoerd te worden zonder nadere inspectie door een marketingteam. De hoogte van de premies dient vergeleken te worden met de premiehoogte in de markt. Het onderzoek geeft echter wel de verhoudingen weer tussen de verschillende risicocategorieën. Om in de toekomst beter onderzoek te kunnen uitvoeren, kan men een aantal dingen verbeteren. Zo zou het de kwaliteit van het onderzoek ten goede komen wanneer voor iedere polis een regio ingevuld wordt. Verder was in dit onderzoek niet voor iedere polis de juiste exposure te bepalen, omdat er geen einddatum van het contract bekend was. Daarnaast wordt er in het systeem altijd een claim geteld indien er iets geclaimd wordt, ook al blijkt een claim onterecht. In deze gevallen is het schadebedrag nul, maar komt er in de administratie wel een claim te staan. Wanneer dit in het systeem veranderd wordt, kan de claimfrequentie zuiverder geschat worden. In de dataset was de informatie over de plek op de BM-trap gegeven in de vorm van een kortingspercentage. Echter, doordat verschillende treden in de huidige tarifering een gelijk kortingspercentage hebben, zijn enkele treden samengevoegd. Hierdoor gaat informatie verloren die het testen van de nieuwe tarifering bemoeilijken.
73
74
10.
Literatuurlijst
Bain L.J. & Engelhardt M. (1992). “Introduction to probability and mathematical statistics”, Brooks/Cole, Californië. Denuit M., Maréchal X., Pitrebois S. & Walhin J.F. (2007). “Actuarial Modelling of Claim Counts”, Wiley, New York. Frangos N.E. & Vrontos S.D. (2001). “Design of optimal Bonus-Malus systems with a frequency and a severity component on an individual basis in automobile insurance”, ASTIN Bulletin, vol. 31, nr. 1, pp 1-22. Haberman S. & Renshaw A.E. (1996). “Generalized Linear Models and Actuarial Science”, Journal of the Royal Statistical Society, vol. 45, nr. 4, pp. 407-436. Heller G.Z., Stasinopoulos D.M., Rigby R.A. & De Jong P. (2007). “Mean and dispersion modelling for policy claim costs”, Scandinavian Actuarial Journal, vol. 4, pp. 281-292. Jørgensen B. (1997). “The theory of dispersion models”, Chapman & Hall, Londen. Kaas R., Goovaerts M., Dhaene J. & Denuit M. (2008). “Modern Actuarial Risk Theory – Using R”, Springer, Berlijn. Lawless J.F. (1987). “Negative Binomial and Mixed Poisson Regression”, The Canadian Journal of Statistics, vol. 15, nr. 3, pp. 209-225. McCullagh P. & Nelder J.A. (1989). “Generalized Linear Models”, Chapman & Hall, Londen. Michael J.R. (1983). “The Stabilized Probability Plot”, Biometrika, vol. 70, nr. 1, pp. 11-17. Pitrebois S., Denuit M. & Walhin J.F. (2006). “An actuarial analysis of the French bonus-malus system”, Scandinavian Actuarial Journal, vol. 5, pp. 247-264. Werner G. & Guven S. (winter 2007). “GLM basis modelling: avoiding common pitfalls”, Casualty Actuarial Society Forum, pp. 257-272. Zuanette D.A., Diniz C.A.R. & Leite J.G. (2006). “A lognormal model for insurance claims data”, REVSTAT – Statistical Journal, vol. 4, nr. 2, pp. 131-142.
75
76
Appendix A.
Parameterschattingen voor interactietermen
In deze appendix worden de parameterschattingen gegeven voor de interactietermen in de regressies behorende tot hoofdstuk 5 en hoofdstuk 6. De tabellen worden in dezelfde volgorde gegeven als ze in de hoofdtekst behandeld worden.
A.1
Personenauto’s 2009: claimfrequentie
In tabel A.1 zijn de resultaten weergegeven van de regressie waarin interactietermen zijn opgenomen. Er zijn twee nieuwe variabelen die significant zijn en ertoe doen, namelijk WA+BC:Logwt en Regio3:Logwt. Dit heeft echter tot gevolg dat oorspronkelijke variabelen niet meer significant zijn. Verder is de likelihoodratio-statistic te laag om significant te zijn, ook als alleen die twee nieuwe significante variabelen toegevoegd worden. Tabel A.1: Parameterschattingen model incl. interactietermen: claimfrequentie personenauto's 2009 Parameter
Schatting
Standaardfout
z-waarde
P[>|z|]
-2.8860 0.9615 1.1910 0.0459 -0.0115 -21.440 0.2213 0.4767 0.1934 0.4114 0.4337 0.0255
0.1109 0.1459 0.1919 0.1318 0.3335 114800 0.1160 0.1178 0.1402 0.2022 0.2903 0.0130
-26.03 6.59 6.21 0.35 -0.04 0.00 1.91 4.05 1.38 2.03 1.49 1.96
< 2e-16 4.4E-11 5.4E-10 0.7274 0.9724 0.9999 0.0564 0.0001 0.1676 0.0419 0.1352 0.0498
Constante WA+BC WA+CASCO Regio 3 Regio 4 Regio 5 Logwt WA+BC:Logwt WA+CASCO:Logwt Regio 3:Logwt Regio 4:Logwt Regio 5:Logwt LR-Stat (vergeleken met finale model) Df
A.2
2.9000 5
Bestelauto’s 2009: claimfrequentie
In tabel A.2 zijn de resultaten van de regressie met de interactietermen voor de claimfrequentie van de bestelauto’s weergegeven. Van de originele variabelen zijn er enkele niet meer significant. Verder zijn de enige significante nieuwe variabelen degene met regio 5 erbij. Dit zijn variabelen die niet in het uiteindelijke model opgenomen kunnen worden, omdat regio 5 de polissen bevat waarbij de regio onbekend is. Het uitbreiden van het model in paragraaf 5.5 met interactietermen heeft dus niet veel zin, omdat de toegevoegde interactietermen nauwelijks significant zijn en de toename in de kwaliteit van het model, gegeven het aantal extra parameters, is ook niet significant.
77
Tabel A.2: Parameterschattingen en bijbehorende standaardfouten: interactietermen Parameter
Schatting Standaardfout
Constante WA+BC WA+CASCO Wcat W6 Catwc Regio 3 Regio 4 Regio 5 WA+BC : Wcat WA+CASCO : Wcat WA+BC : W6 WA+CASCO : W6 Regio3:Wcat Regio4:Wcat Regio5:Wcat Regio3:W6 Regio4:W6 Regio5:W6 Regio3:Catwc Regio4:Catwc Regio5:Catwc WA+BC : Regio3 WA+CASCO : Regio3 WA+BC : Regio4 WA+CASCO : Regio4 WA+BC : Regio5 WA+CASCO : Regio5
-3.1525 1.2023 1.4400 0.1479 -0.9945 2.2146 0.2084 -0.9769 0.0843 -0.0983 -0.1219 0.4784 0.3747 0.0123 0.2976 -0.4217 -0.0017 -0.4842 -0.1851 0.0433 -0.1490 0.6118 0.0227 -0.1889 0.6601 0.3383 -1.3843 -2.0713
LR-Stat (vergeleken met finale model) Df
20.2364 19
A.3
0.3692 0.4199 0.4097 0.3173 0.8295 1.3538 0.0994 0.4226 0.0627 0.1121 0.1034 0.4814 0.4369 0.0703 0.1879 0.2728 0.2806 0.7086 1.2596 0.0859 0.2169 0.2500 0.2370 0.3264 0.4715 0.7917 1.1565 1.1791
z-waarde
P[>|z|]
-8.54 2.86 3.52 0.47 -1.20 1.64 2.10 -2.31 1.35 -0.88 -1.18 0.99 0.86 0.18 1.58 -1.55 -0.01 -0.68 -0.15 0.50 -0.69 2.45 0.10 -0.58 1.40 0.43 -1.20 -1.76
< 2e-16 0.0042 0.0004 0.6412 0.2306 0.1019 0.0361 0.0208 0.1786 0.3804 0.2386 0.3204 0.3910 0.8613 0.1131 0.1221 0.9952 0.4944 0.8832 0.6141 0.4921 0.0144 0.9236 0.5626 0.1615 0.6691 0.2313 0.0790
Personenauto’s 2009: claimhoogte
In tabel A.3 zijn de parameterschattingen gegeven voor het model waarin ook interactietermen opgenomen zijn. Het toevoegen van de interactietermen leidt tot een betere fit met een significantieniveau van 5%. Echter, geen van de interactietermen heeft significant voorspellende waarde. Verder heeft het toevoegen van de interactietermen tot gevolg dat het gewicht niet langer significant voorspellende waarde heeft. Het is dus niet verstandig om interactietermen in het model op te nemen. De basisvariabelen verklaren de meeste variatie in de data.
78
Tabel A.3: Parameterschattingen voor interactietermen Parameter
Schatting Standaardfout
Constante WA+BC WA+CASCO R3 R4 R5 W1 Catwc WA+BC:W1 WA+CASCO:W1 R3:W1 R4:W1 R5:W1 R3:Catwc R4:Catwc R5:Catwc
7.0165 -1.2839 -1.0186 0.1121 0.1570 -0.3440 -0.0811 0.0469 -0.2259 -0.1347 0.0044 0.7214 NA -0.0131 0.0531 0.3959
Deviantie (vergeleken met finale model) Df
14.238 7
0.0350 0.0365 0.0697 0.0354 0.0794 0.6484 0.1433 0.0232 0.1841 0.2400 0.1681 0.4258 NA 0.0207 0.0565 0.2838
z-waarde
P[>|z|]
200.72 -35.19 -14.61 3.17 1.98 -0.53 -0.57 2.02 -1.23 -0.56 0.03 1.69 NA -0.63 0.94 1.40
< 2e-16 < 2e-16 < 2e-16 0.0015 0.0480 0.5957 0.5715 0.0434 0.2199 0.5745 0.9794 0.0903 NA 0.5264 0.3471 0.1630
De rij met R5:W1 bevat geen waarden, omdat er geen auto’s lichter dan 750kg zijn waarvan de regio onbekend is.
79
80
Appendix B. B.1
Gebruikte R-code
Bepalen verdeling claimfrequentie
pois.lik = function (x, mu) { n = length(x) logl = sum(log(dpois(x,mu))) return(-logl)} pois.mu=optim(pois.mu,pois.lik,x=n)$par;pois.mu # Vergelijk met analytische oplossing: sum(n)/length(n) # n is aantal schades per polis nb.lik = function (x, theta) { n = length(x) r = theta[1] p = theta[2] logl = sum(log(dnbinom(x,r,p))) return(-logl)} result2 = optim(c(1,0.5),nb.lik,x=n)$par nb.r = result2[1]; nb.p = result2[2]; x = 0:5 y <- dpois(x,pois.mu) z <- dnbinom(x,nb.r,nb.p)
# De pdf voor Pois-verdeling met gefitte parameter # De pdf voor NB-verdeling met gefitte parameter
aantal = array(0,6) # De empirische pdf for (i in 0:5) aantal[i+1]=length(n[n==i]) freq = aantal/sum(aantal) postscript("ML_freq.eps",family="serif",horizontal=FALSE,width=6,height=6) plotcolors = c("red","blue","green") plot(x,freq,type="o",col=plotcolors[1], cex.main=1.5, cex.lab=1.3, cex.axis=1.2, main="Kansverdeling schades", xlab="Aantal schades", ylab="Kans") lines(x,y,type="o", col=plotcolors[2]) lines(x,z,type="o", col=plotcolors[3]) legend(2.5, 0.8, c("Emp.Data","Poisson","Neg.Bin."), pch=21,lty=1,col=plotcolors) dev.off()
B.2
Bepalen verdeling claimhoogte
s[n>0] = s[n>0]/n[n>0] ps <- s[s!=0]
# gemiddelde schade per polis # alleen positieve schades
gamma.lik = function (x, theta) { a = theta[1] b = theta[2] dist = b^a * x^(a-1) * exp(-b*x) / gamma(a) logl = sum(log(dist)) return(-logl) } gamma.result = optim(c(0.001,0.001),gamma.lik,x=ps) gamma.a = gamma.result$par[1] gamma.b = gamma.result$par[2] check.beta = length(ps)*gamma.a/sum(ps) # gelijk aan gamma.b logn.lik = function (x, theta) { mu = theta[1] sigma = theta[2] dist = exp(-(log(x)-mu)^2 / (2 * sigma^2))/(x * sigma * sqrt(2*pi)) logl = sum(log(dist)) return(-logl) } logn.result = optim(c(1,1),logn.lik,x=ps)
81
logn.mu = logn.result$par[1] logn.sd = logn.result$par[2] mu = sum(log(ps))/length(ps) sd = sqrt(sum((log(ps)-mu)^2)/length(ps)) x = 0:(length(ps)-1)/(length(ps)-1) m = qgamma(x,shape=gamma.a,scale=1/gamma.b) n = qlnorm(x,meanlog=mu,sdlog=sd) # #
# gelijk aan logn.mu # gelijk aan logn.sd # random punten genereren
met qqplot de empirische punten tegen de randompunten uitzetten vervolgens een rechte lijn toevoegen, door de oorsprong, met helling 1
postscript("qqplot_hoogte.eps",family="serif",horizontal=FALSE,width=12,height=4) par(mfrow=c(1,2)) qqplot(log(ps),log(m),xlab="Empirische data",ylab="Gamma-verdeling") abline(0,1) qqplot(log(ps),log(n),xlab="Empirische data",ylab="Lognormale verdeling") abline(0,1) dev.off()
B.3
Finale modellen schatten
# Claimfrequentie personenauto’s en bestelauto’s require(MASS) freq.personen = glm.nb(n ~ dek + logwt + r2 + offset(log(expo)), link=log) freq.bestel = glm.nb(n ~ dek + wcat +w6+ catwc2 + r2 + offset(log(expo)), link=log) # Claimhoogte personenauto’s en bestelauto’s # alleen de polissen met een positief aantal schades wordt meegenomen hoogte.personen <- glm(log(S) ~ Dek + R + Catwc2 + W1 + offset(log(N)), weights=N, family=gaussian) Hoogte.bestel
B.4
Relatieve premies bepalen
# # #
Eerst voor de verschillende risicocategorieën de gemiddelde claimfrequentie bepalen. Deze worden uit de GLM functie gehaald. De lambda’s die hier uit volgen, worden samen met het bijbehorende gewicht in een matrix gestopt.
freq.personen = glm.nb(n ~ dek + logwt + r2 + offset(log(expo)), link=log) r2[r2==3]=2 r2[r2==4]=3 r2[r2==5]=4
# in de originele variabele waren de regio’s als factoren # gedefinieerd.
coefs = freq.personen$coef dekking = array(dim=3,data=0) # de opslagen voor de dekking in een array zetten dekking[1] = coefs[1] dekking[2] = coefs[1] + coefs[2] dekking[3] = coefs[1] + coefs[3] regio = array(dim=4, data=0) regio[2] = coefs[5] regio[3] = coefs[6] regio[4] = coefs[7]
# de opslagen voor de regio in een array zetten
gewicht = log(actualwt/actualwt[1]) coef.gewicht = coefs[4]
# de opslag voor het gewicht bepalen
# Er zijn 72 risicocategorieën. Voor alle risicocategorieën wordt nu de parameter # lambda in een matrix gezet, samen met het gewicht van de risicocategorie tabel = matrix(nrow=72, ncol=2, data=0) # er zijn 72 risicocategorieën for (i in 1:3)
82
for (j in 1:4) for (k in 1:6) { tabel[24*(i-1)+6*(j-1)+k,1]=100*exp(dekking[i]+regio[j]+ coef.gewicht*gewicht[k]) tabel[24*(i-1)+6*(j-1)+k,2]= 100*sum(expo[dek==i&r2==j&wcat==k])/sum(expo)} a = freq.personen$theta lambdas = tabel[,1]/100 weights = tabel[,2]/100
# in tabel staan procenten # de nieuwe vectoren bevatten perunages
# Definieer de overgangsmatrix behorende tot het BM-systeem weergegeven in tabel7.2 Pmatrix = function(lambda) { trans.mat = matrix(ncol=20, nrow=20, data=0) # transitie-matrix trans.mat[1,1] = dpois(0,lambda) for (i in 2:20) trans.mat[i,i-1] = dpois(0,lambda) # kans nul schades trans.mat[1,6] = dpois(1,lambda) # kans een schade trans.mat[2,8] = dpois(1,lambda) trans.mat[3,9] = dpois(1,lambda) trans.mat[4,10] = dpois(1,lambda) trans.mat[5,11] = dpois(1,lambda) trans.mat[6,12] = dpois(1,lambda) trans.mat[7,13] = dpois(1,lambda) trans.mat[8,14] = dpois(1,lambda) trans.mat[9,14] = dpois(1,lambda) trans.mat[10,15] = dpois(1,lambda) trans.mat[11,15] = dpois(1,lambda) trans.mat[12,16] = dpois(1,lambda) trans.mat[13,17] = dpois(1,lambda) trans.mat[14,18] = dpois(1,lambda) trans.mat[15,19] = dpois(1,lambda) trans.mat[1,13] = dpois(2,lambda) # kans 2 schades trans.mat[2,14] = dpois(2,lambda) trans.mat[3,15] = dpois(2,lambda) trans.mat[4,15] = dpois(2,lambda) trans.mat[5,16] = dpois(2,lambda) trans.mat[6,16] = dpois(2,lambda) trans.mat[7,17] = dpois(2,lambda) trans.mat[8,18] = dpois(2,lambda) trans.mat[9,18] = dpois(2,lambda) trans.mat[10,19] = dpois(2,lambda) trans.mat[11,19] = dpois(2,lambda) for (i in 1:20) trans.mat[i,20] = 1 - sum(trans.mat[i,]) # kans meer dan 2 return(trans.mat)} # Bepaal de limietverdeling adhv vergelijking (7.9) lim.verd = function(matrix){ et = matrix(nrow=1,ncol=dim(matrix)[2], data=1) E = matrix(nrow=dim(matrix)[1], ncol=dim(matrix)[2], data=1) mat = diag(dim(matrix)[1]) - matrix + E inverse.mat = solve(mat) p = et %*% inverse.mat return(p)}
83
# Definieer nu vervolgens functies om de integraal in de teller en de noemer te # bepalen. teller = function(theta, lambda, a, l) { p = lim.verd(Pmatrix(lambda*theta)) f.dist = gamma(a)^(-1) * a^a * theta^(a-1) * exp(-a*theta) return(theta*p[1,7-l]*f.dist)} noemer = function(theta, lambda, a, l) { p = lim.verd(Pmatrix(lambda*theta)) f.dist = gamma(a)^(-1) * a^a * theta^(a-1) * exp(-a*theta) return(p[1,7-l]*f.dist)} teller1 = teller2 = noemer = array(dim=6, data=0) result1 = result2 = array(dim=6, data=0) m = length(weights) for (i in 1:6) { # voor verschillende l's (BM-schalen) b = c = array(dim=m,data=0) for (j in 1:m) { # voor verschillende k's (verschillende lambda's b[j]=integrate(Vectorize(teller),lower=0,upper=Inf,lambda=lambdas[j],a=a,l=i) $value c[j]=integrate(Vectorize(noemer),lower=0,upper=Inf,lambda=lambdas[j],a=a,l=i) $value} teller1[i] = b %*% weights # teller vergelijking (7.13) teller2[i] = c %*%(weights * lambdas) # teller vergelijking (7.15) noemer[i] = c %*% weights # noemer vergelijking (7.14) result1 = teller1/noemer result2 = teller2/noemer}
84
85
86