Univerzita Karlova v Praze Matematicko-fyzikální fakulta
DIPLOMOVÁ PRÁCE
Melinda Paugschová
Možnosti využití statistických metod v pojišt’ovnictví Katedra pravdˇepodobnosti a matematické statistiky Vedoucí diplomové práce: Ing. Lubomír Hanusek Studijní program: Matematika Studijní obor: Finanˇcní a pojistná matematika 2007
Na tomto místˇe bych ráda podˇekovala vedoucímu práce Ing. Lubomíru Hanuskovi za vedení práce, jeho cˇ as a podnˇetné pˇripomínky. Jeho kolegovi Ing. Mgr. Petru Mášovi, PhD. dˇekuji za neocenitelné pˇripomínky pˇri vzniku textu. Dále chci podˇekovat Bc. Lud’ku Kováˇcovi, který mi jako zástupce Generali Pojišt’ovny, a.s. poskytnul data ke zpracování. Velký dík patˇrí také mým koleg˚um Mgr. Jiˇrímu Horákovi a Bc. Jakubu Peˇcánkovi, kteˇrí pomáhali se závˇereˇcnou korekcí. Nakonec bych chtˇela podˇekovat partnerovi a všem mým blízkým, kteˇrí mˇe pˇri tvorbˇe práce morálnˇe podporovali.
Prohlašuji, že jsem svou diplomovou práci napsala samostatnˇe a výhradnˇe s použitím citovaných pramen˚u. Souhlasím se zap˚ujˇcováním práce.
V Praze dne 9. srpna 2007
Melinda Paugschová
Obsah Úvod 1
2
3
4
5
Statistické metody 1.1 Lineární regrese . . . . . . . . . . . . . . . . . . . . . . 1.2 Logistická regrese . . . . . . . . . . . . . . . . . . . . . 1.3 Diskriminaˇcní analýza . . . . . . . . . . . . . . . . . . 1.3.1 Pravdˇepodobnostní pˇrístup diskriminaˇcní analýzy 1.4 Kontingenˇcní tabulky . . . . . . . . . . . . . . . . . . . 1.4.1 Test χ2 pˇri neznámých parametrech . . . . . . . 1.5 Klasifikaˇcní stromy . . . . . . . . . . . . . . . . . . . . 1.5.1 Metoda CHAID . . . . . . . . . . . . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
6 6 9 12 14 16 17 20 22
Pojistné sazby 2.1 Popis databáze . . . . . . . . 2.2 Predikce výše škody . . . . . 2.3 Predikce škodního koeficientu 2.4 Kombinace model˚u . . . . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
24 24 26 32 33
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
35 36 36
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
43 45
Pojistné podvody 4.1 Indikátory pojistných podvod˚u . . . . . . . . . . . . . . . . . . . . . . . . 4.2 Model detekce pojistných podvod˚u . . . . . . . . . . . . . . . . . . . . . .
46 47 49
. . . .
. . . .
. . . .
. . . .
. . . .
Marketing 3.1 Popis databáze . . . . . . . . . . . . . 3.2 Aplikace klasifikaˇcního stromu . . . . . 3.3 Aplikace pravdˇepodobnostního pˇrístupu diskriminaˇcní analýzy . . . . . . . . . . 3.4 Statistika v rozsáhlých souborech . . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
Závˇer
51
Pˇrílohy Pˇríloha 1: Výstupy z programu R: predikce výše škody . . . . . . . Pˇríloha 2: Výstupy z programu R: predikce koeficientu škodovosti . Pˇríloha 3: Klasifikaˇcní stromy: výchozí kontingenˇcní tabulky . . . . Pˇríloha 4: Diskriminaˇcní analýza: kovarianˇcní matice a jejich inverze Pˇríloha 5: Obsah pˇriloženého CD . . . . . . . . . . . . . . . . . . .
3
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
53 54 56 58 60 61
Název práce: Možnosti využití statistických metod v pojišt’ovnictví Autor: Melinda Paugschová Katedra: Katedra pravdˇepodobnosti a matematické statistiky Vedoucí diplomové práce: Ing. Lubomír Hanusek e-mail vedoucího:
[email protected] Abstrakt: Tato diplomová práce se zabývá vybranými statistickými metodami využívanými v pojišt’ovnictví. Významná cˇ ást práce popisuje základy lineární regrese, logistické regrese, diskriminaˇcní analýzy, kontingenˇcních tabulek a klasifikaˇcních strom˚u. Ve zbytku práce se vˇenujeme použití tˇechto metod v oblasti stanovování pojistných sazeb, marketingu a pojistných podvod˚u. V kapitole Pojistné sazby nastíˇnujeme možnost jejich stanovení použitím kombinace model˚u lineární a logistické regrese. Kapitola Marketing se zamˇeˇruje na cílení marketingových kampaní s využitím diskriminaˇcní analýzy, kontingenˇcních tabulek a klasifikaˇcních strom˚u. V poslední kapitole práce se snažíme upozornit na problém pojistných podvod˚u v souˇcasnosti a na d˚uležitost vytváˇrení model˚u používaných k jejich detekci. Aplikace metod ilustrujeme na reálných a modelových datech. K výpoˇct˚um používáme statistický software R, v kapitole o marketingu software SPSS. Klíˇcová slova: klasifikaˇcní stromy, pojistné sazby, cílený marketing, pojistný podvod
Title: The options of using statistical methods in insurance business Author: Melinda Paugschová Department: Department of probability and mathematical statistics Supervisor: Ing. Lubomír Hanusek Supervisor’s e-mail address:
[email protected] Abstract: This master thesis is devoted to a number of various statistical methods that are used in the insurance business. Significant part of this paper is devoted to description of basic statistical methods such as linear regression, logistic regression, contingency tables, discriminant analysis and classification trees. In the rest of the thesis we focus our attention on the use of these methods in areas of insurance rates, marketing and insurance frauds. Determination of insurance rates is illustrated by combined use of linear regression and logistic regression models. The chapter Marketing is devoted to the use of discriminant analysis, contingency tables and classification trees in the area of direct marketing techniques. In the last chapter of this paper our attention is paid to the problem of insurance frauds and the importance of creating proper detection models. The applications of relevant methods are illustrated on real and simulated data. Statistical software R and SPSS were used while writing this thesis. Keywords: classification trees, insurance rates, direct marketing, insurance fraud
4
Úvod V mnohých oblastech souˇcasného života se setkáváme s využitím statistických metod. Není tomu jinak ani v pojišt’ovnictví. Táto práce má za cíl popsat vybrané statistické metody a ukázat jejich aplikaci na reálných nebo modelových datech. Text je rozˇclenˇen do cˇ tyˇr kapitol. První z nich seznamuje cˇ tenáˇre se základy lineární regrese, logistické regrese, diskriminaˇcní analýzy, kontingenˇcních tabulek a klasifikaˇcních strom˚u. Následující tˇri kapitoly popisují využití metod v jednotlivých oblastech pojišt’ovnictví spolu s jejich aplikacemi. V kapitole Pojistné sazby popisujeme jednu z možností stanovování netto pojistného. Využíváme zde kombinace model˚u lineární a logistické regrese, na základˇe kterých se snažíme predikovat pˇredpokládanou roˇcní výši pojistného plnˇení u každého klienta a zároveˇn pravdˇepodobnost toho, že škoda nastane. Ukázka je provedena na reáných datech produktu pojištˇení odpovˇednosti z provozu motorového vozidla. Kapitola Marketing je vˇenována cílení marketingových kampaní, kde modelujeme pravdˇepodobnost sjednání produktu životního pojištˇení na modelových datech spoleˇcnosti Adastra, s.r.o. Pravdˇepodobnost modelujeme prostˇrednictvím klasifikaˇcního stromu (algoritmus CHAID) a diskriminaˇcní analýzy (pravdˇepodobnostní pˇrístup). Výsledky obou model˚u v závˇeru porovnáme. Kapitola Pojistné podvody je zamˇerˇená na problematiku detekce podvod˚u v souˇcasnosti. Popisuje oblasti pojištˇení, ve kterých nejˇcastˇeji dochází k pojistným podvod˚um. Zabývá se také výˇctem indikátor˚u, které m˚užou pojišt’ovnám signalizovat zvýšenou pravdˇepodobnost pojistného podvodu u dané pojistné události. Na závˇer se zabýváme modelem odhalování pojistných podvod˚u, který je založen na logistické regresi. Ukázka modelu je z d˚uvodu nedostupnosti dat vynechána. V pˇríloze uvádíme nˇekteré rozsáhlejší výstupy z aplikací zmínˇených metod a zároveˇn obsah pˇriloženého CD.
5
1 Statistické metody 1.1 Lineární regrese Cílem metody je vytvoˇrit model pro predikci hodnot spojité promˇenné. Metoda je založena na lineární kombinaci nezávislých promˇenných. Mˇejme náhodné veliˇciny Y1 , . . . , Yn . Pˇredpokládejme existenci regresor˚u X1 , . . . , Xk , k < n, na kterých chceme modelovat lineární závislost veliˇcin Y1 , . . . , Yn . Pˇredpokládejme, že pro náhodný vektor Y = (Y1 , . . . , Yn )T platí vztah Y = Xβ + e, kde X je matice hodnot regresor˚u X1 , . . . , Xk uspoˇrádaných do sloupc˚u, β = (β1 , . . . , βk )T je vektor neznámých parametr˚u a e = (e1 , . . . , en )T je náhodný vektor s normálním rozdˇelením N(0, σ 2 I n ) 1 , kde I n je jednotková matice typu n × n. Pˇritom σ 2 je také neznámý parametr. Pro regresní modely se nezavádˇejí nadbyteˇcné vysvˇetlující promˇenné a matice X musí mít lineárnˇe nezávislé sloupce. Jelikož pˇredpokládáme k < n, je h(X) = k. Rozdˇelení náhodného vektoru Y je tedy N(Xβ, σ 2 I n ). Lineární regresí modelujeme tedy stˇrední hodnotu EY . Parametry β1 , . . . , βk se odhadují metodou nejmenších cˇ tverc˚u, tedy minimalizací výrazu (Y − Xβ)T (Y − Xβ)
(1.1)
vzhledem k neznámým parametr˚um β1 , . . . , βk . Odhady oznaˇcíme b = (b1 , . . . , bk )T a jsou tvaru b = (X T X)−1 X T Y . V praxi se vychází z pozorovaných hodnot náhodného vektoru Y , které oznaˇcíme y = (y1 , . . . , yn )T a z regresní matice X = (xij ) typu n × (k + 1). První sloupec (pro snadnˇejší interpretaci dalších sloupc˚u ho budeme oznaˇcovat jako nultý sloupec) je tvoˇren samými jedniˇckami, j-tý sloupec udává pozorované hodnoty regresoru Xj , j = 1, . . . , k. Vztah pro odhadování parametr˚u (1.1) pˇrechází tedy do tvaru n k X X (yi − β0 − βj xij )2 . i=1
(1.2)
j=1
Vztah (1.2) se minimalizuje vzhledem k neznámým parametr˚um β0 , β1 , . . . , βk . Dospˇejeme k vektoru odhad˚u b = (b0 , b1 , . . . , bk )T a m˚užeme ho vyjádˇrit ve tvaru b = (X T X)−1 X T y. Odhadem parametru σ 2 je s2 = (y − Xb)T (y − Xb)/(n − k − 1). 1
Normální rozdˇelení pˇredpokládáme z d˚uvodu následného testování hypotéz.
6
Výraz v cˇ itateli nazýváme reziduální souˇcet cˇ tverc˚u. K urˇcení promˇenných, které významnˇe ovlivˇnují vysvˇetlovanou promˇennou Y se používá testování nulovosti parametr˚u β0 , β1 , . . . , βk . Nejˇcastˇeji se pro j ∈ {0, . . . , k} testuje hypotéza H0j : βj = 0 proti alternativˇe H1j : βj 6= 0. Oznaˇcme diagonální prvek matice (X T X)−1 jako ujj . Test se zakládá na statistice |bj | Tj = √ , s ujj
(1.3)
která má podle knihy [1] Studentovo rozdˇelení tn−k−1 . Pokud platí Tj ≥ tn−k−1 (α), zamítáme hypotézu H0j na hladinˇe α, kde tn−k−1 je kritická hodnota t-rozdˇelení o n − k − 1 stupních volnosti. Nezamítneme-li hypotézu H0j , není j-tý regresor pro vysvˇetlovanou promˇennou Y statisticky významný. Dalším testem je testování platnosti podmodelu2 v p˚uvodním modelu Y ∼ N(Xβ, σ 2 I n ). Mˇejme podmodel definovaný jako M : Y ∼ N(U γ, σ 2 I n ), kde U je typu n × l, γ má l složek, l < k. Necht’ hodnost matice U je r, l ≥ r > 0. Oznaˇcme RSS reziduální souˇcet cˇ tverc˚u p˚uvodního modelu a RSSp reziduální souˇcet cˇ tverc˚u podmodelu. Pak statistika F =
RSSp −RSS k−r RSS n−k
(1.4)
má za platnosti podmodelu v p˚uvodním modelu rozdˇelení Fk−r,n−k . Platnost podmodelu M v p˚uvodním modelu Y ∼ N(Xβ, σ 2 I n ) zamítáme, pokud F > |Fk−r,n−k (α)|, α ∈ (0, 1). K vyhodnocení kvality modelu se používá koeficient determinace R2 . Ten je dán vztahem Pn Pk 2 j=1 bj xij ) i=1 (yi − b0 − 2 Pn R =1− . 2 i=1 (yi − y)
Koeficient determinace udává procento variability veliˇciny Y , které je vysvˇetlené zkoumaným regresním modelem pˇri daných datech. Hodnota koeficientu blízká 1 signalizuje dobrou shodu modelu s daty. K výbˇeru regresor˚u, které se budou uvažovat ve finálním modelu, se používají pˇredevším dva postupy. Jde o tzv. sestupný výbˇer (backward regression) a o tzv. vzestupný výbˇer (forward regression). Sestupný výbˇer vychází z množiny všech regresor˚u, které jsou k dispozici. V každém kroku je z množiny regresor˚u vyˇrazen regresor, který nejménˇe pˇrispívá k vysvˇetlení vysvˇetlované promˇenné Y . Když symbolem tj oznaˇcíme hodnotu t-statistiky j-tého regresoru u testu nulovosti parametr˚u, hodnota Fj = t2j nám urˇcuje, kdy máme vyluˇcovaní regresor˚u zastavit. Postup vyluˇcování konˇcí, když jsou hodnoty F-statistiky Fj , pro všechny promˇenné, které v modelu z˚ustali, vˇetší než pˇredem zvolená hodnota F ∗∗ , která se m˚uže volit jako F1,n−k−1(α∗∗ ). 2
definice podmodelu viz [1] str. 201
7
Vzestupný výbˇer postupuje opaˇcným smˇerem. Zaˇcíná s prázdnou množinou regresor˚u, kterou postupnˇe rozšiˇruje. Do modelu zahrne ten regresor z doposud nezaˇrazených, který nejvíce zlepší vysvˇetlení promˇenné Y . Oznaˇcme Fj cˇ tverec hodnoty t-statistiky, kterou dostaneme pro vylouˇcení j-tého regresoru z modelu. V daném kroku se vloží do modelu takový regresor z množiny ještˇe nezaˇrazených, který vykazuje nejvˇetší hodnotu Fj . Postup vybírání konˇcí, když žádná z hodnot Fj pro dosud nezaˇrazené regresory, není vˇetší než pˇredem zvolená hodnota F ∗ , která se m˚uže definovat jako F1,n−k−1 (α∗ ). Kombinací obou popsaných postup˚u dostaneme krokovou regresi. Podmínkou pro konvergenci výbˇeru je F ∗ > F ∗∗ , resp. α∗ < α∗∗ .
8
1.2 Logistická regrese Logistická regrese je jedním z matematických pˇrístup˚u k modelování závislosti cílové promˇenné na nezávislých vysvˇetlujících promˇenných. Umožˇnuje modelovat jevy diskrétního charakteru, jako je pˇríslušnost resp. nepˇríslušnost k dané populaci. Jako vysvˇetlovaná promˇenná se uvažuje kategoriální náhodná veliˇcina, pˇriˇcemž vysvˇetlující promˇenné mohou nabývat jak spojitých tak diskrétních hodnot. Pˇredpokládejme, že máme náhodnou veliˇcinu Y , která nabývá pouze hodnot 0 a 1. Zajímá nás vztah mezi vysvˇetlovanou veliˇcinou Y a vysvˇetlujícími promˇennými X1 , . . . , Xk . Oznaˇcme π(x) = P (Y = 1|x), tedy pravdˇepodobnost, že Y nabyde hodnoty 1 pˇri pozorovaných hodnotách x1 , . . . , xk . Je tedy 1 − π(x) = P (Y = 0|x). Logistickou regresí modelujeme parametr alternativního rozdˇelení náhodné veliˇciny Y . Vycházíme ze vztahu 1 (1.5) π(x) = P (Y = 1|x) = T , 1 + exp−β x kde β = (β0 , β1 , . . . , βk )T je vektor parametr˚u a x = (1, x1 , . . . , xk )T . Pak platí T
exp−β x 1 − π(x) = P (Y = 0|x) = T . 1 + exp−β x
(1.6)
Vzájemným podˇelením levých stran ve vztazích (1.5) a (1.6) dostaneme vztah π(x) T = expβ x 1 − π(x) a jeho zlogaritmováním dospˇejeme ke koneˇcnému vyjádˇrení modelu s logitovou funkcí pravdˇepodobnosti π(x) na levé stranˇe ve tvaru log
π(x) = β0 + β1 x1 + . . . + βk xk . 1 − π(x)
K získání pravdˇepodobnosti π(x) je potˇreba znát jenom hodnoty β0 , β1 , . . . , βk . Odhady parametr˚u β0 , β1 , . . . , βk urˇcíme z pozorování vysvˇetlované promˇenné Y = (Y1 , . . . , Yn )T , které oznaˇcíme y = (y1 , . . . , yn )T a z matice hodnot regresor˚u X typu n × (k + 1). Pro i-té pozorování definujme πi := P (Yi = 1| xi1 , . . . , xik ) =
1 , i = 1, . . . , n. 1 + exp{−(β0 + β1 xi1 + . . . + βk xik )} (1.7)
Odhady b0 , b1 , . . . , bk parametr˚u β0 , β1 , . . . , βk získáme užitím metody maximální vˇerohodnosti. Vˇerohodnostní funkce m˚užeme zapsat ve tvaru L(β|X) =
Y
{i:yi =1}
πi
Y
{i:yi =0}
(1 − πi ) =
9
n Y i=1
πiyi (1 − πi )1−yi .
Logaritmická vˇerohodnostní funkce má tvar l(β|X) =
n X i=1
[yi log πi + (1 − yi ) log (1 − πi )].
Odhadem parametr˚u β0 , . . . , βk je maximum logaritmické vˇerohodnostní funkce l(β|X), které hledáme jako její stacionární bod, tedy bod, pro který platí n
∂l(β|X) X = (yi − πi )xi = 0. ∂β i=1 K výpoˇctu se používají numerické metody, nejˇcastˇeji Newton - Raphsonova metoda. Pro zjištˇení, zda daná promˇenná statisticky významnˇe ovlivˇnuje vysvˇetlovanou promˇennou se používají testy nulovosti parametr˚u. Testujeme hypotézu H0j : βj = 0, pro j ∈ {0, . . . , k}. Nezamítnutí hypotézy znamená, že pravdˇepodobnost P (Y = 1|x) nezávisí na vysvˇetlující promˇenné Xj , j = 1, . . . , k. K testování se používá Waldova statistika, která má tvar bj Zj = , (1.8) sj kde sj je smˇerodatná odchylka odhadu bj parametru βj . Náhodná veliˇcina Zj má za platnosti hypotézy H0j asymptoticky rozdˇelení N(0, 1). Hypotézu H0j zamítáme na hladinˇe α ∈ (0, 1), pokud |Zj | > u(α/2). Pro jednotlivá pozorování charakterizovaná vektorem xi , i = 1, . . . , n , získáme odhad pravdˇepodobnosti πi dosazením odhad˚u parametr˚u β0 , . . . , βk do vztahu (1.7). Odhad pravdˇepodobnosti oznaˇcíme pi . Pro urˇcení klasifikace na základˇe je potˇreba zvolit prahovou hodnotu (probability cutoff). Prahová hodnota se volí bud’ pc = 0.5, nebo pc = n1 /n, kde n1 je poˇcet pozorování takových, že yi = 1, i = 1, . . . , n. Pokud platí p > pc, pˇredpovídá se pro i-té pozorování hodnota yi = 1. Naopak, pokud platí p ≤ pc, pˇredpokládá se pro i-té pozorování hodnota yi = 0. Kvalita modelu se posuzuje tabulkou cˇ etností špatnˇe a správnˇe pˇredpovˇezených hodnot v porovnání s pozorovanými hodnotami (viz tabulka 1.1). Pˇredpovˇezená hodnota Pozorovaná hodnota
0
1
Celkem
0
n00
n01
n0. = n00 + n01
1
n10
n11
n1. = n10 + n11
Celkem
n.0 = n00 + n10
n.1 = n01 + n11
n
Tabulka 1.1: Tabulka cˇ etností správné a špatné klasifikace Dále se definují charakteristiky senzitivita a specificita modelu. Senzitivita modelu se definuje jako procento pozorovaných jedniˇcek v databázi, které byly na základˇe modelu pˇredpovˇezeny jedniˇckou, tedy podílem n11 /n1. . Specificita modelu udává naopak procento nul v databázi, které byly pˇredpovˇezeny nulou, definuje se tedy podílem n00 /n0. . Proložením 10
kˇrivky hodnotama 1 − specif icita na x-ové ose a hodnotama senzitivita na y-ové ose pro r˚uzné prahové hodnoty pc, se dostane tzv. ROC kˇrivka3 . ROC kˇrivka je tedy grafem závislosti procenta správné klasifikace jedniˇcek na procentu nesprávné klasifikace nul. Pokud by bylo pˇredpovídání hodnoty náhodné veliˇciny Y náhodné, ROC kˇrivka by tvoˇrila uhlopˇríˇcku ˇ jednotkového cˇ tverce. Možný tvar ROC kˇrivky je uveden na obrázku 1.1. Cím je plocha mezi ROC kˇrivkou a uhlopˇríˇckou jednotkového cˇ tverce vˇetší, tím model lépe pˇredpovídá hodnotu veliˇciny Y .
senzitivita
1
Logistická regrese Náhodné predikování
0
1 – specificita
Obrázek 1.1: ROC kˇrivka Podrobnˇeji se logistickou regresí zabývá napˇríklad kniha [9].
3
zkratka je odvozena od Receiver Operating Characteristic
11
1
1.3 Diskriminaˇcní analýza Diskriminaˇcní analýza je jednou z metod využívaných ke klasifikaci objekt˚u do pˇredem definovaných skupin. Její cílem je na základˇe funkce p˚uvodních znak˚u urˇcit klasifikaci nového objektu. Funkce je odhadnuta na základˇe souboru dat se známou klasifikací. Pˇredpokládejme, že máme soubor pozorování, který je pˇredstavován maticí
x11 x12 x21 x22 . . . . . . xn1 xn2
. . . x1k . . . x2k . . . . . . . . . xnk
.
V matici znaˇcí xij hodnotu j-tého znaku popisujícím i-tý objekt. Celý i-tý objekt je tedy charakterizován vektorem xi = (xi1 , . . . , xik )T
i = 1, . . . , n.
Budeme pˇredpokládat, že celý soubor objekt˚u je rozdˇelen do s tˇríd, které oznaˇcíme C1 , . . . , Cs . Poˇcty objekt˚u v jednotlivých skupinách oznaˇcíme postupnˇe n1 , . . . , ns , kde n1 + . . . + ns = n. Pˇredpokládejme, že každý objekt je charakterizován hodnotou náhodného vektoru X = (X1 , . . . , Xk )T se známým rozdˇelením, který obecnˇe nabývá hodnot z Rk . K tomu, aby jsme na základˇe hodnot pozorovaných znak˚u mohli rozhodnout, do které skupiny uvažovaný objekt patˇrí, je potˇreba najít takový rozklad Rk na borelovské disjunktní množiny Ss k A1 , . . . , As , pro který platí R = j=1 Aj a aby se podle zaˇrazení hodnoty vektoru X do jedné z množin A1 , . . . , As dalo urˇcit, do které ze tˇríd C1 , . . . , Cs zaˇrazovaný objekt patˇrí. Optimalitu rozkladu budeme posuzovat na základˇe minimalizace ztrátové funkce, kterou oznaˇcíme L. Symbolem zij oznaˇcíme ztrátu, kterou utrpíme zaˇrazením prvku, který patˇrí do skupiny Ci , do skupiny Cj . Hustotu náhodného vektoru X pro objekty ze skupiny Ci oznaˇcme fi (x), i = 1, . . . , s. Jestliže objekt patˇrí do skupiny Ci , hodnotu ztráty zp˚usobené nesprávným zaˇrazením m˚užeme vyjádˇrit jako Z s X Li = zil fi (x1 , . . . , xk )dx1 . . . dxk , i = 1, . . . , s. l=1
Al
Apriorní pravdˇepodobnosti, že objekt patˇrí do i-té skupiny oznaˇcme πi . Stˇrední hodnotu ztráty bez ohledu na to, do které skupiny objekt patˇrí, vyjádˇríme jako L=
s X
πi Li .
i=1
Pokud zavedeme oznaˇcení qj (x) =
s X
πi zij fi (x) , x = (x1 , . . . , xk )T , j = 1, . . . , s,
i=1
12
(1.9)
m˚užeme vztah (1.9) pˇrepsat do tvaru L=
s Z X i=1
qi (x)dx.
Ai
Možnou volbou vah zij je zij = 1 pro i 6= j a zii = 0. Pˇri této volbˇe vah lze (1.3) upravit na tvar s s X X πi fi (x) = πi fi (x) − πj fj (x). qj (x) = i6=j
i=1
Lze ukázat, že platí ekvivalence qt (x) ≤ qj (x) ⇐⇒ πt ft (x) ≥ πj fj (x) , j = 1, . . . , s. Objekt charakterizován hodnotami x náhodného vektoru X zaˇradíme do skupiny Ct , jestliže pro ni platí πt ft (x) ≥ πj fj (x) , j = 1, . . . , s , j 6= t. (1.10) V pˇrípadˇe, že nastane v (1.10) nerovnost i pro jiné j než j = t, zaˇradíme nový objekt do kterékoliv z odpovídajících skupin. Pˇredpokládejme nyní, že náhodný vektor X má k-rozmˇerné normální rozdˇelení se známým vektorem stˇredních hodnot µj a známou regulární kovarianˇcní maticí Σj , tj. jeho hustota fj (x) je tvaru 1 − k2 T −1 − 21 fj (x) = (2π) |Σj | exp − (x − µj ) Σj (x − µj ) , j = 1, . . . , s, (1.11) 2 kde |Σj | oznaˇcuje diskriminant matice Σj , j = 1, . . . , s. Nerovnost (1.10) je ekvivalentní s nerovností log πt + log ft (x) ≥ log πj + log fj (x) , ∀ j 6= t. (1.12) Dosazením za hustoty do vztahu (1.12) zjistíme, že (1.10) platí právˇe tehdy, když 1 1 − log |Σt | − (x − µt )T Σ−1 t (x − µt ) + log πt ≥ 2 2 1 1 ≥ − log |Σj | − (x − µj )T Σ−1 j (x − µj ) + log πj , 2 2 Pokud zavedeme oznaˇcení 1 1 Dj (x) = − log |Σj | − (x − µj )T Σ−1 j (x − µj ) + log πj , 2 2
∀ j 6= t.
(1.13)
j = 1, . . . , s,
m˚užeme (1.13) pˇrepsat jako Dt (x) ≥ Dj (x) ,
∀ j 6= t.
Funkce D1 (x), . . . , Ds (x) nazýváme kvadratické diskriminaˇcní skóry. Pro dané X = x vypoˇcteme tedy všechny hodnoty D1 (x), . . . , Ds (x) a objekt zaˇradíme do skupiny s nejvˇetším diskriminaˇcním skórem. 13
Speciální situací je shodnost kovarianˇcních matic Σj pro všechna j = 1, . . . , s. Spoleˇcnou kovarianˇcní matici oznaˇcíme Σ. Upravením nerovnosti (1.13) dostaneme pro tento pˇrípad nerovnost 1 1 µTt Σ−1 x − µTt Σ−1 µt + log πt ≥ µTj Σ−1 x − µTj Σ−1 µj + log πj , ∀ j 6= t. 2 2
(1.14)
Pokud oznaˇcíme 1 dj (x) = µTj Σ−1 x − µTj Σ−1 µj + log πj , 2
j = 1, . . . , s,
je (1.14) ekvivalentní s dt (x) ≥ dj (x) ,
∀ j 6= t.
Funkce d1 (x), . . . , ds (x) nazýváme lineární diskriminaˇcní skóry. Název je odvozen od toho, že je m˚užeme vyjádˇrit jako lineární funkci sledovaných znak˚u na objektu charakterizovaném vektorem x = (x1 , . . . , xk )T ve tvaru dj (x) = αj0 + αj1 x1 + . . . + αjk xk . Parametry µj a Σj , j = 1, . . . , s nejsou vˇetšinou známé. Proto je v praxi nahrazujeme jejich odhady. Oznaˇcme vektor pr˚umˇerných hodnot znak˚u objekt˚u a výbˇerovou kovarianˇcní matici ve tˇrídˇe Ct jako X 1 X 1 xt = x i , St = (xi − xt )(xi − xt )T . nt nt − 1 {i:xi ∈Ct }
{i:xi ∈Ct }
Celkový pr˚umˇer dat a odhad celkové kovarianˇcní matice oznaˇcíme n
x=
1X xi n i=1
s
,
S =
1 X St (nt − 1). n − s t=1
(1.15)
Jako odhad πj neboli pravdˇepodobnosti, že objekt patˇrí do tˇrídy Cj , použijeme 1/s nebo nj /n. Tento odhad oznaˇcíme pj . Kvadratické diskriminaˇcní skóry mají po nahrazení skuteˇcných hodnot parametr˚u jejich odhady následující tvar Dj (x) = log pj −
1 1 log |S j | − (x − xj )T S −1 j (x − xj ), j = 1, . . . , s. 2 2
(1.16)
Lze-li pˇredpokládat, že kovarianˇcní matice Σj jsou ve všech tˇrídách stejné, odhadneme je váženým pr˚umˇerem výbˇerových kovarianˇcních matic S zavedeným v (1.15). Lineární diskriminaˇcní skóry mají v tomto pˇrípadˇe tvar 1 dj (x) = log pj − xTj S −1 xj + xTj S −1 x, j = 1, . . . , s. 2
1.3.1 Pravdˇepodobnostní pˇrístup diskriminaˇcní analýzy Pro naše úˇcely je vhodné zmínit ještˇe jeden pˇrístup diskriminaˇcní analýzy. Nˇekdy je totiž vhodnˇejší mít k dispozici hodnotu pravdˇepodobnosti, že daný objekt bude patˇrit do nˇekteré ze skupin než finální klasifikaci do skupin. 14
Pˇredpokládejme existenci binární závislé promˇenné Y a v závislosti na ní existenci skupin C0 a C1 . Objekt necht’ je charakterizován hodnotou náhodného vektoru X = (X1 , . . . , Xk )T s hustotou normálního rozdˇelení fj (x) ze vztahu (1.11) pro j = 0, 1. Vektory stˇredních hodnot a kovarianˇcní matice ve skupinách oznaˇcíme postupnˇe µ0 , µ1 , Σ0 , Σ1 . Necht’ opˇet π0 a π1 jsou apriorní pravdˇepodobnosti pˇríslušnosti ke skupinˇe. Zajímá nás aposteriorní pravdˇepodobnost pˇríslušnosti objektu charakterizovaném vektorem hodnot x ke skupinˇe C1 , kterou m˚užeme vyjádˇrit jako π = P (Y = 1|X = x) =
π1 f1 (x) . π0 f0 (x) + π1 f1 (x)
(1.17)
Vztah (1.17) lze podobnˇe jako v logistické regresi pˇrepsat na π=
exp(η(x)) , 1 + exp(η(x))
(1.18)
kde |Σ1 | i π1 1h T −1 T −1 + log (1.19) η(x) = (x − µ0 ) Σ0 (x − µ0 ) − (x − µ1 ) Σ1 (x − µ1 ) − log 2 |Σ0 | π0 je tzv. skóre. V pˇrípadˇe r˚uzných kovarianˇcních matic ve skupinách ho lze vyjádˇrit pomocí kvadratických diskriminaˇcních skór˚u jako η(x) = D1 (x) − D0 (x).
(1.20)
Pokud m˚užeme pˇredpokládat stejné kovarianˇcní matice v obou skupinách, tedy Σ = Σ0 = Σ1 , pˇrechází vztah (1.19) pro skóre η(x) do jednoduššího vyjádˇrení π1 1 η(x) = xT Σ−1 (µ1 − µ0 ) + (µ0 − µ1 )T Σ−1 (µ0 + µ1 ) + log . 2 π0 Analogicky jako ve vztahu (1.20) m˚užeme skóre η(x) tentokrát vyjádˇrit pomocí lineárních diskriminaˇcních skór˚u jako η = d1 (x) − d0 (x). Aposteriorní pravdˇepodobnost π = P (Y = 1|X = x) pro objekt charakterizovaný vektorem x získáme následnˇe použitím vztahu (1.18). Už jsme zmiˇnovali dˇríve, že parametry µ0 , µ1 , Σ0 , Σ1 , π0 a π1 nejsou vˇetšinou známé a místo nich se používají jejich odhady zmínˇené v závˇeru podkapitoly Diskriminaˇcní analýza. Model se analogicky jako u logistické regrese vyhodnocuje tabulkou správnˇe a nesprávnˇe klasifikovaných objekt˚u pro zvolenou prahovou hodnotu a ROC kˇrivkou.
15
1.4 Kontingenˇcní tabulky V praxi se cˇ asto setkáváme s pˇrípady, že na statistických jednotkách sledujeme dva a víc znak˚u, které jsou svou povahou diskrétní a nabývají jen koneˇcnˇe mnoha hodnot (napˇr. pohlaví, charakteristika rizika, pojistné období, ...) nebo které se dají pˇrizp˚usobit tak, aby takovými znaky byli (napˇr. místo výše zkoumané škody, která je spojitá, sledujeme, zda škoda pˇrekroˇcila urˇcitou hranici). K zmˇeˇrení závislosti sledovaných znak˚u se používají kontingenˇcní tabulky. Ty jsou zároveˇn základem metody CHAID, kterou se budeme zabývat v kapitole Klasifikaˇcní stromy. Necht’ dvojrozmˇerný vektor X = (Y, Z)T , kde náhodná veliˇcina Y nabývá hodnot 1, . . . , r (r > 1) a náhodná veliˇcina Z nabývá hodnot 1, . . . , c (c > 1), popisuje dva sledované znaky. Oznaˇcme pij = P (Y = i, Z = j) ,
pi. = P (Y = i) =
c X
pij ,
p.j = P (Z = j) =
j=1
X
pij .
i
Pravdˇepodobnosti pi. a p.j se nazývají marginální pravdˇepodobnosti. Pˇredpokládejme, že pij > 0 pro všechny možné dvojice (i, j). Dále pˇredpokládejme, že se uskuteˇcnil náhodný výbˇer objekt˚u o rozsahu n z rozdˇelení daného pravdˇepodobnostmi pij . Na objektech byli sledovány dva znaky, které jsou reprezentovány náhodnými veliˇcinami Y a Z. Tento výbˇer m˚užeme reprezentovat multinomickým rozdˇelením M(n, pij ). Pokud oznaˇcíme nij poˇcet tˇech pˇrípad˚u, kdy souˇcasnˇe nastalo Y = i a Z = j, a definujeme-li c X
ni. =
j=1
n.j =
nij , ∀i = 1, . . . , r,
r X i=1
nij ∀j = 1, . . . , c,
ˇ m˚užeme výsledky pozorování zapsat do kontingenˇcní tabulky (viz tabulka 1.2). Císla ni , nj se nazývají marginální cˇ etnosti. Pˇrirozenˇe definujeme celkovou cˇ etnost jako n.. =
I X J X
nij .
i=1 j=1
Nejˇcastˇeji testovanou hypotézou, kterou se budeme zabývat i my, je hypotéza o nezávislosti veliˇcin Y a Z. K testu této hypotézy se využívá následující lemma. Lemma 1.1. Veliˇciny Y a Z jsou nezávislé tehdy a jen tehdy, platí-li pij = pi. p.j pro všechna i = 1, . . . , r, j = 1, . . . , c. Lemma 1.1 nabízí alternativní formulaci hypotézy nezávislosti. K testování této hypotézy použijeme klasický χ2 -test. Protože pravdˇepodobnosti p1. , . . . , pr. , p.1 , . . . , p.c nejsou zpravidla známe, jedná se o χ2 -test s neznámými parametry. 16
Y 1 2 . . . r P
1 n11 n21 . . . nr1 n.1
Z 2 n12 n22 . . . nr2 n.2
... c ... n1c ... n2c . . . . . . ... nrc ... n.c
P
n1. n2. . . . nr. n..
Tabulka 1.2: Kontingenˇcní tabulka typu r x c
1.4.1 Test χ2 pˇri neznámých parametrech Uvažujme obecnˇe, že pravdˇepodobnosti p1 , . . . , pk závisí na nˇejakém neznámém parametru a = (a1 , ..., am )T , tedy vlastnˇe p1 = p1 (a), ..., pk = pk (a). Pro každou hodnotu parametru a nutnˇe musí platit p1 (a) + · · · + pk (a) = 1. (1.21) Provedením parciální derivace na (1.21) dostaneme ∂pk (a) ∂p1 (a) +···+ = 0, ∀j = 1, . . . , m. ∂aj ∂aj Pro další výpoˇcet použijeme následující vˇetu. Vˇeta 1.1. Jestliže X = (X1 , ..., Xk ) ∼ M(n, p1 , ..., pk ), pak Pearsonova statistika 2
χ =
k X (Xi − npi )2
npi
i=1
(1.22)
má pˇri n → ∞ asymptoticky rozdˇelení χ2k−1 . D˚ukaz. Viz [1].
Dosazením pravdˇepodobností p1 (a), . . . , pk (a) do vztahu (1.22) a jeho následnou úpravou dostaneme vyjádˇrení k 1 X Xi2 2 χ (a) = − n. (1.23) n i=1 pi (a)
Pro odhad a se nabízí použití metody podobné metodˇe nejmenších cˇ tverc˚u. Oznaˇcme hodnotu parametru a, která minimalizuje (1.23), jako a∗ . Tuto hodnotu nazývame odhadem metodou minimálního χ2 . Odhad m˚užeme získat derivováním vztahu (1.23), ˇrešení je však obtížné. Derivováním analogického vztahu 2
χ (a) =
k X (Xi − npi (a))2
npi (a)
i=1
17
(1.24)
dostaneme soustavu rovnic k
1 ∂χ2 (a) X − = 2 ∂aj i=1
Xi − npi (a) [Xi − npi (a)]2 + pi (a) 2np2i (a)
∂pi (a) =0 ∂aj
(1.25)
pro j = 1, . . . , m. Ta je totožná s derivací vztahu (1.23). S roustoucím n je vliv druhého cˇ lenu na pravé stranˇe výrazu (1.25) cˇ ím dál tím menší. Pokud tento cˇ len vynecháme, dospˇejeme k soustavˇe rovnic k X Xi ∂pi (a) = 0 j = 1, . . . , m. p (a) ∂aj i=1 i
(1.26)
ˇ ˆ a nazýváme ho odhad parametru a modifikovanou meRešení soustavy (1.26) oznaˇcíme a 2 todou minimálního χ . Vrat’me se nyní k odhad˚um pravdˇepodobností p1. , . . . , pr−1,. a p.1 , . . . , p.,c−1. Pˇri testování hypotézy nezávislosti se testuje, zda pravdˇepodobnosti pij multinomického rozdˇelení jsou funkcemi souˇcinu marginálních pravdˇepodobností pi. a p.j . K tomu použijeme právˇe modifikovanou metodu minimálního χ2 . Za neznámé považujeme pouze parametry p1. , . . . , pr−1. a p.1 , . . . , p.c−1, nebot’ platí pr. = 1 −
r−1 X
pi.
p.c = 1 −
a
i=1
c−1 X
p.j .
j=1
Neznámých parametr˚u je tedy r+c−2. Pˇri hledání odhad˚u neznámých parametr˚u použijeme soustavu rovnic (1.26), ve které Xi nahradíme pomocí nij . Poté dostáváme rovnice c X nij nrj − = 0, i = 1, . . . , r − 1 (1.27) p p i. r. j=1 a
r X nij i=1
nic − p.j p.c
= 0,
j = 1, . . . , c − 1.
(1.28)
Protože oba vztahy (1.27) a (1.28) platí i pro i = r a j = c, m˚užeme místo nich uvažovat soustavy ni. nr. − = 0, i = 1, . . . , r pi. pr. a n.j n.c − = 0, j = 1, . . . , c. p.j p.c Odtud dostáváme ni. = nr.
pi. , pr.
i = 1, . . . , r
(1.29)
n.j = n.c
p.c , p.j
j = 1, . . . , c.
(1.30)
a
Seˇctením rovnic (1.29) pˇres všechna i a rovnic (1.30) pˇre všechna j dostaneme vztah n = nr. /pr. resp. n = n.c /p.c . Pˇrirozenými odhady neznámých parametr˚u pr. a p.c proto jsou 18
pˆr. = nr. /n resp. pˆ.c = n.c /n. Dosazením tˇechto odhad˚u po ˇradˇe do vztah˚u (1.29) a (1.30) získáme odhady všech parametr˚u ve tvaru pˆi. =
ni. , n
∀i = 1, . . . , r
;
pˆ.j =
n.j , n
∀j = 1, . . . , c.
(1.31)
Lze dokázat (viz [2]), že veliˇcina 2
χ =
r X c X (nij −
ni. n.j 2 ) n , ni. n.j n
i=1 j=1
(1.32)
kterou získáme dosazením odhad˚u parametr˚u do (1.24), má asymptoticky rozdˇelení χ2 s poˇctem stupˇnu˚ volnosti rc − (r + c − 2) − 1 = (r − 1)(c − 1). Vzhledem k (1.23) m˚užeme uvedenou veliˇcinu χ2 poˇcítat také podle vztahu r X c X n2ij − n. χ =n n n i=1 j=1 i. .j 2
(1.33)
Pokud je χ2 ≥ χ2(r−1)(c−1) (α), α ∈ (0, 1), zamítáme hypotézu o nezávislosti veliˇcin Y a Z na hladinˇe α. Ke zmˇeˇrení závisloti promˇenných Y a Z nám slouží kontingenˇcní koeficienty. Nejpoužívanˇejší kontingenˇcní koeficienty jsou založeny na porovnání sdružených cˇ etností nij s hypotetickými (oˇcekávanými) sdruženými cˇ etnostmi qij , kde qij =
ni. n.j , n
i = 1, . . . r,
j = 1, . . . c.
Pokud jsou rozdíly skuteˇcných a oˇcekávaných sdružených cˇ etností relativnˇe malé, naznaˇcují slabou závislost promˇenných Y a Z. Relativnˇe velké rozdíly poukazují naopak na závislost ˇ silnou. Casto užívaným kontingenˇcním koeficientem je Cramérovo V, které je definováno vztahem s χ2 V = (1.34) n(min(r, c) − 1) a Pearson˚uv kontingenˇcní koeficient C daný vztahem s χ2 C= , χ2 + n
(1.35)
kde χ2 je hodnota statistiky ze vztahu (1.32) nebo (1.33). Oba koeficienty jsou shora omezené ˇ je hodnota koeficient˚u bližší jedné, tím je závislost sledovaných znak˚u silhodnotou 1. Cím nˇejší.
19
1.5 Klasifikaˇcní stromy Klasifikaˇcní stromy pˇredstavují alternativní pˇrístup k úloze diskriminaˇcní analýzy, kterou je klasifikace objekt˚u na základˇe pozorovaných znak˚u do jednotlivých skupin. Narozdíl od diskriminaˇcní analýzy nebo lineární regrese není tento pˇrístup založen na pˇredpokladu normality závislé ani nezávislých promˇenných, ani na pˇrísných pˇredpokladech ohlednˇe tvaru modelované závislosti. Cílem klasifikaˇcního stromu je roztˇrídit data do odlišných skupin cˇ i vˇetví, které vytvoˇrí nejsilnˇejší separaci hodnot závislé promˇenné. Pˇredpokládejme, že sledujeme nˇejakou charakteristiku urˇcité populace, kterou lze reprezentovat diskrétní náhodnou veliˇcinou Z nabývající hodnot 1, . . . , J. Pˇredpokládejme, že na objektech této populace sledujeme znaky, které jsou reprezentovány nezávislými náhodnými veliˇcinami X1 , X2 , . . . , Xk . Hodnotu náhodné veliˇciny Z pro daný objekt chceme predikovat v závislosti na hodnotách sledovaných znak˚u. Oznaˇcme x = (x1 , x2 , . . . , xk ) realizaci náhodného vektoru X = (X1 , X2 , . . . , Xk ). Definujme prostor Ω jako stavový prostor4 náhodného vektoru X. Oznaˇcme hodnotu náhodné veliˇciny Z pro objekt charakterizovaný vektorem x jako z(x). Pˇredpokládejme, že každý z objekt˚u sledované populace patˇrí v závislosti na hodnotˇe z(x) do jedné ze tˇríd T1 , . . . , TJ , kde Tj = {x, z(x) = j} pro j = 1, . . . , J. Množinu index˚u tˇríd oznaˇcme C, tj. C = {1, . . . , J}. Jednotlivé objekty jsou zaˇrazeny do tˇríd na základˇe urˇcitého klasifikaˇcního pravidla. Uvedeme si definici klasifikaˇcního pravidla. Definice 1.1. Klasifikátor nebo klasifikaˇcní pravidlo je funkce d(x) definována na Ω taková, že pro každé x ∈ Ω platí d(x) = j ⇐⇒ x ∈ Tj . Jinou možností pohledu na klasifikátor je definování množin Aj jako podmnožin Ω takových, S že Aj = {x; d(x) = j} , j = 1, . . . , J. Množiny A1 , . . . , AJ jsou disjunktní a Ω = j Aj . Konstrukce klasifikátoru je založena na souboru minulých pozorování, který nazýváme uˇcební vzorek (learning sample). Ten poz˚ustává z hodnot znak˚u pozorovaných v minulosti na N objektech odpovídající populace s jejich aktuální klasifikací. Definice uˇcebního vzorku je následující:
Definice 1.2. Uˇcební vzorek L se poz˚ustává z dat (x1 , j1 ), . . . , (xN , jN ), kde xn ∈ Ω a jn ∈ C pro n = 1, . . . , N, tedy L = {(x1 , j1 ), . . . , (xN , jN )}. V závislosti na jevu, který sledujeme, se m˚užou cíle klasifikace lišit. M˚užeme chtít bud’ vytvoˇrit vhodný klasifikátor ve smyslu definice 1.1 nebo odhalit strukturu pˇredpovídání, tj. zjistit, jak sledované znaky nebo interakce znak˚u ovlivˇnují hodnotu náhodné veliˇciny Z a tedy zaˇrazení objekt˚u do tˇríd. Cílem je tak vytvoˇrení snadno interpretovatelných podmínek ke klasifikaci. Jedním ze zp˚usob˚u vytvoˇrení klasifikaˇcního pravidla pro nové objekty je konstrukce klasifikaˇcního stromu. Ten vzniká postupným rozpadem uˇcebního vzorku na jednotlivé množiny v závislosti na klasifikaci pˇríslušných objekt˚u. Uˇcební vzorek nazýváme v tomto pˇrípadˇe 4
množina všech možných hodnot, které nabývá náhodný vektor X
20
koˇren stromu, podmnožiny vzniklé rozpadem koˇrene nazýváme uzly stromu a množiny, které se již dále nedˇelí jsou listy stromu. Každý list je oznaˇcen nˇekterou z tˇríd T1 , . . . , TJ . Takto vzniklý stromový klasifikátor pˇredpovídá tˇrídu pro nový objekt postupnou cestou v stromu. Když se objekt na základˇe pro nˇej namˇeˇrených hodnot x dostane do nˇekterého z list˚u klasifikaˇcního stromu, je jeho tˇrída urˇcena oznaˇcením tohoto listu. Kompletní konstrukci stromu m˚užeme shrnout následovnˇe. Jde o 1. výbˇer nejvhodnˇejšího dˇelení, 2. rozhodnutí, kdy deklarovat koneˇcný uzel nebo pokraˇcovat v dˇelení, 3. pˇriˇrazení každého koneˇcného uzlu do tˇrídy. Urˇcení nejvhodnˇejšího dˇelení pro daný uzel je založeno na tzv. funkci nehomogenity, kterou oznaˇcíme Φ. Definice 1.3. Funkce nehomogenity je funkce Φ definovaná na množinˇe všech J-tic (p1 , . . . , P pJ ) takových, že pj ≥ 0, j = 1, . . . , J, j pj = 1, s vlastnostmi i) φ nabývá svého maxima pouze v bodˇe
1 1 , , . . . , J1 J J
,
ii) φ nabývá svého minima pouze v bodech (1, 0, . . . , 0), (0, 1, 0, . . . , 0), . . . , (0, 0, . . . , 0, 1). Pomocí funkce nehomogenity φ se definuje míra nehomogenity uzlu t jako i(t) = φ(p(1|t), p(2|t), . . . , p(J|t)), kde p(j|t) vyjadˇruje podíl zastoupení tˇrídy Tj v uzlu t, j = 1, . . . , J. Míra nehomogenity je tedy nejvˇetší, když jsou všechny tˇrídy T1 , . . . , TJ v uzlu rovnomˇernˇe zastoupeny. Míra nehomogenity je v uzlu t nejmenší, když se v uzlu vyskytují objekty jenom z jedné tˇrídy. Oznaˇcme kandidáty pro rozpad uzlu t jako s1 , . . . , sK . Nejvhodnˇejším dˇelícím kritériem pro uzel t je kandidát sl právˇe když platí ∆i(sl , t) = i(t) − q1 i(t1 ) − q2 i(t2 ) − . . . − qm i(tm ) = max ∆i(sh , t), h=1,...,K
kde qi je podíl tˇech objekt˚u z uzlu t, které se použitím kandidáta sl dostanou do novˇe vzniklého uzlu ti a m je poˇcet poduzl˚u uzlu t, které vzniknou použitím dˇelícího kritéria sl . Pokud je pokles nehomogenity maximální pro více dˇelících kritérií, zvolí se libovolné z nich. Analogicky se postupuje stále hloubˇeji. Když se dospˇeje k uzlu t∗ , pro který není ∆i(s, t∗ ) dostateˇcnˇe velké, uzel t∗ se již nedˇelí a stává se z nˇej list. Tˇrída listu t∗ je urˇcena vˇetšinovým pravidlem, tj. pokud platí p(j0 |t∗ ) = max p(j|t∗ ), j=1,...,J
oznaˇcí se list t∗ tˇrídou Tj0 . Pˇri vytváˇrení klasifikaˇcního stromu se m˚uže stát, že více list˚u je oznaˇceno stejnou tˇrídou. V tomto pˇrípadˇe m˚uže dojít ke sluˇcování odpovídajících list˚u. 21
V závislosti na sledovaném jevu v populaci je nˇekdy vhodnˇejší neprovádˇet závˇereˇcné oznacˇ ování list˚u vzniklého klasifikaˇcního stromu tˇrídama, ale zamˇeˇrit se na podíly jednotlivých tˇríd v listech. Pˇredpokládejme, že nový objekt charakterizovaný vektorem x se postupnou cestou stromem dostane do uzlu t, v kterém (p(1|t), p(2|t), ..., p(J|t)) je podíl zastoupených tˇríd . Pravdˇepodobnost, že pro tento objekt bude mít náhodná veliˇcina Z hodnotu j je potom rovna právˇe p(j|t). D˚uležitou vlastností klasifikaˇcních strom˚u je jejich optimalita. Optimality klasifikaˇcních strom˚u se dosahuje jejich proˇrezávaním, tzv. prunningem. Pro proˇrezávaní strom˚u jsou vytvoˇreny a poˇrád se vytváˇrejí r˚uzné algoritmy, které se odlišují efektivitou a složitostí. Podrobnˇejší informace lze najít napˇríklad v knize [4]. Klasifikaˇcní stromy mohou být v souˇcasnosti vytvoˇreny v mnohých softwarech (napˇríklad MATLAB, R, Statistica , SPSS, . . . ). Známým programem pro vytváˇrení klasifikaˇcních strom˚u je program CHAID (Chi-squared Automatic Interaction Detector), který je následovníkem programu THAID (Theta Automatic Interaction Detection), vyvinutým v sedmdesátých letech 20. století. Podrobnˇeji popíšeme algoritmus metody CHAID.
1.5.1 Metoda CHAID Jak jsme již zmínili výše, zkratka programu CHAID znamená Chi-squared Automatic Interaction Detector. Obecnˇe tedy zkoumá vzájemné vztahy a p˚usobení mezi vysvˇetlujícími promˇennými a vysvˇetlovanou promˇennou na základˇe statistiky s χ2 -rozdˇelením. Pˇri vytváˇrení klasifikaˇcního stromu bere program CHAID v úvahu všechna možná dˇelení všech vysvˇetlujících promˇenných, které zadáme na vstupu. Míra nehomogenity, kterou používá algoritmus CHAID, je založena na dosažené hladinˇe statistického testu, tzv. p-hodnotˇe. CHAID zvolí pro rozdˇelení aktuálního uzlu kategorie té promˇenné, která nejvíce pˇrispˇeje ke snížení nehomogenity uzlu, tj. pro kterou je pˇri provedení χ2 -testu nezávislosti vysvˇetlující a vysvˇetlované promˇenné p-hodnota nejmenší a souˇcasnˇe dostateˇcnˇe malá, tj. zamítnutí hypotézy o nezávislosti vysvˇetlující a vysvˇetlované promˇenné je nejoprávnˇenˇejší. Algoritmus odmítne další dˇelení, je-li p-hodnota pˇríliš velká. Uživatel si limit pro odmítnutí dalšího dˇelení m˚uže stanovit pˇredem sám. Do algoritmu CHAID m˚užou vstupovat promˇenné nominální, ordinální i spojité. Omezíme se na binární závislou promˇennou a nominální prediktory. Pro každý prediktor algoritmus postupuje následovnˇe: 1. Vytvoˇrí kontingenˇcní tabulku pro kategorie prediktoru a závislé promˇenné. Má-li promˇenná víc než dvˇe kategorie, algoritmus se snaží slouˇcit ty kategorie, které jsou podobné vzhledem k závislé promˇenné, a nemá tedy význam je rozlišovat. Pro všechny možné zp˚usoby shlukování algoritmus provede χ2 -test nezávislosti a jako nejlepší vybere zp˚usob s nejmenší p-hodnotou. Jestliže toto shlukování statisticky významnˇe pˇrispˇeje k odlišení pozorování v r˚uzných tˇrídách proti pˇredchozímu rozdˇelení kategorií, provede se. 2. CHAID vytvoˇrí kontingenˇcní tabulku, která obsahuje kategorie závislé promˇenné a zkoumaného prediktoru. Provede χ2 -test nezávislosti a použitím Bonferroniho nerov22
nosti odhadne p-hodnotu. Bonferroniho nerovnost ˇríká, že pro jevy Ai , i = 1, . . . , n, musí platit n n [ X P ( Ai ) ≤ P (Ai) . i=1
i=1
Bonferroniho odhad p-hodnoty pro závislou binární promˇennou a prediktor s k kategoriemi má tvar k(k − 1) padj = p . (1.36) 2 3. Algoritmus zvolí tu vstupní promˇennou, která má nejmenší odhadnutou p-hodnotu a porovná tuto p-hodnotu s pˇredem zvolenou hladinou spolehlivosti α. • Je-li padj ≤ α, rozdˇelí se uzel, který odpovídá množinˇe kategorií dané promˇenné, na tyto kategorie. • Je-li padj > α, nerozdˇeluje se dál a daný uzel je považovaný za koneˇcný uzel, tedy list. 4. Algoritmus se zastaví, když je splnˇená nˇekterá z podmínek, které nám zaruˇcují efektivnost a správnost vytvoˇreného stromu. Tyto podmínky m˚užeme zformulovat následovnˇe: • Všechna pozorování v jednom uzlu dávají stejné hodnoty pro všechny vysvˇetlující promˇenné. • Hloubka stromu dosáhla pˇredepsané maximální hodnoty.
• Dˇelení uzlu má za následek vznik poduzlu, kterého velikost je menší než pˇredepsaná minimální velikost. • Uzel je tzv. cˇ istý, tj. všechna pozorování dávají stejné hodnoty závislé promˇenné, tj. v uzlu se vyskytuje jenom jedna tˇrída. Nespornou výhodou klasifikaˇcních strom˚u je jednoduchá a srozumitelná interpretace výsledného modelu. Díky tomu jsou klasifikaˇcní stromy spolu s logistickou regresí cenným nástrojem pro všechny typy cíleného modelování.
23
2 Pojistné sazby Každý pojistný produkt pˇredstavuje pro pojišt’ovnu urˇcitý pˇríjem ve formˇe pojistného a pˇredpokládané výdaje spojené s budoucím pojistným plnˇením. Pˇri stanovování pojistných sazeb se musí brát v úvahu dvˇe hlediska: 1. Úhrn vybraného pojistného musí pokrýt budoucí úhrn oˇcekávaného pojistného plnˇení, r˚uzné typy náklad˚u a v ideálním pˇrípadˇe ještˇe vytvoˇrit zisk. 2. Pojistné sazby musí obstát v konkurenci na pojistném trhu. Pojistný matematik, který usiluje o bezpeˇcnou výši pojistných sazeb je v rozporu s obchodním oddˇelením, které chce pojistné sazby co nejnižší. V d˚usledku konkurence pojistného trhu je cˇ asto pojišt’ovna donucena prodávat nˇekteré produkty pojištˇení urˇcité skupinˇe pojistník˚u za ztrátové sazby. D˚uvodem je samozˇrejmˇe udržení klíˇcových a získání nových klient˚u. D˚uležitým faktorem pro stanovování pojistných sazeb je správná segmentace pojistník˚u. Na základˇe vhodné segmentace je pojišt’ovna schopna lépe odhadnout škodovost jednotlivých skupin klient˚u a tím efektivnˇeji nastavit pojistné sazby pro jednotlivé skupiny. Jednou z možností stanovení pojistných sazeb je použití modelu, který kombinuje lineární a logistickou regresi. Cílem ukázky je na základˇe dostupných dat z povinného ruˇcení vytvoˇrit model pro stanovení pojistných sazeb pro rok 2008. Na základˇe údaj˚u z roku 2006 použitím lineární regrese odhadneme roˇcní úhrn pˇredpokládaných škod pro každého klienta v portfoliu. Logistickou regresi použijeme pro odhad pravdˇepodobnosti, že klient v roce 2008 zp˚usobí pojistnou událost. Výsledky obou modelu nakonec pronásobíme. Tím získáme cˇ ástku, která m˚uže být použitá jako výchozí hodnota pro stanovování roˇcního netto pojistného pro každého klienta v portfoliu. Je nutné podotknout, že z d˚uvodu rozsahu práce nezahrnujeme do výpoˇct˚u odhady rezerv IBNR1 a RBNS2 . Problematikou výpoˇctu IBNR rezerv se zabývá napˇríklad pˇrednáška Techniky výpoˇctu IBNR a jejich aplikace v pojištˇení odpovˇednosti z provozu vozidel, kterou v rámci souboru pˇrednášek Semináˇre z aktuarských vˇed ˇ v zimním semestru 2004/2005 vypracovali P. Jedliˇcka, J. Koˇcvara a J. Strnad z Ceské kanceláˇre pojistitel˚u.
2.1 Popis databáze K dispozici máme vzorek portfolia smluv produktu pojištˇení odpovˇednosti z provozu motorového vozidla neboli povinného ruˇcení. Omezili jsme se pouze na osobní vozidla, kterých vlastníkem i držitelem je fyzická osoba. Neuvažujeme tedy pojistné smlouvy na osobní 1 2
rezervy na škody vzniklé ale nenahlášené rezervy na škody nahlášené ale nevyplacené
24
vozidla poˇrízené prostˇrednictvím leasingové cˇ i úvˇerové smlouvy, protože pro nˇe se urˇcují speciální pojistné sazby. Data, která jsme použili v ukázce stanovování pojistných sazeb nem˚užeme z d˚uvodu závazné mlˇcenlivosti v˚ucˇ i pojišt’ovnˇe Generali, a.s. zveˇrejnit. Nˇekteré údaje mohou být z d˚uvodu ochrany dat mírnˇe zkresleny.
0.000015 0.00001 0
0.000005
Hustota
0.00002
Databáze obsahuje 15 138 záznam˚u. Záznamy m˚užeme rozdˇelit na dvˇe skupiny. První skupina obsahuje pojistné smlouvy, na kterých v období od 1.1. 2006 do 20.12. 2006 byla vyplacena alespoˇn jedna škoda. Tˇechto záznam˚u je 1 269. V odpovídajícím záznamu o škodˇe uveden úhrn všech vyplacených škod. Druhá skupina obsahuje pojistné smlouvy, které trvali celé období od 1.1. 2006 do 20.12. 2006 a v sledovaném období se na nich nevyskytla škoda. Škodní frekvence v našem vzorku má hodnotu 8,38 %. Hustota výše škody je zobrazena na obrázku 2.1.
0
500000
1000000
1500000
Výše škody v Kˇc
Obrázek 2.1: Hustota výše škody Ke každému záznamu v databázi máme k dispozici 9 sledovaných znak˚u. Jde o pohlaví, vˇek a bydlištˇe držitele, o znaˇcku a rok výroby vozidla, objem a výkon motoru. V pˇrípadˇe pojistné události je zaznamenána celková roˇcní výše škody. Promˇenná pr˚ubˇeh je binárního typu a rozdˇeluje celou databázi dle výskytu pojistné události. Popis sledovaných promˇenných uvádíme v tabulce 2.1.
25
Promˇenná POHLAVÍ ˇ VEK REGION ˇ ZNACKA
ROK VÝROBY
OBJEM
VÝKON ˚ EH ˇ PRUB ŠKODA
Význam promˇenné
Kategorie
muž žena ≤ 21 vˇek držitele 22 ≤ ... ≤ 28 ≥ 29 velikost bydlištˇe ≤ 30 000 obyv. držitele > 30 000 obyv. Alfa Romeo znaˇcka vozidla VW ≤ 1997 rok výroby vozidla 1998 ≤ . . . ≤ 2000 ≥ 2001 ≤ 1000 cm3 1001 ≤ . . . ≤ 1350 cm3 objem motoru vozidla 1351 ≤ . . . ≤ 1850 cm3 1851 ≤ . . . ≤ 2500 cm3 ≥ 2501 cm3 ≤ 50 kW výkon motoru vozidla 51 kW ≤ . . . ≤ 70 kW ≥ 71 kW Ne nastala škodní událost Ano úhrn vyplacených roˇcních škod hodnoty v CZK pohlaví držitele
Oznaˇcení 1 2 1 2 3 1 2 1 49 1 2 3 1 2 3 4 5 1 2 3 0 1
Tabulka 2.1: Promˇenné v databázi pojistných smluv
2.2 Predikce výše škody V této cˇ ásti se budeme zabývat predikcí budoucí výše roˇcní škody pro každého klienta v portfoliu, za podmínky, že pojistná událost nastane. Použijeme k tomu model lineární regrese. Lineární regresi aplikujeme na záznamy, u kterých byla za sledované období vyplacena alespoˇn jedna škoda. Do modelu pro predikování výše škody zaˇradíme záznamy, u kterých úhrn škod nepˇrekroˇcil cˇ ástku 200 000 Kˇc. Tˇech je celkem 1 231. Pr˚umˇerná výše škody je 33 142 Kˇc. Škody nad 200 000 Kˇc je vhodné modelovat Paretovým rozdˇelením (viz napˇríklad cˇ lánek [13]) nebo je rozpustit mezi ostatní klienty. Druhý jmenovaný pˇrístup použijeme v závˇeru této podkapitoly i my. Pro zjištˇení, kterým rozdˇelením m˚užeme aproximovat naše data budeme uvažovat logaritmicko-normální rozdˇelení a rozdˇelení Gamma. Použitím metody moment˚u odhadneme z našich dat výchozí parametry obou rozdˇelení. Následnˇe použitím metody maximální vˇerohodnosti urˇcíme maximálnˇe vˇerohodné odhady pˇríslušných parametr˚u. Provedeme simulaci 1000 náhodných výbˇeru z každého uvažovaného rozdˇelení s maximálnˇe vˇerohodnými 26
odhady parametr˚u. V každém kroku pro náhodný výbˇer a naše data provedeme Kolmogorov˚uv - Smirnov˚uv test. K rozhodnutí, které rozdˇelení upˇrednostníme, použijeme pr˚umˇernou p-hodnotu. V tabulce 2.2 uvádíme zaokrouhlené hodnoty maximálnˇe vˇerohodných odhad˚u parametr˚u a dosažených hladin testu. Log-norm. µ σ p-hodnota
Gamma a 3,69*10−5 p 1,223 p-hodnota 0,048
9,95 1,02 0,25
Tabulka 2.2: Odhadnuté parametry uvažovaných rozdˇelení Vzhledem k výsledk˚um uvedeným v tabulce 2.2 budeme pˇredpokládat, že roˇcní výše škody má logaritmicko-normální rozdˇelení. Pˇredpoklad logaritmicko-normálního rozdˇelení pro škody do výše 200 000 Kˇc potvrzují i hustoty znázornˇené na obrázku 2.2.
Hustota
0
0.000005
0.000015
0.000025
Rozdˇelení Log - normální Gamma
0
50 000
100 000
Výše škody v Kˇc
150 000
200 000
Obrázek 2.2: Porovnání hustot obou rozdˇelení s histogramem škod Lineární regresí budeme modelovat logaritmické hodnoty úhrn˚u škod, které mají pˇribližnˇe normální rozdˇelení 3 . Do výchozího modelu lineární regrese zahrneme znaky POHLAVÍ, ˇ REGION, ROK VÝROBY, OBJEM a VÝKON. Pokusili jsme se do modelu zaˇradit VEK, ˇ ale z d˚uvodu velkého poˇctu kategorií a malého poˇctu pozorování vytaké znak ZNACKA, cházeli špatnˇe interpretovatelné výsledky. Pro ukázku modelu pro výpoˇcet výchozí hodnoty ˇ pro stanovení roˇcního netto pojistného jsme se proto rozhodli znak ZNACKA do modelu 3
pˇredpokládáme, že výše škody má logaritmicko-normální rozdˇelení
27
nezaˇradit. Pro vytvoˇrení homogenních shluk˚u znaˇcek by bylo možné použít nˇekterý z algoritm˚u shlukovací analýzy. K modelování používáme statistický program R. Definujme tedy výchozí model jako ˇ + REGION + ROK VÝROBY + OBJEM + VÝKON. log(ŠKODA) ∼ POHLAVÍ + VEK K testování nulovosti parametr˚u se používá testová statistika (1.3). Uvažujeme testy na hladinˇe spolehlivosti 5 %. Výstup z programu R uvádíme v pˇríloze 1. Z výsledk˚u výchozího modelu vyplývá, že prokazatelnˇe nenulové jsou koeficienty u promˇenných REGION, ROK VÝROBY a OBJEM. Koeficient determinace má hodnotu 51,13 %. Pokusíme se redukovat poˇcet promˇenných v modelu. Korelace mezi promˇennými OBJEM a VÝKON dosahuje hodnoty 62 %. Z výchozího modelu vyplývá, že promˇenná VÝKON nemá vliv na logaritmickou výši škody, proto ji z modelu vypustíme. Definujme tedy podmodel 1 jako ˇ + REGION + ROK VÝROBY + OBJEM. log(ŠKODA) ∼ POHLAVÍ + VEK Provedeme test platnosti podmodelu 1 v p˚uvodním modelu analýzou rozptylu. Model 1: log(I(data200$SKODA)) ~ data200$POHLAVI + data200$VEK + data200$REGION + data200$ROK_VYROBY + data200$OBJEM Model 2: log(I(data200$SKODA)) ~ data200$POHLAVI + data200$VEK + data200$REGION + data200$ROK_VYROBY + data200$OBJEM + data200$VYKON Res.Df RSS Df Sum of Sq F Pr(>F) 1 1220 622.27 2 1218 621.55 2 0.72 0.7081 0.4928
Prokázali jsme platnost podmodelu 1 v p˚uvodním modelu. Platnost potvrzuje i koeficient determinace, který se vypuštˇením promˇenné VÝKON z p˚uvodního modelu výraznˇe nezmˇenil (R2 = 51,07 %). Dále budeme postupovat metodou sestupného výbˇeru4 . Pro všechny promˇenné podmodelu 1 spoˇcteme F-statistiku podle vztahu (1.4). Použijeme k tomu proceduru drop1 v programu R. Výsledek je následující: Model: log(I(data200$SKODA)) ~ data200$POHLAVI data200$ROK_VYROBY + data200$OBJEM Df Sum of Sq RSS <none> 622.27 data200$POHLAVI 1 0.12 622.40 data200$VEK 2 0.28 622.56 data200$REGION 1 4.78 627.06 data200$ROK_VYROBY 2 39.82 662.10 data200$OBJEM 4 480.41 1102.68 --Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 4
viz str. 7
28
+ data200$VEK + data200$REGION + AIC F value Pr(F) -817.79 -819.55 0.2391 0.624922 -821.23 0.2779 0.757428 -810.36 9.3807 0.002241 ** -745.43 39.0380 < 2.2e-16 *** -121.51 235.4665 < 2.2e-16 *** ’*’ 0.05 ’.’ 0.1 ’ ’ 1
Jako promˇenná, která nejménˇe pˇrispíva k vysvˇetlení vysvˇetlované promˇenné se jeví promˇenˇ Uvažujme tedy podmodel 2 ná VEK. log(ŠKODA) ∼ POHLAVÍ + REGION + ROK VÝROBY + OBJEM. a testujme platnost podmodelu 2 v p˚uvodním modelu analýzou rozptylu. Výsledek je následující: Analysis of Variance Table Model 1: log(I(data200$SKODA)) ~ data200$POHLAVI + data200$REGION + data200$ROK_VYROBY + data200$OBJEM Model 2: log(I(data200$SKODA)) ~ data200$POHLAVI + data200$VEK + data200$REGION + data200$ROK_VYROBY + data200$OBJEM Model 3: log(I(data200$SKODA)) ~ data200$POHLAVI + data200$VEK + data200$REGION + data200$ROK_VYROBY + data200$OBJEM + data200$VYKON Res.Df RSS Df Sum of Sq F Pr(>F) 1 1222 622.56 2 1220 622.27 2 0.28 0.2778 0.7575 3 1218 621.55 2 0.72 0.7081 0.4928
Analýza rozptylu potvrzuje také platnost podmodelu 2 v p˚uvodním modelu. Koeficient determinace má hodnotu 51,05 %. Pro další snižování poˇctu promˇenných použijeme opˇet proceduru drop1 pro podmodel 2. Model: log(I(data200$SKODA)) ~ data200$POHLAVI data200$ROK_VYROBY + data200$OBJEM Df Sum of Sq RSS <none> 622.56 data200$POHLAVI 1 0.16 622.71 data200$REGION 1 4.81 627.37 data200$ROK_VYROBY 2 39.71 662.26 data200$OBJEM 4 481.63 1104.19 --Signif. codes: 0 ’***’ 0.001 ’**’ 0.01
+ data200$REGION + AIC F value Pr(F) -821.23 -822.92 0.3049 0.580937 -813.76 9.4397 0.002170 ** -749.12 38.9691 < 2.2e-16 *** -123.83 236.3462 < 2.2e-16 *** ’*’ 0.05 ’.’ 0.1 ’ ’ 1
Poslední promˇennou, která statisticky nevýznamnˇe pˇrispívá k vysvˇetlení logaritmické výše škody je POHLAVÍ. Definujeme tedy podmodel 3 jako log(ŠKODA) ∼ REGION + ROK VÝROBY + OBJEM. Pro ovˇeˇrení, jestli podmodel 3 platí i ve výchozím modelu , provedeme opˇet test analýzou rozptylu. Analysis of Variance Table Model 1: log(I(data200$SKODA)) ~ data200$REGION + data200$ROK_VYROBY + data200$OBJEM
29
Model 2: log(I(data200$SKODA)) ~ data200$POHLAVI + data200$REGION + data200$ROK_VYROBY + data200$OBJEM Model 3: log(I(data200$SKODA)) ~ data200$POHLAVI + data200$VEK + data200$REGION + data200$ROK_VYROBY + data200$OBJEM Model 4: log(I(data200$SKODA)) ~ data200$POHLAVI + data200$VEK + data200$REGION + data200$ROK_VYROBY + data200$OBJEM + data200$VYKON Res.Df RSS Df Sum of Sq F Pr(>F) 1 1223 622.71 2 1222 622.56 1 0.16 0.3044 0.5813 3 1220 622.27 2 0.28 0.2778 0.7575 4 1218 621.55 2 0.72 0.7081 0.4928
1 0 −1 −2
Kvantily standardizovaných reziduí
2
Prokázali jsme platnost podmodelu 3 v p˚uvodním modelu. Koeficient determinace v podmodelu 4 má hodnotu 51,04 % a pˇredstavuje oproti p˚uvodnímu modelu snížení jenom o 0,09 %. Podmodel 3 m˚užeme tedy považovat za finální model pro predikci logaritmické výše škody. Na obrázku 2.3 je zobrazen Q-Q plot standardizovaných reziduí finálního modelu.
−2
−1
0
1
Kvantily normálního rozdˇelení N(0, 1)
2
Obrázek 2.3: Q-Q plot standardizovaných reziduí finálního modelu
Interpretace výsledného modelu pro predikci roˇcní výše škody V pr˚ubˇehu vytváˇrení finálního modelu jsme zjistili, že vˇek držitele, pohlaví držitele a ani výkon vozidla nemá podle našich dat statisticky významný vliv na výši škody. Parametry finálního modelu pro predikci logaritmické roˇcní výše škody jsou uvedeny v tabulce 2.3. Kompletní informace o finálním modelu pro predikci škody jsou uvedeny v pˇríloze 1.
30
Promˇenná
Kategorie
Intercept REGION > 30 000 obyv. ROK VÝROBY 1998 ≤ . . . ≤ 2000 ROK VÝROBY ≥ 2001 OBJEM 1001 ≤ . . . ≤ 1350 cm3 OBJEM 1351 ≤ . . . ≤ 1850 cm3 OBJEM 1851 ≤ . . . ≤ 2500 cm3 OBJEM ≥ 2501 cm3
Odhad parametru 8,40381 0,23257 0,19938 0,47577 0,56906 1,39247 2,14458 2,63579
Tabulka 2.3: Hodnoty odhadnutých parametr˚u finálního modelu lineární regrese Na základˇe hodnoty parametru u promˇenné REGION m˚užeme ˇríci, že pro vozidla, kterých držitel pochází z obce nad 30 000 obyvatel se pˇredpokládá oˇcekávaná roˇcní škoda vyšší než pro vozidla, kterých držitel je z obce pod 30 000 obyvatel. Z modelu dále vyplývá, že zvyšující se stáˇrí vozidla zp˚usobuje pokles pˇredpokládané roˇcní výše škody. Parametry u objemových kategorií potvrzují aktuální nastavení výše pojistných sazeb ve vˇetšinˇe poˇ jišt’oven v Ceské republice. Rozpuštˇení vysokých škod Na zaˇcátku modelování výše škody jsme se zmínili o rozpuštˇení vysokých škod mezi všechny klienty. Vysokých škod je v databázi 38 a jejich úhrn cˇ iní 20 185 418 Kˇc. Kdybychom pro jednoduchost uvažovali tarifování podle objemových kategorií, zjistíme, že na vysokých škodách se v našem vzorku nejvíce podílí kategorie 4. Následuje kategorie 5, 3, 2 a 1. Vysoké škody tedy rozdˇelíme v odpovídající míˇre mezi všechny kategorie. Procentuální rozdˇelení a výše celkové škody, která pˇripadne na jednotlivou kategorii, udává tabulka 2.4. Kategorie Podíl Celková výše škody Na jednoho klienta 1 15 % 3 027 813 Kˇc 6 428 Kˇc 2 15 % 3 027 813 Kˇc 796 Kˇc 3 20 % 4 037 084 Kˇc 682 Kˇc 4 30 % 6 055 624 Kˇc 1 299 Kˇc 5 20 % 4 037 084 Kˇc 14 522 Kˇc Celkem 100 % 20 185 418 Kˇc 1 335 Kˇc Tabulka 2.4: Pomˇer rozpuštˇených škod do jednotlivých objemových kategorií Hodnoty škod z tabulky 2.4 se pˇriˇctou k predikovaným škodám získaným pomocí lineární regrese a tato celková hodnota se bude uvažovat pro výpoˇcet výchozí hodnoty ke stanovení netto pojistného. U pˇredpokládané výše škody by se mˇela zohlednit i inflace. Pro úˇcel ukázky ji ale nebudeme uvažovat. Vysoké hodnoty pr˚umˇerné rozpuštˇené škody na jednoho klienta v první a poslední objemové kategorii jsou zp˚usobeny výraznˇe nižším zastoupením tˇechto skupin v databázi.
31
2.3 Predikce škodního koeficientu Zabývejme se nyní modelem logistické regrese. Logistickou regresí budeme modelovat pravdˇepodobnost, že klient v roce 2008 zaviní nehodu, tj. jeho koeficient škodovosti. Do modelu vstupuje celá databáze o 15 138 pozorováních. Do nejbohatšího modelu L1 zaˇ REGION, ROK VÝROBY, OBJEM a VÝKON. hrneme opˇet promˇenné POHLAVÍ, VEK, ˚ Vysvˇetlovanou promˇennou je promˇenná PRUBEH. K testování nulovosti parametr˚u se používá statistika (1.8). Parametry výchozího modelu uvádíme pˇríloze 2. Test nulovosti parametr˚u oznaˇcil za statisticky nevýznamné znaky POHLAVÍ a VÝKON. ˇ REGION, ROK VÝROBY a OBZahrˇnme tedy do finálního modelu L2 jenom znaky VEK, JEM. Platnost podmodelu L2 v modelu L1 potvrzuje test založený na rozdílu deviancí model˚u L1 a L2. Výsledek testu je následující: Analysis of Deviance Table Model 1: PRUBEH ~ VEK + REGION + OBJEM + ROK_VYROBY Model 2: PRUBEH ~ POHLAVI + VEK + REGION + ROK_VYROBY + OBJEM + VYKON Resid. Df Resid. Dev Df Deviance P(>|Chi|) 1 15128 7687.6 2 15125 7682.6 3 5.0 0.2
0.6 0.4 0.2
Modely Model L1 Model L2 Náhodná klasifikace
0.0
senzitivita
0.8
1.0
Pro d˚uslednˇejší srovnání model˚u L1 a L2 uvádíme na obrázku 2.4 ROC kˇrivky obou model˚u.
0.0
0.2
0.4
0.6
1−specificita
0.8
Obrázek 2.4: ROC kˇrivky model˚u L1 a L2 32
1.0
Interpretace výsledného modelu pro predikci koeficientu škodovosti Statisticky nevýznamnými znaky pro predikci individuálního škodního koeficientu se ukázali být pohlaví držitele a výkon vozidla. Odhadnuté koeficienty znak˚u, které statisticky významnˇe ovlivˇnují pravdˇepodobnost vzniku škodní událostí uvádíme v tabulce 2.5. Kompletní informace o finálním modelu pro predikci koeficientu škodovosti jsou uvedeny v pˇríloze 2. Promˇenná
Kategorie
Odhad parametru
Intercept ˇ VEK 22 ≤ ... ≤ 28 ˇ VEK ≥ 29 REGION > 30 000 obyv. OBJEM 1001 ≤ . . . ≤ 1350 cm3 OBJEM 1351 ≤ . . . ≤ 1850 cm3 OBJEM 1851 ≤ . . . ≤ 2500 cm3 OBJEM ≥ 2501 cm3 ROK VÝROBY 1998 ≤ . . . ≤ 2000 ROK VÝROBY ≥ 2001
-1,06881 -1,11976 -2,63061 0,70457 0,89898 0,66619 0,74721 1,33609 -0,17800 -0,26242
Tabulka 2.5: Hodnoty odhadnutých parametr˚u finálního modelu logistické regrese Z výsledk˚u modelu vyplývá, že pravdˇepodobnost zp˚usobení škody klesá se zvyšujícím se vˇekem. Lze to vysvˇetlit tím, že s rostoucím vˇekem ˇridiˇc nabírá zkušenosti a tím snižuje pravdˇepodobnost zavinˇení nehody. Pˇrispívá k tomu i to, že starších lidí jezdí ménˇe. Odhadnuté parametry u objemových kategorií výpovídají o zvyšování pravdˇepodobnosti pro vyšší objemové kategorie. Významným cˇ initelem je také stáˇrí vozidla. Podle modelu pravdˇepodobnost zavinˇení nehody je pro nová vozidla nižší než pro vozidla staršího roku výroby. K stanovení pojistných sazeb jsou pro nás, jako výsledek modelu L2, d˚uležité odhadnuté pravdˇepodobnosti, jestli pojistná událost nastane, cˇ i nikoliv. Z toho d˚uvodu zde neuvádíme tabulku cˇ etností správnˇe a špatnˇe klasifikovaných pozorování.
2.4 Kombinace modelu˚ Pˇrejdeme ted’ ke kombinaci obou dvou model˚u. Uved’me si nejprve souhrnné informace o predikované výši škody na rok 2008 v celé databázi a o odhadnutém koeficientu škodovosti klienta. summary(predikovane_skody) Min. 1st Qu. Median Mean 3rd Qu. 4464 12690 21930 28270 38120
Max. 126500
summary(koeficient_skodovosti) Min. 1st Qu. Median Mean 3rd Qu. Max. 0.01867 0.03875 0.04595 0.08383 0.07516 0.63060
33
Pro úˇcely naše ukázky pˇredpokládáme stejné rozložení kmene pro rok 2008. Jiné rozložení by se modelovalo obdobnˇe se zahrnutím pravdˇepodobnosti odchod˚u klient˚u a r˚ustu portfolia. Dostáváme se tedy k samotné kombinaci modelu lineární a logistické regrese, tedy k výpoˇctu výchozí hodnoty pro individuální roˇcní netto pojistné. Nejprve ke všem predikovaným škodám získaným z modelu lineární regrese pˇripoˇcteme odpovídající výši rozpuštˇených vysokých škod. Souhrn výsledných výší škod je následující: summary(predikovane_skody&rozpustene_skody) Min. 1st Qu. Median Mean 3rd Qu. Max. 8682 13490 22610 29610 39420 141000
Výslednou hodnotu pronásobíme koeficientem škodovosti jednotlivého klienta. Uvedme si souhrnné informace o výši individuální výchozí cˇ ástky pro stanovení roˇcního netto pojistného v celé databázi. summary(individualni_pojistne) Min. 1st Qu. Median Mean 3rd Qu. 467 1012 1807 4066 3969
Max. 13080
Pokud zachováme pˇredpokládané tarifování podle kategorie objemu motoru vozidla, jednou z možností, jak získat výchozí hodnotu pro stanovení roˇcního netto pojistné pro každou kategorii, je definovat ji jako pr˚umˇernou hodnotu individuálního roˇcní výchozí cˇ ástky v dané kategorii. Takto získané hodnoty udává tabulka 2.6. Kategorie Výchozí hodnota objemu pro stanovení motoru roˇcního netto pojistného 1 467 Kˇc 2 1 012 Kˇc 3 1 807 Kˇc 4 3 969 Kˇc 5 13 076 Kˇc Tabulka 2.6: Výchozí hodnoty pro stanovení roˇcního netto pojistného pro rok 2008 Nadhodnocená výše výchozí cˇ ástky pro stanovení roˇcního netto pojistného na rok 2008 v poslední objemové kategorii je zp˚usobena malým poˇctem pozorovaní v této skupinˇe.
34
3 Marketing Další oblastí pojišt’ovnictví, kde nacházejí uplatnˇení námi zmiˇnované statistické metody je marketing. Marketingové aplikace m˚užeme rozdˇelit v zásadˇe do tˇrí skupin. Jde o 1. cílení produktových marketingových kampaní na ty klienty, kteˇrí mají zájem si daný produkt poˇrídit, 2. pˇredpovˇed’ odchodu zákazník˚u a 3. segmentace zákazník˚u. První aplikace je nejpˇrínosnˇejší. Zahrnuje dva pˇrístupy, cross selling a up selling. Pojmem cross selling se rozumí nabízení dalších produkt˚u souˇcasným zákazník˚um (napˇríklad pˇripojištˇení k stávajícímu pojištˇení), pojem up selling oznaˇcuje nabízení vyšší úrovnˇe téhož produktu souˇcasným zákazník˚um (obvykle vyšší pojistný limit u nˇekterého z produkt˚u). Tyhle dva pˇrístupy jsou vˇetšinou modelovány pomocí tzv. propensity to buy model˚u - pravdˇepodobnost koupˇe daného produktu. Modely na základˇe minulých zkušeností odhadnou pravdˇepodobnost, že si oslovený klient daný produkt zakoupí. Vˇetšinou si pojišt’ovna tyto modely vytváˇrí pro každý významný produkt. Návratnost investic je v d˚usledku použití tˇechto model˚u velmi vysoká. Pˇredpovˇed’ odchodu klient˚u je také d˚uležitou aplikací. Pomocí daného modelu lze nepˇríznivému vývoji vˇcas pˇredejít napˇríklad nabídkou výhodného produktu. Model segmentace zákazník˚u rozdˇelí zákazníky do homogenních skupin podle jejich hodnoty nebo chování. Hodnotová segmentace je vhodná pro volbu pˇrístupu k zákazníkovi. Behaviorální segmentace má využití ve vývoji nových pojistných produkt˚u. K segmentaci se využívají napˇríklad metody shlukové analýzy. Nejpoužívanˇejšími metodami v marketingu jsou logistická regrese a klasifikaˇcní stromy. Logistická regrese je vhodná pro predikci odchodu klient˚u na základˇe ukazatel˚u jako jsou napˇríklad poˇcet stížností bˇehem pojistko-roku nebo poˇcet pojistných událostí bˇehem pojistko-roku. Klasifikaˇcní stromy se ve velké míˇre používají k cílení marketingových kampaní. Cílem následující ukázky je vytvoˇrit model k urˇcení cílové skupiny klient˚u, na kterou by se mˇela zamˇeˇrit marketingová kampaˇn pro sjednání produktu životního pojištˇení. K tomu by bylo opˇet možné použít logistickou regresi, ale vzhledem k jejímu užití v kapitole 2 upˇrednostníme klasifikaˇcní strom a pravdˇepodobnostní pˇrístup diskriminaˇcní analýzy. Oba pˇrístupy porovnáme.
35
3.1 Popis databáze Aplikaci obou metod si pˇredvedeme na modelových datech sjednání produktu životního pojištˇení (zdroj Adastra s.r.o.). Pˇredpokládejme, že byl uskuteˇcnˇen náhodný výbˇer respondent˚u, kterým byl nabídnut produkt životního pojištˇení. Tabulka 3.1 udává pozorované znaky v náhodném výbˇeru o velikosti 3501 respondent˚u. Databáze respondent˚u je uvedena na pˇriloženém CD v souboru Databaze.xls. Promˇenná POHLAVÍ
POPULACE
STAV
ˇ PRÍJEM ˚ DUM ˇ DETI POJISTKA
Význam promˇenné
Kategorie Muž Pohlaví respondenta Žena D˚uchodce Nezamˇestnaný Kategorie v populaci Student Zamˇestnaný Oddˇelenˇe Ovdovˇelý Rodinný stav respondenta Rozvedený Svobodný Ženatý < 15 000 Kˇc Mˇesíˇcní pˇríjem respondenta > 15 000 Kˇc ano Vlastnictví domu ne Poˇcet dˇetí 0,1,2,3,4 ne Sjednání pojistky ano Tabulka 3.1: Sledované promˇenné
3.2 Aplikace klasifikaˇcního stromu Nejprve zkusme vytvoˇrit model klasifikaˇcního stromu metodou CHAID použitím softwaru SPSS s tímto nastavením: 5% hladina významnosti, maximální hloubka stromu 4, minimální poˇcet pˇrípad˚u v rodiˇcovském uzlu 200, minimální poˇcet pˇrípad˚u v listu 80. Výsledný strom je na obrázku 3.1. Vznikl nám strom s osmi listy. Celý pozorovaný soubor jsme tedy rozdˇelili do osmi podsoubor˚u, které nám dávají lepší pohled na strukturu sjednání životního pojištˇení v populaci. Zároveˇn jsme vytvoˇrili klasifikaˇcní pravidla, na základˇe kterých jsme schopni urˇcit pravdˇepodobnost sjednání životního pojištˇení u dalšího klienta v budoucnosti, urˇcit skupinu klient˚u, u kterých je vˇetší pravdˇepodobnost sjednání daného produktu a na nˇe se pak zamˇeˇrit. Klasifikaˇcní pravidla jsou následující: 36
Celá databáze
D chodci
Studenti
Uzel 1 Kat. % n Ne 83.8 2314 Ano 16.2 446 Celk. 78.8 2760
Uzel 2 Kat. % n Ne 3.9 17 Ano 96.1 414 Celk. 12.3 431
Uzel 3 Kat. % n Ne 94.5 293 Ano 5.5 17 Celk. 8.9 310
Pohlaví Odh. P-hodnota=0.000 Chi-square=985.949
Pohlaví Odh. P-hodnota=0.000 Chi-square=63.978
P íjem Odh. P-hodnota=0.000 Chi-square=41.054
Muž
Žena
Muž
Žena
Uzel 4 Kat. % n Ne 90.4 2291 Ano 9.6 242 Celk. 72.4 2533
Uzel 5 Kat. % n Ne 10.1 23 Ano 89.9 204 Celk. 6.5 227
Uzel 6 Kat. % n Ne 19.3 17 Ano 80.7 71 Celk. 2.5 88
Uzel 7 Kat. % n Ne 0.0 0 Ano 100.0 343 Celk. 9.8 343
Stav Odh. P-hodnota=0.000 Chi-square=814.057 Odd l ; Rozv Uzel 10 Kat. % Ne 78.3 Ano 21.7 Celk. 3.4
n 94 26 120
Svobodný
Ovd ; Ženatý
Uzel 11 Kat. % n Ne 1.2 1 Ano 98.8 81 Celk. 2.3 82
Uzel 12 Kat. % n Ne 94.2 2196 Ano 5.8 135 Celk. 66.6 2331
> 15 000 K Uzel 8 Kat. % Ne 80.9 Ano 19.1 Celk. 2.5
Nezam ; Zam
n 72 17 89
< 15 000 K
Populace Odh. P-hodnota=0.000 Chi-square=1336.809, df=2
37
Obrázek 3.1: Klasifikaˇcní strom sjednání produktu životního pojištˇení
Uzel 0 Kat. % n Ne 75.0 2624 Ano 25.0 877 Celk. 100.0 3501
Uzel 9 Kat. % n Ne 100.0 221 Ano 0.0 0 Celk. 6.3 221
• Nezamˇestnaný/Zamˇestnaný + Muž + Rozvedený/Oddˇelenˇe ⇒ pravdˇepodobnost sjednání pojištˇení = 21,7 % • Nezamˇestnaný/Zamˇestnaný + Muž + Svobodný ⇒ pravdˇepodobnost sjednání pojištˇení = 98,8 % • Nezamˇestnaný/Zamˇestnaný + Muž + Ovdovˇelý/Ženatý ⇒ pravdˇepodobnost sjednání pojištˇení = 5,8 % • Nezamˇestnaný/Zamˇestnaný + Žena ⇒ pravdˇepodobnost sjednání pojištˇení = 89,9 % • D˚uchodce + Muž ⇒ pravdˇepodobnost sjednání pojištˇení = 80,7 % • D˚uchodce + Žena ⇒ pravdˇepodobnost sjednání pojištˇení = 100 % • Student + >15 tis. ⇒ pravdˇepodobnost sjednání pojištˇení = 19,1 % • Student + <15 tis. ⇒ pravdˇepodobnost sjednání pojištˇení = 0 % Na základˇe zjištˇeného klasifikaˇcního stromu je zˇrejmé, že marketingová kampaˇn na daný produkt životního pojištˇení by se mˇela zamˇeˇrit na d˚uchodce a také na svobodné zamˇestnané cˇ i nezamˇestnané muže. Vysokou pravdˇepodobnost sjednání životního pojištˇení má podle modelu také skupina zamˇestnaných nebo nezamˇestnaných žen. Naopak oslovování student˚u by na základˇe modelu vedlo k menšímu úspˇechu. Pˇresný postup metody CHAID Uvedeme si pˇresné výpoˇcty, na základˇe kterých byl klasifikaˇcní strom metodou CHAID vytvoˇren. Pro každý pozorovaný znak sestrojíme kontingenˇcní tabulku v závislosti na závislé promˇenné POJISTKA (viz Pˇríloha 3). Následnˇe pro každou promˇennou provedeme Pearsn˚uv χ2 -test nezávislosti. Statistiku χ2 spoˇcteme podle vztahu (1.32) nebo (1.33). V tabulce 3.2 uvádíme výsledky test˚u1 spolu s vybranými kontingenˇcními koeficienty definovanými vztahy (1.34) a (1.35). Promˇenná POHLAVÍ POPULACE STAV ˇ PRÍJEM ˚ DUM ˇ DETI
Statistika χ2 1140 1337 129 162 0, 78 71
p-hodnota 5,65 ∗10−250 7,44 ∗10−289
2,72 ∗10−25 3,30 ∗10−37 3,76 ∗10−1 1,17 ∗10−13
Cramérovo V
Pearsonovo C
0,5706 0,6180 0,1918 0,2152 0,0149 0,1414
0,4956 0,5257 0,1885 0,2103 0,0149 0,1410
Tabulka 3.2: Namˇeˇrené statistiky Budeme uvažovat testy na hladinˇe spolehlivosti 5 %. Z tˇechto prvních namˇeˇrených hodnot ˚ nezamítáme, naopak je zˇrejmé, že hypotézu nezávislosti promˇenných POJISTKA a DUM 1
Ve všech tabulkách uvádíme již upravené p-hodnoty (viz (1.36)).
38
nejvˇetší oprávnˇení k zamítnutí hypotézy máme u promˇenné POPULACE. Kontingenˇcní koeficienty potvrzují, že sjednání pojištˇení ovlivˇnuje nejvíce promˇenná POPULACE, nejménˇe ˚ promˇenná DUM. Významnost promˇenné POPULACE lze od˚uvodnit tím, že studenti mají menší sklon k sjednání životního pojištˇení než již zamˇestnaní nebo d˚uchodci. Následuje fáze možného sluˇcování kategorií sledovaných promˇenných, které mají více než 2 kategorie, tedy kategorií promˇenných POPULACE a STAV. Zaˇcneme s promˇennou POPULACE. V prvním kroku slouˇcíme všechny možné dvojice kategorií. Následnˇe opˇet provedeme Pearsn˚uv χ2 -test nezávislosti pro všechny možné zp˚usoby shlukování. Výsledky udává tabulka 3.3. Shluk
Statistika χ2
p-hodnota
Cramérovo V
Pearsonovo C
D˚uch. + Nezam. D˚uch. + Stud. D˚uch. + Zam. Nezam. + Stud. Nezam. + Zam. Stud. + Zam.
1130 549 72 1331 1337 1321
1,54 ∗10−245 1,51 ∗10−119 7,35 ∗10−16 2,93 ∗10−289 1,55 ∗10−290 5,09 ∗10−287
0,5681 0,3960 0,1434 0,6166 0,6178 0,6143
0,4940 0,3682 0,1420 0,5249 0,5257 0,5234
Tabulka 3.3: Shluky POPULACE 1 Zlepšení rozdíl˚u ve skupinách vzhledem k závislé promˇenné nastane slouˇcením kategorií Nezamˇestnaný a Student a také slouˇcením kategorií Nezamˇestnaný a Zamˇestnaný. Když porovnáme dosaženou hladinu testu s p˚uvodní, dojdeme k závˇeru, že lepší, i když nepatrnˇe, je slouˇcení kategorií Nezamˇestnaný a Zamˇestnaný. Toto slouˇcení provedeme. V sluˇcování budeme pokraˇcovat. Opˇet provedeme všechna možná slouˇcení dvou kategorií a následnˇe Pearsn˚uv χ2 -test nezávislosti. Výsledky jsou v tabulce 3.4. Shluk D˚uch. + Nezam. + Zam. D˚uch. + Stud. Nezam. + Zam. + Stud.
Statistika χ2
p-hodnota
Cramérovo V
Pearsonovo C
68 546 1315
1,46 ∗10−16
0,1394 0,3949 0,6129
0,1380 0,3673 0,5225
6,40 ∗10−121
4,64 ∗10−288
Tabulka 3.4: Shluky POPULACE 2 Porovnáním p-hodnot vidíme, že dalším slouˇcením se výsledky nezlepšili. Za koneˇcné dˇelení promˇenné POPULACE prohlásíme tedy kategorie D˚uchodce, Nezamˇestnaný + Zamˇestnaný, ˇ Student. Podobnˇe by jsme postupovali pro promˇennou STAV a DETI, ale jak je patrné z tabulky 3.2 nebudou tyto promˇenné ani po provedení shlukování lepší pro dˇelení prvního uzlu než promˇenná POPULACE. Pro dˇelení výchozího uzlu volíme tedy promˇennou POPULACE s kategoriemi Nezamˇestnaný + Zamˇestnaný, D˚uchodce, Student. Dále se budeme zabývat tˇremi novými uzly. V uzlu Nezamˇestnaný + Zamˇestnaný si pojištˇení sjednalo 16,2 % respondent˚u, v uzlu D˚uchodce 96,1 % a v uzlu Student 5,5 % respondent˚u. Uzly jsou oproti výchozímu uzlu cˇ istší vzhledem k závislé promˇenné. Pro další dˇelení uzl˚u postupujeme stejnˇe jako u dˇelení výchozího uzlu. Neuvažujeme již ale promˇennou POPULACE. Výsledky test˚u pro uzel Nezamˇestnaný + Zamˇestnaný shrnuje tabulka 3.5. 39
Promˇenná
Statistika χ2
POHLAVÍ STAV ˇ PRÍJEM ˚ DUM ˇ DETI
986 441 49 22 130
p-hodnota
Cramérovo V
Pearsonovo C
0,5977 0,3997 0,1332 0,0893 0,2170
0,5130 0,3712 0,0174 0,0889 0,2121
2,03 ∗10−216 3,02 ∗10−93 2,89 ∗10−12 3,02 ∗10−6 3,72 ∗10−26
Tabulka 3.5: Namˇeˇrené statistiky;Uzel N+Z Nejlepším dˇelením pro další "ˇcištˇení" uzlu Nezamˇestnaný + Zamˇestnaný je POHLAVÍ. P hodnota je výraznˇe menší než pro ostatní promˇenné. Rozdˇelením získáme uzly Nezamˇestnaný + Zamˇestnaný + Muž a Nezamˇestnaný + Zamˇestnaný + Žena. V prvním pˇrípadˇe si pojištˇení sjednalo 9,6 % respondent˚u a v druhým pˇrípadˇe 89,9 % respondent˚u. Opˇet pozorujeme výraznˇejší cˇ istotu uzlu, která zároveˇn potvrzuje provedené výpoˇcty. Pro následující dˇelˇení uzlu Nezamˇestnaný + Zamˇestnaný + Muž se nám jako nejlepší ukázalo dˇelení podle promˇenné STAV, u které jsme vytvoˇrili nové kategorie Ovdovˇelý + Ženatý, Svobodný a Rozvedený + Oddˇelenˇe. Tyto závˇery dokládají postupnˇe tabulky 3.6, 3.7, 3.8 a 3.9.
Promˇenná
Statistika χ2
p-hodnota
Cramérovo V
Pearsonovo C
STAV ˇ DETI ˇ PRÍJEM ˚ DUM
815 219 84 29
3,92 ∗10−174 3,49 ∗10−45 6,03 ∗10−20 6,62 ∗10−8
0,5672 0,2940 0,1821 0,1070
0,4934 0,2823 0,1792 0,1064
Tabulka 3.6: Namˇeˇrené statistiky;Uzel N+Z+M
Shluk Oddˇelenˇe+Ovdovˇelý Oddˇelenˇe+Rozvedený Oddˇelenˇe+Svobodný Oddˇelenˇe+Ženatý Ovdovˇelý+Rozvedený Ovdovˇelý+Svobodný Ovdovˇelý+Ženatý Rozvedený+Svobodný Rozvedený+Ženatý Svobodný+Ženatý
Statistika χ2
p-hodnota
Cramérovo V
Pearsonovo C
810 814 605 794 812 602 814 550 801 801
1,61 ∗10−174
0,5655 0,5669 0,2388 0,5599 0,5662 0,4875 0,5669 0,4660 0,5623 0,5623
0,4922 0,4932 0,4390 0,4885 0,4927 0,4382 0,4932 0,4224 0,4902 0,4902
1,82 ∗10−175
5,21 ∗10−130 3,70 ∗10−171 4,95 ∗10−175 1,94 ∗10−129 1,67 ∗10−175 3,19 ∗10−118 1,79 ∗10−172 1,79 ∗10−172
Tabulka 3.7: Shluky STAV 1;Uzel N+Z+M
40
Shluk
Statistika χ2
Oddˇelenˇe+Rozvedený Oddˇelenˇe+Svobodný Oddˇel.+Ovdov.+Ženatý Rozvedený+Svobodný Rozv.+Ovdov.+Ženatý Svob.+Ovdov.+Ženatý
814 604 794 550 800 22
p-hodnota
Cramérovo V
Pearsonovo C
0,5669 0,4883 0,5599 0,4660 0,5620 0,0932
0,4932 0,4388 0,4885 0,4224 0,4899 0,0928
5,09 ∗10−177 1,68 ∗10−131 9,93 ∗10−173 1,08 ∗10−119 4,81 ∗10−174 4,89 ∗10−5
Tabulka 3.8: Shluky STAV 2;Uzel N+Z+M Shluk
Statistika χ2
Oddˇel.+Rozv.+Svobodný Rozv.+Oddˇel.+Ovdov.+Žen. Svob.+Ovdovˇelý+Ženatý
473 770 20
p-hodnota
Cramérovo V
Pearsonovo C
0,4321 0,3040 0,0889
0,3968 0,4828 0,0885
5,87 ∗10−105 1,68 ∗10−169 7,98 ∗10−6
Tabulka 3.9: Shluky STAV 3;Uzel N+Z+M Uzel
Procento sjednání
Poˇcet pˇrípadu˚
Nez. + Zam. + Muž + Rozv. + Oddˇel. Nez. + Zam. + Muž + Svob. Nez. + Zam. + Muž + Ovd. + Žen.
21,7 % 98,8 % 5,8 %
120 82 2331
Tabulka 3.10: Popis list˚u vzniklých dˇelením uzlu N+Z+M promˇennou STAV První a druhý uzel už obsahují malý poˇcet pozorování, jejich další dˇelení by nebylo efektivní. Proto je prohlásíme za listy. Tˇretí uzel má sice ještˇe dost pozorování k dalšímu dˇelení, ale jeho cˇ istota je dostaˇcující a z d˚uvodu, že strom má již hloubku 4, nebudeme tento uzel dál dˇelit. Vrat’me se k uzlu Nezamˇestnaný + Zamˇestnaný + Žena. Možnosti dˇelení shrnuje tabulka 3.11. Promˇenná
Statistika χ2
p-hodnota
Cramérovo V
Pearsonovo C
STAV ˚ DUM ˇ PRÍJEM ˇ DETI
0,81 0,08 48,5 109,5
6,650 0,771 3,21 ∗10−12 9,24 ∗10−22
0,0597 0,0188 0,4622 0,6945
0,0596 0,0188 0,4196 0,5704
Tabulka 3.11: Namˇeˇrené statistiky;Uzel N+Z+Ž ˇ by zp˚usobil vznik uzl˚u s malým poˇctem poRozpad uzlu podle nejlepší promˇenné DETI zorování, proto další dˇelení neprovádíme a prohlásíme uzel Nezamˇestnaný + Zamˇestnaný + Žena za další list. Vrat’me se k uzlu D˚uchodci, který vznikl prvním dˇelením výchozího uzlu. V tabulce 3.12 jsou hodnoty statistik a p-hodnot pro další dˇelení.
41
Promˇenná
Statistika χ2
p-hodnota
Cramérovo V
Pearsonovo C
POHLAVÍ STAV ˇ DETI ˇ PRÍJEM ˚ DUM
64,98 53,15 5,44 32,02 1,46
1,26 ∗10−15 7,70 ∗10−10 2,400 1,50 ∗10−8 0,226
0,3883 0,3512 0,1123 0,2726 0,0582
0,3620 0,3313 0,1116 0,2630 0,0581
Tabulka 3.12: Namˇeˇrené statistiky;Uzel D˚uchodci Dˇelení uzlu podle promˇenné POHLAVÍ dá vzniknout uzl˚um D˚uchodci + Muž a D˚uchodci + Žena. Druhý jmenovaný je již cˇ istý uzel, pro všechny pˇrípady platí POJISTKA = ano. Tento uzel prohlásíme za další list. Poˇcet pˇrípad˚u v uzlu D˚uchodci + Muž je 88, další dˇelení by již nemˇelo význam. Máme tedy další list. ˇ Uzel Studenti jsme dˇelili podle promˇenné PRÍJEM. Oba dva vzniklé uzly jsme prohlásili za listy. Jeden z d˚uvodu malého poˇctu pˇrípad˚u a druhý z d˚uvodu cˇ istoty vzhledem k závislé promˇenné POJISTKA. Výsledky statistik a popis vzniklých uzl˚u shrnují postupnˇe tabulky 3.13 a 3.14. Promˇenná POHLAVÍ STAV ˇ DETI ˇ PRÍJEM ˚ DUM
Statistika χ2 5,01 4,22 4,55 41,05 2,41
p-hodnota
Cramérovo V
Pearsonovo C
0,1271 0,1167 0,1212 0,3639 0,0882
0,1261 0,1159 0,1203 0,3420 0,0878
10−2
2, 52 ∗ 1, 210 3, 360 1, 48 ∗ 10−10 0, 121
Tabulka 3.13: Namˇeˇrené statistiky;Uzel Studenti
Uzel
Procento sjednání χ2
Poˇcet pˇrípadu˚
Studenti + >15tis. Studenti + <15tis.
19,1 % 0,0 %
89 221
ˇ Tabulka 3.14: Popis list˚u vzniklých dˇelením uzlu Studenti promˇennou PRÍJEM Výpoˇcty jsme ovˇeˇrili správnost vytvoˇreného modelu. Vyhodnocení modelu klasifikaˇcního stromu Pro zjištˇení kvality modelu se u cílení marketingových kampaní používá modifikovaná ROC kˇrivka. Zmˇena oproti ROC kˇrivce je v hodnotˇe, která se vynáší na osu x. Místo hodnoty 1 − specif icita se na osu x vynáší procento oslovených klient˚u, u kterých je pravdˇepodobnost sjednání pojištˇení nejvˇetší. Kˇrivkou, která vyhodnocuje, o kolik je model pro podskupinu klient˚u zvolené velikosti efektivnˇejší než kdybychom stejnˇe velkou skupinu klient˚u oslovili na základˇe náhodného výbˇeru, je tzv. lift kˇrivka. Na obrázku 3.2 uvádíme jak modifikovanou ROC kˇrivku (vlevo), tak lift pro výsledný klasifikaˇcní model.
42
3.5
4.0
100
3.0
80
2.0
40
2.5
Lift
60
Procento Y = 1
1.5
20 0
20
40
60
Procento oslovených klient˚u
80
1.0
0
Klasifikaˇcní strom Náhodný výbˇer 100
0
20
40
60
Procento oslovených klient˚u
80
100
Obrázek 3.2: ROC kˇrivka a lift výsledného klasifikaˇcního modelu Z pr˚ubˇehu lift kˇrivky je vidˇet, že kdybychom na základˇe modelu oslovili 20 % nejpravdˇepodobnˇejších klient˚u, tak poˇcet tˇech, kteˇrí by si sjednali pojištˇení by byl cˇ tyˇrikrát vˇetší, než kdybychom stejnˇe velkou skupinu oslovili náhodnˇe. Použitím modelu bychom bud’ snížili náklady spojené s oslovováním potencionálních klient˚u nebo bychom zvýšili efektivitu oslovování.
3.3 Aplikace pravdˇepodobnostního pˇrístupu diskriminaˇcní analýzy Použitím klasifikaˇcního stromu jsme získali stejné pravdˇepodobnosti sjednání produktu životního pojištˇení pro urˇcité skupiny populace. Pro odhady individuálních aposteriorních pravdˇepodobností toho, že si klient sjedná životní pojištˇení použijeme pravdˇepodobnostní pˇrístup diskriminaˇcní analýzy popsaný v podkapitole 1.3.1. Celou databázi rozdˇelíme podle hodnoty promˇenné POJISTKA. Získáme tak dvˇe podskupiny o velikostech 2624 a 877. První skupinu oznaˇcíme skup0 - skupina klient˚u, kteˇrí si nesjednali pojištˇení a skup1 - klienti, kteˇrí si pojištˇení sjednali. Vypoˇcteme nejprve výbˇerové pr˚umˇery, výbˇerové kovarianˇcní matice a inverze výbˇerových kovarianˇcních matic znak˚u v obou skupinách. Oznaˇcíme je po ˇradˇe x0 , x1 , S 0 , S 1 , S −1 0 a S −1 . Poˇ r adí sledovaných promˇ e nných odpovídá poˇ r adí v tabulce 3.1. Pr˚ u mˇ e ry ve skupi1 nách jsou následující: x0 = (1, 089558, 3, 820884, 4, 829649, 1, 670351, 1, 429116, 1, 719512), x1 = (1, 643101, 2, 530217, 4, 670468, 1, 892816, 1, 446978, 1, 559863). 43
−1 Výbˇerové kovarianˇcní matice S 0 a S 1 spolu s jejich inverzemi S −1 0 a S 1 uvádíme v pˇríloze 4. Apriorní pravdˇepodobnosti π0 a π1 odhadneme relativními cˇ etnostmi v jednotlivých skupinách. Dostáváme p0 = 0, 75 a p1 = 0, 25.
Výbˇerové kovarianˇcní matice S 0 a S 1 nejsou stejné, proto pro výpoˇcet výsledného skóre použijeme kvadratické diskriminaˇcní skóry D0 (x) a D1 (x). Ty vypoˇcteme podle vztahu 1.16 pro každý objekt v databázi. Všechny potˇrebné hodnoty k jejich výpoˇctu máme k dispozici. Z d˚uvodu velkého poˇctu pozorování v databázi uvádíme hodnoty diskriminaˇcních skór˚u na pˇriloženém CD v souboru DA.xls. Pro urˇcení výsledné pravdˇepodobnosti sjednání životního pojištˇení potˇrebujeme ještˇe zjistit celkové skóre klienta, η(x). Skóre η(x) vypoˇcteme pro každého klienta podle vztahu (1.20). Pro výpoˇcet aposteriorní pravdˇepodobnosti sjednání pojištˇení použijeme vztah (1.18). Hodnota výsledného skóre η spolu s odhadnutými pravdˇepodobnostmi je uvedena na pˇriloženém CD opˇet v souboru DA.xls. Diskriminaˇcní analýza odhadla nejvyšší pravdˇepodobnosti sjednání pojištˇení u d˚uchodc˚u. Mezi 20 % nejpravdˇepodobnˇejších zájemc˚u zaˇradila také zamˇestnané ženy a nezamˇestnané nebo zamˇestnané ženaté muže.
1.5
20
2.0
40
2.5
Lift
60
Procento Y = 1
3.0
80
3.5
4.0
100
Na obrázku 3.3 je uvedena modifikovaná ROC kˇrivka (vlevo) a lift kˇrivka pro model diskriminaˇcní analýzy.
0
20
40
60
Procento oslovených klient˚u
80
1.0
0
Diskriminaˇcní analýza Náhodný výbˇer 100
0
20
40
60
Procento oslovených klient˚u
80
100
Obrázek 3.3: ROC kˇrivka a lift kˇrivka modelu diskriminaˇcní analýzy Porovnáním obrázk˚u 3.2 a 3.3 je vidˇet, že pro predikci aposteriorní pravdˇepodobnosti sjednání pojištˇení je vhodnˇejší predikce použitím klasifikaˇcního stromu. Je to zp˚usobeno tím, že jsme porušili pˇredpoklad sdruženého normálního rozdˇelení znak˚u ve skupinách. Výsledky jsou pˇresto uspokojivé.
44
3.4 Statistika v rozsáhlých souborech V nashromáždˇených datech každé pojišt’ovny jsou ukryté cenné informace, které se pojišt’ovna snaží co nejlépe využít. Jejich dokonalé udržování, interpretování a analýza pomáhá pojišt’ovnˇe bojovat s konkurencí na rozsáhlém pojistném trhu. Pˇrevážnˇe oddˇelení marketingu, které má za úkol rozšiˇrovat portfolio klient˚u pojišt’ovny, je na rozsáhlých datech závislé. V pojišt’ovnách je k dispozici celý datový soubor, tedy databáze s rozsahem milion˚u pozorování. Nasazování statistických metod na takto rozsáhlé soubory sebou pˇrináší ˇradu úskalí. Analytici jsou cˇ asto limitováni dostupným softwarem, kterého klíˇcovou vlastností je schopnost naˇcíst a zpracovat rozsáhlé soubory. Z toho d˚uvodu se upˇrednostˇnuje práce s výbˇerovými soubory o velikosti desítek až stovek tisíc. U tak velkého poˇctu pozorování lze vˇecnou chybu v podstatˇe zanedbat. Dalším problémem je zvolení statistické metody. Výbˇer vhodné statistické metody je závislý na jejich pˇredpokladech a vlastnostech. V praxi se cˇ asto stává, že nˇekteré teoretické pˇredpoklady metody nejsou splnˇeny. Upˇrednostˇnují se tedy metody s ménˇe nároˇcnými pˇredpoklady nebo takové metody, u kterých je známo jejich chování v pˇrípadˇe porušení nˇekterého z pˇredpokladu. Pˇríprava samotných dat je pravdˇepodobnˇe cˇ asovˇe nejnároˇcnˇejší cˇ ást statistické analýzy rozsáhlých soubor˚u. V souboru s velkým poˇctem promˇenných se stává nemožným peˇclivˇe analyzovat každou promˇennou zvlášt’ a následnˇe mnohorozmˇerných dat jako celku. Proto se cˇ asto pˇristupuje ke snížení dimenze sledovaného souboru2 tak, aby došlo k co nejmenší ztrátˇe informace. Po pˇrekonání vyjmenovaných pˇrekážek se statistika stává mocným nástrojem analýzy rozˇ sáhlých dat. Cím více informací jsou analytici pojišt’ovny schopni z dat získat, tím výhodnˇejší pozici na trhu má celá pojišt’ovna.
2
napˇríklad použitím analýzy hlavních komponent
45
4 Pojistné podvody Pojišt’ovny ve snaze navyšovat objem pˇredepsaného pojistného a snižování vlastních náklad˚u na provoz cˇ asto na nebezpeˇcné úrovni snižují požadavky, na základˇe kterých klient m˚uže ˇ uzavˇrít pojištˇení. Casto se nevyžaduje napˇríklad osobní návštˇeva v pojišt’ovnˇe a klient si m˚uže sjednat pojištˇení pˇres call centrum nebo pˇres internet. Mnohdy ale takto pojišt’ovnám uniká významná nákladová položka a to cˇ ástka vynaložená na vyplacení pojistných podvod˚u. Podle zákona cˇ . 140/1961 Sb., trestního zákona, cˇ ásti druhé, §250a je pojistným podvodem trestný cˇ in, jehož se dopustí ten, kdo pˇri sjednávání pojistné smlouvy nebo pˇri uplatnˇení nároku na plnˇení z takové smlouvy uvede nepravdivé nebo hrubˇe zkreslené údaje pojistiteli nebo podstatné údaje zamlˇcí. Jak se uvádí v knize [8], pachatel zde bud’ vzbuzuje falešné pˇredstavy ve vztahu k okolnostem, za nichž se poškozený, tedy pojistitel rozhoduje uzavˇrít pojistnou smlouvu, a to tím, že pojišt’uje vˇec, o které již pˇredem ví, že tuto prodá nebo zpronevˇeˇrí nebo využívá nesprávných pˇredstav pojistitele o urˇcitých okolnostech a to zejména pˇri uplatnˇení nároku na pojistné plnˇení tím, že pojistnou událost svým jednáním sám vyvolal. Zájmem každé pojišt’ovny je pˇredcházet pojistnému podvodu a ubránit se vyplacení pojistného plnˇení osobˇe, která na nˇej nemá nárok. Zdokonalování systému odhalování pojistného podvodu v pojišt’ovnictví má svá opodstatnˇení i z toho d˚uvodu, že cˇ ím více pojistných podvod˚u pojišt’ovna neklasifikuje jako podvod, tím je vˇetší šance, že podvodovost bude nar˚ustat. ˇ ˇ Tisková zpráva CAP ze dne 5.2.2007 udává, že v roce 2006 bylo v Ceské republice prošetˇrováno témˇeˇr 5 tisíc pojistných událostí, které byly klasifikované jako pojistný podvod. ˇ Toto cˇ íslo pˇredstavuje více než 40% nar˚ust oproti roku 2005. Pˇredepsané pojistné v Ceské republice cˇ inilo 115,8 miliard Kˇc. Pojišt’ovny zlikvidovali 2,3 miliónu pojistných událostí ˇ a náklady na pojistné plnˇení dosáhli cˇ ástky 53,7 miliard Kˇc (zdroj: Výroˇcní zpráva CAP za rok 2005). Když pˇrijmeme pˇredpoklad, že 15 % všech pojistných událostí jsou pojistné podvody, výše náklad˚u vynaloženou na pojistné podvody lze odhadnout cˇ ástkou 8 miliard Kˇc. Pojišt’ovny uchránily v roce 2005 víc než p˚ul miliardy Kˇc pˇred neoprávnˇeným vyplacením plnˇení, což pˇredstavuje pouze 6,8 % z odhadované cˇ ástky. Pˇresné hodnoty udává následující tabulka.
Oblast pojištˇení Pojištˇení vozidel Pojištˇení dopravy
Poˇcet Poˇcet podvodu˚ podvodu˚ v roce v roce 2005 2006 2 341 3 947
Uchránˇené Uchránˇené hodnoty hodnoty v tis. Kˇc v tis. Kˇc v roce 2005 v roce 2006 267 060 249 049
4
14
27 092
29 815
Pojištˇení majetku a odpovˇednosti
506
559
205 744
183 944
Pojištˇení osob
480
253
46 094
29 918
3 331
4 773
545 990
492 726
Celkem
46
4.1 Indikátory pojistných podvodu˚ Pojistné podvody m˚užeme rozdˇelit z hlediska pˇredmˇetu útoku a to na pojistné podvody spáchané v oblasti životního nebo neživotního pojištˇení. Pojistné podvody m˚užou vznikat v tˇechto oblastech životního pojištˇení: • d˚uchodové pojištˇení • úrazové pojištˇení - zatajování zdravotního stavu, doby a místa kdy došlo k úrazu - uzavˇrení smlouvy se dˇeje až po pojistné události - pojistná událost v˚ubec nenastala, je pouze pˇredstíraná - spolupachateli jsou i pracovníci zdravotnických zaˇrízení, kteˇrí vytváˇrí falešnou zdravotní dokumentaci • pojištˇení léˇcebných výloh - pojistná událost v˚ubec nenastala, je pouze pˇredstíraná • pojištˇení pˇríjm˚u v dobˇe pracovní neschopnosti - možné pˇrepojení s úrazovým pojištˇením - pracovní neschopnost v˚ubec nenastala, je pouze pˇredstíraná - spolupachateli jsou zpravidla pracovníci zdravotnických zaˇrízení • pojištˇení vážných onemocnˇení - pˇri sjednávání pojistné smlouvy pachatel zatají vážnou nemoc - k lékaˇrské prohlídce za sebe posílá jinou, zdravou osobu - spolupachateli jsou zpravidla pracovníci zdravotnických zaˇrízení V oblasti neživotního pojištˇení se nejˇcastˇeji jedná o následující oblasti: • pojištˇení domácnosti vˇcetnˇe rekreaˇcních domácností - pachatel udává, že došlo k odcizení vˇecí, které v˚ubec nevlastnil - pachatel samotné vloupání zinscenuje • pojištˇení staveb - úmyslné podpálení pojištˇené stavby • havarijní pojištˇení motorových vozidel - nejvˇetší frekvence pojistných podvod˚u - údajné krádeže pojištˇených vozidel 47
-
nadhodnocení ceny vozidla doˇcasnˇe namontovanou výbavou pojištˇení vozidla odcizeného v zahraniˇcí zatajování skuteˇcného stáˇrí vozidla pojišt’ování pouze "doklad˚u od vozidla", když je vozidlo prodáno mimo ˇ území CR
- spolupracovníky jsou i pracovníci pojišt’oven - antidatování doby uzavˇrení pojistné smlouvy na vozidlo, které již bylo odcizené - poškození vozidel pˇri dopravních nehodách nebo živelních událostech - ve spolupráci s pracovníky pojišt’oven antidatují dobu sjednání smlouvy na vozidlo, které již je nehodou poškozeno a tak vzbudit dojem, že bylo v dobˇe nehody pojištˇeno - ve spolupráci s pˇríslušníky dopravní policie vytváˇrení fingovaných protokol˚u o dopravní nehodˇe - ve spolupráci s pracovníky autoopraven úmyslnˇe nadhodnocují cenu opravy • pojištˇení odpovˇednosti za škodu zp˚usobenou provozem motorového vozidla - ve spolupráci s pˇríslušníky dopravní policie vytváˇrení fingovaných protokol˚u o dopravní nehodˇe - za spoluúˇcasti druhého ˇridiˇce, obvykle "známého" pachatele inscenace domnˇelé dopravní nehody - ve spolupráci s pracovníky autoopraven úmyslné nadhodnocování ceny opravy Nejfrekventovanˇejší oblastí výskytu pojistných podvod˚u je pojištˇení motorových vozidel. V cˇ lánku [14] se uvádí, že v této oblasti je až 35 % pojistných událostí, které jsou pojistnými podvody. Faktory, které se ukazují být významné v této oblasti jsou zejména • výskyt události v krátké dobˇe po sjednání pojištˇení • pˇredložení pouze fotografií detail˚u nikoli celku • vysoký poˇcet škod bˇehem krátkého období • cˇ asté zmˇeny pojistitel˚u • pozdní placení pojistného nebo neplacení pojistného • podezˇrele velký nátlak na rychlou výplatu pojistného plnˇení v hotovosti • neobvyklé místo výskytu události • vozidlo nalezeno shoˇrelé • vysoký poˇcet najetých kilometr˚u • špatný technický stav vozidla 48
• pˇredmˇet pojištˇení nebo klient jsou opakovanˇe ve vztahu k nˇejaké pojistné události bˇehem krátkého období • likvidátor má výraznˇe vyšší poˇcet podezˇrelých pojistných událostí než je pr˚umˇer • získatel má v péˇci smlouvy, u kterých se vyskytují podezˇrelé pojistné události • opakovaná identická pojistná událost (napˇr. opakované odcizení stejného pˇredmˇetu z vozidla) a jiné. Vyjmenované typy indikátor˚u pojistného podvodu jsou pro pojišt’ovnu d˚uležité zejména pro vytváˇrení model˚u na odhalování pojistných podvod˚u. Další indikátor lze cˇ erpat z charakteristiky pachatel˚u pojistných podvod˚u. Podle knihy [8] se pojistných podvod˚u napˇr. v oblasti havarijního pojištˇení motorových vozidel nejˇcastˇeji úˇcastní skupina pachatel˚u, kterou m˚užeme charakterizovat následovnˇe. Jsou to obvykle osoby • bez stˇredoškolského vzdˇelání, • nemajetní, • ve vˇeku 20 - 30 let, • bez výjimeˇcných intelektových schopností, kteˇrí se nechají zlákat za velmi malou finanˇcní odmˇenu (1 - 5 % z ceny vozidla) organizátory pojistných podvod˚u. Z tˇechto d˚uvod˚u by bylo pro pojišt’ovnu vhodné, aby pˇri sjednávání smlouvy na havarijní pojištˇení požadovala od klient˚u i takové informace, jako je napˇríklad dosažené vzdˇelání. Tento znak lze také zaˇradit do modelu.
4.2 Model detekce pojistných podvodu˚ Schopnost pojišt’oven odhalovat pojistné podvody sice roste díky rozvíjející se spolupráci s ostatními pojišt’ovnami na tuzemském i mezinárodním trhu, ale poˇrád je co zdokonalovat. V mnohých pojišt’ovnách se pojistné podvody detekují na základˇe upozornˇení likvidátora nebo pracovníka pojišt’ovny. Toto podezˇrení je pak prošetˇrováno pracovníky policie ˇ Oni jsou na základˇe d˚ukladného prošetˇrení schopni pojistný podvod odhalit. Kapacita CR. vyšetˇrovatel˚u je však omezena a mnoho pojistných podvod˚u z˚ustane neodhalených. Proto je potˇreba zavést systém detekce podvod˚u, na základˇe kterého se urˇcí, na které pojistné události je potˇreba se zamˇeˇrit. Modely zabývající se detekcí pojistných podvod˚u jsou založené na logistické regresi. Pomocí objektivních indikátor˚u se na základˇe minulých odhalených podvod˚u odhadne riziko, že daná pojistná událost je pojistným podvodem. Souˇcasný systém upozornˇení od likvidátor˚u a pracovník˚u je nadále zachován a vhodnˇe se kombinuje s modelem. Všechny pojistné události jsou modelem rozdˇeleny do tˇrí skupin:
49
1. skupina událostí s vysokou pravdˇepodobností podvodu; vyšetˇrují se všechny události 2. skupina událostí se stˇrední pravdˇepodobností podvodu; poˇcet vyšetˇrovaných událostí závisí na dostupném poˇctu vyšetˇrovatel˚u 3. skupina událostí s nízkou pravdˇepodobností podvodu; události se zpravidla nevyšetˇrují, ale náhodnˇe se vyberou nˇekteré ke kontrole, aby se provˇeˇrily nové trendy v podvodech a eliminovala se jistota neodhalení v pˇrípadˇe vyzrazení fungování systému. Do modelu jsou zahrnuty všechny potencionální promˇenné, které m˚užou zvyšovat pravdˇepodobnost pojistného podvodu. Když se objeví nový trend v pojistných podvodech, zavede se nová promˇenná a její koeficient se nastaví empiricky z d˚uvodu nedostatku historických pozorování. Empirické nastavování koeficient˚u se používá i z toho d˚uvodu, že jenom malá cˇ ást pojistných podvod˚u se prokáže a vstupuje tedy do modelu logistické regrese jako "jedniˇcka". Predikování rizika v takto definovaném modelu by vedlo k chybným výsledk˚um. Data, na kterých by bylo možné aplikovat model k detekci pojistných podvod˚u nejsou k dispozici, pojišt’ovny si je velice chrání. Jde ale o klasickou logistickou regresi, kterou jsme aplikovali v kapitole Pojistné sazby. Proto si dovolíme ukázku vynechat. Využití systému detekce pojistných podvod˚u pˇrináší dobré výsledky. Pˇri stejném poˇctu vyšetˇrovaných událostí se zvyšuje podíl odhalených pojistných podvod˚u, zvyšuje se hodnota uchránˇených prostˇredk˚u. Hodnota pˇrínosu pro pojišt’ovnu samozˇrejmˇe závisí na soucˇ asných ochranných podmínkách pojišt’ovny, na pˇrístupu k likvidaci pojistných událostí a na dostupnosti a kvalitˇe dat.
50
Závˇer Cílem této práce bylo poukázat na využití vybraných statistických metod v pojišt’ovnictví a to konkrétnˇe v oblastech stanovování pojistných sazeb, marketingu a odhalování pojistných podvod˚u. K aplikacím byla použita jak reálná tak modelová data. V oblasti pojistných sazeb jsme se zamˇeˇrili na výpoˇcet výchozí hodnoty pro stanovení netto pojistného použitím kombinace model˚u lineární a logistické regrese. Modely jsme aplikovali na vzorek portfolia smluv produktu pojištˇení odpovˇednosti z provozu motorového vozidla z roku 2006 o velikosti 15 138 klient˚u. Škodní frekvence v souboru mˇela hodnotu 8,38 %. Zamˇeˇrili jsme se pouze na osobní vozidla, kterých držitelem i vlastníkem je fyzická osoba. Použitím lineární regrese jsme predikovali roˇcní výši pojistného plnˇení v roce 2008 pro každého klienta v portfoliu. Pomocí logistické regrese jsme pro každého klienta odhadli jeho individuální koeficient škodovosti. Výsledky obou model˚u jsme nakonec pronásobili a tím jsme získali výchozí hodnotu pro stanovení individuálního netto pojistného. Jako jednu z možností tarifování jsme uvedli rozdˇelení podle objemových kategorií. Výsledky byli uspokojivé až na nejvyšší kategorii, v které byla vysoká hodnota výchozí cˇ ástky zp˚usobena malým poˇctem pozorování této skupinˇe. V oblasti marketingu jsme se zamˇeˇrili na cílení marketingových kampaní. Zpracovávali jsme modelová data sjednání životního pojištˇení v rozsahu 3501 respondent˚u. Podrobnˇe jsme popisovali vytváˇrení klasifikaˇcního stromu metodou CHAID. Výsledky jsme pomocí ROC a lift kˇrivek porovnali s modelem, který jsme vytvoˇrili použitím pravdˇepodobnostního pˇrístupu diskriminaˇcní analýzy. Lepším modelem pro cílení marketingových kampaní se ukázal být model klasifikaˇcního stromu, použitím kterého bychom oproti náhodnému oslovování respondent˚u dosáhli až cˇ tyˇrikrát vˇetší úspˇech . V oblasti pojistných podvod˚u jsme poukázali na problematiku odhalování pojistných podvod˚u v souˇcasnosti. Vˇenovali jsme se výˇctu možných indikátor˚u pojistných podvod˚u, které m˚užou pojišt’ovnám signalizovat zvýšenou pravdˇepodobnost podvodu u dané pojistné události. Snažili jsme se také upozornit na význam model˚u pro detekci pojistných podvod˚u, které mohou výraznˇe pˇrispˇet k jejich odhalení a tím ke zvýšení úhrnu uchránˇených prostˇredk˚u pojišt’oven.
51
Literatura [1] Andˇel J. (2005): Základy matematické statistiky (1. vyd.). Matfyzpress, Praha. [2] Andˇel J. (1985): Matematická statistika (2. vyd.). SNTL/ALFA, Praha. [3] Antoch J., Vorlíˇcková D. (1992): Vybrané metody statistické analýzy dat. Academia, Praha. [4] Breiman L., Friedman J. H., Olshen R. A., Stone C. J. (1993): Classification And Regression Trees. Chapman&Hall, New York. ˇ ˇ [5] Ceská asociace pojišt’oven (2007): Tisková zpráva CAP. Praha. [6] Hanusek L. (2005): Diskriminaˇcní analýza a logistická regrese. Porovnání metod. Conference about Applications of Mathematics and Statistics in Economy, Wroclaw. [7] Hebák P., Hustopecký J., Jarošová E., Pecáková I. (2004): Vícerozmˇerné statistické metody 1.. Informatorium, Praha. ˇ [8] Chmelík J., Porada V., Pršal V. (2000): Pojistné podvody. Policie CR, Úˇrad ˇ ˇ vyšetˇrování pro CR, PA CR, Praha. [9] Kleinbaum D. G., Klein M. (2002): Logistic Regression. Springer, New York. [10] Koˇcka T., Máša P. (2006): Detekce pojistných podvod˚u v pojišt’ovnictví. Business intelligent magazine 1/2005, Adastra Corporation, 10 - 12. [11] Koˇcka T., Máša P. (2006): Seriál o dataminingu 1 - 4. Softwarové noviny 811/2004. [12] Máša P. (2006): Zpracování a analýza obzvláštˇe velkých reálných dat. Robust 2006, 221 - 227. [13] McNeil A., J. (1997) : Estimating the tails of loss severity distributions using extreme value theory. ASTIN Bulletin 27, 117 - 137. [14] Trojanová E. (2006): Pojistné podvody neznají hranice. Pojistný obzor 11/2006, 3 - 5. [15] Zákon cˇ . 140/1961 Sb., trestní zákon. [16] Zvára K. (1989): Regresní analýza (1. vyd). Academia, Praha. [17] http:// www.karlin.mff.cuni.cz/ ∼ zichova
52
Pˇrílohy
53
Pˇríloha 1: Výstupy z programu R: predikce výše škody Výchozí model lineární regrese Call: lm(formula = log(I(data200$SKODA)) ~ data200$POHLAVI + data200$VEK + data200$REGION + data200$ROK_VYROBY + data200$OBJEM + data200$VYKON) Residuals: Min 1Q -2.6720 -0.4848
Median 0.1153
3Q 0.5149
Max 1.7921
Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 8.36431 0.17757 47.103 < 2e-16 *** data200$POHLAVIZena 0.02159 0.04850 0.445 0.656258 data200$VEK2 0.04018 0.05760 0.698 0.485597 data200$VEK3 0.03374 0.05677 0.594 0.552387 data200$REGION2 0.22750 0.07627 2.983 0.002912 ** data200$ROK_VYROBY2 0.19256 0.04938 3.899 0.000102 *** data200$ROK_VYROBY3 0.47157 0.05381 8.764 < 2e-16 *** data200$OBJEM2 0.57856 0.17374 3.330 0.000894 *** data200$OBJEM3 1.42954 0.18129 7.885 6.93e-15 *** data200$OBJEM4 2.16294 0.18289 11.827 < 2e-16 *** data200$OBJEM5 2.63958 0.23632 11.169 < 2e-16 *** data200$VYKON2 -0.04974 0.06464 -0.770 0.441709 data200$VYKON3 0.01236 0.07238 0.171 0.864485 --Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1 Residual standard error: 0.7144 on 1218 degrees of freedom Multiple R-Squared: 0.5113, Adjusted R-squared: 0.5065 F-statistic: 106.2 on 12 and 1218 DF, p-value: < 2.2e-16
Finální model lineární regrese Call: lm(formula = log(I(data200$SKODA)) ~ data200$REGION + data200$ROK_VYROBY + data200$OBJEM) Residuals: Min 1Q -2.6530 -0.4780
Median 0.1114
3Q 0.5059
Max 1.7955
Coefficients: (Intercept) data200$REGION2 data200$ROK_VYROBY2 data200$ROK_VYROBY3 data200$OBJEM2
Estimate Std. Error t value Pr(>|t|) 8.40381 0.17066 49.244 < 2e-16 *** 0.23257 0.07566 3.074 0.00216 ** 0.19938 0.04896 4.072 4.95e-05 *** 0.47577 0.05342 8.906 < 2e-16 *** 0.56906 0.17294 3.291 0.00103 **
54
data200$OBJEM3 data200$OBJEM4 data200$OBJEM5 --Signif. codes:
1.39247 2.14458 2.63579
0.17182 0.17273 0.22307
8.104 1.28e-15 *** 12.416 < 2e-16 *** 11.816 < 2e-16 ***
0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
Residual standard error: 0.7136 on 1223 degrees of freedom Multiple R-Squared: 0.5104, Adjusted R-squared: 0.5076 F-statistic: 182.1 on 7 and 1223 DF, p-value: < 2.2e-16
55
Pˇríloha 2: Výstupy z programu R: predikce koeficientu škodovosti Výchozí model logistické regrese Call: glm(formula = PRUBEH ~ POHLAVI + VEK + REGION + ROK_VYROBY + OBJEM + VYKON, family = binomial(link = "logit"), data = dataall) Deviance Residuals: Min 1Q Median -1.4074 -0.3409 -0.3081
3Q -0.2755
Max 2.8234
Coefficients: Estimate Std. Error z value (Intercept) -1.07398 0.26453 -4.060 POHLAVIZena -0.01385 0.07280 -0.190 VEK2 -1.11189 0.09898 -11.233 VEK3 -2.62735 0.09572 -27.448 REGION2 0.71485 0.11442 6.248 ROK_VYROBY2 -0.16736 0.07372 -2.270 ROK_VYROBY3 -0.25188 0.07828 -3.218 OBJEM2 0.88530 0.25504 3.471 OBJEM3 0.60691 0.26570 2.284 OBJEM4 0.72360 0.26761 2.704 OBJEM5 1.37516 0.32861 4.185 VYKON2 0.12795 0.09719 1.316 VYKON3 -0.04636 0.10827 -0.428 --Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 Null deviance: 8720.2 Residual deviance: 7682.6 AIC: 7708.6
on 15137 on 15125
Pr(>|z|) 4.91e-05 0.849146 < 2e-16 < 2e-16 4.16e-10 0.023197 0.001292 0.000518 0.022360 0.006853 2.85e-05 0.188033 0.668531
*** *** *** *** * ** *** * ** ***
’*’ 0.05 ’.’ 0.1 ’ ’ 1
degrees of freedom degrees of freedom
Finální model logistické regrese Call: glm(formula = PRUBEH ~ VEK + REGION + OBJEM + ROK_VYROBY, family = binomial(link = "logit"), data = dataall) Deviance Residuals: Min 1Q Median -1.4113 -0.3435 -0.3067
3Q -0.2807
Max 2.8216
Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -1.06881 0.26168 -4.084 4.42e-05 *** VEK2 -1.11976 0.09884 -11.329 < 2e-16 *** VEK3 -2.63061 0.09566 -27.500 < 2e-16 *** REGION2 0.70457 0.11402 6.180 6.43e-10 *** OBJEM2 0.89898 0.25423 3.536 0.000406 *** OBJEM3 0.66619 0.25247 2.639 0.008322 ** OBJEM4 0.74721 0.25365 2.946 0.003221 **
56
OBJEM5 1.33609 ROK_VYROBY2 -0.17800 ROK_VYROBY3 -0.26242 --Signif. codes: 0 ’***’
0.30968 0.07340 0.07807
4.314 1.60e-05 *** -2.425 0.015310 * -3.361 0.000775 ***
0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
(Dispersion parameter for binomial family taken to be 1) Null deviance: 8720.2 Residual deviance: 7687.6 AIC: 7707.6
on 15137 on 15128
degrees of freedom degrees of freedom
57
Pˇríloha 3: Klasifikaˇcní stromy: výchozí kontingenˇcní tabulky POHLAVÍ Muž Žena Celkem
POJISTKA Celkem Ano Ne 313 564 877
2389 235 2624
2702 799 3501
Tabulka 4.1: Kontingenˇcní tabulka promˇenné POHLAVÍ
POPULACE Duchodce ˚ Nezamˇestnaný Student Zamˇestnaný Celkem
POJISTKA Ano Ne Celkem 414 15 17 431 877
17 63 293 2251 2624
431 78 310 2682 3501
Tabulka 4.2: Kontingenˇcní tabulka promˇenné POPULACE
STAV Oddˇelenˇe Ovdovˇelý Rozvedený Svobodný Ženatý Celkem
POJISTKA Ano Ne Celkem 25 14 28 91 719 877
41 35 62 54 2432 2624
66 49 90 145 3151 3501
Tabulka 4.3: Kontingenˇcní tabulka promˇenné STAV ˇ PRÍJEM <15 000 Kˇc >15 000 Kˇc Celkem
POJISTKA Ano Ne Celkem 94 783 877
865 1759 2624
959 2542 3501
ˇ Tabulka 4.4: Kontingenˇcní tabulka promˇenné PRÍJEM
58
˚ DUM Ano Ne Celkem
POJISTKA Ano Ne Celkem 485 392 877
1498 1126 2624
1983 1518 3501
˚ Tabulka 4.5: Kontingenˇcní tabulka promˇenné DUM ˇ DETI 0 1 2 3 4 Celkem
POJISTKA Ano Ne Celkem 184 298 130 372 478 1781 58 114 27 59 877 2624
482 502 2259 172 86 3501
ˇ Tabulka 4.6: Kontingenˇcní tabulka promˇenné DETI
59
Pˇríloha 4: Diskriminaˇcní analýza: kovarianˇcní matice a jejich inverze
S0
S1
S −1 0
S −1 1
0,0816 -0,0709 0,0122 0,0511 -0,0601 0,0096 -0,0709 0,2340 0,0270 -0,0057 0,0427 -0,0081 0,0122 0,0270 0,4563 -0,0169 -0,0177 -0,0588 0,0511 -0,0057 -0,0169 0,6510 -0,1146 0,0293 -0,0601 0,0427 -0,0177 -0,1146 0,2211 -0,0373 0,0096 -0,0081 -0,0588 0,0293 -0,0373 0,2451
0,2298 -0,2820 0,1265 0,1863 -0,0269 -0,0401
= =
-0,0401 0,1417 -0,1082 -0,0473 -0,0125 0,2475
20,7987 5,6303 -0,7799 -0,8900 4,0224 -0,0959 5,6303 6,0062 -0,5271 -0,3789 0,1160 -0,0847 -0,7799 -0,5271 2,3348 0,1339 0,2463 0,5945 -0,8900 -0,3789 0,1339 1,7375 0,7360 -0,0413 4,0224 0,1160 0,2463 0,7360 6,1215 0,7490 -0,0959 -0,0847 0,5945 -0,0413 0,7490 4,3430
6,7770 0,8002 -0,7467 -1,0343 1,3759 0,1841 0,8002 0,5735 -0,0340 -0,1134 0,2120 -0,2247 -0,7467 -0,0340 1,6167 -0,0959 0,0416 0,5895 -1,0343 -0,1134 -0,0959 1,2462 0,3681 0,1126 1,3759 0,2120 0,0416 0,3681 11,1585 0,7553 0,1841 -0,2247 0,5895 0,1126 0,7553 4,5171
=
=
-0,2820 0,1265 0,1863 -0,0269 2,1786 -0,1390 -0,0552 -0,0139 -0,1390 0,7235 0,1619 -0,0137 -0,0552 0,1619 0,9841 -0,0518 -0,0139 -0,0137 -0,0518 0,0958 0,1417 -0,1082 -0,0473 -0,0125
60
Pˇríloha 5: Obsah pˇriloženého CD Databaze.xls
databáze klient˚u použita v kapitole Marketing
DA.xls
diskriminaˇcní skóry D0 a D1 všech klient˚u výsledné skóre η všech klient˚u aposteriorní pravdˇepodobnosti sjednání pojištˇení všech klient˚u
Prace.pdf
diplomová práce ve formátu PDF
Prace.ps
diplomová práce ve formátu PS
61