Univerzita Karlova v Praze Matematicko-fyzik´aln´ı fakulta Katedra pravdˇepodobnosti a matematick´e statistiky
Zobecnˇ en´ e line´ arn´ı modely v pojiˇ st’ovnictv´ı
RNDr. Martin Branda, Ph.D.
Zpracov´ano v r´amci projektu
Fondu pro podporu vzdˇel´av´an´ı v pojiˇst’ovnictv´ı
Praha 2013
Obsah ´ 1 Uvod
3
2 Data 2.1 Chybˇej´ıc´ı a chybn´e hodnoty v datech . . . . . . . . . . . . . . . . . . .
4 5
3 Line´ arn´ı regrese 3.1 Aitken˚ uv model a v´aˇzen´e nejmenˇs´ı ˇctverce . . . . . . . . . . . . . . . .
7 8
4 Zobecnˇ en´ e line´ arn´ı modely 4.1 Rodina exponenci´aln´ıch rozdˇelen´ı . . . . . . . . . 4.1.1 Norm´ aln´ı rozdˇelen´ı . . . . . . . . . . . . . 4.1.2 Gamma rozdˇelen´ı . . . . . . . . . . . . . . 4.1.3 Inverzn´ı Gaussovo rozdˇelen´ı . . . . . . . . 4.1.4 Poissonovo rozdˇelen´ı . . . . . . . . . . . . 4.1.5 Alternativn´ı rozdˇelen´ı . . . . . . . . . . . 4.2 Linkov´e funkce . . . . . . . . . . . . . . . . . . . 4.3 Pˇrehled rozdˇelen´ı . . . . . . . . . . . . . . . . . . 4.4 Srovn´an´ı regresn´ıch model˚ u . . . . . . . . . . . . 4.5 V´ aˇzen´ı . . . . . . . . . . . . . . . . . . . . . . . . 4.5.1 Offset . . . . . . . . . . . . . . . . . . . . 4.5.2 V´ ahy pozorov´an´ı . . . . . . . . . . . . . . 4.6 Odhad parametr˚ u. . . . . . . . . . . . . . . . . . 4.6.1 Metoda maxim´ aln´ı vˇerohodnosti . . . . . 4.6.2 Metoda iterativn´ıch v´aˇzen´ ych ˇctverc˚ u . . 4.6.3 Newton˚ uv-Raphson˚ uv algoritmus . . . . . 4.7 Testov´an´ı hypot´ez . . . . . . . . . . . . . . . . . 4.7.1 Testy v´ yznamnosti parametr˚ u. . . . . . . 4.7.2 Konfidenˇcn´ı intervaly . . . . . . . . . . . 4.8 Kvalita modelu a testy podmodel˚ u . . . . . . . . 4.8.1 Testov´an´ı podmodel˚ u . . . . . . . . . . . 4.8.2 Akaikeho informaˇcn´ı krit´erium . . . . . . 4.9 Odhad disperzn´ıho parametru . . . . . . . . . . . 4.10 Korelovan´ a data, n´ahodn´e efekty a GEE modely
. . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . .
9 9 11 11 13 13 14 14 15 16 16 16 17 17 17 18 20 20 20 21 21 21 22 22 22
5 Pˇ r´ıklady zobecnˇ en´ ych line´ arn´ıch model˚ u 5.1 Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.2 Dostupn´ y software . . . . . . . . . . . . . . . . . . . . 5.2.1 Line´ arn´ı regrese . . . . . . . . . . . . . . . . . . 5.3 Regresn´ı model oˇcek´avan´eho poˇctu pojistn´ ych ud´ alost´ı 5.3.1 Poissonovsk´ a regrese (log-line´ arn´ı model) . . . 5.3.2 Overdispersed Poisson˚ uv model . . . . . . . . . 5.4 Regresn´ı model v´ yˇse ˇskod – Gamma regrese . . . . . . 5.5 Regresn´ı model stornovosti – logistick´a regrese . . . . 5.6 Postup konstrukce zobecnˇen´eho line´ arn´ıho modelu . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
23 23 23 23 24 24 26 28 29 32
6 Reference
. . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . .
34
´ Uvod
1
Zobecnˇen´e line´ arn´ı modely nach´azej´ı ˇsirok´e uplatnˇen´ı v pojiˇst’ovnictv´ı, napˇr´ıklad pˇri sazbov´an´ı a rezervov´an´ı v neˇzivotn´ım pojiˇstˇen´ı nebo pˇri podpoˇre obchodu1 . Logistick´a regrese se vyuˇz´ıv´ a k modelov´an´ı pravdˇepodobnosti sledovan´eho jevu, napˇr. pojistn´e ud´alosti, storna smlouvy, n´akupu (pˇri)pojiˇstˇen´ı. Pomoc´ı Poissonovsk´e regrese m˚ uˇzeme modelovat oˇcek´avan´ y poˇcet pojistn´ ych ud´alost´ı bˇehem urˇcit´eho obdob´ı, resp. ˇskodn´ı frekvenci. Gamma regrese je pak vhodn´a pro odhad oˇcek´avan´e v´ yˇse vyplacen´ ych ˇskod z pojistn´e ud´alosti, doby do storna, doby do (n´asleduj´ıc´ı) pojistn´e ud´alosti apod. Zobecnˇen´e line´ arn´ı modely by mˇely patˇrit mezi z´akladn´ı znalosti absolventa magistersk´eho oboru Finanˇcn´ı a pojistn´ a matematika na Matematicko-fyzik´ aln´ı fakultˇe Univerzity Karlovy v Praze. Text pˇredkl´ad´ a z´akladn´ı poznatky, kter´e jsou nutn´e pro pochopen´ı zobecnˇen´ ych line´ arn´ıch model˚ u, pˇredevˇs´ım s ohledem na volbu vhodn´eho modelu, metody a v´ ypoˇcetn´ı n´aroˇcnost odhadu parametr˚ u a interpretaci v´ ysledk˚ u, vˇse s pˇrihl´ednut´ım na ˇcetn´e aplikace v pojiˇst’ovnictv´ı zm´ınˇen´e v´ yˇse. C´ılem textu tedy nen´ı poskytnout hlubok´ y pohled do teorie, ta je ˇcasto pouze naznaˇcena s pˇr´ısluˇsn´ ym odkazem do odborn´e literatury. Pˇred vznikem pˇredmˇetu pro v´ yˇse zm´ınˇen´ y obor bude pˇredn´ aˇska o zobecnˇen´ ych line´ arn´ıch modelech souˇc´ast´ı vzdˇel´ avac´ı ˇc´asti cyklu v r´amci Semin´ aˇre z aktu´arsk´ ych vˇed2 , kter´ y se kon´ a jiˇz tradiˇcnˇe od 8:10 kaˇzd´ y p´atek v semestru na matfyzu3 . Na z´avˇer poznamenejme, ˇze text bude d´ale rozˇsiˇrov´an a aktu´aln´ı verze bude dostupn´a na webu autora, kter´ y bude vdˇeˇcn´ y za jak´ekoliv n´amˇety a pˇripom´ınky.
1
Modely mohou slouˇzit k nav´ yˇsen´ı prodeje produkt˚ u (up-selling) nebo prodeji dalˇs´ıch produkt˚ u st´ avaj´ıc´ım z´ akazn´ık˚ um pojiˇst’ovny (cross-selling). 2 Program je dostupn´ y na www.actuaria.cz 3 Na adrese Sokolovsk´ a 83, Praha 8, v uˇcebnˇe K1.
2
Data
Zobecnˇen´e line´ arn´ı modely b´ yvaj´ı budov´any na datech, kter´e jsou z´ısk´ any z rozs´ahl´ ych datab´ az´ı pojiˇst’ovny. Vyuˇz´ıvaj´ı se napˇr´ıklad v data-miningu, kter´ y se zab´ yv´ a z´ısk´ av´an´ım netrivi´aln´ıch skryt´ ych a potenci´alnˇe uˇziteˇcn´ ych informac´ı z dat. Proto se nejprve budeme vˇenovat pr´avˇe dat˚ um a zamˇeˇr´ıme se na u ´pravu hrub´ ych dat do podoby vhodn´e pro pr´aci s regresn´ımi modely. V tomto textu vyuˇz´ıv´ ame n´asleduj´ıc´ı znaˇcen´ı: • Z´ avisle promˇ enn´ a (odezva): YT = (Y1 , . . . , Yn ), napˇr. poˇcet pojistn´ ych ud´alost´ı v dan´em obdob´ı, v´ yˇse vyplacen´e ˇskody, pˇr´ıznak storna. • Nez´ avisle promˇ enn´ e (prediktory, regresory): oznaˇc´ıme-li i-t´e pozorov´an´ı nez´avisle promˇenn´ ych xTi = (Xi1 , . . . , Xim ), m˚ uˇzeme n pozorov´an´ı seˇradit do matice X11 . . . , X1m .. X = ... . Xn1 . . . , Xnm
Pˇ redpokl´ ad´ ame, ˇze matice m´ a plnou sloupcovou hodnost. Promˇenn´e d´ale klasifikujeme na
– kvantitativn´ı - napˇr. vˇek, poˇcet aktivn´ıch smluv, poˇcet najet´ ych kiloˇ metr˚ u a dalˇs´ı. Casto jsou kategorizov´any kv˚ uli nevhodn´emu rozdˇelen´ı, odlehl´ ym pozorov´an´ım nebo nelinearitˇe vztahu mezi nimi a z´avisle promˇennou. – kvalitativn´ı (kategori´aln´ı) - k´odov´any pomoc´ı 0-1 “dummy” promˇenn´ ych, napˇr. pohlav´ı, region (kraj, okres) a dalˇs´ı. V datab´ azi m´ ame, pˇr´ıpadnˇe nad datab´ az´ı vytvoˇr´ıme, data ve struktuˇre uveden´e v n´asleduj´ıc´ı tabulce, kde kaˇzd´ y ˇr´ adek pˇredstavuje jednu pojistnou smlouvu v urˇcit´em obdob´ı, napˇr´ıklad jednom roce. Z´avisle promˇennou je pro n´as poˇcet ˇskod na smlouvˇe za jeden rok. Jako vysvˇetluj´ıc´ı promˇenn´e slouˇz´ı napˇr´ıklad pohlav´ı pojistn´ıka, poˇcet obyvatel ˇzij´ıc´ıch v m´ıstˇe bydliˇstˇe pojistn´ıka a jeho vˇek k datu poˇc´atku obdob´ı: Y Poˇ cet ˇ skod 2 0 1 0 .. .
Data Pohlav´ı Poˇ cet obyvatel muˇz muˇz ˇzena ˇzena .. .
15 423 1 205 321 20 893 580 .. .
Vˇ ek (v letech) 21 44 35 51 .. .
..
.
Z kategori´aln´ıch promˇenn´ ych obvykle vytv´aˇr´ıme bin´ arn´ı (0-1, dummy) promˇenn´e, kde kaˇzd´ a promˇenn´ a odpov´ıd´ a jedn´e kategorii p˚ uvodn´ı kategori´aln´ı promˇenn´e. Softwarov´e bal´ıky jsou obvykle schopny vytvoˇrit dummy promˇenn´e automaticky pˇri oznaˇcen´ı p˚ uvodn´ıch promˇenn´ ych jako kategori´aln´ıch. Velikost m´ısta bydliˇstˇe je kategorizov´ana na z´akladˇe jednoduch´eho pravidla. V re´aln´ ych aplikac´ıch se ˇcasto vyuˇz´ıv´ a
optim´aln´ı kategorizace4 vytvoˇren´ a pomoc´ı vhodn´ ych metod. Y Poˇ cet ˇ skod
2 0 1 0 .. .
Pohlav´ı ˇzena muˇz 0 0 1 1 .. .
1 1 0 0 .. .
Data Region velk´a mal´ a venkov mˇesta mˇesta 0 1 0 1 0 0 0 1 0 0 0 1 .. .. .. . . .
Vˇ ek (v letech) 21 44 35 51 .. .
..
.
Je-li pˇrid´ an absolutn´ı ˇclen, je z kaˇzd´e kategori´aln´ı promˇenn´e odebr´ ana jedna dummy promˇenn´ a, j´ıˇz odpov´ıdaj´ıc´ı kategorie slouˇz´ı potom jako referenˇcn´ı. V´ ysledek je zobrazen v tabulce, kter´ a pˇredstavuje data vhodn´a pro odhad regresn´ıho modelu.
2.1
X
Y Poˇ cet ˇ skod
Abs.ˇ clen
Pohlav´ı ˇzena
2 0 1 0 .. .
1 1 1 1 .. .
0 0 1 1 .. .
Region velk´a mal´ a mˇesta mˇesta 0 1 1 0 0 1 0 0 .. .. . .
Vˇ ek (v letech) 21 44 35 51 .. .
..
.
Chybˇ ej´ıc´ı a chybn´ e hodnoty v datech
Pˇri pr´aci s re´aln´ ymi daty je potˇreba vˇenovat pozornost chybˇej´ıc´ım a chybn´ ym hodnot´am. Pˇr´ıklad chybn´ ych hodnot je uveden v n´asleduj´ıc´ı tabulce: Y Poˇ cet ˇ skod 2 -1 1 0 .. .
Data Pohlav´ı Poˇ cet obyvatel muˇz muˇz ˇzeˇz ˇzena .. .
15 423 1 205 321 20 893 -112 .. .
Vˇ ek (v letech) 21 44 138 51 .. .
..
.
Chybˇej´ıc´ı hodnoty jsou obvykle v n´ahledu dat reprezentov´any speci´aln´ım znakem5 , pˇr´ıpadnˇe pr´azdn´ ym m´ıstem6 : 4
Optimal binning. Zde u numerick´ ych promˇenn´ ych teˇckou. 6 Obvykle u textov´ ych ˇretˇezc˚ u. 5
Y Poˇ cet ˇ skod 2 · 1 0 .. .
Data Pohlav´ı Poˇ cet obyvatel muˇz muˇz
Vˇ ek (v letech) 21 44 · 51 .. .
15 423 1 205 321 20 893 · .. .
ˇzena .. .
..
.
Bez oˇsetˇren´ı by po kategorizaci vznikla n´asleduj´ıc´ı data: Y Poˇ cet ˇ skod
Abs.ˇ clen
Pohlav´ı ˇzena
2 · 1 0 .. .
1 1 1 1 .. .
0 0 · 1 .. .
X Region velk´a mal´ a mˇesta mˇesta 0 1 1 0 0 1 · · .. .. . .
Vˇ ek (v letech) 21 44 · 51 .. .
..
.
S chybˇej´ıc´ımi a chybn´ ymi hodnotami pracujeme dle jejich v´ yskytu: • V z´ avisle promˇ enn´ e - pozorov´an´ı obvykle vypadnou z odhadu modelu, je vˇsak moˇzn´e dopoˇc´ıtat oˇcek´avanou odezvu. • V nez´ avisle promˇ enn´ ych – Kvantitativn´ı - nahrazen´ı chybˇej´ıc´ıch hodnot, napˇr. pr˚ umˇerem nebo pomoc´ı sofistikovanˇejˇs´ıch metod7 . – Kvalitativn´ı (kategori´aln´ı) - vytvoˇren´ı speci´aln´ı kategorie. Pouˇzit´ım uveden´ ych metod jsme zavedly speci´aln´ı kategorii pro chybˇej´ıc´ı informaci o poˇctu obyvatel a nahradili chybˇej´ıc´ı vˇek pr˚ umˇern´ ym vˇekem klient˚ u: Y Poˇ cet ˇ skod
2 · 1 0 .. .
7
X Abs.ˇ clen
1 1 1 1 .. .
Pohlav´ı ˇzena 0 0 1 1 .. .
Klasifikaˇcn´ı nebo regresn´ı stromy apod.
velk´a mˇesta 0 1 0 0 .. .
Region mal´ a missing mˇesta 1 0 0 0 1 0 0 1 .. .. . .
Vˇ ek (v letech) 21 44 38.43 51 .. .
.. .
3
Line´ arn´ı regrese
V t´eto ˇc´asti velice struˇcnˇe shrneme z´akladn´ı poznatky o modelu line´ arn´ı regrese, kter´ y zobecnˇen´e line´ arn´ı modely zahrnuj´ı jako speci´aln´ı pˇr´ıpad. Line´ arn´ı regrese vˇsak obvykle neb´ yv´ a vhodn´a pro aplikace v pojiˇst’ovnictv´ı. V´ıce o modelu je moˇzn´e se doˇc´ıst ve Zv´ ara (2008). Model line´ arn´ı regrese m˚ uˇzeme zapsat ve tvaru Yi =
m X
Xij βj + εi , i = 1, . . . , n,
j=1
kde pˇredpokl´ ad´ ame 1. chyby (disturbance) εi jsou nez´ avisl´e, 2. E[εi ] = 0, 3. rezidu´ aln´ı rozptyl varεi = σ 2 > 0. ˇ Casto se vyuˇz´ıv´ a maticov´ y z´apis pomoc´ı symbol˚ u zaveden´ ych v pˇredeˇsl´e ˇc´asti Y = Xβ + ǫ, kde β T = (β1 , . . . , βm ) a ǫT = (ε1 , . . . , εn ). Odhad parametr˚ u β prob´ıh´ a nejˇcastˇeji metodou nejmenˇs´ıch ˇctverc˚ u (LS), kdyˇz za pˇredpokladu pln´e sloupcov´e hodnosti X dost´ av´ame βˆ = arg minm β∈R
m n X X Xij βj )2 (Yi − j=1
i=1
T
= arg minm (Y − X β)T (Y − XT β) β∈R
T
= (X X)−1 (XT Y). Odhad t´eˇz splˇ nuje soustavu norm´aln´ıch rovnic XT Xβ = XT Y a je nestrann´ y, tj. Eβˆ = β, s rozptylem varβˆ = σ 2 (XT X)−1 . Vyrovnan´e hodnoty spoˇcteme pomoc´ı vztahu ˆ = Xβˆ = X(XT X)−1 XT Y Y a rezidua jako
ˆ = (I − X(XT X)−1 XT )Y, u=Y−Y
kde I je jednotkov´a matice rozmˇer˚ u n × n. Nestrann´ y odhad rezidu´ aln´ıho rozptylu σ 2 z´ısk´ ame pot´e pomoc´ı vztahu: σ ˆ2 =
E[uT u] . n−m
Za pˇredpokladu normality εi ∼ N (0, σ 2 ) nav´ıc plat´ı Y ∼ Nn (Xβ, σ 2 I) a βˆ ∼ Nm (β, σ 2 (XT X)−1 ).
3.1
Aitken˚ uv model a v´ aˇ zen´ e nejmenˇ s´ı ˇ ctverce
V t´eto ˇc´asti struˇcnˇe pop´ıˇseme model line´ arn´ı regrese s poruˇsen´ ym pˇredpokladem na rozptyl, tzv. Aitken˚ uv model. Necht’ pro rozptyl chyb plat´ı var ǫ = Wσ 2 , kde W je obecn´ a pozitivnˇe definitn´ı matice, tj. chyby nemus´ı b´ yt nez´avisl´e se stejn´ ym −1 T rozptylem. Pomoc´ı rozkladu W = C C, kde C je regul´ arn´ı odmocninov´a matice, pˇrep´ıˇseme model do tvaru CY = CXβ + Cǫ, kter´ y jiˇz odpov´ıd´ a pˇredeˇsl´emu modelu line´ arn´ı regrese s nez´ avisl´ ymi chybami. Odhad β je v tomto pˇr´ıpadˇe ˇreˇsen´ım soustavy norm´aln´ıch rovnic XT W−1 Xβ = XT W−1 Y. Tedy dostaneme odhad parametr˚ u βˆ = (XT W−1 X)−1 XT W−1 Y, kde βˆ ∼ (β, σ 2 (XT W−1 X)−1 ). S analogick´ ym vztahem se setk´ ame pˇri odhadu parametr˚ u v zobecnˇen´ ych line´ arn´ıch modelech. Dalˇs´ı odhady a statistiky z´ısk´ ame analogicky jako v modelu bez poruˇsen´eho pˇredpokladu na rozptyl chyb.
4
Zobecnˇ en´ e line´ arn´ı modely
Zobecnˇen´e line´ arn´ı modely jsou definov´any pomoc´ı tˇr´ı stavebn´ıch element˚ u: 1) Z´avisle promˇenn´ a Yi m´ a rozdˇ elen´ı z exponenci´ aln´ı rodiny s hustotou8 yθi − b(θi ) + c(y, φ) , y ∈ R (1) f (y; θi , φ) = exp a(φ) pro zn´ am´e funkce a, b, c, nezn´am´ y kanonick´ y parametr θi z´avisej´ıc´ı na pozorov´an´ı a nezn´am´ y disperzn´ı parametr φ spoleˇcn´ y pro cel´ y model. 2) Line´ arn´ı prediktor vznik´ a jako line´ arn´ı kombinace ηi =
m X
Xij βj = xTi β,
(2)
j=1
kde βj jsou nezn´am´e parametry a Xij jsou zn´ am´e hodnoty regresor˚ u. 3) Striktnˇe monot´onn´ı a dvakr´at diferencovateln´ a linkov´ a funkce propojuj´ıc´ı stˇredn´ı hodnotu z´avisle promˇenn´e a line´ arn´ı prediktor: E[Yi ] = µi = g −1 (ηi ).
(3)
Pˇri budov´an´ı modelu a odvozov´an´ı teoretick´ ych v´ ysledk˚ u se vyuˇz´ıvaj´ı n´asleduj´ıc´ı pˇredpoklady: • Rozdˇelen´ı Yi z´avis´ı na xi . • Pozorov´an´ı (Yi , xi ) jsou nez´ avisl´e n´ahodn´e vektory nebo Yi jsou nez´avisl´e n´ahodn´e veliˇciny a xi jsou mˇeˇren´e konstanty. My budeme nad´ ale uvaˇzovat druh´ y pˇr´ıpad.
4.1
Rodina exponenci´ aln´ıch rozdˇ elen´ı
Obecn´ y tvar hustoty rozdˇelen´ı z exponenci´aln´ı rodiny m˚ uˇzeme zapsat jako T (z)A(ξ) + B(ξ) + C(z, φ) f (z; ξ, φ) = exp a(φ) s disperzn´ım parametrem φ a parametrem polohy ξ. Kanonick´ y tvar hustoty dostaneme, poloˇz´ıme-li y = T (z), θ = A(ξ) yθ − b(θ) f (y; θ, φ) = exp + c(y, φ) , a(φ) ˇ kde θ ∈ R, a(φ) ∈ (0, ∞) a a : R+ → R+ . Casto se vyuˇz´ıv´ a n´asleduj´ıc´ı pˇrepis pomoc´ı a(φ) = ϕ ∈ (0, ∞) yθ − b(θ) f (y; θ, ϕ) = exp + c(y, ϕ) . ϕ 8
Uv´ ad´ıme jednu z parametrizac´ı, dalˇs´ı pop´ıˇseme d´ ale v textu.
Pozn. Pˇri studiu r˚ uzn´ ych zdroj˚ u je nutn´e vˇenovat pozornost pouˇzit´e parametrizaci. V literatuˇre se bˇeˇznˇe objevuj´ı r˚ uzn´e parametrizace, napˇr´ıklad pro zn´ am´e funkce a, b, c˜, a nezn´am´e parametry θ, φ: yθ − b(θ) · c˜(y, φ). f (y; θ, φ) = exp a(φ) Tento tvar vyuˇz´ıvaj´ı v knize de Jong a Heller (2008), my jej nebudeme d´ale uvaˇzovat. Pro n´ahodnou veliˇcinu Y patˇr´ıc´ı do rodiny exponenci´aln´ıch rozdˇelen´ı plat´ı: Je-li b dvakr´at spojitˇe diferencovateln´ a, potom E[Y ] = b′ (θ), var(Y ) = a(φ)b′′ (θ) = ϕb′′ (θ). Pro parci´ aln´ı derivaci hustoty podle parametru θ totiˇz plat´ı ∂f (y; θ, φ) y − b′ (θ) = f (y; θ, φ) ∂θ a(φ) integrac´ı obou stran podle y dostaneme (za pˇredpokladu, ˇze je moˇzn´e zamˇenit poˇrad´ı derivace a integr´alu) Z ∂f (y; θ, φ) 0 = dy ∂θ Z ∂ = f (y; θ, φ)dy ∂θ EY − b′ (θ) . = a(φ) Pro druhou parci´ aln´ı derivaci hustoty plat´ı ∂ 2 f (y; θ, φ) = f (y; θ, φ) ∂θ2
y − b′ (θ) a(φ)
2
−
b′′ (θ) a(φ)
integrac´ı obou stran podle y dostaneme (za pˇredpokladu, ˇze je moˇzn´e zamˇenit poˇrad´ı derivace a integr´alu) Z 2 ∂ f (y; θ, φ) 0 = dy ∂θ2 Z ∂2 f (y; θ, φ)dy = ∂θ2 E[(Y − b′ (θ))2 ] b′′ (θ) = − . (a(φ))2 a(φ) Obecn´ y d˚ ukaz je moˇzn´e prov´est pomoc´ı momentov´e vytvoˇruj´ıc´ı funkce. Pomoc´ı rozptylov´ e funkce definovan´e jako V (µ) = b′′ [(b′ )−1 (µ)]
m˚ uˇzeme vztah pro rozptyl pˇrepsat jako var(Y ) = a(φ)V (µ) = ϕV (µ). Rozptylov´a funkce tedy vyjadˇruje vztah mezi stˇredn´ı hodnotou a rozptylem. Z´aroveˇ n jednoznaˇcnˇe identifikuje rozdˇelen´ı z exponenci´aln´ı rodiny. Rodina exponenci´aln´ıch rozdˇelen´ı zahrnuje: • Norm´ aln´ı, gamma, inverzn´ı Gaussovo, Poissonovo, alternativn´ı, • Ch´ı-kvadr´ at, exponenci´aln´ı, binomick´e, geometrick´e, multinomick´e, beta, • se zn´ am´ ym parametrem: Weibullovo, negativnˇe binomick´e, Paretovo. V n´asleduj´ıc´ıch ˇc´astech podrobnˇe probereme jednotliv´e ˇcleny z prvn´ı uveden´e skupiny rozdˇelen´ı. 4.1.1
Norm´ aln´ı rozdˇ elen´ı
Znaˇc´ıme Y ∼ N (µ, σ 2 ): Pro y ∈ R m˚ uˇzeme hustotu vyj´adˇrit jako (y − µ)2 1 exp − f (y; µ, σ) = √ 2σ 2 2πσ b(θ) }| { z yµ − µ2 /2 y 2 1 2 − log(2πσ ) − = exp , 2σ 2 2{z σ2 } | |{z} ϕ c(y,ϕ)
kde θ = µ, b(θ) = µ2 /2 a ϕ = σ 2 . Potom dostaneme • EY = b′ (θ) = µ,
• var(Y ) = ϕb′′ (θ) = σ 2 , tj. rozptyl nez´ avis´ı na stˇredn´ı hodnotˇe V (µ) = 1 (jako jedin´e rozdˇelen´ı z exponenci´aln´ı rozdˇelen´ı). 4.1.2
Gamma rozdˇ elen´ı
Znaˇc´ıme Y ∼ Γ(a, p): Pro 0 < y < ∞ m˚ uˇzeme hustotu vyj´adˇrit jako ap p−1 y exp {−ay} Γ(p) = exp {(p − 1) log y − ay + p log a − log Γ(p)} y(−a/p) + log a/p = exp 1/p +p log p − log Γ(p) + (p − 1) log y
f (y; a, p) =
kde θ = −a/p, ϕ = 1/p, b(θ) = − log(−θ). Potom dostaneme • EY = b′ (θ) = −1/θ = p/a = µ,
0.4
0.3
0.2
0.1
-15
-10
5
-5
10
15
Obr´azek 1: Hustoty N (0, 1), N (0, 2), N (0, 4)
0.15
0.10
0.05
5
10
15
20
25
30
Obr´azek 2: Hustoty Γ(2, 2), Γ(4, 2), Γ(6, 2)
• var(Y ) = ϕb′′ (θ) = p/a2 = µ2 /p, tj. rozptyl z´avis´ı na stˇredn´ı hodnotˇe V (µ) = µ2 . Parametrizace v SASu je odliˇsn´ a Y ∼ Γ(µ, ν): Pro 0 < y < ∞ m˚ uˇzeme hustotu vyj´adˇrit jako ν 1 yν yν f (y; µ, ν) = exp − , Γ(ν)y µ µ kde a = ν/µ a p = ν, ϕ = ν −1 , var(Y ) = µ2 /ν
0.5
0.4
0.3
0.2
0.1
5
10
15
20
25
30
Obr´azek 3: Hustoty IG(5, 1), IG(5, 5), IG(5, 30)
4.1.3
Inverzn´ı Gaussovo rozdˇ elen´ı
Znaˇc´ıme Y ∼ IG(µ, λ): Pro 0 < y < ∞ m˚ uˇzeme hustotu vyj´adˇrit jako s λ(y − µ)2 λ exp − f (y; µ, λ) = 2πy 3 2µ2 y −λy 2 λµy λµ2 1 1 3 = exp + 2 − 2 + log λ − log 2πy 2µ2 y µ y 2µ y 2 2 2 y/(−2µ ) + 1/µ λ 1 1 3 = exp − + log λ − log 2πy , 1/λ 2y 2 2 √ kde θ = −1/(2µ2 ), b(θ) = − −2θ a ϕ = 1/λ. Potom dostaneme √ • EY = b′ (θ) = 1/ −2θ = (−2θ)−1/2 = µ, • var(Y ) = ϕb′′ (θ) = (−2θ)−3/2 /λ = µ3 /λ, tj. rozptyl z´avis´ı na stˇredn´ı hodnotˇe V (µ) = µ3 . 4.1.4
Poissonovo rozdˇ elen´ı
Znaˇc´ıme Y ∼ P o(λ): Pro y = 0, 1, 2, . . . m˚ uˇzeme hustotu vyj´adˇrit jako λy e−λ y! y log λ − λ = exp − log y! , 1
f (y; λ) =
kde θ = log λ, b(θ) = eθ a ϕ = 1. Potom dostaneme • EY = b′ (θ) = eθ = λ, • var(Y ) = ϕb′′ (θ) = eθ = λ, tj. rozptyl z´avis´ı na stˇredn´ı hodnotˇe V (µ) = µ.
æ æ
0.20 æ
0.15
æ à à à
0.10
à
æ
à
à
ìììì ì
à
0.05æ
à
ì ì
ì
ì
ìà
à æ
à
ì
ì
à æ
à
à ììììì à ì à ì ì
5
ì
ì à
ì
ìì à ì æ ì à à æ ì à æ à æ æ æ æ æ æ æ æ æ æ æ ìì à æ à æ à æ à æ à æ à æ à æ æ à æ à 10 15 20 25 30 ì
Obr´azek 4: Hustoty Po(3), Po(10), Po(20)
4.1.5
Alternativn´ı rozdˇ elen´ı
Znaˇc´ıme Y ∼ Alt(p): Pro y ∈ {0, 1} m˚ uˇzeme hustotu vyj´adˇrit jako f (y; p) = py (1 − p)1−y ( ) p + log(1 − p) y log 1−p = exp +0 , 1 p kde θ = log 1−p , b(θ) = log(1 + eθ ) a ϕ = 1. Potom dostaneme
• EY = b′ (θ) =
eθ 1+eθ
= p,
• var(Y ) = ϕb′′ (θ) = p(1 − p), tj. rozptyl z´avis´ı na stˇredn´ı hodnotˇe V (µ) = µ(1 − µ).
4.2
Linkov´ e funkce
V t´eto ˇc´asti uv´ad´ıme nejˇcastˇeji pouˇz´ıvan´e linkov´e funkce: • identita: g(µ) = µ • logaritmus: g(µ) = log(µ) • logit: g(µ) = log(µ/(1 − µ)) • probit: g(µ) = Φ−1 (µ), kde Φ je distribuˇcn´ı funkce standardn´ıho norm´aln´ıho rozdˇelen´ı • log-log: g(µ) = − log(− log(µ)) • komplement´arn´ı log-log: g(µ) = log(− log(1 − µ)) • mocninn´ y: g(µ) = µp pro p 6= 0 (pro p = 0 logaritmick´ y)
1.0
0.8
0.6
0.4
0.2
-4
-2
2
4
2
4
1.0
0.8
0.6
0.4
0.2
-4
-2
Obr´azek 5: Porovn´an´ı inverz´ı link˚ u: Logit (modr´a), Probit (ˇcerven´ a), kompl. (oranˇzov´a), log-log (zelen´a) D˚ uleˇzit´ ym pojmem pˇredevˇs´ım pro teorii je kanonick´ y link, kter´ y splˇ nuje g(µ) = θ, tedy mus´ı platit g(µ) = (b′ )−1 (µ) a tak´e g ′ (µ) =
1 . V (µ)
V ˇc´asti o odhadu parametr˚ u uvedeme zjednoduˇsen´ı vztah˚ u pˇri uˇzit´ı kanonick´eho linku. Souˇcasn´e softwarov´e bal´ıky vˇsak um´ı pracovat s libovoln´ ym linkem bez omezen´ı na kanonick´ y.
4.3
Pˇ rehled rozdˇ elen´ı
V n´asleduj´ıc´ı tabulce uv´ad´ıme pˇrehled rozdˇelen´ı z exponenci´aln´ı rodiny spolu s jejich hlavn´ımi charakteristikami:
Rozdˇelen´ı N (µ, σ 2 )
Hustota √ 1 e− 2πσ
µy e−µ y!
P o(µ) Γ(µ, ν) IG(µ, λ) Alt(µ)
4.4
(y−µ)2 2σ 2
1 Γ(ν)y
q
yν µ
ν
− λ e 2πy 3
e
− yν µ
λ(y−µ)2 2µ2 y
µy (1 − µ)1−y
Disperze ϕ
Kanonick´ y link θ(µ)
Stˇredn´ı hodnota µ(θ)
Rozptylov´a funkce V (µ)
σ2
µ
θ
1
1
log(µ)
eθ
µ
1 ν
− µ1
− 1θ
µ2
1 λ
− 2µ1 2
√1 −2θ
µ3
1
µ log 1−µ
eθ 1+eθ
µ(1 − µ)
Srovn´ an´ı regresn´ıch model˚ u
V t´eto ˇc´asti kr´atce srovn´ame model line´ arn´ı regrese se zobecnˇen´ ym line´ arn´ım modelem. en´ y line´ arn´ı model Line´ arn´ı regrese Zobecnˇ Rozdˇelen´ı:
Yi ∼ N (µi , σ 2 )
Z´avislost:
E[Yi ] = xTi β
Rozptyl:
varYi = σ 2
Yi ∼ EF(θi , ϕ) E[Yi ] = g −1 (xTi β) varYi = ϕV (µi )
Za pˇredpokladu normality a identick´eho linku, tj. g(µ) = µ, dostaneme line´ arn´ı regresi jako speci´aln´ı pˇr´ıpad zobecnˇen´eho line´ arn´ıho modelu.
4.5
V´ aˇ zen´ı
Zobecnˇen´e line´ arn´ı modely umoˇzn ˇuj´ı dva zp˚ usoby v´ aˇzen´ı, kter´e jsou vhodn´e pro r˚ uzn´e situace. 4.5.1
Offset
Offset je ˇclen v line´ arn´ım prediktoru s pevnˇe dan´ ym koeficientem. V pojiˇst’ovnictv´ı obvykle slouˇz´ı jako korekce modelu s ohledem na expozici v riziku (poˇcet rizik, d´elka platnosti smlouvy apod.). Napˇr´ıklad pro expozici ni i−t´eho ˇr´adku a logaritmick´ y link poloˇz´ıme line´ arn´ı prediktor roven ηi = ln ni + x′i β, kde ln ni slouˇz´ı jako offset. Dostaneme tedy ′
µi = eηi = ni · exi β .
4.5.2
V´ ahy pozorov´ an´ı
Pˇri zahrnut´ı apriorn´ıch vah pozorov´an´ı w, kdy v parametrizaci pokl´ ad´ ame a(φ) = ϕ/w, plat´ı E[Y ] = b′ (θ), ϕb′′ (θ) a(φ)b′′ (θ) = . var(Y ) = w w Pomoc´ı rozptylov´e funkce m˚ uˇzeme vztah pro rozptyl pˇrepsat ϕV (µ) a(φ)V (µ) = . w w Tyto v´ahy jsou vyuˇz´ıv´ any pˇri modelov´an´ı pr˚ umˇern´e v´ yˇse ˇskody (w = poˇcet ˇskod) nebo ˇskodn´ı frekvence (w = d´elka expozice). var(Y ) =
4.6 4.6.1
Odhad parametr˚ u Metoda maxim´ aln´ı vˇ erohodnosti
Nad´ale pˇredpokl´ ad´ ame, ˇze m´ a z´avisle promˇenn´ a Yi rozdˇelen´ı s hustotou f (y; θi , ϕ), kter´a z´avis´ı na prediktorech a nezn´am´ ych koeficientech β skrze vztah θi = (b′ )−1 (g −1 (x′i β)). Vˇerohodnostn´ı funkce je pak pro nez´ avisl´a pozorov´an´ı definov´ana jako L(Y; β, ϕ) =
n Y
f (Yi ; θi , ϕ)
i=1
Obvykle pracujeme s logaritmickou vˇerohodnostn´ı funkc´ı l(Y; β, ϕ) =
n X
log(f (Yi ; θi , ϕ)),
i=1
kterou je moˇzn´e d´ıky obecn´emu tvaru hustoty d´ale pˇrepsat l(Y; β, ϕ) =
n X Yi θi − b(θi )
ϕ
i=1
+ c(Yi , ϕ).
Praktick´ y odhad parametr˚ u je zaloˇzen na derivac´ıch logaritmick´e vˇerohodnostn´ı funkce. V neobecnˇejˇs´ı formˇe m˚ uˇzeme parci´ aln´ı derivaci prvn´ıho ˇr´adu dle parametru βj vyj´ adˇrit jako ∂l ∂βj kde jsme vyuˇzili
=
n n X X (Yi − µi )Xij ∂f ∂θi ∂µi ∂ηi = , ∂θi ∂µi ∂ηi ∂βj g ′ (µi )ϕV (µi ) i=1
∂f ∂θi ∂θi ∂µi ∂µi ∂ηi ∂ηi ∂βj
i=1
= = =
Yi − b′ (θi ) Y i − µi = , ϕ ϕ 1 1 = , ′′ b (θi ) V (µi ) 1 , ′ g (µi )
= Xij .
Poznamenejme, ˇze obecnˇe plat´ı V (µi ) > 0 (nenulovost rozptylu) a g ′ (µi ) > 0, coˇz vypl´ yv´ a z ryz´ı monotonie linkov´e funkce. Pro pˇrehlednost uved’me vztahy mezi parametry η = x′ β β
−→
µ = b′ (θ)
η = g(µ) η
←→
µ
µ = g −1 (η)
←→
θ
θ = (b′ )−1 (µ)
Pro maximalizaci vˇerohodnostn´ı funkce jsou vyuˇz´ıv´ any n´asleduj´ıc´ı dvˇe iteraˇcn´ı metody9 : • Metoda iterativn´ıch v´ aˇ zen´ ych nejmenˇ s´ıch ˇ ctverc˚ u βˆ(k) = (XT W(k−1) X)−1 XT W(k−1) Z(k−1) , kde W je v´ahov´a matice a Z je linearizovan´ a odezva, kter´e budou definov´any n´ıˇze. • Iteraˇcn´ı Newton˚ uv-Raphson˚ uv algoritmus βˆ(k) = βˆ(k−1) − (H(k−1) )−1 ∇(k−1) , kde ∇ znaˇc´ı gradient logaritmick´e vˇerohodnostn´ı funkce a H jej´ı Hessovu matici. Detailnˇejˇs´ı popis algoritm˚ u je obsahem n´asleduj´ıc´ıch sekc´ı. 4.6.2
Metoda iterativn´ıch v´ aˇ zen´ ych ˇ ctverc˚ u (0)
Zvolte poˇc´ateˇcn´ı odhady jako µ ˆi = Yi a pomoc´ı n´ıˇze uveden´ ych vztah˚ u dopoˇcteme (0) (0) W a Z . Pro k ≥ 1 opakuj n´asleduj´ıc´ı kroky, dokud nen´ı splnˇeno krit´erium
ˆ(k) ˆ(k−1) konvergence β − β
< ε: 1. Spoˇcti nov´ y odhad parametr˚ u
βˆ(k) = (XT W(k−1) X)−1 XT W(k−1) Z(k−1) . 2. Spoˇcti nov´ y odhad vektoru stˇredn´ıch hodnot (k)
µ ˆi
= g −1 (xTi βˆ(k) ).
3. Aktualizuj v´ahy W(k) a linearizovanou odezvu Z(k) ) ( 1 (k) , W = diag (k) (k) [g ′ (ˆ µi )]2 V (ˆ µi ) Z(k) = g(ˆ µ(k) ) + g ′ (ˆ µ(k) )(Y − µ ˆ(k) ). 9
Horn´ı index k znaˇc´ı iteraci.
Poznamenejme, ˇze nen´ı tˇreba zn´ at odhad disperzn´ıho parametru ϕ. Pozn. V popsan´e metodˇe se vyuˇz´ıv´ a n´asleduj´ıc´ı tvar derivace vˇerohodnostn´ı funkce n n X X ∂l ∂µi (Yi − µi ) ∂µi ∂l = = . ∂βj ∂µi ∂βj ϕV (µi ) ∂βj i=1
i=1
Definujeme-li v´ahy w(µi ) =
[g ′ (µ
1 , 2 i )] V (µi )
pak m˚ uˇzeme parci´ aln´ı derivace zapsat jako ∂l ∂βj
n
=
1X w(µi )g ′ (µi )(Yi − µi )Xij = 0. ϕ i=1
Pokus´ıme se vyj´ adˇrit vztah pro odhad koeficient˚ u β. Pro pˇrehlednost je moˇzn´e vyuˇz´ıt maticov´ y z´apis. Necht’ W = diag{([g ′ (µi )]2 V (µi ))−1 }, G = diag{g ′ (µi )}, potom dostaneme XT WG(Y − µ) = 0. K obˇema stran´ am pˇriˇcteme (XT WX)β = XT Wg(µ), tedy m´ ame XT W[g(µ) + G(Y − µ)] = (XT WX)β, ˆ z´ısk´ ame vztah pro odhad parametr˚ u a za pˇredpokladu regularity matice (XT WX) splˇ nuj´ıc´ı βˆ = (XT WX)−1 XT WZ, kde Z = g(µ)+g ′ (µ)(Y −µ) b´ yv´ a naz´ yv´ ano linearizovan´ a odezva. Vˇsimnˇete si podobnosti se vztahem pro odhad parametr˚ u v Aitkenovˇe modelu line´ arn´ı regrese. Pˇrestoˇze vypad´ a i tento exaktnˇe, nen´ı moˇzn´e jej pˇr´ımo vyuˇz´ıt pro v´ ypoˇcet odhadu parametr˚ u, nebot’ vektor Z a matice W z´avis´ı na aktu´aln´ım odhadu vektoru µ a ten z´avis´ı na odhadu parametr˚ u β. Je tedy nutn´e aplikovat iteraˇcn´ı metodu uvedenou v´ yˇse. Pozn. Pro kanonick´ y link doch´az´ı ke zjednoduˇsen´ı pˇredeˇsl´ ych vztah˚ u w(µi ) =
[g ′ (µ
1 1 = V (µi ) = ′ , 2 g (µi ) i )] V (µi )
tedy ∂l ∂βj
n
=
1X (Yi − µi )Xij = 0, ϕ i=1
coˇz m˚ uˇzeme pˇrepsat maticovˇe XT (Y − µ) = 0.
4.6.3
Newton˚ uv-Raphson˚ uv algoritmus
Abychom mohli aplikovat Newton˚ uv-Raphson˚ uv algoritmus, je nutn´e spoˇc´ıst druh´ e parci´ aln´ı derivace logaritmick´e vˇerohodnostn´ı funkce: X n (Yi − µi )Xij ∂µi ∂ηi ∂ ∂l ∂ , = ∂βj ′ ∂βj ∂µi g ′ (µi )ϕV (µi ) ∂ηi ∂βj ′ i=1
kde −1 g ′′ (µi )V (µi ) + g ′ (µi )V ′ (µi ) (Yi − µi ) ∂ = − (Y − µ ) , i i ∂µi g ′ (µi )ϕV (µi ) g ′ (µi )ϕV (µi ) (g ′ (µi ))2 ϕ(V (µi ))2 ∂µi 1 = , ∂ηi g ′ (µi ) ∂ηi = Xij ′ . ∂βj ′
Definujeme-li diagon´ aln´ı matici g ′′ (µi )V (µi ) + g ′ (µi )V ′ (µi ) −1 , − (Yi − µi ) V = diag (g ′ (µi ))2 ϕV (µi ) (g ′ (µi ))3 ϕ(V (µi ))2 m˚ uˇzeme Hessovu matici zapsat ve tvaru H = XT VX. Oznaˇc´ıme vektor prvn´ıch parci´ aln´ıch derivac´ı logaritmick´e vˇerohodnostn´ı funkce ∂l ∂l T . ,..., ∇ = ∂β1 ∂βm (0)
ˆ (0) . Pro k ≥ 1 opakuj ˆ (0) a H = Yi , ∇
n´asleduj´ıc´ı kroky, dokud nen´ı splnˇeno krit´erium konvergence βˆ(k) − βˆ(k−1) < ε: Algoritmus: Poˇc´ateˇcn´ı odhady µ ˆi
1. Spoˇcti nov´ y odhad parametr˚ u
βˆ(k) = βˆ(k−1) − (H(k−1) )−1 ∇(k−1)
2. Spoˇcti (k)
µ ˆi
= g −1 (xTi βˆ(k) ).
3. Aktualizuj ∇(k) a H(k) .
4.7 4.7.1
Testov´ an´ı hypot´ ez Testy v´ yznamnosti parametr˚ u
Wald˚ uv test se vyuˇz´ıv´ a pro test hypot´ezy H0 : βj = c (nejˇcastˇeji c = 0), kde testov´a statistika je tvaru (βj − c)2 ∼ χ21 . ϕ var(βj ) Pro test obecnˇejˇs´ı hypot´ezy H0 : Cβ = c a c ∈ Rq , kde matice C m´ a q ˇr´adk˚ u, slouˇz´ı (Cβ − c)T [ϕC(XT WX)−1 CT ]−1 (Cβ − c) ∼ χ2q .
4.7.2
Konfidenˇ cn´ı intervaly
Konfidenˇcn´ı intervaly pro z´avisle promˇennou jsou zaloˇzeny na asymptotick´e normalitˇe √ ˆ d → N (0, ϕ(XT WX)−1 ). odhadu parametr˚ u, kdy za urˇcit´ ych pˇredpoklad˚ u plat´ı n(β−β) Potom interval spolehlivosti (yl , yu ) pro stˇredn´ı hodnotu z´avisle promˇenn´e dostaneme pomoc´ı q T ˆ −1 x, ˆ g(yl ) = x β − z ϕx ˆ T (XT WX) q −1 x, ˆ g(yu ) = xT βˆ + z ϕx ˆ T (XT WX)
kde z je pˇr´ısluˇsn´ y kvantil standardn´ıho norm´aln´ıho rozdˇelen´ı, x je vektor regresor˚ u ˆ a v´ahovou matici W jsme nahradili jej´ım odhadem W.
4.8
Kvalita modelu a testy podmodel˚ u
V´ yznamnou roli hraje saturovan´ y model, v nˇemˇz je poˇcet parametr˚ u roven poˇctu pozorov´an´ı10 a plat´ı µ ˆi = Yi , θˆi∗ = (b′ )−1 (Yi ). Vˇerohodnost saturovan´eho modelu je totiˇz rovna nejvˇetˇs´ı dosaˇziteln´e vˇerohodnosti pro dan´ a data ∗
l (Y) =
n X Yi θˆ∗ − b(θˆ∗ ) i
i
ϕ
i=1
+ c(Yi , ϕ).
ˇ alovan´ Slouˇz´ı tedy jako (nedosaˇziteln´a) hranice nejvyˇsˇs´ı kvality“ pˇri dan´em rozdˇelen´ı. Sk´ a ” deviance pot´e ud´av´a ztr´ atu na logaritmick´e vˇerohodnosti v˚ uˇci saturovan´emu modelu ˆ = 2(l∗ (Y) − l(Y, β)) ˆ D∗ (Y, β) n 1X = Yi (θˆi∗ − θˆi ) − (b(θˆi∗ ) − b(θˆi )), ϕ i=1
ˆ Nˇekdy je vyuˇz´ıv´ kde θˆi = (b′ )−1 (g −1 (x′i β)). ana (neˇsk´alovan´ a) deviance definovan´ a jako ˆ = ϕD∗ (Y, β). ˆ D(Y, β) Poznamenejme, ˇze existuj´ı explicitn´ı vztahy pro devianci pro konkr´etn´ı rozdˇelen´ı. 4.8.1
Testov´ an´ı podmodel˚ u
Je-li βˆ odhad parametr˚ u v modelu a βˆ′ odhad parametr˚ u v podmodelu, potom asymptoticky plat´ı ˆ ∼ χ2 , D∗ (Y, βˆ′ ) − D∗ (Y, β) d 10
Obecnˇe pro model neplat´ı vlastnosti ML odhad˚ u.
kde d je rozd´ıl poˇctu parametr˚ u v porovn´avan´ ych modelech. Tento test vlastnˇe odpov´ıd´ a testu pomˇerem vˇerohodnost´ı. Dalˇs´ı test je zaloˇzen na F-statistice, kde asymptoticky ˆ D(Y, βˆ′ ) − D(Y, β) ∼ Fd,n−m dϕˆ a m je poˇcet parametr˚ u v modelu, ze kter´eho byl odhadnut disperzn´ı parametr ϕ. ˆ 4.8.2
Akaikeho informaˇ cn´ı krit´ erium
Akaikeho informaˇcn´ı krit´erium slouˇz´ı pro porovn´an´ı v´ıce model˚ u, kdyˇz zohledˇ nuje nejen hodnotu vˇerohodnostn´ı funkce ale i poˇcet parametr˚ u: ˆ ϕ) AIC = −2(l(Y; β, ˆ − m). Preferujeme model s minim´aln´ı hodnotou AIC.
4.9
Odhad disperzn´ıho parametru
Odhad disperzn´ıho parametru nen´ı obvykle souˇc´ast´ı metody maxim´ aln´ı vˇerohodnosti. Vhodn´e vlastnosti m´ a Pearson˚ uv odhad ve tvaru n
1 X (Yi − µ ˆ i )2 ϕˆ = . n−m V (ˆ µi ) i=1
Vyuˇz´ıv´ a se taky odhad zaloˇ zen´ y na devianci ϕˆ =
4.10
ˆ D(Y, β) . n−m
Korelovan´ a data, n´ ahodn´ e efekty a GEE modely
Jsou-li data korelovan´ a v r´ amci shluku i o velikosti ni , m˚ uˇze vyuˇz´ıt model s n´ ahodn´ ym absolutn´ım ˇ clenem ve tvaru g(µik ) = αi + xTik β, k = 1, . . . , ni , kde αi ∼ N (0, σ 2 ). Pˇri dan´em αi jsou pozorov´an´ı ve shluku nez´avisl´a. Dalˇs´ı moˇznost´ı jsou Generalized Estimating Equations, kde plat´ı n X i=1
dTi U−1 i (Yi − µi ) = 0,
kde di = {∂µi /∂βj }j je sloupcov´ y vektor derivac´ı a Ui je zobecnˇen´ a varianˇcn´ı matice shluku i zahrnuj´ıc´ı strukturu z´avislosti pozorov´an´ı.
5
Pˇ r´ıklady zobecnˇ en´ ych line´ arn´ıch model˚ u
5.1
Data
Zaˇcneme popisem dat, na nˇeˇz aplikujeme nˇekolik zobecnˇen´ ych line´ arn´ıch model˚ u. Uvaˇzujeme 50 000 smluv povinn´ eho ruˇ cen´ı (pojiˇstˇen´ı odpovˇednosti z provozu motorov´eho vozidla) simulovan´e dle m´ırnˇe upraven´ ych re´aln´ ych charakteristik: • Z´avisle promˇenn´e: poˇ cet a v´ yˇ se ˇ skod za posledn´ı rok, pˇr´ıznak storna • Nez´ avisle promˇenn´e: – tarifn´ı skupina dle objemu motoru vozidla (TS): 5 kategori´ı (do 1000, do 1350, do 1850, do 2500, nad 2500 ccm), – st´ aˇ r´ı pojistn´ıka spojit´e (veks): 18-75 let, – st´ aˇ r´ı pojistn´ıka (vek): 3 kategorie (18-30, 30-65, 65 a v´ıce), – velikosti m´ısta bydliˇ stˇ e (region): 4 kategorie (nad 500 000 obyvatel, nad 50 000, nad 5 000, do 5 000), – pohlav´ı (pohlavi): 2 kategorie (1 - ˇzena, 2 - muˇz).
5.2
Dostupn´ y software
Procedury a funkce pro pr´aci se zobecnˇen´ ymi line´ arn´ımi modely je moˇzn´e nal´ezt napˇr´ıklad v n´asleduj´ıc´ıch softwarech: • SAS: procedura GENMOD • Statistica: Generalized Linear Models (GLZ) • IBM SPSS: GENLIN (ne GLM!!!) • Mathematica: GeneralizedLinearModelFit • R: glm • a dalˇs´ı.
My budeme d´ale vyuˇz´ıvat SAS a proceduru GENMOD. 5.2.1
Line´ arn´ı regrese
Pro pˇrehlednost shrneme kaˇzd´ y zobecnˇen´ y line´ arn´ı regresn´ı model seznamem, kter´ y ud´av´a z´akladn´ı stavebn´ı kameny kaˇzd´eho modelu. Na u ´vod uv´ad´ıme model line´ arn´ı regrese, kter´ y vˇsak nebudeme na pojistn´ a data d´ale aplikovat. • Z´avisle promˇenn´ a: spojit´ a • Rozdˇelen´ı: norm´aln´ı Yi ∼ N (µi , σ 2 ) • Stˇredn´ı hodnota: EYi = µi • Linkov´a funkce: identita g(µ) = µ • Rozptylov´a funkce: V (µ) = 1 • Disperzn´ı parametr: ϕ = σ 2
Obr´azek 6: Syntax v SASu
5.3 5.3.1
Regresn´ı model oˇ cek´ avan´ eho poˇ ctu pojistn´ ych ud´ alost´ı Poissonovsk´ a regrese (log-line´ arn´ı model)
V pˇr´ıkladu vyuˇzit´ı Poissonovsk´e regrese budeme modelovat oˇcek´avan´ y poˇcet pojistn´ ych ud´alost´ı na smlouvˇe bˇehem jednoho roku v z´avislosti na tarifn´ı skupinˇe, st´aˇr´ı pojistn´ıka a pohlav´ı. Vyuˇzijeme n´asleduj´ıc´ı stavebn´ı prvky, resp. vlastnosti Poissonovsk´e regrese: • Z´avisle promˇenn´ a: poˇcet pojistn´ ych ud´alost´ı na smlouvˇe za 1 rok • Rozdˇelen´ı: Poissonovo Yi ∼ P o(λi ) • Stˇredn´ı hodnota: EYi = λi • Linkov´a funkce: g(µ) = log(µ) • Rozptylov´a funkce: V (µ) = µ • Disperzn´ı parametr: ϕ = 1 Krit´eria pro hodnocen´ı dobr´e shody, resp. kvality modelu, najdeme v n´asleduj´ıc´ı tabulce. Uvedeny jsou deviance, Pearsonovy statistiky a hodnota logaritmick´e vˇerohodnostn´ı funkce. N´ azvy sloupc˚ u uv´ad´ıme vˇzdy tak, jak jsou obsaˇzeny ve v´ ystupu ze SASu. Krit´erium Deviance Scaled Deviance Pearsonuv Ch´ı-kvad Scaled Pearson X2 Log verohodnost
DF 5E4 5E4 5E4 5E4
Hodnota 18582.5892 18582.5892 50208.1517 50208.1517 -12571.1203
Hodnota/DF 0.3717 0.3717 1.0043 1.0043
Dalˇs´ı v´ ystup ze softwaru uv´ad´ı odhady parametr˚ u (Odhad) spolu s chybou odhadu (Stand. chyba), intervaly spolehlivosti (Waldovy meze interv. spol.), Waldovou testovou statistikou v´ yznamnosti parametr˚ u (Ch´ı-kv.) a odpov´ıdaj´ıc´ı p-hodnotou (Pr > Ch´ıKv).
Par.
Int TS TS TS TS TS vek vek vek pohlavi pohlavi ˇ ala Sk´
1 2 3 4 5 1 2 3 1 2
DF
Odhad
Stand. chyba
0 1 1 1 1 1 1 1 0 1 0 0
0.0000 -2.9646 -2.9421 -2.9016 -2.7451 -2.7284 0.5700 0.2183 0.0000 -0.2278 0.0000 1.0000
0.0000 0.0521 0.0517 0.0512 0.0490 0.0488 0.0426 0.0456 0.0000 0.0342 0.0000 0.0000
Waldovy meze interv. spol. 0.0000 0.0000 -3.0666 -2.8625 -3.0435 -2.8407 -3.0019 -2.8013 -2.8411 -2.6491 -2.8240 -2.6329 0.4865 0.6535 0.1289 0.3076 0.0000 0.0000 -0.2948 -0.1607 0.0000 0.0000 1.0000 1.0000
Ch´ı-kv.
Pr > Ch´ıKv
. 3243.56 3235.33 3216.13 3141.87 3131.40 178.95 22.94 . 44.32 .
. <.0001 <.0001 <.0001 <.0001 <.0001 <.0001 <.0001 . <.0001 .
Interpretace parametr˚ u a v´ ypoˇcet odhadu oˇcek´avan´eho poˇctu ˇskod prob´ıh´ a takto: • Pro TS = 1 (do 1000 ccm), vek = 1 (18–30 let), pohlavi = 1 (ˇzena) dost´ av´ame hodnotu line´ arn´ıho prediktoru a odhad stˇredn´ı hodnoty η = −2, 9646 + 0, 5700 − 0, 2278 = −2, 6224
µ = exp{−2, 9646 + 0, 5700 − 0, 2278} = exp{−2, 6224} = 0, 0516 · 1, 7683 · 0, 7963 = 0, 0726,
kde posledn´ı z´apis m˚ uˇze b´ yt interpretov´an jako multiplikativn´ı pˇr´ıspˇevek kategorie k v´ ysledn´emu odhadu oˇcek´avan´eho poˇctu pojistn´ ych ud´alost´ı. • Pravdˇepodobnosti poˇctu ud´alost´ı na smlouvˇe m˚ uˇzeme snadno spoˇc´ıst po dosazen´ı odpov´ıdaj´ıc´ıho odhadu parametru λ do hustoty Poissonova rozdˇelen´ı, napˇr´ıklad pro v´ yˇse spoˇcten´ y λ = 0, 0726 m´ ame – P (Y = 0) = 0.9300, – P (Y = 1) = 0.0675, – P (Y = 2) = 0.0025, – P (Y = 3) = 5.93 10−5 , – P (Y = 4) = 1.07 10−6 , – ... Pro dalˇs´ı hodnoty prediktor˚ u dost´ av´ame • TS = 1 (do 1000 ccm), vek = 1 (18–30 let), pohlavi = 2 (muˇz) η = −2, 9646 + 0, 5700 + 0 = −2, 3946
µ = exp{−2, 9646 + 0, 5700 + 0} = exp{−2, 3946} = 0, 0516 · 1, 7683 · 1 = 0, 0912.
• TS = 5 (nad 2500 ccm), vek = 1 (18–30 let), pohlavi = 2 (muˇz) η = −2, 7284 + 0, 5700 + 0 = −2, 1584
µ = exp{−2, 7284 + 0, 5700 + 0} = exp{−2, 1584} = 0, 0653 · 1, 7683 · 1 = 0, 1155. V´ ysledky testov´an´ı v´ yznamnosti regresor˚ u jsou uvedeny v n´asleduj´ıc´ıch tabulk´ach. Statistiky LR pro anal´ yzu typu 1 odpov´ıdaj´ı postupn´emu pˇrid´ av´an´ı regresor˚ u, tedy z´aleˇz´ı na poˇrad´ı regresor˚ u v zad´an´ı. Zdroj TS vek pohlavi
Deviance 18822.16 18627.20 18582.59
DF
Ch´ı-kvadr´ at
Pr > Ch´ıKv
2 1
194.96 44.61
<.0001 <.0001
Statistiky LR pro anal´ yzu typu 3 testuj´ı v´ yznamnost regresoru pˇri ponech´an´ı vˇsech ostatn´ıch regresor˚ u v modelu, tedy nez´ aleˇz´ı na poˇrad´ı, v jak´em jsou zad´any. Zdroj TS vek pohlavi
DF 4 2 1
Ch´ı-kvadr´ at 34.98 194.41 44.61
Pr > Ch´ıKv <.0001 <.0001 <.0001
Vid´ıme, ˇze regresory jsou v´ yznamn´e na vˇsech obvykle vyuˇz´ıvan´ ych hladin´ach. 5.3.2
Overdispersed Poisson˚ uv model
Z´akladn´ı vlastnost´ı Poissonova rozdˇelen´ı je rovnost stˇredn´ı hodnoty a rozptylu. To vˇsak b´ yv´ a v praxi ˇcasto poruˇseno a my pozorujeme rozptyl vˇetˇs´ı neˇz je stˇredn´ı hodnota, coˇz vede k jevu naz´ yvan´emu overdispersion. Existuj´ı dva pˇr´ıstupy, jak tento jev zohlednit v zobecnˇen´ ych line´ arn´ıch modelech. Prvn´ı je vyuˇzit´ı negativnˇe binomick´eho modelu s dalˇs´ım nezn´am´ ym parametrem, druh´ y pot´e vyuˇzit´ı overdisperzed Poissonova modelu, kde je hodnota disperzn´ıho parametru uvolnˇena a odhadnuta. Overdisperzed Poisson˚ uv zobecnˇen´ y line´ arn´ı model je charakterizov´an takto: • Z´avisle promˇenn´ a: poˇcet pojistn´ ych ud´alost´ı na smlouvˇe za 1 rok • Rozdˇelen´ı: Overdispersed Poissonovo11 Yi ∼ O-P o(λi , ϕ) • Stˇredn´ı hodnota: EYi = λi • Linkov´a funkce: g(µ) = log(µ) • Rozptylov´a funkce: V (µ) = µ • Disperzn´ı parametr: ϕ ∈ (0, ∞) 11
Nejedn´ a se o skuteˇcn´e pravdˇepodobnostn´ı rozdˇelen´ı.
Parci´ aln´ı derivace dle parametr˚ u m´ a n´asleduj´ıc´ı tvar n
X Y i − µi ∂ql = ∂βj ϕV (µi ) i=1
∂µi ∂βj
potom odpov´ıdaj´ı kvazi-(logaritmick´e-)vˇ erohodnostn´ı funkci pro obecnou rozptylovou funkci V a disperzn´ı parametr ϕ ql =
n Z X i=1
µi Yi
Yi − t dt. ϕV (t)
Poznamenejme, ˇze umˇel´e“ nav´ yˇsen´ı rozptylu se vyuˇz´ıv´ a i pro binomick´e, resp. alter” nativn´ı rozdˇelen´ı. D´ ale uvedeme tabulky bez podrobnˇejˇs´ıho koment´aˇre, upozorn´ıme pouze na zmˇeny. Krit´eria pro hodnocen´ı dobr´e shody: Krit´erium Deviance Scaled Deviance Pearsonuv Ch´ı-kvad Scaled Pearson X2 Log verohodnos
DF 5E4 5E4 5E4 5E4
Hodnota 18582.5892 49992.0000 50208.1517 135072.9917 -33819.5845
Hodnota/DF 0.3717 1.0000 1.0043 2.7019
Anal´ yzu odhad˚ u parametr˚ u uv´ad´ı n´asleduj´ıc´ı tabulka, kde je v posledn´ım ˇr´adku odhad disperzn´ıho parametru: Par.
Int TS TS TS TS TS vek vek vek pohlavi pohlavi ˇ ala Sk´
1 2 3 4 5 1 2 3 1 2
DF
Odhad
Stand. chyba
0 1 1 1 1 1 1 1 0 1 0 0
0.0000 -2.9646 -2.9421 -2.9016 -2.7451 -2.7284 0.5700 0.2183 0.0000 -0.2278 0.0000 1.6097
0.0000 0.0521 0.0517 0.0512 0.0490 0.0488 0.0426 0.0456 0.0000 0.0342 0.0000 0.0000
Waldovy meze intrv. spol. 0.0000 0.0000 -3.0666 -2.8625 -3.0435 -2.8407 -3.0019 -2.8013 -2.8411 -2.6491 -2.8240 -2.6329 0.4865 0.6535 0.1289 0.3076 0.0000 0.0000 -0.2948 -0.1607 0.0000 0.0000 0.6097 0.6097
Ch´ı-kv.
Pr > Ch´ıKv
. 3243.56 3235.33 3216.13 3141.87 3131.40 178.95 22.94 . 44.32 .
. <.0001 <.0001 <.0001 <.0001 <.0001 <.0001 <.0001 . <.0001 .
Statistiky LR pro anal´ yzu typu 1 pˇri postupn´e pˇrid´ av´an´ı regresor˚ u, kdy z´aleˇz´ı na poˇrad´ı v zad´an´ı, v tomto pˇr´ıpadˇe vyuˇz´ıv´ ame F-testy:
Zdroj
Odchylka
TS vek pohlavi
18822.16 18627.20 18582.59
DF cit
DF jmen
F hodnota
Pr > F
2 1
49992 49992
262.25 120.02
<.0001 <.0001
Statistiky LR pro anal´ yzu typu 3 v´ yznamnosti regresoru pˇri ponech´an´ı vˇsech ostatn´ıch regresor˚ u v modelu: Zdroj TS vek pohlavi
5.4
DF cit 4 2 1
DF jmen 49992 49992 49992
F hodnota 23.53 261.51 120.02
Pr > F <.0001 <.0001 <.0001
Regresn´ı model v´ yˇ se ˇ skod – Gamma regrese
Pomoc´ı Gamma regrese budeme modelovat oˇcek´avanou v´ yˇsi ˇskody z pojistn´e ud´alosti na smlouvˇe v z´avislosti pouze na tarifn´ı skupinˇe. K redukci poˇctu regresor˚ u doch´az´ı kv˚ uli u ´bytku dat, kdy v´ yˇse modelujeme pouze na z´akladˇe nastal´ ych ˇskod, kter´ ych je d´ıky n´ızk´e ˇskodn´ı frekvenci obvykle znatelnˇe menˇs´ı poˇcet. Gamma regrese m´ a n´asleduj´ıc´ı vlastnosti: • Z´avisle promˇenn´ a: spojit´ a kladn´ a v´ yˇse ˇskody • Rozdˇelen´ı: Yi ∼ Γ(µ, ν) • Stˇredn´ı hodnota: EYi = µ • Linkov´a funkce: g(µ) = log(µ) (nen´ı kanonick´ y link) • Rozptylov´a funkce: V (µ) = µ2 • Disperzn´ı parametr: ϕ = 1/ν Krit´eria pro hodnocen´ı dobr´e shody (ML odhad parametru mˇeˇr´ıtka): Krit´erium Deviance Scaled Deviance Pearson Chi-Square Scaled Pearson X2
DF 3458 3458 3458 3458
Hodnota 0.0007 3464.2364 0.0007 3466.7934
Hodnota/DF 0.0000 1.0018 0.0000 1.0025
Anal´ yzu odhad˚ u parametr˚ u a r˚ uzn´e odhady parametru mˇeˇr´ıtka najdeme v n´asleduj´ıc´ı tabulce:
Par.
Waldovy meze intrv. spol. Int 0 0.0000 0.0000 0.0000 0.0000 TS 1 1 10.3127 0.0033 10.3062 10.3192 TS 2 1 10.3592 0.0033 10.3528 10.3656 TS 3 1 10.4662 0.0032 10.4599 10.4725 4 1 10.5388 0.0030 10.5329 10.5447 TS TS 5 1 10.7211 0.0030 10.7153 10.7269 Scale 0 146.0294 0.0000 146.0294 146.0294 Tabulky pro testov´an´ı v´ yznamnosti jednotliv´ ych regresor˚ u naˇsem modelu uvaˇzujeme jen jeden regresor.
5.5
DF
Odhad
Stand. chyba
Ch´ı-kv.
Pr > Ch´ıKv
. 9613383 9966668 1.061E7 1.244E7 1.306E7
. <.0001 <.0001 <.0001 <.0001 <.0001
neuv´ad´ıme, nebot’ v
Regresn´ı model stornovosti – logistick´ a regrese
V t´eto ˇc´asti uvedeme model pravdˇepodobnosti storna smlouvy bˇehem jednoho roku v z´avislosti na tarifn´ı skupinˇe, velikosti m´ısta bydliˇstˇe, pohlav´ı, st´aˇr´ı pojistn´ıka. Model logistick´e regrese m´ a obecnˇe n´asleduj´ıc´ı vlastnosti: • Z´avisle promˇenn´ a: bin´ arn´ı – jev nastal/nenastal, tj. storno bˇehem jednoho roku – ano/ne • Rozdˇelen´ı: binomick´e (alternativn´ı): Yi ∼ Alt(pi ) • Stˇredn´ı hodnota: EYi = pi • Linkov´a funkce: logit g(µ) = log(µ/(1 − µ)) • Rozptylov´a funkce: V (µ) = µ(1 − µ) • Disperzn´ı parametr: ϕ = 1 Stˇredn´ı hodnota alternativn´ı promˇenn´e je rovna pravdˇepodobnosti, tedy ′
EYi = pi =
ex i β ′ . 1 + ex i β
Krit´eria pro hodnocen´ı dobr´e shody Krit´erium Deviance Scaled Deviance Pearsonuv Ch´ı-kvad Scaled Pearson X2 Log verohodnost
DF 5E4 5E4 5E4 5E4
Anal´ yza odhad˚ u parametr˚ u
Hodnota 56802.0249 56802.0249 49969.3190 49969.3190 -28401.0124
Hodnota/DF 1.1363 1.1363 0.9996 0.9996
Par.
Intercept TS TS TS TS TS region region region region pohlavi pohlavi veks ˇ ala Sk´
1 2 3 4 5 1 2 3 4 1 2
DF
Odhad
Stand. chyba
1 1 1 1 1 0 1 1 1 0 1 0 1 0
-1.6157 -0.3326 -0.2814 -0.2248 -0.0711 0.0000 0.4820 0.2633 0.1272 0.0000 0.5584 0.0000 0.0058 1.0000
0.0429 0.0323 0.0322 0.0320 0.0314 0.0000 0.0290 0.0296 0.0300 0.0000 0.0206 0.0000 0.0006 0.0000
Waldovy meze intrv. spol. -1.6998 -1.5316 -0.3959 -0.2692 -0.3445 -0.2183 -0.2874 -0.1622 -0.1326 -0.0095 0.0000 0.0000 0.4252 0.5389 0.2053 0.3214 0.0683 0.1860 0.0000 0.0000 0.5180 0.5989 0.0000 0.0000 0.0046 0.0071 1.0000 1.0000
Ch´ı-kv.
Pr > Ch´ıKv
1417.00 105.90 76.36 49.51 5.12 . 275.76 79.06 17.96 . 731.75 . 82.36
<.0001 <.0001 <.0001 <.0001 0.0237 . <.0001 <.0001 <.0001 . <.0001 . <.0001
Interpretace parametr˚ u je moˇzn´e prov´est pomoc´ı ˇ sance pi = exp{x′i β} = exp 1 − pi
X m j=1
Xij βj .
Pokud zv´ yˇs´ıme regresor ˜j o jednotku Xi˜j + 1 a ostatn´ı nemˇen´ıme, potom pro ˇsanci plat´ı m m X X p˜i = exp Xij βj + (Xi˜j + 1)β˜j = exp Xij βj exp{β˜j }, 1 − p˜i j=1
j=1,j6=˜ j
tj. eβ˜j vyjadˇruje zmˇenu ˇsance pˇri zv´ yˇsen´ı pˇr´ısluˇsn´eho regresoru o jednotku. Predikovanou hodnotu, tedy pravdˇepodobnost storna bˇehem jednoho roku, pro TS = 5 (nad 2500 ccm), region = 4 (do 5000), pohlavi = 2 (muˇz), veks = 22 let spoˇcteme jako η = −1, 6157 + 0 + 0 + 0 + 22 · 0.0058 = −1, 4881 exp{−1, 4881} µ = = 0, 1842. 1 + exp{−1, 4881}
Statistiky LR pro anal´ yzu typu 1 pˇri postupn´e pˇrid´ av´an´ı regresor˚ u, kdy z´aleˇz´ı na poˇrad´ı v zad´an´ı: Zdroj Intercept TS region pohlavi veks
Deviance 58087.7242 57937.9201 57626.8576 56884.5504 56802.0249
DF
Ch´ı-kvadr´ at
Pr > Ch´ıKv
4 3 1 1
149.80 311.06 742.31 82.53
<.0001 <.0001 <.0001 <.0001
Statistiky LR pro anal´ yzu v´ yznamnosti regresoru pˇri ponech´an´ı vˇsech ostatn´ıch regresor˚ u v modelu: Zdroj TS region pohlavi veks
DF 4 3 1 1
Ch´ı-kvadr´ at 154.02 309.14 743.64 82.53
Pr > Ch´ıKv <.0001 <.0001 <.0001 <.0001
Zvl´aˇstn´ı pozornost vˇenujeme ROC kˇrivce slouˇz´ıc´ı k posouzen´ı kvality modelu a nastaven´ı prahov´e hodnoty. Pro predikovan´e pravdˇepodobnosti, kter´e jsou vyˇsˇs´ı neˇz prahov´a hodnota, oˇcek´av´ame, ˇze sledovan´ y jev sp´ıˇse nastane, u hodnot niˇzˇs´ıch naopak. ROC kˇrivka pot´e zakresluje: • Na svisl´ e ose grafu relativn´ı ˇcetnost skuteˇcnˇe pozitivn´ıch pˇr´ıpad˚ u TP, tedy pravdˇepodobnost, ˇze jako spr´ avn´ y bude vyhodnocen pozitivn´ı pˇr´ıpad: Sensitivity = TP/(TP+FN). • Na vodorovn´ e ose relativn´ı ˇcetnost faleˇsnˇe pozitivn´ıch pˇr´ıpad˚ u FP, tedy pravdˇepodobnost, ˇze jako spr´ avn´ y bude vyhodnocen negativn´ı pˇr´ıpad: 1-Specificity = FP/(TN+FP). Vych´az´ıme pˇritom z n´asleduj´ıc´ı tabulky, kde znaˇc´ıme True (T), False (F), Positive (P), Negative (N): skuteˇcnost/predikce 1 0
1 TP FN
0 FP TN
ˇ ım je vˇetˇs´ı plocha pod ROC kˇrivkou, resp. ˇc´ım v´ıce je kˇrivka vypoukl´ C´ a nahoru, t´ım lepˇs´ı m´ a model predikˇcn´ı schopnost. Kˇrivka pro n´aˇs model je zakreslena na n´asleduj´ıc´ım obr´ azku.
5.6
Postup konstrukce zobecnˇ en´ eho line´ arn´ıho modelu
Obecnˇe m˚ uˇze b´ yt zobecnˇen´ y line´ arn´ı model konstruov´an v n´asleduj´ıc´ıch kroc´ıch: 1. Vyberte rozdˇelen´ı 2. Vyberte link 3. Vyberte nez´ avisle promˇenn´e 4. Odhadnˇete parametry 5. Posud’te kvalitu modelu 6. Iterujte od vhodn´eho kroku ˇ Casto si nemus´ı b´ yt jisti, kter´e regresory do modelu zahrnout a kter´e naopak vylouˇcit. Pro v´ ybˇer nejvhodnˇejˇs´ıch regresor˚ u jsou pouˇz´ıv´ any n´asleduj´ıc´ı sekvenˇcn´ı postupy: • Vzestupn´ y v´ ybˇ er (forward selection) - zaˇcneme od pr´azdn´eho modelu, postupnˇe pˇrid´ av´ame statisticky v´ yznamn´e regresory. • Sestupn´ y v´ ybˇ er (backward selection) - zaˇcneme od modelu se vˇsemi regresory, postupnˇe odeb´ır´ ame statisticky nev´ yznamn´e. • Krokov´ y v´ ybˇ er (stepwise selection) - zaˇcneme od pr´azdn´eho modelu, v kaˇzd´em kroku pˇrid´ ame jeden statisticky v´ yznamn´ y regresor a pot´e se pokus´ıme odeb´ırat statisticky nev´ yznamn´e (i v´ıce). Hladina pro pˇrid´ av´an´ı mus´ı b´ yt menˇs´ı neˇz hladina pro odeb´ır´ an´ı, jinak m˚ uˇze doj´ıt k zacyklen´ı.
Pˇri praktick´em pouˇzit´ı zobecnˇen´ ych line´ arn´ıch model˚ u m´ ame ˇcasto k dispozici rozs´ahl´ y soubor dat. Ten je moˇzn´e n´ahodnˇe rozdˇelit na tr´enovac´ı“ a testovac´ı“ ” ” podsoubor. Na prvn´ım je model odhadnut, na druh´em potom ovˇeˇrena jeho kvalita, resp. predikˇ uˇze slouˇzit napˇr´ıklad stˇredn´ı ˇctvercov´a Pcn´ı schopnost. Jako krit´erium m˚ chyba 1/n ni=1 (Yˆi − Yi )2 , kde Yˆi znaˇc´ı predikci pomoc´ı odhadnut´eho modelu.
6
Reference • M. Denuit, X. Mar´echal, S. Pitrebois, J.-F. Walhin: Actuarial Modelling of Claim Counts: Risk Classification, Credibility and Bonus-Malus Systems. John Wiley & Sons, Chichester, 2007. • C.-C. G¨ unthera, I.F. Tvete, K. Aas, G.I. Sandnes and O. Borgan: Modelling and predicting customer churn from an insurance company. Scandinavian Actuarial Journal. DOI:10.1080/03461238.2011.636502 • P. de Jong, G. Z. Heller: Generalized Linear Models for Insurance Data. Cambridge University Press, 2008. • P. McCullagh, J.A. Nelder: Generalized Linear Models. 2nd Ed. Chapman and Hall, London, 1989. • E. Ohlsson, B. Johansson: Non-Life Insurance Pricing with Generalized Linear Models. EAA Series, Springer-Verlag Berlin Heidelberg, 2010. • K. Zv´ ara: Regrese. Matfyzpress, Praha, 2008. • Z´ apisky z pˇredn´ aˇsky Zobecnˇen´e line´ arn´ı modely (NSTP196), 2010, MFF UK, pˇredn´ aˇsej´ıc´ı Doc. Mgr. Michal Kulich, Ph.D. • SAS/STAT 9.3: User’s Guide.