´ APLIKACE KOMPOZICN ˇ ´IHO EKONOMICKA REGRESN´IHO MODELU Kl´ara Hr˚ uzov´a1,2 , Karel Hron1,2 1
Katedra matematick´ e anal´ yzy a aplikac´ı matematiky, Pˇr´ırodovˇ edeck´ a fakulta, Univerzita Palack´ eho v Olomouci 2 Katedra geoinformatiky, Pˇ r´ırodovˇ edeck´ a fakulta, Univerzita Palack´ eho v Olomouci
Robust 2014 19. – 24. ledna 2014, Jetˇrichovice
Obsah
1 Kompoziˇ cn´ı regresn´ı model
2 Biologick´ a aplikace
3 Ekonomick´ a aplikace
4 V´ yhody kompoziˇcn´ıho regresn´ıho modelu
Dvousloˇzkov´a kompozice
• x = (x, c − x)0 , kde c je konstanta souˇ ctu • z´ akladn´ı operace Aitchisonovy geometrie speci´alnˇe pro takto
nadefinovan´e kompozice: • Perturbace: x ⊕ y = C(xy , (c − x)(c − y )); α α • Mocninn´ a transformace: α x = C(x , (c − x) );
√1 ln x ; c−x 2 √1 ln x − ln y , c−x c−y 2 0
• Skal´ arn´ı souˇcin: ||x||A = • Vzd´ alenost: dA (x, y) =
kde x = (x, c − x)0 , y = (y , c − y ) , α je re´aln´a konstanta a C oznaˇcuje operaci uz´avˇeru.
Regresn´ı model
Pro kompoziˇcn´ı data m˚ uˇzeme zav´est regresn´ı model (resp. v nejjednoduˇsˇs´ım pˇr´ıpadˇe analogii regresn´ı pˇr´ımky) uˇzit´ım Aitchisonovy geometrie: yi = β 0 ⊕ β1 xi ⊕ εi , i = 1, . . . , r ,
(1)
s kompoziˇcn´ım regresn´ım parametrem β 0 , skal´arn´ım parametrem β1 a kompoziˇcn´ı chybou εi .
Izometrick´a logratio transformace
Pro dvousloˇzkovou kompozici definujeme ilr transformaci ve tvaru: 1 x . x ∗ = ilr(x) = √ ln 2 c −x → transformace je proporcion´aln´ı k logitov´e transformaci → metodika logratio souˇradnic umoˇzn ˇuje aplikovat standardn´ı statistick´e metody a pˇredpokl´adat normalitu souˇradnic [Egozcue et al.2011]
(2)
Regresn´ı pˇr´ımka
yi∗ = β0∗ + β1 xi∗ + ε∗i ,
i = 1, . . . , r ,
kde nezn´am´e parametry β0∗ , β1 odhadujeme metodou nejmenˇs´ıch ˇctverc˚ u.
Statistick´e inference Za pˇredpokladu normality z´avisle promˇenn´e y ∗ ≡ y ∗ (x ∗ ) je konfidenˇcn´ı interval pro stˇredn´ı hodnotu y ∗ v x ∗ definov´an jako s (x ∗ − x¯∗ )2 1 2 ∗ ∗ \ + Pr y (x ) ± t1−α/2,r −2 s ∗ ¯∗ )2 r i=1 (xi − x se spolehlivost´ı (1 − α). Predikˇcn´ı interval pro y ∗ s ∗ (x ∗ ) ± t y\ 1−α/2,r −2
s2
1 (x ∗ − x¯∗ )2 1 + + Pr . ∗ ¯∗ )2 r i=1 (xi − x
Fitovan´e hodnoty
Fitovan´e hodnoty pro p˚ uvodn´ı kompozici yi z´ısk´ame aplikac´ı inverzn´ı ilr transformace √ ∗ c exp 2b y −1 ∗ √ i ∗ . ybi = ilr (b yi ) = 1 + exp 2b yi
(3)
Concentration-response models
• odhad ekologick´ eho rizika z chemick´eho zneˇciˇstˇen´ı • na z´ akladˇe koncentrace toxick´e l´atky xi (v mg/l) mˇeˇr´ıme
proporci odezvy pi , kde (0 < pi < 1) • logaritmick´ a transformace koncentrace (xi )
Modely pouˇz´ıvan´e nyn´ı • model v z´ akladn´ım tvaru:
yi = f (xi , β) + εi , i = 1, . . . , r , kde funkce f (xi , β) reprezentuje pr˚ umˇer reakc´ı • nejuˇ z´ıvanˇejˇs´ı regresn´ı funkce f
Model (RM) Logit (L) Probit (P) Generalized Logit (GL) Weibull (W)
Regression function f (xi∗ , β) exp(β0 +β1 xi∗ ) 1+exp(β0 +β1 xi∗ ) Φ (β0 + β1 xi∗ ) β2 exp(β0 +β1 xi∗ ) 1+exp(β0 +β1 xi∗ ) exp (− exp (β0 + β1 xi∗ ))
(4)
Uˇzit´ı kompoziˇcn´ıho modelu
i • xi∗ = √1 ln 106x−x ; 2 i
pi • pi∗ = √1 ln 1−p ; 2
i
• aplikace regresn´ı pˇr´ımky • uˇ zit´ı inverzn´ı ilr transformace pro zobrazen´ı dat v p˚ uvodn´ım
prostoru
1.0
● ● ● ● ● ●● ● ● ●
0.8
simplicial regr.line conf.bounds pred.bounds
●
0.6
● ● ●●
●
● ●
●
0.4
●
● ●
● ● ●
●
● ● ● ●
0.2
●
●
●
●
●
● ●●
0.0
proportion of inhibited
● ●
● ●
●
6
● ● ●
● ●
7
8 lnx
9
10
11
Odhad efektivn´ı koncentrace ECP • odhad m´ıry koncentrace, pˇri kter´ e bychom dos´ahli
P = 100 · p%-n´ıho efektu 0.05 • pro P = 5% spoˇ c´ıt´ame ilr souˇradnice p5∗ = √12 log 0.95 • odpov´ıdaj´ıc´ı odhad ilr koncentrace EC5 z´ısk´ ame aplikac´ı
fitovan´e regresn´ı pˇr´ımky d5 ∗ = 1 (p ∗ − βb∗ ), EC 5 0 βb1
(5)
• v´ ysledn´a koncentrace EC5 je z´ısk´ana uˇzit´ım inverzn´ı ilr
transformace √
d5 ∗ 2 EC d5 = ilr−1 (EC d5 ∗ ) = √ EC d5 ∗ 1 + exp 2EC 1 exp
(6)
• konfidenˇ cn´ı interval m˚ uˇzeme z´ıskat uˇzit´ım teorie kalibrace v
line´arn´ıch regresn´ıch modelech: x ∗ + d1 ≤ EC5∗ ≤ x ∗ + d2 , kde d1 a d2 jsou koˇreny kvadratick´e rovnice " d2
# 2 2 t s 1−α/2,r −2 ∗ b ∗ βb12 − Pr ∗ 2 − 2d β1 (p5 − p )+ ∗ i=1 (xi − x )
1 2 2 + (p5∗ − p ∗ )2 − t1−α/2,r s 1 + = 0. −2 r
• po nˇ ejak´em poˇc´ıt´an´ı dostaneme konfidenˇcn´ı intervaly pro EC5∗ ve formˇe n EC5∗ ∈ x ∗ + (p5∗ − p ∗ )βb1 ± " #1/2 ∗ 2 ∗ (p − p ) 1 H /H, ±t1−α/2,r −2 s Pr 5 + 1+ ∗ 2 ∗ r (xi − x ) i=1
kde H = βb12 −
t1−α/2,r −2 s 2 . Pr ∗ 2 ∗ i=1 (xi −x )
Ekonomick´a aplikace
• data r˚ uznorod´a a charakterizovan´a odliˇsn´ym zp˚ usobem jejich
z´ısk´an´ı • d˚ uleˇzit´y je trend ve vztahu mezi obˇema promˇenn´ymi a
signifikantnost parametru βb1
Ekonomick´y pˇr´ıklad • z´ avislost relativn´ıch v´ydaj˚ u na potraviny (v % na celkov´ych
rodinn´ych v´ydaj´ıch) na v´yˇsi nezamˇestnanosti • m˚ uˇzeme hovoˇrit o existenci rostouc´ıho trendu • hypot´ ezu o normalitˇe pro standardizovan´a rezidua nebylo
moˇzn´e zam´ıtnout na hladinˇe 0,05 ˇz´adn´ym z uˇzit´ych test˚ u (Shapiro-Wilk, Anderson-Darling, Kolmogorov-Smirnov) ⇒ test nulovosti koeficientu u line´arn´ı sloˇzky regresn´ı funkce aplikac´ı standardn´ı T1 statistiky (pro ilr souˇradnice) • p-hodnota (0,0089) svˇ edˇc´ı ve prospˇech alternativy na
standardn´ı hladinˇe 0,05 ⇒ se zvyˇsuj´ıc´ı se nezamˇestnanost´ı roste relativn´ı pod´ıl v´ydaj˚ u na potraviny
45 25
●
● ●
20
●
● ●
15
● ●
●
●
●
●
●
●
●
●
●
● ● ●
−0.5
●
●
●
●
●
● ● ● ●
●
●
●
● ● ● ● ● ●
● ● ●
●
5
● ●
−1.0
●
● ●
●
●
−1.5
30
●
ilr(podíl výdaju na potraviny vzhledem k celkovým výdajum v %)
35
40
●
●
10
podíl výdaju na potraviny vzhledem k celkovým výdajum v %
●
●
10
15 % nezamestnanosti
20
25
−2.0
−1.8
−1.6
−1.4
−1.2
−1.0
−0.8
ilr(% nezamestnanosti)
Obr.3: Obr´azek zn´azorˇ nuje z´avislost relativn´ıch pod´ıl˚ u v´ydaj˚ u na potraviny na nezamˇestnanosti pro p˚ uvodn´ı data (vlevo) a ilr souˇradnice (vpravo).
V´yhody kompoziˇcn´ıho regresn´ıho modelu
• zachov´ av´a kompoziˇcn´ı charakter z´avisle i nez´avisle
promˇenn´ych (vyj´adˇren´ych v procentech, proporc´ıch,atd.) • jednoduch´ y model s dobrou interpretac´ı v´ysledk˚ u • z regresn´ı pˇr´ımky m˚ uˇzeme odvodit odpov´ıdaj´ıc´ı statistick´e
inference (konfidenˇcn´ı a predikˇcn´ı interval) • dobr´ e interpolaˇcn´ı vlastnosti modelu • logratio metoda umoˇ zn ˇuje zav´est pˇredpoklad normality
Reference Egozcue, J. J., J. Daunis-i-Estadella, V. Pawlowsky-Glahn, K. Hron and P. Filzmoser (2011). Simplicial regression. The normal model. Journal of Applied Probability and Statistics 6 (1-2), pp. 87–108. Egozcue, J.J., V. Pawlowsky-Glahn, G. Mateu-Figueras and C. Barcel´o-Vidal (2003). Isometric logratio transformations for compositional data analysis. Mathematical Geology 35 (3), pp. 279–300. Monti, G.S., S. Migliorati, K. Hron, K. Hr˚ uzov´a and E. Fiˇserov´a (2013). Log-ratio approach in curve fitting for concentration-response experiments. Environmental and Ecological Statistics (in approve).