PENGARUH MIXED DISTRIBUTION PADA PENDEKATAN QUASI-LIKELIHOOD DALAM MODEL LINEAR 1) Anang Kurnia Departemen Statistika FMIPA IPB Jl. Meranti, Wing 22 Level 4 Kampus IPB Darmaga, Bogor Email:
[email protected] Abstrak. Diawali oleh Wedderburn (1974), perkembangan metode “quasilikelihood” (QL) telah memberikan manfaat yang sangat besar dalam pemodelan statistika. Dengan keuntungan yang dimilikinya yaitu tidak memerlukan diketahuinya bentuk sebaran dari peubah respon, metode QL telah menjadi alternatif dalam pemodelan statistika yang komplek. Namun demikian, inferensi berdasarkan metode quasi-likelihood hanya bisa dilakukan berdasarkan sifat asimtotik. Disamping itu, pengaruh data pencilan atau terjadinya mixed distribution pada peubah respon akan mempengaruhi akurasi pendugaan yang dihasilkannya. Kajian simulasi untuk hal tersebut, menunjukkan bahwa terjadinya mixed distribution dibawah 10% masih memungkinkan untuk digunakan quasilikelihood dengan menganggap respon berasal dari satu populasi. Sedangkan jika terjadi mixed distribution diatas 10%, analisis harus mempertimbangkan kondisi ini karena pendugaaan dan inferensi jika hal tersebut diabaikan menjadi jauh dari kondisi sebenarnya. Kata Kunci : Quasi-likelihood, mixed distribution
1. Pendahuluan Pemodelan statistika berkembang sangat cepat sejalan dengan perkembangan teknologi komputasi. Namun demikian banyak masalah-masalah aktual dalam pemodelan yang tidak bisa dilakukan dengan sederhana. Pendekatan full likelihood memiliki keterbatasan pada asumsi sebaran peubah respon. Diawali oleh Wedderburn (1974), kemudian McCullagh (1983) dikembangkan suatu pendekatan lain “quasi-likelihood” yang memiliki keuntungan tidak memerlukan diketahuinya bentuk sebaran dari peubah respon, karena estimating function dibentuk hanya berdasarkan pada momen satu dan momen kedua. Namun demikian, keuntungan ini tidak menjadikan quasi-likelihood sebagai metode yang power-full. Oleh karena sifatnya yang relatif bebas sebaran, inferensi berdasarkan metode quasilikelihood hanya bisa dilakukan berdasarkan sifat asimtotik. Disamping itu, pengaruh data pencilan atau terjadinya mixed distribution pada peubah respon akan mempengaruhi akurasi pendugaan yang dihasilkannya. Seberapa besar pengaruh mixed distribution mempengaruhi pendugaan pada metode quasi-likelihood menjadi kajian pada paper ini.
2. Tinjauan Pustaka Generalized Linear Model (GLM) Model linear khususnya model regresi sudah mulai digunakan sejak awal abad 19, ditandai dengan kajian-kajian yang dilakukan oleh Francis Galton (1822-1911) tentang hubungan tinggi badan ayah dan anaknya. Dalam perkembangannya, model regresi linear dengan asumsi peubah respon Yi ~ N(µi, σ2) tidaklah mampu menjawab masalah-masalah yang dihadapi dalam pemodelan statistik. Generalized Linear Model (GLM) merupakan pengembangan dari model linear ”klasik” khususnya 1)
Paper disampaikan pada Seminar Nasional Statistika, Universitas Islam Bandung, 24 Mei 2007
1
dalam mengatasi kendala peubah respon yang tidak normal. Namun demikian, peubah respon dalam GLM diasumsikan memiliki sebaran yang termasuk dalam keluarga sebaran eksponensial. Ada tiga komponen utama dalam GLM (McCullagh dan Nelder,1989), meliputi : 1. Komponen acak, yaitu peubah respon Y1, Y2, …, Yn yang merupakan contoh acak dimana Yi ~ (µi, σ2) dan termasuk dalam keluarga sebaran eksponensial 2. Komponen sistematik yang merupakan fungsi dari peubah penjelas : ηi = β1x1i + β2x2i + β3x3i + … + βpxpi 3. Fungsi hubung yang menghubungkan suatu fungsi dari nilai tengah komponen acak dengan komponen sistematik : g(µi) = ηi . Jika Y adalah suatu peubah acak, baik kontinu maupun diskret, dan termasuk dalam keluarga sebaran eksponensial, maka fungsi peluang atau fungsi kepekatan peluang Y dapat dimodelkan sebagai berikut
dengan a, b, dan c merupakan fungsi spesifik yang diturunkan berdasarkan fungsi peluang atau fungsi kepekatan peluang dari Y. Nilai harapan dan ragam peubah acak Y dinotasikan :
Jika µ merepresentasikan nilai tengah dari Y, dan ragam merupakan fungsi dari nilai tengah, maka dimana V(.) adalah suatu fungsi ragam yang diketahui. Fungsi likelihood dari n peubah acak Y1, Y2, ..., Yn didefinisikan sebagai fungsi kepekatan peluang bersama dari n peubah acak f(y|θ) yang dilihat sebagai fungsi dari θ dan dinotasikan dengan L(θ | y). Untuk suatu gugus y yang diketahui, memaksimumkan L(θ | y) adalah metode kemungkinan maksimum dalam menduga θ. Dalam kasus Yi adalah keluarga sebaran eksponensial, log [L(θ | y)] adalah
Jika E(Y) = µ tergantung pada parameter β1, β2, …, βp maka penduga kemungkinan maksimum untuk setiap βj adalah penyelesaian dari persamaan berikut
dimana ηi = Xiβ, atau dapat pula ditulis dalam notasi score function yang merupakan turunan pertama terhadap θ dari fungsi log-likelihood.
Sedangkan nilai harapan dari turunan keduanya
(
E
)
disebut Fisher information function. Solusi kemungkinan maksimum dari θ adalah penyelesaian S(θ) = 0, dan [I(θ)]-1 adalah penduga ragamnya. Quasi Likelihood Quasi-likelihood (QL) merupakan suatu framework dalam pemodelan statistika yang didasari oleh pendekatan terhadap model fungsi likelihood. Keuntungan dari quasi-likelihood adalah tidak
2
memerlukan diketahuinya bentuk sebaran dari peubah respon, karena estimating function dibentuk berdasarkan momen satu dan momen kedua. Model dasar quasi-likelihood pertama kali dikembangkan oleh Wedderburn (1974). Fungsi quasilikelihood didefinisikan sebagai
dengan E(yi) = µi dan ragam var(yi) = V(µi) dengan V merupakan suatu fungsi yang diketahui. Dalam kasus regresi, µi biasanya tergantung pada suatu fungsi linear xβ melalui suatu fungsi hubung g sehingga µi = g-1(xβ). Wedderburn (1974) memperlihatkan bahwa perhatian pada µi dan koefisien regresi β dari fungsi Q(µi;yi) memiliki sifat yang sama dengan fungsi log-likelihood. Hal ini dapat dijelaskan dengan memperhatikan prinsip-prinsip quasi-likelihood yang mirip dengan GLM, meliputi : 1. Pola hubungan nilai tengah dengan peubah bebas yang membentuk suatu fungsi hubung, g(µi) = ηi . 2. Pola hubungan ragam dengan nilai tengah yang membentuk fungsi ragam (variance function), Var(Yi) = φV(µi), dengan φ adalah dispersion parameter. Berdasarkan dua komponen yang menyusun QL tersebut, jelas menjadikan quasi-likelihood mirip dengan fungsi log-likelihood pada GLM sehingga QL dapat diselesaikan dengan cara yang sama seperti pada penyelesaian GLM. Parameter yang akan diduga pada quasi-likelihood adalah θ = (β, φ) dimana β merupakan parameter yang menjadi perhatian, sedangkan φ biasanya bukan merupakan parameter yang menjadi perhatian dan sering disebut nuisance parameter. Pengaruh φ digunakan pada pendugaan galat baku penduga β. Dalam kasus model linear, Pawitan (2001) menunjukkan bahwa dengan kondisi E(yi) = xi’β = µi(β) dan var(yi) = σi2 = Vi(β), maka untuk µi(.) dan Vi(.) yang diketahui, penduga bagi β adalah penyelesaian dari persamaan berikut n ∂µ ( y i i
∑
i =1 ∂β
µi ) Vi
=0
3. Kajian Simulasi untuk Kasus Mixed Distribution Desain Simulasi Kajian simulasi didasarkan pada model linear. Untuk pasangan pengamatan (yi, xi), i = 1, 2, …, n dimana E(yi) = xi’β = µi(β) var(yi) = σi2 = Vi(β) Dengan memperhatikan bahwa penduga β merupakan penyelesaian dari n ∂µ ( y i i
∑
i =1 ∂β
µi ) Vi
n
= 0 ⇔ ∑ xi i =1
( yi
xi ' β)
σi 2
=0
sehingga
βˆ =
2
∑in=1 x i yi σi 2
∑in=1 x i x i ' σi 2
= (X’V-1X)-1 X’V-1Y
dengan V = diag[σi ]. Dengan demikian, untuk kasus Yi ~ N(µi, σi2) penyelesaian dengan quasi-likelihood, restricted maximum likelihood maupun ordinary least square akan menghasilkan pendugaan yang sama.
3
Kajian simulasi dilakukan dengan memberikan intervensi pada peubah respon seolah-olah berasal dari dua populasi yang berbeda. Banyaknya intervensi berturut-turut 5%, 10%, 15%, 20%, dan 25% dari banyaknya pengamatan. Banyaknya pengamatan ditentukan n = 200 dan masing-masing diulang sebanyak 30 ulangan. Algoritma pembangkitan data didesain sebagai berikut : 1. Bangkitkan X (sebagai peubah bebas), X ~ Seragam(145, 190) 2. Tetapkan parameter, β = (-100 1,1) 3. Hitung µi = Xiβ 4. Untuk setiap proporsi intervensi, set µi = Xiβ + 15 5. Hitung ragam untuk setiap pengamatan, σi2 = sqrt(µi) 6. Bangkitkan Y (peubah respon), Yi ~ N(µi, σi2) 7. Evaluasi pasangan pengamatan (yi, xi) dengan metode quasi-likelihood, restricted maximum likelihood dan ordinary least square Hasil Kajian Simulasi Gambar 1 dan Gambar 2 menyajikan pola distribusi data simulasi. Gambar 1 adalah pola distribusi data simulasi untuk 200 pengamatan dengan intervensi mixed distribusion sebesar 5%. Sedangkan Gambar 2 adalah pola distribusi data simulasi dengan pengamatan 200 dan intervensi mixed distribution sebesar 25%.
Gambar 1. Sebaran peubah respon dengan intervensi 5%
Gambar 2. Sebaran peubah respon dengan intervensi 25% Deskripsi hasil simulasi disajikan pada Tabel 1. Terlihat bahwa semakin besar intervensi yang dilakukan pada data, bias pendugaan baik intersep maupun koefisien model semakin besar. Gambar 3 menyajikan pola perubahan bias pendugaan parameter berdasarkan perubahan intervensi pada data. Berdasarkan Tabel 1 dan Gambar 3, terlihat bahwa intervensi data sampai dengan 10% dari banyaknya pengamatan masih memberikan toleransi bias pendugaan yang kecil. Baik intersep
4
maupun koefisien parameter memiliki nilai mutlak bias dibawah 5%. Nilai mutlak bias naik dengan tajam jika intervensi data lebih dari 10%. Tabel 1. Deskripsi rata-rata pendugaan parameter model Presentase Intervensi 5 10 15 20 25
Intercept
Coeff
-96.76 -105.20 -73.28 -64.92 -31.56
MSE-Model
1.09 1.14 0.95 0.90 0.70
95.95 104.49 160.10 175.72 247.71
Persentase Bias
80 60 40 20 0 5
10
15
20
25
Persentase Intervensi Series1 Intersep
Series2 Koefisien
Gambar 3. Persentase bias pendugaan parameter untuk setiap persentase intervensi pada data Pendugaan MSE-model juga memiliki pola yang serupa dengan pola nilai mutlak bias pendugaan parameter. Untuk intervensi yang lebih dari 10% dari data pengamatan, besarnya pendugaan MSEmodel meningkat dengan cukup tajam. Peningkatan MSE-model seperti yang disajikan pada Gambar 4, juga berpengaruh langsung secara linear dalam pendugaan galat baku atau MSE-penduga parameter, karena MSE-penduga parameter merupakan fungsi linear dari MSE-model.
300 247.71
250 200
160.10
150 95.95
100
175.72
104.49
50 0 5
10
15
20
25
Persentase Intervensi
Gambar 4. Perubahan pendugaan MSE-Model untuk setiap persentase intervensi pada data Peningkatan yang tajam baik pada nilai mutlak bias maupun MSE penduga parameter model untuk intervensi data memberikan indikasi bahwa jika ada indikasi mixed-distribution, apalagi lebih dari 5
10% data pengamatan, peneliti harus lebih hati-hati dalam melakukan analisis. Memaksakan melakukan analisis dengan menganggap bahwa respon berasal dari satu populasi beresiko dalam pendugaan parameter.
4. Kesimpulan Penggunaan metode quasi-likelihood (QL), restricted maximum likelihood (REML) maupun ordinary least square (OLS) untuk data simulasi yang dibangkitkan dari populasi normal menghasilkan pendugaan parameter yang sama. QL dan OLS adalah dua metode yang tidak mensyaratkan diketahuinya sebaran peubah respon, sedangkan REML ataupun maximum likelihood untuk kasus data normal secara analitik akan menghasilkan pendugaan parameter yang sama dengan QL maupun OLS. Pengaruh intervensi mixed distribution pada data simulasi baik dilakukan analisis dengan metode QL, OLS maupun REML memberikan hasil yang sama. Peningkatan proporsi intervensi yang diberikan semakin meningkaktan nilai mutlak bias maupun pendugaan MSE. Intervensi mixed distribution yang kurang dari 10%, menyebabkan bias kurang dari 5%, sehingga jika hal ini terjadi pada data empirik masih memungkinkan untuk dilakukan analisis dengan mengasumsikan data berasal dari satu populasi. Namun untuk intervensi yang lebih dari 10%, mengasumsikan data masih berasal dari satu populasi memberikan resiko yang besar dalam inferensi model, sehingga seharusnya dilakukan analisis berbasis mixed distribution.
Daftar Pustaka Godambe VP. dan Heyde CC. 1987. Quasi-likelihood and optimal estimation. Intl Statist Review. ;55:231–244. McCullagh P. 1983. Quasi-likelihood functions. Ann Statist. ;11:59–67. McCullagh, P.dan Nelder, JA. 1989. Generalized Linear Models. 2. Chapman and Hall, London. Nelder JA, dan Lee Y. 1992. Likelihood, quasi-likelihood and pseudolikelihood: some comparisons. J R Statist Soc B.;54:273–284. Pawitan, Y. 2001. In All Likelihood: Statistical Modelling and Inference Using Likelihood. Clarendon Press, Oxford. Wedderburn RWM. 1974. Quasi-likelihood functions, generalized linear models, and the GaussNewton method. Biometrika.;61:439–447.
6
Lampiran 1. Sebagian Output Quasi-Likelihood, Restricted Maximum Likelihood dan Ordinary Least Square pada data simulasi dengan intervensi 5 %. The GLIMMIX Procedure Model Information Response Distribution Link Function Variance Function Estimation Technique
Effect Intercept X Residual
Estimate -104.09 1.1250 107.87
Unknown Identity 1 Quasi-Likelihood
Parameter Estimates Standard Error DF 9.2952 198 0.05552 198 . .
t Value -11.20 20.26 .
Pr > |t| <.0001 <.0001 .
The GLIMMIX Procedure Model Information Response Distribution Link Function Variance Function Estimation Technique
Effect Intercept X Scale
Estimate -104.09 1.1250 107.87
Source Model Error Corrected Total
Variable Intercept X
Label Intercept X
Gaussian Identity Default Restricted Maximum Likelihood
Parameter Estimates Standard Error DF 9.2952 198 0.05552 198 10.8412 .
t Value -11.20 20.26 .
DF 1 198 199
The REG Procedure Analysis of Variance Sum of Mean Squares Square 44280 44280 21358 107.86816 65638
DF 1 1
Parameter Estimates Parameter Standard Estimate Error -104.09398 9.29518 1.12497 0.05552
Pr > |t| <.0001 <.0001 .
F Value 410.50
t Value -11.20 20.26
Pr > F <.0001
Pr > |t| <.0001 <.0001
7
Lampiran 2. Hasil pendugaan parameter pada data simulasi berdasarkan metode quasi-likelihood No.
B0
Intervensi 5% B1 MSE-Model
B0
Intervensi 10% B1 MSE-Model
1
-104.0900
1.1250
107.8700
-110.2000
1.1752
2
-105.3000
1.1373
107.9700
-105.3500
1.1426
109.2200 90.2208
3
-95.7839
1.0829
123.0500
-111.7600
1.1837
101.4700
4
-87.9778
1.0257
102.4000
-107.1400
1.1510
112.9300
5
-87.9365
1.0320
98.1003
-96.7979
1.0897
86.9418
6
-106.4700
1.1469
91.1556
-108.8600
1.1591
97.2449
7
-100.2000
1.1117
87.8798
-110.4800
1.1709
88.0713
8
-92.0821
1.0548
99.9047
-96.5088
1.0921
119.8200
9
-88.5113
1.0357
93.2441
-110.3300
1.1762
101.5100
10
-105.1900
1.1385
105.1400
-97.3053
1.0974
102.9200
11
-96.5193
1.0867
87.6829
-108.4900
1.1566
103.7700
12
-111.7500
1.1701
108.7800
-103.3100
1.1313
113.4600
13
-96.3774
1.0775
93.7820
-101.4900
1.1185
94.1875
14
-90.1284
1.0455
81.1876
-91.3852
1.0530
92.0453
15
-101.7400
1.1156
82.6093
-105.4900
1.1381
108.6100
16
-94.7503
1.0760
106.6200
-98.5473
1.1008
108.8100
17
-94.4194
1.0758
76.6619
-98.6479
1.1036
97.7858
18
-94.7401
1.0724
85.0134
-105.0000
1.1431
95.3625
19
-89.4162
1.0377
89.4151
-99.5995
1.1043
106.5400
20
-91.4737
1.0551
76.5309
-110.1500
1.1662
95.9693
21
-91.8156
1.0550
87.3936
-110.0800
1.1724
110.7100
22
-96.3271
1.0841
113.2000
-120.8700
1.2343
118.0000
23
-91.7637
1.0589
98.6719
-108.0900
1.1557
118.2000
24
-104.3900
1.1310
76.9285
-107.5400
1.1517
108.3800
25
-94.5840
1.0714
96.0896
-119.3300
1.2277
121.6000
26
-94.4193
1.0762
91.5096
-96.8744
1.0936
105.0300
27
-106.5200
1.1390
98.1910
-94.1486
1.0725
107.3100
28
-95.1057
1.0800
116.3600
-100.6700
1.1119
109.8900
29
-99.1103
1.1036
99.3868
-118.6700
1.2155
105.1700
30
-93.7602
1.0673
95.6922
-102.7600
1.1230
103.4800
8
Lampiran 2. Hasil pendugaan parameter pada data simulasi berdasarkan metode quasi-likelihood No.
B0
Intervensi 15% B1 MSE-Model
B0
Intervensi 20% B1 MSE-Model
1
-61.6212
0.8789
160.1500
-70.1561
0.9256
180.6800
2
-80.9142
1.0006
164.4600
-58.5970
0.8620
182.9000
3
-76.9403
0.9668
164.3200
-69.4084
0.9222
186.8000
4
-66.3130
0.9102
162.6100
-71.8121
0.9382
156.9100
5
-77.7803
0.9796
147.7500
-50.8781
0.8119
190.5300
6
-74.2710
0.9544
143.4200
-70.9390
0.9364
180.2800
7
-69.0762
0.9183
140.3500
-61.4570
0.8777
184.2900
8
-65.0806
0.8949
159.8700
-41.6533
0.7528
185.1000
9
-80.4510
0.9970
176.6500
-53.4820
0.8316
174.2500
10
-78.4694
0.9783
177.8000
-62.3355
0.8830
180.1600
11
-70.0338
0.9337
158.0600
-62.2864
0.8818
177.6400
12
-72.4576
0.9465
191.2600
-76.2894
0.9704
178.1000
13
-71.3514
0.9421
171.3600
-68.6345
0.9256
146.4300
14
-74.1147
0.9508
149.6100
-71.5045
0.9352
201.1400
15
-63.9835
0.8905
155.2800
-71.7678
0.9343
156.0400
16
-88.4130
1.0424
149.5100
-67.5960
0.9081
168.5400
17
-72.9315
0.9453
170.0400
-78.1077
0.9740
197.0900
18
-62.3561
0.8782
143.8300
-51.2083
0.8155
174.3000
19
-74.5510
0.9514
182.3800
-53.9479
0.8349
168.7500
20
-78.8687
0.9872
137.5900
-54.0066
0.8273
194.7900
21
-74.0964
0.9497
175.6700
-70.6045
0.9309
180.5500
22
-61.2068
0.8709
132.9700
-64.5814
0.8947
145.0000
23
-66.0670
0.9142
162.4900
-76.7923
0.9676
191.3900
24
-73.5612
0.9483
151.2100
-78.2506
0.9769
165.0700
25
-68.8475
0.9202
157.9300
-61.6423
0.8759
180.1800
26
-71.5390
0.9360
175.1000
-70.2674
0.9313
176.1200
27
-77.8568
0.9807
141.5900
-59.8571
0.8620
173.7300
28
-83.5256
1.0147
149.4500
-70.1822
0.9261
161.0100
29
-87.8618
1.0456
175.6300
-63.8013
0.8907
158.6900
30
-74.0090
0.9556
174.5200
-65.4642
0.8980
175.2300
9
Lampiran 2. Hasil pendugaan parameter pada data simulasi berdasarkan metode quasi-likelihood No.
B0
Intervensi 25% B1 MSE-Model
1
-32.7793
0.7046
230.2600
2
-39.5092
0.7475
261.1200
3
-31.5739
0.6994
243.6500
4
-35.5297
0.7264
221.2300
5
-26.5146
0.6736
220.6000
6
-26.5101
0.6700
246.3800
7
-30.9150
0.7009
259.2900
8
-19.2076
0.6294
239.1700
9
-22.3491
0.6459
228.2400
10
-43.7108
0.7747
236.9300
11
-39.5022
0.7494
267.8400
12
-35.2377
0.7256
257.8700
13
-26.7754
0.6710
236.2700
14
-26.7865
0.6737
231.5800
15
-36.1538
0.7331
238.1200
16
-24.2711
0.6613
266.6100
17
-34.8963
0.7203
231.0000
18
-31.0452
0.7020
215.9000
19
-40.2408
0.7550
264.6400
20
-23.6834
0.6511
247.5700
21
-17.7075
0.6206
289.9100
22
-20.6716
0.6389
262.4400
23
-32.1472
0.7082
251.8500
24
-31.7064
0.7019
269.5000
25
-42.0327
0.7665
266.5200
26
-45.5136
0.7898
261.8100
27
-26.7614
0.6736
244.9800
28
-40.2888
0.7568
252.6900
29
-28.3523
0.6805
242.5700
30
-34.2910
0.7194
244.6700
10