ESTIMASI BOBOT DENGAN GENERALIZED MOVING ANERAGE DAN VISUALISASINYA Jerry Dwi Trijoyo Purnomo Alumni Pasca Sarjana Statistika FMIPA ITS Kampus ITS Sukolilo, Surabaya I Nyoman Budiantara Jurusan Statistika FMIPA ITS Kampus ITS Sukolilo, Surabaya Kartika Fitriasari Jurusan Statistika FMIPA ITS Kampus ITS Sukolilo, Surabaya
ABSTRAK Diberikan model regresi semiparametrik dengan residual yang diasumsikan berdistribusi independen dengan mean nol dan variansi σ2/wj, wj > 0. Estimasi γ dan f yang meminimumkan Penalized Least Square Terbobot, merupakan estimator polinomial spline parsial terbobot. Selanjutnya diberikan suatu estimasi bobot untuk estimator spline parsial terbobot.
Kata kunci : Regresi semiparametrik, spline parsial terbobot, Penalized Least Square.
ABSTRACT By giving semiparametric regression model with error, which is assumption independently by zero mean and σ2/wj, wj > 0 varian. Estimation γ and f which has minimum Weighted Penalized Leasts Square, in which polinomial weighted partial spline estimator. Further, given a weight estimation for weighted partial spline estimator.
Keywords: Semiparametric regression, partial spline weightness, Penalized Least Square.
1. PENDAHULUAN Estimasi kurva regresi umumnya dilakukan dengan pendekatan parametrik yang mulai diperkenalkan oleh Laplace sejak abad XVIII dan juga Boscovich pada tahun 1757. Dalam regresi parametrik diasumsikan bahwa bentuk kurva regresi f diketahui. Pembuatan asumsi tersebut berdasarkan pada teori, pengalaman masa lalu atau tersedianya sumber-sumber lain yang dapat memberi pengetahuan atau informasi yang terperinci. Estimasi dapat juga dilakukan berdasarkan pendekatan yang tidak terikat dengan asumsi bentuk kurva regresi tertentu, yang memberikan fleksibilitas yang lebih besar dari kurva regresi. Metode dengan pendekatan seperti ini dinamakan pendekatan nonparametrik yang mulai dikenal sejak abad XIX. Ada beberapa teknik untuk
1
mengestimasi dalam regresi nonparametrik, antara lain histogram, estimator Kernel, Spline, dan lain-lain. Masalah yang sering muncul dalam regresi adalah tidak semua variabel penjelas dapat didekati dengan pendekatan parametrik, karena tidak adanya informasi tentang bentuk hubungan variabel penjelas tersebut dengan variabel responnya, sehingga harus digunakan pendekatan nonparametrik. Dengan menggabungkan dua pendekatan tersebut dalam suatu pendekatan regresi akan didapatkan suatu model regresi semiparametrik. Estimasi model semiparametrik ekuivalen dengan mengestimasi parameter-parameter pada komponen parametrik dan estimasi kurva pada komponen nonparametrik. Model semiparametrik diperkenalkan oleh Wahba (1984), Engel, Granger, Rice dan Weiss (1986), Green, Jennison, dan scheult (1985) serta Heckman (1986). Model ini dirumuskan sebagai: yi= x i' +f(ti)+ i , i=1,2,…,n (1) dengan x i' =(xi1,…,xip) dan ti, i=1,2,…,n merupakan variabel-variabel prediktor. Vektor γ =(γ1,…,γp)' Rp tidak diketahui dan f diasumsikan merupakan anggota anggota ruang 1
Sobolev W2m 0,1 = {f f(k), k=0,1,…,m-1 kontinu
f (m) t
pada [0,1], dan
2
dt
}.
0
Residual i berdistribusi independen dengan mean nol dan variansi 2. Estimator f diperoleh dari meminimumkan Penalized Least Square (PLS): W2m 0,1 lλ(f)=R(f) + λJ(f), f (2) Fungsional lλ(f) memuat tiga komponen, yaitu komponen likelihood R(f), fungsional penalti J(f) dan parameter penghalus λ. Estimator tipe PLS ini dikembangkan oleh Heckman (1986), Eubank (1986), Wahba (1990), dan Chen dan Shiau (1994) untuk estimator spline parsial original, dengan mengambil kesamaan-kesamaan: n
R(f)= n
1
x i'
yi
f ti
2
(3)
i 1
1
f (m) t
J(f)=
2
dt
(4)
0
Bentuk estimator γλ dan fλ diperoleh dengan meminimumkan PLS: n
l f
n
1
yi
x
' i
f ti
1
2
f ( m) t
i 1
2
dt
(5)
0
Pada sisi lain, Shi dan Li (1994) mengembangkan model regresi semiparametrik untuk estimator spline parsial tipe-norm L1. Estimator γλ dan fλ diperoleh dengan meminimumkan PLS dan mengganti persamaan (3): n
R(f) = n
1
yi
x i'
f ti
i 1
Lebih lanjut He dan Shi (1996) mengusulkan penggunaan estimator spline parsial tipe-M (median) untuk pendekatan mean respon regresi semiparametrik. Estimator diperoleh dengan meminimumkan PLS dan mengganti persamaan (3) : n
R(f) = n
1
yi
x i'
f ti
i 1
ρ fungsi konveks. Dari beberapa macam tipe spline yang dikembangkan para peneliti di atas, dikembangkan model spline parsial terbobot untuk mengatasi ketaksamaan variansi, dikarenakan dalam model spline parsial kurang sesuai untuk menangani ketaksamaan
2
variansi dalam regresi semiparametrik. Model ini dikembangkan oleh Budiantara (1999) dan Subanar dan Budiantara (1999). Bentuk estimator diperoleh dengan meminimumkan Penalized Least Square Terbobot (PLST): n
l f
n
1
w i yi
x
' i
f ti
2
i 1
1
f ( m) t
2
dt
(6)
0
untuk setiap f anggota ruang Sobolev W2m 0,1 . Bentuk estimator spline parsial terbobot dipengaruhi oleh parameter penghalus λ. Untuk λ→ ∞, estimator spline parsial terbobot merupakan estimator polinomial (Budiantara, 1999). Estimator komponen parametrik merupakan estimator yang konsisten dan berdistribusi normal asimtotik (Subanar dan Budiantara, 1999). 2. Spline Parsial Original Sebagai visualisasi spline parsial original digunakan data penelitian Dewayani (2004) tentang jumlah energi listrik yang hilang di PT PLN distribusi Jawa Timur Wilayah Surabaya Utara. Dalam penelitian Dewayani (2004) ini terdapat dua variabel prediktor, yaitu gangguan jenis benda (x1), dan jenis gangguan jenis unit pembangkit (x2), serta variabel respon jumlah energi listrik yang hilang. Visualisasi spline parsial jumlah energi listrik yang hilang dapat dilihat pada Gambar 1 dan Gambar 2. Gambar 1 memperlihatkan hubungan antara jumlah energi listrik yang hilang di PT PLN dengan gangguan jenis benda (x1) memperlihatkan adanya perubahan pola perilaku data disekitar titik 9 dan 14,1. Berdasarkan Tabel 1, didapatkan bahwa hubungan antara keduanya dapat dijelaskan dengan model spline linear. Tabel 1 Skor GCV Spline Parsial Original Dengan Satu Titik Knots No Orde Titik Knot GCV 1 2 9,3 14,1 6893,625 2 2 9,2 14,1 6892,278 3 2 9,1 14,1 6891,460 4 2 9,0 14,1 6891,108 5 2 9,0 14,2 6891,621 6 2 9,0 14,3 6892,763 Sedangkan Gambar 2 memperlihatkan hubungan antara jumlah energi listrik yang hilang dengan jumlah unit pembangkit (x2), adalah linear. Dari kedua gambar di atas terlihat adanya kasus heterokedastisitas, karena makin besar nilai x, variansi juga makin besar. Model spline parsial original untuk data ini adalah: y = 1,09 + 23,25x1 – 54,73 ( x1 9)1 + 50,02 x1 14,1 1 + 4,73x2 + ε Nilai koefisien determinasi untuk model ini sebesar 66.39% Berdasarkan model spline parsial original ini memperlihatkan adanya kasus heterokedastisitas (varian residual tidak konstan). Ini terlihat dari plot antara residual dengan yˆ (Gambar 5) yang bentuknya tidak random (horizontal band) melainkan berbentuk corong. Hal ini mengindikasikan bahwa model spline parsial original kurang dapat menjelaskan adanya kasus heterokedastisitas.
3
600
700 600
400
500
y
y
400
200
300 200 100 0 0
10
20
30 0
x1
5
10
15
20
25
x1
Gambar 1 Plot antara y dan x1
Gambar 2 Plot antara y dan x1 dan estimasi spline original
Regression Plot y = 85,4292 + 4,93934 x2 S = 94,8883
R-Sq = 45,7 %
R-Sq(adj) = 44,4 %
700
600
600
500
500
400
y
700
400
y
300
300 200
200 100
100 0
0 0
50
0
100
50
100
x2
x2
Gambar 3 Plot antara y dan x2
Gambar 4 Plot y dan x2 dan regresi linear
250 200 150
residu
100 50 0 -50 -100 -150 -200 0
100
200
300
400
500
600
700
yhat
Gambar 5 Plot antara residual dan yˆ
Gambar 6
Plot tiga dimensi antara
yˆ (merah) dan y (hijau)
4
3. Spline Parsial Terbobot Pada analisis di atas terlihat bahwa spline parsial original kurang mampu menjelaskan adanya heterokedastisitas. Untuk mengatasi adanya heterokedastisitas diberikan suatu bobot yang sesuai. Salah satu metode untuk mendapatkan bobot adalah dengan Generalized Moving Average (GMA) (Silverman, 1985) dengan mengambil persamaan: ni
wˆ i 1 = (ni – mi + 1) -1 j
rj*2 mi
dimana: mi = max (1, i – k) ni = min (n, i + k) * i
r
w1i / 2 yi
f ti
ˆ 1 n trA 1
1/ 2
n
wi y i ˆ2
f ti
; 2
i 1
n trA
Tabel 2 Skor GCV Spline Parsial Terbobot Dengan Satu Knots No Orde Titik Knots GCV 1 3 6 10109,50 2 3 8 9505,72 3 3 9 9161,36 4 3 10 8842,28 5 3 12 8468,83 6 3 14 8338,75 7 3 15 7322,85
Tabel 1 di atas memperlihatkan model spline kuadratik terbobot dengan titik knots 15 mempunyai nilai GCV terkecil, yaitu 7322,85. Estimasi model spline parsial terbobot diberikan oleh: yˆ = γ0 + γ1x1 + γ2x12 + γ3 ( x1 S) 2 + γ4x2 Berdasarkan analisis diagnostik didapatkan model spline kuadratik terbobot mempunyai variansi data yang konstan dan berdistribusi normal. Selanjutnya dilakukan uji hipotesis koefisien-koefisien regresi. Pertama dilakukan uji hipotesis serentak. H0 : γ0 = γ1 = γ2 = γ3 = γ4 = 0 H1 : paling sedikit ada satu γi ≠ 0 Ringkasan analisis variansi model spline terbobot diberikan dalam tabel 3 Tabel 3. Analisis Variansi Model Spline Parsial Terbobot Sumber Variasi Derajat Bebas Jumlah Kuadrat (JK) Rata-rata JK F Regresi 4 862401,6 215600,4 29,31315 Residual 38 279492,8 7355,1 Total 42 1141894,4 Nilai F-tabel: 2,618988 Dengan tingkat signifikansi α = 0,05 diperoleh kesimpulan bahwa paling sedikit ada satu γi ≠ 0, i=1, 2, 3, 4. Selanjutnya dilakukan uji koefisien-koefisien regresi, terutama fungsi truncated (γ3) yang memberikan pengaruh signifikan terhadap model.
5
H0 : γ0 = 0 , H1 : γ0 ≠ 0 H0 : γ1 = 0 , H1 : γ1 ≠ 0 H0 : γ2 = 0 , H1 : γ2 ≠ 0 H0 : γ3 = 0 , H1 : γ3 ≠ 0 H0 : γ4 = 0 , H1 : γ4 ≠ 0 Tabel 4 Estimasi Model Spline Parsial Terbobot Dengan Metode GMA Koefisien Estimasi St Dev t-hitung γ0 -35,49971 25,98093 -1,366375 γ1 45,82718 10,67354 4,293534 γ2 -2,534491 0,7472326 -3,391837 γ3 6,104175 1,982297 3,079344 γ4 4,557436 0,554461 8,21958 Nilai t-tabel : 2,024394 Dari tabel 4 di atas terlihat bahwa hanya γ0 saja yang tidak signifikan terhadap model, sehingga γ0 tidak dimasukkan ke dalam model. Tabel 5. Estimasi Model Parsial Terbobot Dengan Metode GMA Koefisien Estimasi St Dev t-hitung γ1 68.77681 22.5799 3.045931 γ2 -17 6.025598 -2.821296 γ3 17.03867 6.038639 2.821608 γ4 10.13589 2.486943 4.075643 Nilai t-tabel: 2,022691 Dari Tabel 5 di atas dapat dilihat bahwa model spline parsial terbobot menggunakan metode GMA adalah: yˆ = 68,78x1 – 17x12 + 17,04 (x1 15 ) 2 + 10,14x2 Nilai koefisien determinasi untuk model ini sebesar 71,92%.
dengan
Gambar 4.3.8 Plot tiga dimensi antara yˆ (merah) dan y (hijau) Berdasarkan analisis di atas dapat disimpulkan bahwa spline parsial dengan bobot lebih baik dibandingkan spline parsial original. Hal ini terlihat dari nilai R2 spline dengan bobot yang lebih besar dibandingkan spline tanpa bobot, disamping gambar tiga dimensi antara yˆ (merah) dan y (hijau) yang menunjukkan bahwa untuk spline dengan bobot nilai yˆ merupakan estimasi yang baik untuk y, karena plot antara keduanya berimpit.
6
Daftar Pustaka Budiantara, I.N.(1999). Estimator Spline Terbobot Dalam Regresi Semiparametrik, Majalah Ilmu Pengetahuan dan Teknologi, 10, 103-109. Chen, H. dan Shiau, J.J.H.(1994). Data Driven Efficient Estimators for a Partially Linear Model. The Annals of Statistics, 22, 211-237. Dewayani, I.(2004). Penerapan Model Nonparametrik Dengan Metode Spline Pada Jumlah Energi Listrik Yang Hilang di PT PLN Distribusi Jawa Timur Wilayah Surabaya Utara, Tugas Akhir, ITS, Surabaya. Engle, R.L, Granger, C., Rice, J. and Weiss, A.(1986).Semiparametric Estimates of Relation Between Weather and Electricity Sales, Journal of The American Statistical Association, 81, 310-320. Eubank, R.L. (1986). A Note on Smoothness Priors and Nonlinear Regression., Journal of the American Statistical Association, 81, 514-517. Green, P., Jennison, C.,Seheult, A.(1985). Analysis of Field Experiments by Least Square Smoothing, Journal of The Royal Statistical Society, Ser. B, 47, 299-314. He,X. dan Shi,P.(1996). Bivariate Tensor Product B-Spline in a Partly Linear Models, Journal of Multivariate Analysis, 58, 162-181. Heckman, N.(1986). Spline Smoothing in a Partly Linear Models, Journal of The Royal Statistical Society, ser B, 48, 244-248. Shi, P., dan Li, G. (1994). On the Rate Convergence of “Minimum L1-Norm”Estimates in a partly Linear Model, Communication in Statistics, Theory and Methods, 23, 175-196. Silverman, B.W.(1985). Some Aspect of The Spline Smoothing Approach to Nonparametric Regression Curve Fitting (With Discussion), Journal of The Royal Statistical Society, ser B , 47, 1-52. Subanar dan Budiantara, I.N. (1999). Weighted Spline Estimator in a Partially Linear Models, Proceeding of the SEAMS-GMU International Conference 1999 on Mathematics and Its Applications, 61-70. Wahba, G.(1985). A Comparison of GCV and GML for Choosing the Smoothing Parameter in the Generalized Spline Smoothing Problem, Journal the Annals of Statistics, 13, 1378-1402. Wahba, G.(1990). Spline Models for Observasional Data, SIAM, Pensylvania.
7
Lampiran 1 Program MakroS-Plus Estimasi Bobot (GMA) trun <- function(data,a,power) { data[data
1) mi<-i-kk else mi<-1 if((i+kk)
8