Gusti Ngurah Adhi Wibawa, et al.//Paradigma, Vol. 17 No. 1, April 2013, hlm. 1-8
PENDUGAAN SELANG KEPERCAYAAN BOOTSTRAP PADA REGRESI NON PARAMETRIK KERNEL Gusti Ngurah Adhi Wibawa1), Bahriddin Abapihi1) 1)
Staf Pengajar Jurusan Matematika, FMIPA, Universitas Haluoleo, Kendari 93231
ABSTRAK Regresi nonparametrik Kernel merupakan salah satu metode untuk menduga kurva regresi secara nonparametrik. Untuk menduga selang kepercayaan kurva dugaan pada regresi nonparametrik dapat menggunakan metode bootstrap persentil dan bootstrap terbaik. Dari hasil analisis, Hasil dugaan selang kepercayaan bootstrap terbaik cenderung lebih baik dibandingkan dengan selang kepercayaan bootstrap persentil. Kata kunci: Regresi nonparametrik kernel, selang kepercayaan, bootstrap persentil , bootstrap terbaik. ABSTRACT Kernel nonparametric regression is one method to estimate the nonparametric regression curve. To estimate the confidence interval curve in nonparametric regression can use the percentile bootstrap method and better bootstrap. From the analysis, the curve results of the better bootstrap confidence intervals tend to be better than the percentile bootstrap confidence interval. Keywords : Kernel nonparametric regression, confidence interval, percentile bootstrap, better bootstrap.
Diterima: November 2012 Disetujui untuk dipublikasikan: Februari 2013
1. PENDAHULUAN Teknik statistika yang digunakan untuk menerangkan pola hubungan antara satu atau lebih peubah bebas x dengan suatu peubah tak bebas y adalah analisis regresi. Analisis regresi dapat didekati dengan metode parametrik maupun non parametrik. Pendekatan non parametrik digunakan jika asumsi tentang kenormalan dan kelinearan model sulit dipenuhi, sedangkan jika asumsi tersebut dapat terpenuhi maka lebih baik menggunakan pendekatan parametrik. Pendekatan yang dapat digunakan dalam regresi nonparametrik antara lain regresi monoton, pemulus (kernel, spline, local regression). Dari beberapa pendekatan yang ada, penulis akan mengulas tentang pendekatan kernel. Untuk menilai kebaikan kurva dugaan
Pendugaan Selang Kepercayaan Bootstrap pada Regresi Non Parametrik Kernel
2
yang dihasilkan biasanya dapat dilihat dari dugaan selang kepercayaan untuk kurva dugaan. Suatu metode penduga selang kepercayaan yang perkembangannya cukup pesat adalah metode bootstrap. Dalam tulisan ini, metode bootstrap yang digunakan adalah bootstrap persentil (percentile bootstrap) dan bootstrap terbaik (better bootstrap).Tulisan ini membahas hasil pendekatan bootstrap persentil dan bootstrap terbaik dalam menduga selang kepercayaan dari kurva dugaan. 2. TINJAUAN PUSTAKA 2.1. Model Regresi Model dasar yang digunakan dalam regresi parametrik adalah fungsi pemulus r(.) sebagai penghubung antara y dengan prediktor x, sebagai berikut: yi = r(xi) + εi, untuk i=1,2,...,n, dimana εi ℘ g(µ, σε2(x)) Dari model tersebut, g umumnya diasumsikan menyebar normal dengan ragam konstan sebesar σε2 . Fungsi regresi teoritis didefinisikan sebagai berikut [1]
∫
r ( x) = E (Y / X = x) = yf ( y / x)dy =
∫ yf ( x, y)dy . ∫ f ( x, y)dy
Penduga regresi nonparametrik dapat dihitung dengan menggunakan penduga kernel bivariate [2], [3]: fˆ ( x, y ) =
1 nhx h y
∑
x − xi K hx
y − yi K hy
1 = K h ( x − xi ) K h ( y − y i ) y n x
selanjutnya diperoleh penduga regresi yang dikenal dengan penduga Nadaraya-Watson sebagai berikut n
1/ n rˆ( x) =
∑y K i
i =1 n
1/ n
∑K i =1
atau
hx
hx
( x − xi )
( x − xi )
3
Gusti Ngurah Adhi Wibawa, et al.//Paradigma, Vol. 17 No. 1, April 2013, hlm. 1-8
rˆ( x ) =
n
∑w i =1
hx
( x, xi ) y i
dengan whx ( x, xi ) =
K hx ( x − x i ) n
∑K i =1
hx
.
( x − xi )
Penduga dari Nadaraya-Watson yang diperoleh di atas merupakan kombinasi linear dari pengamatan respon dengan bobot w.
2.2. Penentuan Ukuran Bandwidht Meskipun pemulusan dengan kernel diharapkan dapat mengurangi bias, tetapi pemulusan itu sendiri tergantung pada besarnya h (parameter pemulus).
Pemilihan
bandwidth (h) yang optimal adalah usaha untuk mencari keseimbangan antara besarnya bias dan ragam dugaan kurva pemulus yang dihasilkan. Penduga pemulus yang dipilih adalah yang memberikan nilai ragam minimum. Secara umum penilaian ragam dilakukan dengan menggunakan kriteria MSE dan MISE. Karakteristik dari penduga regresi kernel Nadaraya-Watson dapat diturunkan sebagai berikut [1]: E (rˆ( x)) ≈
f ( x).[r ( x) + h 2σ K2 { f ' r ' / f + f ' ' r /(2 f ) + r ' ' / 2}] f ( x).[1 + h 2σ K2 f ' ' /(2 f )]
1 f ' ( x) ≈ r(x) + h 2σ K2 r ' ' ( x) + 2r ' ( x) 2 f ( x) dengan menggunakan pendekatan (1+h2c2)-1≈(1-h2c) untuk h≈0. Var (rˆ( x) ≈
R( K )σ ε2 nhf ( x)
.
Dengan demikian bias dari penduga regresi diperoleh sebagai berikut 1 f ' ( x) Bias(rˆ( x)) = E (rˆ( x)) − r ( x) ≈ h 2σ K2 r ' ' ( x) + 2r ' ( x) . 2 f ( x)
Sedangkan jika data dalam bandwiht cukup besar maka bias pendugaan akan menjadi h2σK2r''(x)/2 karena 2r'(x)f'(x)/f(x) akan sangat kecil mendekati nol.
Pendugaan Selang Kepercayaan Bootstrap pada Regresi Non Parametrik Kernel
4
AMSE dari penduga Nadaraya-Watson adalah 2
R ( K )σ ε2 1 4 4 f ' ( x) ) AMSE {r ( x )} = + h σ K r ' ' ( x ) + 2 r ' ( x ) . 4 nhf ( x ) f ( x)
Pemilihan parameter pemulus dengan validasi silang (VC) dalam regresi nonparametrik lebih mudah daripada fungsi kepekatan. Terdapat dua algoritma umum dalam pendugaan h yaitu dengan memodifikasi rata-rata dari kuadrat simpangan, yaitu [4]: G (h) =
1 n
n
∑ {y
− rˆ( xi )}
2
i
i =1
selanjutnya simbol r-i (.) adalah simbol penduga Nadaray-Watson dengan menghilangkan pengamatan ke-i. Pemilihan h dapat dilakukan dengan mencari nilai hˆCV = arg min h CV ( h )
dengan CV(h) =
1 n
n
∑ {y
− rˆ−i ( xi )} . 2
i
i =1
Pendekatan lain yaitu dengan mengalikan faktor koreksi 2 K (0) hˆ = arg min h 1 + × G ( h). nh
2.3. Pendugaan Selang Kepercayaan Metode bootstrap dapat digunakan untuk menduga selang kepercayaan kurva dugaan pada regresi nonparametrik. Terdapat beberapa metode bootstrap yang dapat digunakan untuk menduga selang kepercayaan, dua diantaranya adalah bootstrap persentil dan bootstrap terbaik [5]. Sebaran data pada metode bootstrap persentil yang digunakan sebagai referensi adalah sebaran empirik dari hasil pengulangan bootstrap. Kuantil dari sebaran empirik adalah penduga dari kuantil sebaran contoh dugaan parameter. Selang kepercayaan 95% artinya batas bawah dari selang adalah nilai quantil 2.5 dan batas atas selang adalah nilai quantil 97.5.
5
Gusti Ngurah Adhi Wibawa, et al.//Paradigma, Vol. 17 No. 1, April 2013, hlm. 1-8
Metode bootstrap terbaik (better bootstrap) merupakan modifikasi dari bootstrap persentil [6]. Pada metode ini terdapat koreksi terhadap bias dan skewness (kemenjuluruan). Selang kepercayaan boostrap terbaik dikenal sebagai bias-corrected and accelerated (BCa). Untuk selang kepercayaan BCa bootstrap 100(1-α)% hitung:
= Φ + = Φ + dengan
= Φ () ̂ = Φ
=
+ / 1 − ( + / )
+ / 1 − ( + / )
1 () < !
&&&&& ' ∑( $)*#($) #(.) '/&&&&& +,∑( $)*#($) #(.) .
.
Nilai ̂ adalah dugaan dari bias dan I(.) merupakan fungsi indikator. Nilai ̂ = 0
jika adalah median dari ulangan bootstrap. Adapun nilai merupakan ukuran skewness
∗ ∗ , ). Batas atas dari selang yang diduga dari ulangan Jackknife.Selang BCa adalah (
adalah quantil empirik α1 dan batas bawah selang adalah kuantil α2 dari ulangan bootstrap.
3. SUMBER DATA Data
yang
digunakan
diambil
dari
“Damp.syz”dengan y sebagai variabel respon
gudang
data
pada
software
Systat
dan x sebagai variabel bebas. Tahapan
analisis yang akan dilakukan dalam kajian ini adalah tahap pertama menelusuri pola hubungan data dengan pendekatan regresi linear. Hasil dari tahap pertama ini ditujukan untuk mengevaluasi apakah perlu didekati dengan regresi nonparameterik. Jika pola data tidak mengikuti trend linear maka dilanjutkan ke tahap dua yaitu analisis regresi non parametrik kernel. Fungsi pemulus kernel yang akan digunakan adalah Gaussian. Tahap selanjutnya adalah menduga selang kepercayaan dari kurva menggunakan metode bootstrap persentil dan terbaik.
Pendugaan Selang Kepercayaan Bootstrap pada Regresi Non Parametrik Kernel
6
4. HASIL DAN PEMBAHASAN 4.1. Pola Hubungan Antara y dan x Gambar 1 menyajikan pola hubungan antara x dan y. Terlihat bahwa pola hubungan tidak linear. Kondisi ini merupakan salah satu alasan mengapa model hubungan antara x dan y didekati dengan regresi nonparametrik. Pendekatan regresi nonparameterik yang akan digunakan adalah regresi kernel.
Gambar 1. Pola hubungan antara x dan y. Dengan menggunakan fungsi kernel Gaussian dan metode pemulusannya menggunakan rataan terboboti kernel diperoleh bandwidth optimal sebesar 3.19. Hasil dugaan kurvanya seperti yang disajikan pada Gambar 2.
Gambar 2. Dugaan hubungan x dan y menggunakan regresi kernel.
Gusti Ngurah Adhi Wibawa, et al.//Paradigma, Vol. 17 No. 1, April 2013, hlm. 1-8
7
4.2. Dugaan Selang Kepercayaan Nilai dugaan selang kepercayaan 95% menggunakan metode bootstrap persentil dan bootstrap terbaik atau disebut juga dengan BCa dapat dilihat pada Gambar 3. Dari Gambar 3 terlihat bahwa selang kepercayaan yang diperoleh dengan metode persentil bootstrap cenderung lebih lebar dibanding selang kepercayaan BCa.
Selang
kepercayaan yang lebarnya relatif kecil mengindikasikan dugaan kurva sudah cukup baik dalam menduga model regresi.
Gambar 3. Selang kepercayaan 95% dengan bootstrap. Meskipun selang kepercayaan BCa cenderung lebih baik, namun untuk beberapa nilai dugaan juga cukup lebar yang hampir sama dengan dugaan selang kepercayaan persentil, seperti dugaan selang untuk nilai-nilai awal (untuk x < 0,2) . Hal ini kemungkinan terjadi karena untuk nilai-nilai x kurang dari 0,2 variasi nilai y cukup besar. Dengan variasi nilai y yang cukup besar menghasilkan selang kepercayaan yang relatif sama antara bootstrap persentil dan BCa.
Pendugaan Selang Kepercayaan Bootstrap pada Regresi Non Parametrik Kernel
8
5. KESIMPULAN Hasil dugaan selang kepercayaan bootstrap terbaik cenderung lebih baik dibandingkan dengan selang kepercayaan bootstrap persentil, kecuali untuk data dengan variasi yang cukup besar keduanya memberikan hasil yang relatif sama.
DAFTAR PUSTAKA [1] Scott, D.W.1995.Multivariate Density Estimation. John Wiley & Sons, Inc. New York. [2] Nadaraya, E. A. 1964. On estimating regression. Theory of Probability and Its Applications, Vol. 9, p: 141-142. [3] Watson, G. S. 1964. Smooth regression analysis. Sankhya Series A, Vol. 26, p: 359-372. [4] Wand M.P and M.C Jones. 1995. Kernel Smoothing. Chapman & Hall. New york. [5] Gentle, G.E. 2002. The Element of Computation Statistics. Springer-Verlag. New York. [6] Efron, B. 1987. Better bootstrap confidence intervals (with Discussion). Journal of the American Statistical Association, 82, p: 171-200.