KNM XVI
3-6 Juli 2012
UNPAD, Jatinangor
PERBANDINGAN ESTIMATOR KERNEL DAN ESTIMATOR SPLINE DALAM MODEL REGRESI NONPARAMETRIK I KOMANG GDE SUKARSA1, I GUSTI AYU MADE SRINADI2, NI LUH AYU PUSPA LESTARI3 1
Jurusan Matematika Universitas Udayana,
[email protected] Jurusan Matematika Universitas Udayana,
[email protected] 3 Alumni Jurusan Matematika Universitas Udayana,
[email protected] 2
Abstrak Analisis regresi nonparametrik merupakan metode pendugaan kurva regresi yang digunakan jika tidak ada informasi sebelumnya tentang bentuk kurva regresi atau tidak terikat pada asumsi bentuk fungsi tertentu. Estimasi fungsi regresi nonparametrik dilakukan berdasarkan data pengamatan dengan menggunakan teknik pemulusan (smoothing). Penelitian ini bertujuan untuk membandingkan estimator kernel dan estimator spline pada data sekunder, yaitu data motorcycle. Hasil penelitian ini menunjukkan bahwa estimator kernel lebih baik dibandingkan estimator spline dalam mengestimasi kurva regresi nonparametrik. Dalam estimator kernel, estimasi dilakukan pada setiap titik data sehingga menghasilkan kurva yang lebih mulus, sedangkan spline merupakan potongan-potongan polinomial yang digabungkan bersama pada setiap titik knot. Kata Kunci: Regresi Nonparametrik, Smoothing, Estimator Kernel, Estimator Spline, titik knot
1. Pendahuluan Misalkan X adalah variabel prediktor dan Y adalah variabel respon untuk n pengamatan berpasangan
xi , yi in1 , maka hubungan linear antara variabel prediktor
dan variabel respon tersebut dapat dinyatakan sebagai berikut:
yi m( xi ) i ,
i =1,2,...,n
(1)
dengan i adalah sisaan yang diasumsikan independen dengan mean nol dan variansi 2 , serta m( xi ) adalah fungsi regresi atau kurva regresi, Eubank [2]. Ada dua pendekatan yang digunakan untuk mengestimasi fungsi regresi, yaitu pendekatan parametrik dan pendekatan nonparametrik. Dalam pendekatan parametrik, bentuk hubungan antara variabel respon dengan variabel prediktor diketahui atau diperkirakan dari bentuk kurva regresi, misalnya diasumsikan membentuk pola linear, kuadratik, eksponensial, dan polinomial. Pada regresi parametrik yaitu model regresi linear, juga harus memenuhi asumsi yang ketat diantaranya sisaan berdistribusi normal dan memiliki variansi yang konstan. Transformasi sering dilakukan untuk mengatasi pe-
ISBN: 978-602-19590-2-2
581
Sukarsa I.K.G., Srinadi I.G.A.M., Lestari N.L.A.P. Perbandingan Estimator Kernel …
nyimpangan asumsi dalam model regresi linear sehingga diperoleh model regresi yang sesuai. Bentuk atau fungsi dipilih melalui teknik trial dan error sehingga penggunaan transformasi yang tepat akan membawa pada metode pendugaan yang relatif mudah, tetapi kesalahan penggunaan transformasi bisa juga membawa pada metode pendugaan dengan model yang lebih rumit, Neter et al [7]. Pendekatan kedua adalah pendekatan nonparametrik. Estimasi fungsi regresi nonparametrik dilakukan berdasarkan data pengamatan dengan menggunakan teknik pemulusan (smoothing). Terdapat beberapa teknik smoothing dalam model regresi nonparametrik antara lain histogram, estimator kernel, deret orthogonal, estimator spline, k-NN, deret fourier, dan wavelet, Eubank [2]. Macam-macam fungsi kernel meliputi kernel Uniform, Triangle, Epanechnikov, Gaussian, kuartik, dan cosines, Hardle [4]. Dalam regresi kernel pemilihan parameter pemulus (bandwidth) jauh lebih penting dibandingkan dengan memilih fungsi kernel. Fungsi kernel yang umum digunakan adalah kernel Gaussian dan kernel Epanechnicov, Hastie dan Tibshirani [5]. Kernel Triangle sering digunakan karena lebih mudah dan cepat dalam perhitungan, Mathsoft [6]. Sedang salah satu bentuk estimator spline yang sering digunakan adalah Penalized Spline, Ruppert [8]. Tujuan yang ingin dicapai dalam penelitian ini adalah membandingkan estimator kernel dan estimator spline dalam mengestimasi model regresi nonparametrik pada data sekunder berdasarkan kriteria MSE, RMSE, dan MAD.
2. Tinjauan Pustaka 2.1 Estimator Densitas Kernel Estimator densitas kernel merupakan pengembangan dari estimator histogram. Estimator kernel diperkenalkan oleh Rosenblatt (1956) dan Parzen (1962) sehingga disebut estimator densitas kernel Rosenblatt-Parzen, Hardle [4]. Secara umum kernel K dengan bandwith h menurut Wand dan Jones [9] didefinisikan sebagai: K h ( x)
1 x , untuk - x , h > K h h
(2)
serta memenuhi: (i)
K ( x) 0 , untuk semua x; (ii) K ( x)dx 1 ; (iii) x 2 K ( x)dx 2 0 ;
(iv) xK ( x)dx 0
maka estimator densitas kernel untuk fungsi densitas f (x) adalah: 1 n 1 n x xi fˆh ( x) K h ( x xi ) K n i 1 nh i 1 h
(3)
Dari persamaan (3) terlihat bahwa fˆh ( x) tergantung pada fungsi kernel K dan parameter
h . Bentuk bobot kernel ditentukan oleh fungsi kernel K , sedangkan ukuran bobotnya ditentukan oleh parameter pemulus h yang disebut bandwidth. Peran bandwidth seperti lebar interval pada histogram.
KNM XVI - 3-6 Juli 2012 – UNPAD, Jatinangor
582
KNM XVI
3-6 Juli 2012
UNPAD, Jatinangor
Fungsi kernel Triangle dan Gaussian menurut Hardle [4] didefiniskan sebagai : a. Kernel Triangle : K(x) = 1 x I x 1 b. Kernel Gaussian
: K(x) =
1 2
1 exp x 2 2
x
Dengan I adalah fungsi indikator. Regresi kernel adalah teknik statistik nonparametrik untuk mengestimasi fungsi regresi m(x) pada model regresi nonparametrik yi m( xi ) i . Nadaraya dan Watson tahun 1964 mendefinisikan estimator regresi kernel sehingga disebut estimator Nadaraya-Watson, Hardle [4], yaitu : 1 n 1 x xi x xi K h ( x xi ) y i K( ) K( ) n n i 1 atau = ; h h h ˆ m ( x ) whi ( x) yi mˆ ( x) w ( x ) hi 1 n 1 n x xi n x xi i 1 K h ( x xi ) K K n i 1 h i 1 h i 1 h Bandwidth (h) adalah parameter pemulus (smoothing) yang berfungsi untuk mengontrol kemulusan dari kurva yang diestimasi. Bandwith yang terlalu kecil akan menghasilkan kurva yang undersmoothing yaitu sangat kasar dan sangat fluktuatif, dan sebaliknya bandwith yang terlalu lebar akan menghasilkan kurva yang oversmoothing yaitu sangat mulus, tetapi tidak sesuai dengan pola data, Hardle [4]. Oleh karena itu, harus dilakukan pemilihan bandwidth yang optimal. Salah satu metode untuk mendapatkan h optimal adalah dengan menggunakan kriteria Generalized Cross Validation (GCV), Eubank [2], yang didefinisikan sebagai berikut: GCV (h)
n dengan MSE = 1 ( yi mh ( xi )) 2
MSE 1 tr ( I H (h)) n
n
2
i 1
Dalam hal ini, h optimal yang terpilih adalah nilai h yang memberikan nilai GCV(h) minimum, kurva regresi yang dihasilkan cukup mulus dan sesuai dengan pola data.
2.2 Estimator Penalized Spline Fungsi spline dengan orde p adalah suatu fungsi m yang dapat dinyatakan sebagai berikut: K
m( xi ) 0 xi 1 xi ... p xi p k xi k 0
1
p
p
dengan K adalah banyaknya knot dan
k 1
( x k ) p , x k p ( xi k ) i x k 0, Dari bentuk matematis fungsi spline tersebut, dapat dikatakan bahwa spline merupakan potonganpotongan polinomial dimana segmen-segmen polinomial yang berbeda digabungkan bersama pada titik knot 1 , 2 , , K untuk menjamin sifat kontinuitasnya. Fungsi spline untuk n pengamatan dalam bentuk matriks dapat dituliskan sebagai berikut:
ISBN: 978-602-19590-2-2
583
Sukarsa I.K.G., Srinadi I.G.A.M., Lestari N.L.A.P. Perbandingan Estimator Kernel …
m( x1 ) 1 x m( x ) 1 1 x 2 2 m( x n ) 1 x n 1 1 1
x1
2
x2
2
xn
2
x1
( x1 )
p
p 1
x2
p
(x2 )
xn
p
( x n 1 ) p
p 1
Estimator penalized spline dari
0 ( x1 K ) 1 ( x 2 K ) p p ( p 1) ( x n K ) p ( p K ) p
sehingga
m( X ) X
m(X ) dapat dituliskan sebagai mˆ ( X ) Xˆ
Nilai ˆ diperoleh dengan menggunakan Estimator Penalized Spline yaitu meminimumkan fungsi Penalized Least Square (PLS):
( y m( x )) n
i
i
2
i
k 1 (2p k ) K
dengan adalah suatu parameter pemulus, polinomial.
K
adalah jumlah knot, dan
p
(4) adalah orde
Dengan meminimumkan fungsi PLS pada persamaan (4), sehingga diperoleh ˆ , yaitu:
ˆ X T X D X T Y 1
Bentuk estimasi dari fungsi sebagai :
ˆ ( X ) X X T X D m
1
mˆ ( X )
menurut Wand dan Jones [9], secara matriks dituliskan
X TY
2.3 Pemilihan Parameter Pemulus () Optimal Parameter merupakan pengontrol keseimbangan antara kecocokan terhadap data (goodness of fit) dan kemulusan kurva (penalty). Jika besar maka estimasi fungsi yang diperoleh akan semakin mulus, namun kemampuan untuk memetakan data tidak terlalu baik. Sebaliknya, jika kecil maka estimasi fungsi yang diperoleh akan semakin kasar, Fahrmeir dan Tuhtz [3]. Oleh karena itu, dalam memilih nilai diharapkan nilainya optimal agar diperoleh estimasi fungsi yang mulus dan pemetaan data yang baik. Suatu kriteria untuk akan dibatasi pada kelas estimator linier, yaitu:
m H ( )Y
dengan H ( ) X X T X nD
1
XT
dimana untuk setiap ada matriks pemulus H berukuran n × n dengan H simetri dan semidefinit positif. Identik dengan penentuan bandwith (h) optimal dalam estimator Kernel, untuk mendapatkan optimal digunakan metode Generalized Cross Validation (GCV), Eubank [2] yang didefinisikan sebagai berikut:
GCV ( )
n MSE ( ) dengan MSE ( ) n 1 ( yi m ( xi )) 2 2 (n tr[ I H ( )]) i 1 1
2.4 Pemilihan Jumlah Knot Optimal
Jumlah knot K merupakan banyaknya titik knot atau banyaknya titik dimana terjadi perubahan perilaku fungsi pada interval yang berbeda. Dengan knot ke-k adalah k n kuantil ke-j dari nilai tunggal variabel prediktor xi i 1 , dimana j yang dibulatkan K 1 pada bilangan bulat terdekat. Sehingga dalam penalized spline, penentuan jumlah knot sangat berpengaruh untuk menentukan titik knot dalam fungsi tersebut. Algoritma yang dapat digunakan untuk memilih jumlah knot (K ) optimal adalah algoritma Full-Search, Ruppert [8]. Dalam algoritma Full-Search, jumlah knot yang dihitung
KNM XVI - 3-6 Juli 2012 – UNPAD, Jatinangor
584
KNM XVI
3-6 Juli 2012
UNPAD, Jatinangor
diurut dari K 1 sampai dengan K nuniq p 1 , dimana nuniq adalah banyaknya nilai tunggal n dari variabel prediktor xi i 1 , sehingga jumlah knot (K ) kurang dari jumlah pengamatan.
2.5 Ukuran Ketepatan Estimator Untuk menentukan kebaikan suatu estimator dapat dilihat dari tingkat kesalahannya. Semakin kecil tingkat kesalahannya semakin baik estimasinya. Menurut Aydin [1], kriteria untuk menentukan estimator terbaik dalam model regresi nonparametrik, antara lain: n n a. Mean Square Error (MSE), MSE = 1 ei 2 1 yi yˆ i 2 n i 1 n i 1 b. Root Mean Square Error (RMSE), RMSE = MSE n
e c. Mean Absolute Deviation (MAD), MAD =
t 1
n
t
y t 1
i
yˆ i
n n Data yang digunakan dalam penelitian ini adalah data sekunder, hasil penelitian yang dilakukan oleh Schmidt, Mattern, dan Schuler pada tahun 1981 yaitu data simulasi tabrakan sepeda motor pada suatu Post Mortem Human Test Object (PTMO), Hardle [4] untuk melihat kurva hubungan antara percepatan setelah tabrakan dengan waktu setelah terjadinya tabrakan dengan estimator Kernel Gaussian. Variabel dalam penelitian ini adalah variabel prediktor (X) yaitu waktu (dalam milidetik) setelah simulasi tabrakan, dan variabel respon (Y) yaitu percepatan (g = 9,81 m/s2) setelah tabrakan yang disimulasikan. Model regresi nonparametrik dalam penelitian ini, diestimasi menggunakan estimator kernel dengan fungsi kernel Triangle dan kernel Gaussian, serta estimator penalized spline. Adapun langkah-langkah yang dilakukan adalah sebagai berikut: (i) Mengestimasi kurva regresi nonparametrik dengan estimator kernel Triangle. (ii) Mengestimasi kurva regresi nonparametrik dengan estimator kernel Gaussian. (iii) Mengestimasi model regresi nonparametrik dengan estimator penalized spline. (iv) Membandingkan hasil estimasi antara estimator kernel dan estimator spline berdasarkan kriteria MSE, RMSE, dan MAD, serta membandingkan plot estimasi kurva regresi bersama-sama dengan plot data.
3. Hasil Gambaran umum data penelitian dapat dilihat pada Tabel 1 dan plot antara kedua variabel penelitian pada Gambar 1. Tabel 1. Statistika Deskriptif Data Motorcycle Variabel
N
Waktu (X)
133
Percepatan (Y)
133
ISBN: 978-602-19590-2-2
Min
Maks
Mean
Q2
Standar deviasi
2,4
57,6
25,18
23,4
13,132
-134,0
25,0
-25,55
-13,3
48,322
585
Sukarsa I.K.G., Srinadi I.G.A.M., Lestari N.L.A.P. Perbandingan Estimator Kernel …
0 -50 -100
Percepatan (g)
50
Motorcycle
10
20
30
40
50
Waktu (milidetik)
Gambar 1. Diagram Pencar Data Motorcycle Gambar 1 menunjukkan bentuk kurva yang menggambarkan hubungan antara waktu (milidetik) dengan percepatan (g), yang sangat sulit diestimasi bila digunakan pendekatan regresi parametrik. Kurva regresi diestimasi menggunakan pendekatan regresi nonparametrik dengan estimator kernel dan estimator spline.
3.1 Estimasi Data Motorcycle dengan Estimator Kernel Langkah-langkah yang dilakukan dalam mengestimasi kurva regresi nonparametrik menggunakan estimator kernel adalah menentukan fungsi bobot atau fungsi kernel dan ukuran bobot yaitu nilai bandwidth (h) yang optimal. Sebelum menentukan nilai bandwidth (h) , terlebih dahulu dipilih fungsi kernel yang akan digunakan, dalam penelitian ini digunakan fungsi kernel Triangle dan kernel Gaussian. Nilai bandwidth yang terlalu kecil, misalkan h 0,1 menghasilkan kurva regresi yang sangat kasar, seperti terlihat pada Gambar 2, sedangkan nilai bandwidth yang terlalu besar, misalkan h 10 menghasilkan kurva regresi yang sangat mulus dan tidak sesuai dengan pola data, seperti terlihat pada Gambar 3. Plot Estimasi Kernel Triangle
50 0 -100
-50
Percepatan (g)
0 -50 -100
Percepatan (g)
50
Plot Estimasi Kernel Triangle
10
20
30
40
50
10
Waktu (milidetik)
Gambar 2. Plot Estimasi Kernel Triangle dengan Bandwidth = 0,1
20
30
40
50
Waktu (milidetik)
Gambar 3. Plot Estimasi Kernel Triangle dengan Bandwidth = 10
KNM XVI - 3-6 Juli 2012 – UNPAD, Jatinangor
586
KNM XVI
3-6 Juli 2012
UNPAD, Jatinangor
Berdasarkan kriteria GCV minimum, diperoleh nilai bandwidth (h) optimal untuk fungsi kernel Triangle sebesar 2,365 dan untuk fungsi kernel Gaussian sebesar 1,090. Selanjutnya, dilakukan estimasi model regresi nonparametrik dengan estimator kernel Triangle pada bandwidth yang optimal. Estimasi model identik dengan menghitung nilai mˆ ( x) sehingga diperoleh nilai dugaan mˆ ( x) untuk kernel Triangle dan estimasi kurva regresi yang ditunjukkan pada Gambar 4. Demikian juga untuk fungsi kernel Gaussian, estimasi kurva regresi ditunjukkan pada Gambar 5. Plot Estimasi Kernel Triangle
50 0 -100
-50
Percepatan (g)
0 -50 -100
Percepatan (g)
50
Plot Estimasi Kernel Gaussian
10
20
30
40
50
10
20
Waktu (milidetik)
30
40
50
Waktu (milidetik)
Gambar 4. Plot Estimasi Kernel Triangle, Gambar 5. Plot Estimasi Kernel Gaussian, Bandwidth Optimal = 2,365 Bandwidth Optimal = 1,090
3.2 Estimasi Data Motorcycle dengan Estimator Spline Kriteria yang digunakan untuk mendapatkan orde polinomial, jumlah knot, dan parameter pemulus () yang optimal adalah berdasarkan nilai GCV minimum. Hasil yang diperoleh dari output program S-plus yaitu GCV minimum bernilai 623,252 pada orde ( p) = 1, jumlah knot (K ) = 4 dengan titik knot yaitu 1 13,72 , 2 20,56 , 3 28,08 , 4 39,28 , dan parameter pemulus ( ) 0,305. Nilai ˆ yang diperoleh untuk spline orde
1 adalah sebagai berikut: 6,069 0,686 22,307 ˆ 42,214 20,327 1,426
sehingga model dugaan untuk waktu terhadap percepatan dapat dituliskan sebagai:
ˆ ( X ) 6,069 0,686 X 22,307 X 13,72 42,214 X 20,56 20,327 X 28,08 1,426 X 39,28 m
dan estimasi kurva regresinya ditunjukkan pada Gambar 6.
ISBN: 978-602-19590-2-2
587
Sukarsa I.K.G., Srinadi I.G.A.M., Lestari N.L.A.P. Perbandingan Estimator Kernel …
0 -50 -100
Percepatan (g)
50
Plot Estimasi Spline
10
20
30
40
50
Waktu (milidetik)
Gambar 6. Plot Estimasi Spline Orde 1
3.3 Perbandingan Estimator Kernel dan Spline Perbandingan estimasi kurva regresi antara estimator kernel dengan fungsi kernel Triangle dan Gaussian, serta estimator spline secara bersama-sama dalam plot data, ditunjukkan pada Gambar 7.
-50
0
Triangle Gaussian Spline
-100
Percepatan (g)
50
Plot Perbandingan Estimator Kernel dan Spline
10
20
30
40
50
Waktu (milidetik)
Gambar 7. Plot Perbandingan Estimator Kernel dan Spline Gambar 7 menunjukkan bentuk kurva regresi estimator kernel lebih mendekati bentuk plot data dibandingkan dengan bentuk kurva regresi estimator spline. Bentuk kurva regresi estimator spline terlihat setelah knot ke-3 tidak sesuai dengan pola data, hal ini disebabkan karena jumlah knot dan titik knot ditentukan berdasarkan sampel kuantil. Selain itu kurva regresi untuk estimator kernel lebih mulus dibandingkan dengan estimator spline, karena pada estimator kernel estimasi dilakukan pada setiap titik data, sedangkan spline merupakan potongan-potongan polinomial dimana segmen-segmen polinomial yang berbeda digabungkan bersama pada titik knot. Berdasarkan perbandingkan plot estimasi kurva regresi yang ditunjukkkan pada Gambar 7 terlihat bahwa estimator kernel untuk fungsi kernel Triangle dan kernel Gaussian hampir berimpit ini mendukung pendapat yang dikemukakan oleh Hastie dan Tibshirani [5], yang menyatakan bahwa dalam regresi kernel pemilihan parameter pemulus (bandwidth) jauh lebih penting dibandingkan dengan pemilihan fungsi kernel.
KNM XVI - 3-6 Juli 2012 – UNPAD, Jatinangor
588
KNM XVI
3-6 Juli 2012
UNPAD, Jatinangor
Gambar 7 juga memperlihatkan bahwa estimator kernel lebih baik dibandingkan dengan estimator spline dalam mengestimasi kurva regresi nonparametrik. Untuk mendukung kesimpulan ini, selanjutnya dilihat perbandingan nilai MSE, RMSE, dan MAD yang dihasilkan estimator kernel dan spline seperti tercantum pada Tabel 2. Walau kurva regresi kernel Triangle dan Gaussian hampir berimpit, berdasarkan nilai MSE, RMSE, dan MAD terlihat kernel Triangle lebih baik dari kernel Gaussian. Tabel 2. Perbandingan Estimator Kernel dan Spline Estimator MSE RMSE MAD Kernel Triangle 452,1965 21,26491 15,75821 Kernel Gaussian 469,5878 21,66997 16,20430 Spline 568,3778 23,84067 17,34813 Nilai MSE, RMSE, dan MAD dari estimator spline lebih besar dibandingkan dengan estimator kernel Triangle dan kernel Gaussian. Hal ini juga menunjukkan bahwa estimator kernel lebih baik dibandingkan dengan estimator spline dan fungsi kernel Triangle lebih baik dari kernel Gaussian dalam mengestimasi kurva regresi nonparametrik untuk data motorcycle.
Daftar Pustaka [1] Aydin, D, A Comparison of the Nonparametric Regression Models using Smoothing Spline and Kernel Regression, World Academy of Science, Engineering and Technology, 36, 253-257, 2007. [2] Eubank, R., Spline Smoothing and Nonparametric Regression, Marcel Dekker,1988. [3] Fahrmeir, L. and G.Tuhtz, Multivariate Statistical Modelling Based on Generalized Linier Models, Springer-Verlag, 1994. [4] Hardle, W., Applied Nonparametric Regression, Cambridge University Press, 1994. [5] Hastie, T.J. and R.J. Tibshirani, Generalized Additive Models, Chapman and Hall, 1990. [6] MathSoft, S-Plus Guide to Statistical and Mathematical Analysis, Version 3.2, A Division of Math Soft, Inc. Seattle, 1993. [7] Neter,J., W. Wasserman dan M. H. Kutner, Model Linier Terapan Analisis Regresi Linier Sederhana, Diterjemahkan oleh Bambang Sumantri, Jurusan Statistika FMIPA IPB, 1997. [8] Ruppert, D., Selecting the Number of Knots for Penalised Spline, Journal of Computational and Graphical Statistics 11, 735-757, 2002. [9] Wand, M.P. and M.C.Jones, Kernel Smoothing, Chapman and Hall
ISBN: 978-602-19590-2-2
589
Sukarsa I.K.G., Srinadi I.G.A.M., Lestari N.L.A.P. Perbandingan Estimator Kernel …
KNM XVI - 3-6 Juli 2012 – UNPAD, Jatinangor
590