PENDUGA KURVA REGRESI NONPARAMETRIK LINEAR DAN NONLINEAR DENGAN METODE PRIESTLEY-CHAO, NADARAYAWATSON DAN METODE FOURIER Skripsi
Oleh ADELLA FITRIA MARLIN
JURUSAN MATEMATIKA FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM UNIVERSITAS LAMPUNG BANDAR LAMPUNG 2016
ABSTRACT THE ESTIMATOR OF LINEAR AND NONLINEAR NONPARAMETRIC REGRESSION CURVE BY PRIESTLEY-CHAO METHOD, NADARAYAWATSON METHOD AND FOURIER SERIES METHOD
By Adella Fitria Marlin
If x is a predictor variable and y is a response variable of the regression model y = f (x) + with f is a regression curve or a regression function which not yet been known and is independent random variable with mean 0 and variance σ, hence function f can be estimated by parametric and nonparametric approach. In this paper function f is estimated by nonparametric approach. The estimation of curve regression is done by smoothing technique based on observation data. This study aimed to estimated regression curve using Priestley-Chao, NadarayaWatson and Fourier method for linear and nonlinear function based on the value of mean square error and optimal bandwidth. The result showed that Priestley-Chao, Nadaraya-Watson and Fourier method can be used to estimate linear regression. However for nonlinear function, Fourier method is better than Priestley-Chao and Nadaraya-Watson method. Keywords: Nonparametric Regression, Priestley-Chao Estimator, NadarayaWatson Estimator, Fourier Series Estimator.
ABSTRAK PENDUGA KURVA REGRESI NONPARAMETRIK LINEAR DAN NONLINEAR DENGAN METODE PRIESTLEY-CHAO, NADARAYAWATSON DAN METODE FOURIER
Oleh Adella Fitria Marlin
Jika x adalah variabel penjelas dan y adalah variabel respon dari model regresi y = f (x)+ dimana f disebut sebagai kurva regresi atau fungsi regresi yang belum diketahui bentuknya dan adalah peubah acak yang saling bebas dengan mean 0 and varian σ, maka fungsi f dapat diestimasi dengan pendekatan parametrik dan pendekatan nonparametrik. Dalam tulisan ini digunakan pendekatan nonparametrik. Estimasi fungsi regresi nonparametrik dilakukan berdasarkan data pengamatan dengan menggunakan teknik pemulusan. Penelitian ini bertujuan untuk menduga kurva regresi menggunakan metode Priestley-Chao, Nadaraya-Watson, dan metode Fourier pada fungsi regresi linear dan nonlinear berdasarkan nilai kuadrat tengah galat dan bandwidth optimal. Hasil penelitian ini menunjukkan bahwa metode Priestley-Chao, metode Nadaraya-Watson, dan metode Fourier dapat digunakan dalam mengestimasi fungsi regresi linear. Sedangkan pada fungsi regresi nonlinear, metode Fourier lebih baik daripada metode Priestley-Chao dan metode Nadaraya-Watson. Kata kunci: Regresi Nonparametrik, Penduga Priestley-Chao, Penduga NadarayaWatson, Penduga Deret Fourier.
PENDUGA KURVA REGRESI NONPARAMETRIK LINEAR DAN NONLINEAR DENGAN METODE PRIESTLEY-CHAO, NADARAYAWATSON DAN METODE FOURIER
Oleh ADELLA FITRIA MARLIN
Skripsi Sebagai Salah Satu Syarat untuk Mencapai Gelar SARJANA SAINS Pada Jurusan Matematika Fakultas Matematika Dan Ilmu Pengetahuan Alam
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM UNIVERSITAS LAMPUNG BANDAR LAMPUNG 2016
RIWAYAT HIDUP
Penulis dilahirkan di Sidomulyo, Lampung Selatan pada tanggal 9 Maret 1995 sebagai anak keempat dari empat bersaudara dari Bapak Hadi Martoyo dan Ibu Sukirah.
Menempuh pendidikan di Taman Kanak-Kanak Dharma Wanita Sidorejo dari tahun 1999-2000. Pendidikan Sekolah Dasar (SD) diselesaikan di SDN 1 Sidorejo, Lampung Selatan pada tahun 2006. Kemudian, penulis menyelesaikan Sekolah Menengah Pertama (SMP) di SMPN 1 Sidomulyo, Lampung Selatan pada tahun 2009. Pada tahun 2012, penulis menyelesaikan Sekolah Menengah Atas (SMA) di SMA Al-Kautsar Bandar Lampung.
Tahun 2012, penulis terdaftar sebagai sebagai mahasiswa Jurusan Matematika FMIPA Unila melalui jalur SNMPTN. Selama menjadi mahasiswa, penulis aktif menjadi anggota Himpunan Mahasiswa Jurusan Matematika (HIMATIKA). Pada awal tahun 2015, penulis melakukan kegiatan Kuliah Praktik di Badan Pusat Statistik (BPS) Kota Bandar Lampung.
KATA INSPIRASI
“Laa Tahzan, Innallaha Ma’ana” (Jangan bersedih, sesungguhnya Allah bersama kita)
Tidak perlu berusaha terlalu keras, namun jangan mudah menyerah (Adella Fitira Marlin)
Ada dua jenis orang yang susah dikalahkan di dunia ini yaitu, orang yang sabar dan orang yang tidak mudah menyerah (Tere Liye)
PERSEMBAHAN Dengan mengucap Alhamdulillah atas berkat dan rahmat Allah SWT Kupersembahkan karya kecilku ini untuk :
Ayah dan Ibuku Tercinta yang telah mencurahkan seluruh hidupnya untuk kebahagiaanku dan tak berhenti untuk selalu mendoakanku.
Ketiga kakakku dan kakak iparku, keponakanku serta seluruh keluarga dekat yang telah mendukung. Dosen pembimbing dan dosen penguji yang telah berjasa dan selalu memberikan motivasi kepada penulis. Orang terdekatku, sahabat-sahabatku, dan Almamaterku Universitas Lampung. Terima Kasih. i
SANWACANA
Puji syukur kehadirat Allah SWT yang telah melimpahkan rahmat dan hidayah-Nya kepada penulis sehingga skripsi ini dapat diselesaikan dengan sebaik-baiknya. Shalawat dan salam semoga selalu tercurah kepada nabi Muhammad SAW sebagai suri tauladan bagi kita. Skripsi dengan judul “Penduga Kurva Regresi Nonparametrik Linear dan Nonlinear dengan Metode Fourier dan Metode Nadaraya-Watson” adalah salah satu syarat untuk memperoleh gelar sarjana Matematika di Universitas Lampung. Dalam kesempatan ini penulis mengucapkan terima kasih kepada: 1.
Ibu Ir. Netti Herawati, Ph.D., selaku Pembimbing Utama atas kesediaannya untuk memberikan bimbingan, saran, dan kritik dalam proses penyelesaian skripsi ini;
2.
Bapak Drs. Rudi Ruswandi, M.Si., selaku Pembimbing Kedua atas kesediaannya untuk memberikan bimbingan, saran, dan kritik dalam proses penyelesaian skripsi ini;
3.
Bapak Drs. Tiryono Ruby, Ph.D., selaku Penguji pada ujian skripsi. Terima kasih untuk masukan dan saran-saran pada seminar proposal terdahulu;
4.
Bapak Warsono, Ph.D., selaku Dosen Pembimbing Akademik yang banyak membantu dan selalu membimbing penulis dalam menyelesaikan masalah perkuliahan;
5.
Bapak Drs. Tiryono Ruby, M.Sc., Ph.D., selaku Ketua Jurusan Matematika;
6.
Bapak Prof. Warsito, S.Si., D.E.A., Ph.D. selaku Dekan Fmipa Unila;
7.
Bapak Tamrin dan Ibu Ratna sebagai staf administrasi Jurusan Matematika FMIPA Unila; ii
8.
Orang tua tercinta yang telah mencurahkan seluruh hidupnya dan menjadi semangat tersendiri bagi penulis;
9.
Mas Wawan, Mas Didi, Mba Risti, Mba Sri, Teh Iis, dan Mas Davit yang sudah menjadi kakak terbaik bagi penulis;
10.
Endah, Faradilla, Nopiani, Lia, Yopita, Novi, Anes, Adies, Adelfira, Vien, Linda, dan Prisky yang telah menemani penulis dari awal hingga akhir perkuliahan;
11.
Teman-teman Matematika angkatan 2012 ;
12.
Keluarga Himpunan Mahasiswa Jurusan Matematika (HIMATIKA);
13.
Seluruh pihak yang telah membantu penulis yang tidak dapat disebutkan satu persatu, atas peran dan dukungannya dalam menyusun laporan ini.
Akhir kata, Penulis menyadari bahwa skripsi ini masih jauh dari kesempurnaan, akan tetapi sedikit harapan semoga skripsi yang sederhana ini dapat berguna dan bermanfaat bagi kita semua. Amiin.
Bandar Lampung, 15 Desember 2015 Penulis
Adella Fitria Marlin
iii
DAFTAR ISI
Halaman DAFTAR TABEL ....................................................................................................vi DAFTAR GAMBAR................................................................................................viii
I. PENDAHULUAN .................................................................................................1 1.1 Latar Belakang dan Masalah .............................................................................1 1.2 Tujuan Penelitian ...............................................................................................3 1.3 Manfaat Penelitian .............................................................................................4
II. TINJAUAN PUSTAKA......................................................................................5 2.1 Analisis Regresi...............................................................................................5 2.2 Regresi Parametrik ..........................................................................................6 2.3 Regresi Nonparametrik....................................................................................7 2.4 Pemulusan (Smoothing)...................................................................................8 2.5 Estimator Densitas Kernel...............................................................................9 2.6 Metode Priestley-Chao ....................................................................................11 2.7 Metode Nadaraya-Watson ...............................................................................12 2.8 Bandwidth Optimum .......................................................................................14 2.9 Fungsi Periodik................................................................................................15 2.10 Deret Fourier .................................................................................................16 2.11 Estimator Fourier...........................................................................................17 2.12 Pemilihan Parameter Pemulus (J) Optimal ...................................................17 2.13 Ukuran Kebaikan Bandwidth Optimal ..........................................................18
III. METODOLOGI PENELITIAN ......................................................................19 3.1 Waktu dan Tempat Penelitian .......................................................................19 3.2 Data ...............................................................................................................19
3.3 Metode Penelitian ........................................................................................ 20
IV. HASIL DAN PEMBAHASAAN ......................................................................21 4.1 Plot Data Pengamatan ...................................................................................21 4.2 Penduga Priestley-Chao ................................................................................23 4.3 Generalized Cross Validation pada Metode Priestley-Chao ........................24 4.4 Penduga Nadaraya-Watson ...........................................................................25 4.5 Generalized Cross Validation pada Metode Nadaraya-Watson ...................26 4.6 Penduga Fourier ............................................................................................27 4.7 Generalized Cross Validation pada Metode Fourier ....................................29 4.8 Penentuan Kurva Regresi Nonparametrik pada Fungsi Linear.....................30 4.8.1 Pemilihan Bandwidth h dan Bandwidth J Optimal .............................30 4.8.2 Perbandingan Kurva Dugaan Metode Priestley-Chao, Metode Nadaraya-Watson dan Metode Fourier ........................................................33 4.9 Penentuan Kurva Regresi Nonparametrik pada Fungsi Eksponensial..........37 4.9.1 Pemilihan Bandwidth h dan Bandwidth J Optimal .............................37 4.9.2 Perbandingan Kurva Dugaan Metode Priestley-Chao, Metode Nadaraya-Watson dan Metode Fourier ........................................................40 4.10 Penentuan Kurva Regresi Nonparametrik pada Fungsi Cosinus ................43 4.10.1 Pemilihan Bandwidth h dan Bandwidth J Optimal ...........................43 4.10.2 Perbandingan Kurva Dugaan Metode Priestley-Chao, Metode Nadaraya-Watson dan Metode Fourier ........................................................46
V. KESIMPULAN DAN SARAN ...........................................................................50 5.1 Kesimpulan ...................................................................................................50 5.2 Saran .............................................................................................................50
DAFTAR PUSTAKA LAMPIRAN
DAFTAR GAMBAR
Gambar
Halaman
4.1 Scatterplot data ~ (0,4) dengan fungsi
= 2 +
4.3 Scatterplot data ~ (0,4) dengan fungsi
= cos (4 ) +
4.2 Scatterplot data ~ (0,4) dengan fungsi
= e
............................22 +
........................22 ..................23
4.4 Perbandingan dugaan kurva linear dengan ketiga metode untuk nilai bandwidth yang terlalu kecil (hp=0.08, hn=0.05, dan j=1)...................34 4.5 Perbandingan dugaan kurva linear dengan ketiga metode untuk nilai bandwidth yang optimal (hp=0.1540, hn=0.1414, dan j=3) .................35 4.6 Perbandingan dugaan kurva linear dengan ketiga metode untuk nilai bandwidth yang terlalu besar (hp=0.08, hn=0.05, dan j=1) ..................36 4.7 Perbandingan dugaan kurva eksponensial dengan ketiga metode untuk nilai bandwidth yang terlalu kecil (hp=0.05, hn=0.05, dan j=1) ........40 4.8 Perbandingan dugaan kurva eksponensial dengan ketiga metode untuk nilai bandwidth yang optimal (hp=0.1895, hn=0.1886, dan j=3) .......41 4.9 Perbandingan dugaan kurva eksponensial dengan ketiga metode untuk nilai bandwidth yang terlalu besar (hp=0.98, hn=1, dan j=1).............42 4.10 Perbandingan dugaan kurva gelombang Cosinus dengan ketiga metode untuk nilai bandwidth yang terlalu kecil (hp=0.02, hn=0.01, dan j=1) ........46 4.11 Perbandingan dugaan kurva gelombang Cosinus dengan ketiga metode untuk nilai bandwidth yang optimal (hp=0.0846, hn=0.0747, dan j=3)........47 4.12 Perbandingan dugaan kurva gelombang Cosinus dengan ketiga metode untuk nilai bandwidth yang terlalu besar (hp=0.5, hn=0.5, dan j=10) ..........48
viii
DAFTAR TABEL
Tabel
Halaman
4.1(a) Nilai Generalized Cross Validation (GCV) untuk metode Priestley-Chao pada fungsi = 2 + .............................................................................30 4.1(b) Nilai Generalized Cross Validation (GCV) untuk metode NadarayaWatson pada fungsi = 2 + ...............................................................31 4.1(c) Nilai Generalized Cross Validation (GCV) untuk metode Fourier pada fungsi = 2 + .....................................................................................31 4.2 Daftar nilai ukuran kebaikan ketiga metode untuk bandwidth optimal pada fungsi = 2 + ...................................................................32 4.3(a) Nilai Generalized Cross Validation (GCV) untuk metode Priestley-Chao pada fungsi = e + ..........................................................................37 4.3(b) Nilai Generalized Cross Validation (GCV) untuk metode NadarayaWatson pada fungsi = e + ............................................................38 4.3(c) Nilai Generalized Cross Validation (GCV) untuk metode Fourier pada fungsi = e + ..................................................................................38 4.4 Daftar nilai ukuran kebaikan ketiga metode untuk bandwidth optimal pada fungsi = e + ................................................................39
vi
4.5(a) Nilai Generalized Cross Validation (GCV) untuk metode Priestley-Chao pada fungsi = cos (4 ) + ................................................................43 4.5(b) Nilai Generalized Cross Validation (GCV) untuk metode NadarayaWatson pada fungsi = cos (4 ) + ....................................................44 4.5(c) Nilai Generalized Cross Validation (GCV) untuk metode Fourier pada fungsi = cos (4 ) + ........................................................................44 4.6 Daftar nilai ukuran kebaikan ketiga metode untuk bandwidth optimal pada fungsi = cos (4 ) + ......................................................45 4.7 Data X~Uniform (0,4) Sebanyak 400 Data.....................................................55
4.8 Data noise~Normal (0,1) Sebanyak 400 Data.................................................57
vii
I.
PENDAHULUAN
1.1 Latar Belakang dan Masalah
Analisis regresi merupakan salah satu teknik statistika yang digunakan untuk menggambarkan hubungan antara satu variabel respon dengan satu atau lebih variabel prediktor. Pada regresi harus ada variabel yang ditentukan dan variabel yang menentukan atau dengan kata lain adanya ketergantungan antara variabel yang satu dengan yang lainnya. Kedua variabel biasanya bersifat kausal atau mempunyai hubungan sebab akibat yaitu saling berpengaruh. Sehingga dengan demikian, regresi merupakan bentuk fungsi tertentu antara variabel tak bebas Y dengan variabel bebas X atau dapat dinyatakan bahwa regresi merupakan suatu fungsi Y = f(X). Model regresi secara umum dituliskan seperti dibawah ini untuk data berpasangan (xi, yi) :
Dengan
=
( ) +
merupakan variabel respon,
dengan i = 1, 2, …, n adalah variabel prediktor, dan
merupakan eror atau galat yang memiliki mean 0 dan ragam konstan Sedangkan,
.
( ) disebut fungsi regresi atau disebut juga kurva regresi.
Bentuk regresi bergantung pada fungsi yang menunjangnya atau bergantung pada persamaannya. Fungsi regresi.
( ) disebut juga dengan fungsi regresi atau kurva
2
Jika bentuk kurva regresi diketahui, maka untuk menduga fungsi regresi dapat menggunakan pendekatan parametrik. Salah satu metode yang dapat digunakan untuk menduga kurva
( ) adalah metode kuadrat terkecil. Untuk dapat
menggunakan metode ini, data harus memenuhi asumsi normalitas dan
homogenitas ragam dari galatnya. Jika asumsi tidak terpenuhi, maka digunakan analisis regresi nonparametrik.
Metode yang digunakan pada analisis regresi nonparametrik bukan hanya dikarenakan data yang tidak memenuhi asumsi normalitas dan homogenitas ragam dari galat data, namun metode ini juga digunakan untuk menduga fungsi regresi yang tidak dilketahui bentuk kurvanya. Pada regresi nonparametrik dikenal tekhnik pemulusan, antara lain histogram, estimator kernel, deret orthogonal, estimator spline, k-NN, deret Fourier dan wavelet. Pada teknik pemulusan menggunakan estimator kernel, terdapat tiga macam estimasi kernel yaitu Nadaraya-Watson, Priestly-Chao dan Gasser-Mü ller. Dalam metode ini dibutuhkan fungsi kernel, fungsi kernel antara lain kernel Uniform, Triangle, Epanechnikov, Gaussian, Kuadratik dan Cosinus.
Selain memiliki fungsi kernel, dalam pengoperasiannya dibutuhkan pemilihan bandwidth optimal, karena pemilihan bandwidth merupakan langkah penting yang harus dilakukan pada teknik pemulusan. Salah satu metode untuk mencari bandwidth yang optimal adalah dengan menggunakan kriteria Generalized Cross Validation (GCV).
3
Suparti dan Sudargo (2005) telah meneliti kebaikan estimator kernel dan deret Fourier dengan mengkaji laju Integral Mean Square Error (IMSE). Alifia (2008) telah menggunakan metode Nadaraya-Watson pada data out faithful geyser. Sukarsa dan Srinadi (2012) telah mengkaji estimator kernel dalam model regresi nonparametrik pada data motorcycle dengan fungsi kernel yang berbeda. Prahutama (2013) telah mengkaji metode pendekatan deret Fourier pada data pengangguran terbuka di Jawa Timur. Sedangkan Rudianto (2015) telah mengkaji metode Fourier dan kernel Nadaraya-Watson pada fungsi regresi linear dan nonlinear.
Penelitian ini akan membandingkan bentuk kurva regresi nonparametrik menggunakan metode Priestley-Chao, metode Nadaraya-Watson, dan metode Fourier pada fungsi regresi linear dan nonlinear dengan pemilihan bandwidth menggunakan metode Generalized Cross Validation (GCV)
1.2 Tujuan Penelitian
Adapun tujuan dari penelitian adalah : 1.
Untuk mengetahui perbandingan hasil pendugaan menggunakan deret Fourier, kernel Nadaraya-Watson dan kernel Priestley-Chao pada fungsi regresi linear.
2.
Untuk mengetahui perbandingan hasil pendugaan menggunakan deret Fourier, kernel Nadaraya-Watson dan kernel Priestley-Chao pada fungsi regresi berbentuk eksponensial dan cosinus.
4
1.3 Manfaat Penelitian
Manfaat dari penulisan ini adalah : 1.
Menambah referensi tentang penduga kurva regresi nonparametrik menggunakan metode Fourier, kernel Nadaraya-Watson dan kernel PriestleyChao.
2.
Menambah pengetahuan tentang pemilihan bandwidth optimal menggunakan metode Generalized Cross Validation pada metode Fourier, kernel NadarayaWatson dan kernel Priestley-Chao.
3.
Melihat perbandingan hasil dari dugaan fungsi regresi menggunakan metode Fourier, kernel Nadaraya-Watson dan kernel Priestley-Chao.
II. TINJAUAN PUSTAKA
2.1 Analisis Regresi
Analisis regresi merupakan salah satu teknik statistika yang sering digunakan untuk mengetahui hubungan kausal antara variabel respon dan variabel prediktor. Untuk data yang satu variabel prediktor dan satu variabel respon, analisis regresi disebut juga dengan analisis regresi linear sederhana. Sedangkan untuk data yang memiliki lebih dari variabel prediktor dan satu variabel respon disebut dengan analisis regresi linear berganda. Jadi secara umum analisis regresi adalah metode analisis data yang menggambarkan hubungan antara variabel respon dengan satu atau beberapa variabel prediktor (Hosmer dan Lemeshow, 2000). Selain digunakan untuk mengetahui hubungan antara data berpasangan x dan y, fungsi lain dari regresi adalah menggunakan model (2.1) untuk melakukan prediksi secara matematis (Green dan Silverman, 2000).
Misalkan X adalah variabel prediktor dan Y adalah variabel respon untuk n pengamatan berpasangan {( i, i)}
, maka hubungan linear antara kedua
variabel dapat diketahui dengan model umum regresi yaitu : =
( )+
,
i = 1, 2, …, n
Dengan yi adalah variabel tidak bebas pada pengamatan ke-i,
(2.1) merupakan
galat/sisaan/kesalahan ke-i yang diasumsikan menyebar normal dengan mean
6
sama dengan 0 dan ragam tetap
, serta m(xi) merupakan fungsi regresi atau
kurva regresi (Eubank, 1998).
Ada dua pendekatan yang dapat digunakan untuk mengestimasi fungsi regresi atau kurva regresi, yaitu secara parametrik dan nonparametrik. Dalam pendekatan parametrik, bentuk hubungan antara variabel respon dan variabel prediktor diketahui atau diperkirakan dari bentuk kurva regresi. Sedangkan pada regresi nonparametrik, bentuk kurva tidak dapat langsung diketahui atau diperkirakan (Netter, et al., 1997).
2.2 Regresi Parametrik
Bentuk hubungan antara variabel respon dan variabel prediktor diperkirakan dari bentuk kurva regresi, misalkan berbentuk pola linear, kuadratik, eksponensial, dan polinomial. Dalam pendekatan regresi parametrik, data yang digunakan harus memenuhi asumsi kenormalan galat, yaitu galat berdistribusi normal dengan ratarata nol dan ragam konstan. Dalam kasus parametrik, metode yang paling popular untuk menduga fungsi regresi adalah Metode Kuadrat Terkecil (Hardle, 1994).
Jika asumsi ini tidak terpenuhi, maka lakukan transformasi data sampai diperoleh data yang sesuai. Transformasi dilakukan terhadap data sehingga diperoleh model regresi yang sesuai bagi data. Transformasi dilakukan melalu teknik trial dan error sehingga penggunaan teknik transformasi yang tepat akan membawa pada metode pendugaan yang relatif mudah, namun jika terjadi kesalahan transformasi membawa pada teknik pendugaan yang rumit (Netter, et al., 1997).
7
Selain menggunakan teknik transformasi, jika data tidak memenuhi asumsi kenormalan, maka dapat dilakukan dengan teknik analisis regresi nonparametrik, karena statistik nonparametrik tidak menuntut terpenuhinya asumsi tertentu, misalnya data harus berdistribusi normal atau tidak (Wand, 1995).
2.3 Regresi Nonparametrik
Metode regresi nonparametrik adalah metode analisis data yang sangat populer semenjak akhir tahun 1990-an. Kebutuhan terhadap analisis yang dapat menganalisis jenis data yang beragam dan belum tentu memenuhi asumsi-asumsi parametrik membuat teknik ini makin banyak digunakan. Karena sifatnya yang fleksibel, pendekatan model regresi nonparametrik berperan penting dalam memeriksa data longitudinal (Wu dan Zhang, 2006).
Regresi nonparametrik disebut fleksibel dikarenakan data tidak harus memenuhi asumsi-asumsi tertentu seperti pada regresi parametrik. Pada metode regresi nonparametrik, bentuk fungsi tidak diketahui dan tidak tergantung pada asumsi bentuk kurva tertentu (Hardle, 1994).
Dalam regresi nonparametrik bentuk kurva regresi tidak diketahui, data diharapkan mencari sendiri bentuk estimasinya sehingga memiliki fleksibilitas yang tinggi. Kurva regresi hanya diasumsikan termuat dalam suatu ruang fungsi yang berdimensi tak hingga dan merupakan fungsi mulus (smooth). Estimasi fungsi m(xi) dilakukan berdasarkan data pengamatan dengan menggunakan teknik smoothing tertentu. Ada beberapa teknik smoothing yang dapat digurnakan antara
8
lain estimator histogram, kernel, deret orthogonal, penduga spline, k-NN, deret fourier, dan wavelet (Eubank, 1998).
Meskipun begitu, regresi nonparametrik bukannya tanpa kekurangan. Kekurangan atau kelemahan dari regresi nonparametrik menurut Hollander et. al (2014) antara lain : 1. Metode ini dianggap mengorbankan terlalu banyak informasi dari data yang didapat. 2. Metode ini dianggap tidak efisien daripada metode parametrik pada data tertentu. 3. Hanya dapat digunakan pada data dengan n yang kecil. 4. Metode nonparametrik relatif tidak sensitif pada pencilan data.
2.4 Pemulusan (Smoothing)
Tujuan dari smoothing adalah untuk membuang variabilitas dari data yang memiliki kurva regresi tidak berpola sehingga ciri-ciri data akan terlihat lebih jelas. Priestley (1981), Silverman(1986), Eubank (1998), dan Hardle (1990) telah menyatakan beberapa metode smoothing yang dapat digunakan. Jika diberikan data observasi y1,...,yn pada titik-titik desain yang tetap (fixed design points) x1,…,xn, secara berturutan (agar lebih mudah, kita andaikan saja 0<x1< .... < xn < 1). Asumsikan data memiliki model sebagai berikut: Yi = m(xi) + εi , i = 1,…,n
(2.2)
9
dimana m adalah sebuah fungsi yang didefinisikan pada selang [0,1] dan ε1 ,...,εn adalah peubah acak yang merepresentasikan error. Biasanya kita mengasumsikan E (εi) = 0 dan Var (εi ) =σ2 , i = 1,..,n. Tujuan dari data analisis adalah menduga fungsi regresi m pada tiap x di [0,1] (Halim dan Bisono, 2006).
Terdapat parameter pemulus atau yang dapat disebut juga bandwidth yang dilambangkan dengan h. Jika nilai bandwidth bsar dengan bias yang besar namun varian nya kecil, maka kurva disebut oversmoothing atau terlalu halus. Namun jika nilai h kecil dengan bias yang kecil namun variannya besar, maka kurva akan undersmoothing atau terlalu kasar. Jadi pemilihan parameter pemulus merupakan hal terpenting untuk mendapatkan kurva yang sesuai. Pemilihan bandwidth dilakukan dengan cara menyeimbangkan antara bias dan varian (Wasserman, 2006).
2.5 Estimator Densitas Kernel
Estimator kernel merupakan pengembangan dari estimator histogram. Estimator diperkenalkan oleh Rosenblatt (1956) dan Parzen (1962) sehingga dapat disebut juga estimator densitas kernel Rosenblatt-Parzen (Eubank, 1998). Secara umum kernel K dengan parameter pemulus (bandwidth) h didefinisikan sebagai: Kh(x) = Serta memenuhi :
( )
(i) K(x) ≥ 0, untuk semua x
untuk −∞ <
< ∞ dan h>0
(2.3)
10
(ii) ∫ (iii) ∫ (iv) ∫
( )
( )
( )
=1 =
=0
>0
Beberapa jenis fungsi kernel antara lain: 1. Kernel Uniform
: K(x) =
2. Kernel Triangle
: K(x) = (1 - |x|)
3. Kernel Epanechnikov
: K(x) = (1 -
4. Kernel Kuartik
: K(x) = (1 −
5. Kernel Triweight
: K(x) = (1 : K(x) = cos
6. Kernel Cosinus 7. Kernel Gaussian
;|x| ≤1 , 0 selainnya
;|x| ≤ 1 , 0 selainnya ;|x| ≤ 1 , 0 selainnya
)
)
)
;|x| ≤ 1 , 0 selainnya ;|x| ≤ 1 , 0 selainnya ;|x| ≤ 1 , 0 selainnya ;−∞ <
: K(x) =
√
<∞
Estimator densitas kernel dari untuk fungsi densitas f(x) didefinisikan sebagai: ( )= ∑
( −
)=
∑
(2.4)
Dari persamaan (2.4) terlihat bahwa ( ) tergantung pada fungsi kernel K dan parameter h. Bentuk bobot kernel ditentukan oleh fungsi kernel K, sedangkan
ukuran bobotnya ditentukan oleh parameter pemulus h yang disebut bandwidth (Wand dan Jones, 1995).
11
2.6 Metode Priestley-Chao
Penduga Priestley-Chao adalah penduga bagi fungsi regresi yang tidak diketahui bentuknya. Ingat persamaan (2.1), dimana m(xi) adalah fungsi yang tidak diketahui bentuk kurvanya dan errornya (є1, ...., єn) dengan rata-rata sama dengan nol dan varian konstan σ2. Dapat diasumsikan juga bahwa (x1, ...., xn) berada di interval yang sama [a,b], sehingga =
× δ
i = 1, ..., n
(2.5)
Dimana = ( − )/ . Ini diperlukan untuk menduga m secara nonparametrik
menggunakan data yang tersedia. Penduga yang digunakan disini diusulkan oleh Priestley dan Chao (1972) yang didefinisikan sebagai berikut : ( )=
∑
(2.6)
Untuk x ϵ (a,b). K(.) disebut fungsi yang diasumsikan simetris dengan nol, sedemikian sehingga ∫ (u)2 du < ∞ dan memiliki momen kedua yang terbatas ( yaitu ∫
K(u) du =
< ∞. Pada umumnya akan dipilih fungsi kepekatan
peluang simetrik seperti standar normal atau Beta simetris pada interval terbatas [1, 1]. Konstanta h disebut parameter pemulus atau bandwidth dan mengendalikan fungsi kernel pada setiap xi. Pendugaan Priestley-Chao adalah rata-rata terboboti dari variabel respon Y1, ....., Yn dan bobotnya berkaitan dengan Yi, bobotnya adalah dengan hasil sebenarnya yang akan ditentukan oleh kedekatan dari x ke xi yang relatif terhadap nilai h. Ini adalah fungsi linear dari Yi dan oleh sebab itu disebut sebagai pemulus linear.
12
Jika data tidak memiliki ruang yang sama atau equally-spaced maka penduganya adalah ( )=
∑
(
)
−
(2.7)
2.7 Metode Nadaraya-Watson Menurut Hardle (1991), jika terdapat n data pengamatan {(Xi ,Yi)} memenuhi persamaan (2.1) dimana adalah:
∈
∈ , maka penduga m(x)
dan
( )= ( | = )=∫
(
yang
( , )
(2.8)
)
Penyebut diduga dengan menggunakan penduga densitas kernel ( )= ∑
( −
)
Fungsi densitas peluang bersama diduga dengan perkalian kernel, yaitu : ,
( , )= ∑
( −
)
( − )
Sehingga, pembilang dari penduga Nadaraya-Watson menjadi :
13
Bentuk penduga Nadaraya-Watson dapat ditulis :
( )=
1
∑
1
∑
(
1 ∑ ℎ ( )= 1 ∑ ℎ
− ℎ − ℎ
)
(2.9)
∑
( )= =
−
∑
( )=
Sehingga,
−
( )
, dimana
=
−
∑
(2.10)
−
Matriks W disebut juga dengan Hat Matrix dari penduga m(x). Persamaan (2.9) ditemukan oleh Nadaraya dan Watson (1964), sehingga disebut estimator Nadaraya-Watson.
Pengaruh fungsi kernel kurang signifkan dibandingkan dengan pengaruh bandwidth h. Nilai-nilai ekstrim dari h mengakibatkan :
( )
Jikaℎ → 0, maka untuk x=xi,
( )→
Jika ℎ → ∞ maka
(0), akibatnya
=
( )
Jadi bandwidth h sangat kecil, estimator akan menuju ke data
( )→
∑
∑
( )
(
( )
=
)→
( )∑ (
( ))
=
∑
14
Jadi bandwidth (h) sangat besar, estimator akan sangat mulus dan menuju rata-rata dari variabel respon.
Semakin kecil nilai bandwidth h, maka grafik akan semakin kurang mulus namun memiliki bias yang kecil. Sebaliknya semakin besar nilai bandwidth h, maka grafik akan sangat mulus tetapi memiliki bias yang besar. Karena tujuan estimasi kernel adalah memperoleh kurva yang mulus namun memiliki nilai MSE yang tidak terlalu besar, perlu dipilih nilai h optimal untuk mendapatkan grafik optimal. Salah satu cara memilih parameter pemulus optimal adalah dengan menggunakan metode Generalized Cross Validation (GCV).
2.8 Bandwidth Optimum
Bandwidth h adalah parameter pemulus yang berfungsi untuk mengontrol kemulusan dari kurva yang diestimasi. Bandwidth yang terlalu kecil akan menghasilkan kurva yang under-smoothing yaitu sangat kasar dan sangat fluktuatif, dan sebaliknya bandwidth yang terlalu lebar akan menghasilkan kurva yang over-smoothing yaitu sangat mulus, tetapi tidak sesuai dengan pola data (Hardle, 1991).
Menurut Hardle (1990), perlu dipilih bandwidth yang optimal. Pemilihan bandwidth yang optimum didasarkan pada penyeimbangan antara bias dan varian. Salah satu cara yang dapat memperlihatkan keseimbangan antara bias dan varian adalah MSE atau mean square error yaitu dengan meminimumkan nilai MSE maka bias dan ragam juga minimum. Pada lemma 1, dapat dilihat uraian MSE.
15
Lemma 1 MSE f(x) dapat diuraikan sebagai jumlahan antara bias kuadrat dan variance dari f(x) Bukti : MSE f(x)
= E[f(x) – ( )]2
= E[f(x) – E f(x) +E f(x) - ( )]2
= E[f(x) – E f(x)]2 +2E[ f(x) – Ef(x)][Ef(x) - ( )] + E[Ef(x) ( )]2
= Var(f(x)) + Bias(f(x))2
Metode untuk mendapatkan h optimal dapat diperoleh dengan menggunakan kriteria Generalized Cross Validation (GCV), yang didefinisikan sebagai berikut:
Dengan MSE (h) =
nxn yang memenuhi [
(ℎ) = ∑
[
(
( ),
( ) (
−
)
(2.11)
]
( )) dan
( ), … ,
(
adalah hat matriks berukuran )] =
. Nilai bandwidth h
optimal akan diperoleh jika nilai akan menghasilkan nilai Generalized Cross Validation minimal (Craven dan Wahba, 1979).
2.9 Fungsi Periodik
Menurut Tolstov (1962), suatu fungsi f(x) dikatakan periodik jika terdapat konstanta T>0, sehingga memenuhi f(x+T)=f(x) untuk setiap x anggota domain f(x). Selanjutnya T disebut dengan periode dari fungsi f(x). Jika T adalah periode dari suatu fungsi f(x), maka ...,-2T, -T,2T,3T ... juga merupakan periode dari fungsi f(x).
16
Salah satu contoh fungsi periodik adalah f(x)=sin (x) dengan periode 2 , karena sin(x+2 ) = sin(x).
2.10 Deret Fourier Menurut Tolstov (1962), jika fungsi f(x) terdefinisi pada interval [− , ] dan diluar selang ini oleh
( ± 2 ) = ( ), sehingga f(x) merupakan fungsi
periodik dengan periode 2L. ( ) dapat direpresentasikan dengan deret perluasan fourier sebagai berikut : ( )=
( )=
dengan
+ ∑
+ ∑ = =
Nilai
1 1
cos
cos
+
+
sin
(2.12)
sin
( ) ( )
= 1,2,3, ….
(dengan T adalah periode f(x)) merupakan faktor pengali agar x dalam
satuan radian.
2.11 Estimator Fourier
17
Diberikann data pengamatan {(xi ,yi)} [− , ]dan
yang memenuhi persamaan (2). Jika
∈ , dan diasumsikan periode m(x) adalah
= 2 , maka
∈
penduga m(x) dapat didekati oleh deret fourier yang didefinisikan sebagai berikut:
Dengana0 ,
( )=
dan
+ ∑
cos
+
sin
(2.13)
adalah koefisien Fourier (Bowman dan Azzalini, 1997).
Tingkat kemulusan estimator deret Fourier ditentukanolehpemilihan parameter pemulusJ. Semakin kecil parameter pemulus J, semakin mulus estimasinya dan semakin besar parameter pemulus J, semakin kurang mulus estimasi dari f. Oleh karena itu, perlu dipilih J yang optimal.
2.12 Pemilihan Parameter Pemulus (J) Optimal
Pada pemodelan regresi nonparametrik dengan menggunakan deret Fourier, hal yang perlu diperhatikan adalah menentukan nilai J. Salah satu metode yang dapat digunakan adalah metode Generalized Cross Validation (GCV). Penentuan J optimal akan menghasilkan nilai koefisien determinasi (R2) yang tinggi. Generalized Cross Validation (GCV) didefiniskan sebagai berikut: ( )= dengan MSE(J) = yang memenuhi
∑
( )=
(
−
[
(
( )
( )) dan
(2.14) )]
adalah matriks berukuran nxn
dan disebut juga Hat Matrixs. Nilai GCV terkecil
akan menghasilkan nilai J yang optimal (Craven dan Wahba, 1979).
2.13 Ukuran Kebaikan Bandwidth Optimal
18
Kebaikan suatu penduga dapat dilihat dari tingkat kesalahannya. Semakin kecil tingkat kesalahan suatu pendugaan maka semakin baik estimasinya. Menurut Chatterjee (2007), kriteria untuk menentukan estimator terbaik dalam model regresi antara lain nilai Mean Square Error (MSE) dan nilai koefisien determinasi R-Square (R2). MSE didefinisikan sebagai berikut : = ∑
(
−
) .
(2.15)
Sedangkan koefisen determinasi didefinisikan sebagai berikut : =
∑
=∑
adalah data variabel respon ke-i, sedangkan
( (
) )
(2.16)
adalah mean data variabel respon,
adalah nilai hasil estimasi variabel respon ke-i. Sum of Square
Regression (SSR) adalah jumlah kuadrat simpangan hasil dugaan terhadap ratarata variabel respon.Sedangkan Sum of Square Total (SST ) adalah jumlah kuadrat simpangan variabel respon. SSR berfungsi untuk mengukur kualitas variabel prediktor sebagai prediktor variabel respon.Sehingga, koefisien determinasi dapat diartikan sebagai proporsi keragaman total variabel respon yang diukur oleh variabel prediktor.
III. METODOLOGI PENELITIAN
3.1 Waktu dan Tempat Penelitian
Penelitian ini dilakukan pada semester genap tahun akademik 2015-2016 dan bertempat di Jurusan Matematika Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Lampung.
3.2 Data
Data yang digunakan merupakan data bangkitan menggunakan software Matlab R2013b yang berdistribusi Uniform (0,4) sebanyak 400 data dan dipetakan oleh fungsi linear, eksponensial, dan gelombang periodik cosinus sebagai berikut: = 2
+
1.
Linear
:
2.
Eksponensial
:
3.
Cosinus
: y = cos (4x) + ε
Dengan
= exp(−
)+
merupakan noise variabel random independen berdistribusi Normal,
~ (0; 0,5),
~ (0; 0,2) dan
~ (0; 0,2). Akan dibandingkan hasil
estimasi menggunakan metode Priestley-Chao, metode Nadaraya-Watson, dan metode Fourier.
20
3.3 Metode Penelitian
Dalam penelitian ini akan dilakukan perbandingan pendugaan kurva regresi secara teoritik dan secara visual. Secara teoritik, akan dibandingkan nilai MSE pada setiap metode, sedangkan secara visual akan dibandingkan grafik noise data dengan kurva dugaannya. Penelitian ini menggunakan metode pendugaan kernel Priestley-Chao, kernel Nadaraya-Watson, dan metode deret fourier. Penentuan parameter pemulus (bandwidth) hp pada metode kernel Priestley-Chao, parameter pemulus hn pada metode kernel Nadaraya-Watson dan parameter pemulus J pada metode fourier dilakukan dengan menggunakan metode Generalized Cross Validation (GCV). Data diolah menggunakan software Matlab R2013b. Adapun langkah-langkah yang dilakukan adalah sebagai berikut:
1.
Membangkitkan data berdasarkan distribusi Uniform (0,4).
2.
Membuat scatterplot dari ketiga bentuk fungsi.
3.
Menentukan garis duga regresi berdasarkan nilai bandwidth optimal dengan metode Priestley-Chao, Nadaraya-Watson, dan metode Deret Fourier.
4.
Membandingkan hasil dugaan antara penduga Priestley-Chao, NadarayaWatson dan penduga Deret Fourier dengan bandwidth optimal berdasarkan grafik dugaan dan nilai Mean Square Error (MSE).
V. KESIMPULAN DAN SARAN
5.1 Kesimpulan
Setelah dilakukan pembahasan pada ketiga metode dalam mengestimasi fungsi regresi linear dan nonlinear, diperoleh kesimpulan sebagai berikut : 1. Metode Nadaraya-Watson dapat mengestimasi fungsi regresi berbentuk linear dengan sangat baik dibandingkan metode Priestley-Chao dan metode Fourier. 2. Metode Fourier lebih baik daripada metode Priestley-Chao dan NadarayaWatson dalam mengestimasi fungsi regresi berbentuk eksponensial dan gelombang periodik.
2.2 Saran
Pada tulisan ini sudah dijelaskan mengenai pemilihan bandwidth optimal menggunakan metode GCV, penelitian ini dapat dikembangkan dengan metode pemilihan bandwidth optimal menggunakan kriteria yang lain seperti akaike information, Shibata dan metode lainnya.
DAFTAR PUSTAKA
Alifia, S. 2008. Penentuan Kurva Regresi Nonparametrik dengan Menggunakan Metode Nadaraya Watson. Skripsi. Jurusan Matematika FMIPA Universitas Lampung, Bandar Lampung. Chaterjee, S. 2006. Regression Analysis by Example. 4th edition. Jhon Wiley and Sons, Inc., New Jersey.
Craven, P. dan Wahba, G. 1979. Smoothing Noisy Data with Spline Functions: Estimating the Correct Degree of Smoothing by the Method of Generalized Cross-Validation. Numer Math University of Wisconsin. 31: 377- 403.
Eubank, R. 1998. Spline Smoothing and Nonparametric Regression. Marcel Dekker, New York.
Green, P.J dan Silverman, B.W. 2000. Nonparametric Regression and Generalized Linear Models : A Roughness Penalty Approach. CRC Press LLC, Florida.
Halim, S. dan Indriati, B. 2006. Fungsi-fungsi Kernel pada Metode Regresi Nonparametrik dan Aplikasinya pada Priest River Experimental Forest’s Data. Jurnal Teknik Industri. 8(1): 73-81.
Hardle, W. 1990. Applied Nonparametric Regressin. Cambridge University Press, New York.
Hardle, W. 1991. Smoothing Techniques with Implementation in S. Cambridge University Press, New York.
Hardle, W. 1994. Applied Nonparametric Regression. Cambridge University Press, New York.
Hollander, M. et al. 2014. Nonparametric Statistical Methods. John Wiley & Sons, Inc., New Jersey. Hosmer, D.W. dan Lemeshow, S. 2000. Applied Logistic Regression, 2nd ed. John Wiley and Sons, Inc., New York.
Nettrer, J., et al. 1997. Model Linier Terapan Analisis Regresi Linier Sederhana. Diterjemahkan oleh Bambang Sumantri. Jurusan Statistika FMIPA IPB, Bogor.
Parzen, E. 1962. Mathematichal Considerations in the Estimation of Spectra : On Estimation of a Probability Density Function and Model. Ann. Math. Statistics, 33; 1065-1076.
Prahutama, A. 2013. Model Regresi Nonparametrik dengan Pendekatan Deret Fourier pada Kasus Tingkat Penggangguran Terbuka di Jawa Timur. Prosiding Seminar Nasional Statistika Universitas Diponegoro.
Priestley, M. E. dan Chao, M. T. 1972. Nonparametric Function Fitting. Journal of The Royal Statistical Society. B(34): 385-392.
Rudianto, J. 2015. Penduga Kurva Regresi Nonparametrik Linear dan Nonlinear dengan Metode Fourier dan Metode Nadaraya-Watson. Skripsi. Jurusan Matematika FMIPA Universitas Lampung, Bandar Lampung.
Silverman, B. W. 1986. Density Estimation fo Statistics and Data Analysis. Champman & Hall, London.
Suparti. 2005. Perbandingan Estimator Regresi Nonparametrik Menggunakan Metode Fourier dan Metode Wavelet. Jurnal Matematika. 8 (3): 88-94.
Suparti dan Sudargo. Estimasi Fungsi Regresi Menggunakan Deret Fourier. Majalah Ilmiah Lontar [Cetak], 19 (4): 1-6.
Sukarsa, I.K.G. dan Srinadi, I.G.A.M. 2012. Estimator Kernel dalam Model Regresi Nonparametrik. Jurnal Matematika. 2 (1): 19-30.
Tolstov, G.P. 1962. Fourier Series Translated from the Russian by Richard A. Silverman. Dover Publications, Inc., New York.
Wand, M.P. dan Jones, M.C. 1995. Kernel Smoothing. Chapman and Hall, New York.
Wasserman, L. 2006. All of Nonparametric Statistics. Springer Science and Business Media, New York.
Wu, H dan Zhang, J.T. 2006. Nonparametric Regression Methods for Longitudinal Data Analysis. John Wiley and Sons, Inc., New Jersey.