II.
2.1
TINJAUAN PUSTAKA
Analisis Regresi
Menurut Hardle (1994) analisis regresi adalah suatu metode analisis data yang menggambarkan hubungan antara variabel respon
dengan satu atau beberapa
variabel prediktor . Model regresi umum dari sejumlah n data pengamatan independen
X i , Yi
n
i 1
adalah: ( )
Dengan
( ) merupakan fungsi regresi yang akan diduga,
memiliki mean 0 dan varians
2.2
, i= 1, 2, …, n
(2.1) adalah galat yang
(konstan).
Pendekatan Parametrik dan Nonparametrik
Terdapat dua pendekatan yang dapat dilakukan dalam mengestimasi fungsi regresi, yaitu pendekatan parametrik dan nonparametrik. Dalam pendekatan parametrik, fungsi
( ) diketahui distribusinya.
6
Menurut Chatterjee dan Hadi (2006), apabila bentuk fungsi
( ) merupakan
fungsi linear maka untuk melakukan analisis regresi harus memenuhi asumsiasumsi berikut: 1.
Linearitas Uji ini dilakukan untuk mengetahui apakah hubungan antara respon Y dan prediktor X membentuk hubungan linear atau tidak. Memeriksa asumsi linearitas dalam regresi sederhana mudah karena validitas asumsi ini dapat ditentukan dengan memeriksa scatterplot dari Y terhadap X. Namun, memeriksa linearitas dalam regresi berganda lebih sulit karena dimensi yang tinggi dari data. Ketika asumsi linearitas tidak terpenuhi maka data dianalisis dengan regresi nonlinear atau dapat dilakukan transformasi data.
2.
Normalitas Normalitas yang dimaksudkan adalah galat yang berdistribusi normal yaitu (
). Pelanggaran terhadap kenormalan dapat terjadi karena
adanya beberapa data yang merupakan pencilan atau karena terdapat nilai ekstrim dalam data yang digunakan.
3.
Homoskedastisitas Homoskedastisitas diartikan sebagai distribusi dari galat memiliki ragam yang konstan (homogen). Apabila varian galat dalam model tidak konstan disebut dengan heteroskedastisitas. Heteroskedastisitas disebabkan karena variabel yang digunakan memiliki nilai yang sangat beragam, sehingga menghasilkan nilai galat yang tidak konstan.
7
4.
Tidak terjadi autokorelasi Autokorelasi terjadi karena galat antar pengamatan tidak saling bebas atau berkaitan satu sama lain.
5.
Tidak terjadi multikolinearitas Khusus untuk regresi linear berganda terdapat tambahan satu asumsi lagi yaitu tidak terjadi multikolinearitas. Kolinearitas dapat terjadi karena suatu faktor diukur lebih dari sekali. Kolinearitas seperti ini disebut kolinearitas sempurna, yaitu suatu peubah bebas bergantung sepenuhnya pada yang lainnya. Namun, dalam prakteknya kolinearitas sering muncul dalam bentuk tersamar sehingga sukar dikenali, dimana suatu peubah tidaklah sepenuhnya tergantung pada peubah lainnya tapi hanya sebagian. Kolinearitas tidak sempurna seperti ini sering terjadi bila dua atau lebih peubah dalam model saling berkaitan (multikolinearitas). Sehingga, yang dimaksudkan dengan multikolinearitas adalah terjadinya kolinearitas antara dua atau lebih peubah bebas dalam model.
Jika fungsi
( ) tidak diketahui distribusinya maka digunakan pendekatan
nonparametrik. Dalam pendekatan nonparametrik, kurva didekati dengan cara melakukan teknik pemulus. Teori dan metode pemulus telah berkembang dengan pesat. Hal ini didasari oleh pemikiran bahwa pendekatan parametrik dalam estimasi kurva regresi sering tidak memenuhi kebutuhan fleksibilitas dalam analisis data. Terdapat beberapa teknik pemulus yang sudah populer diterapkan seperti histogram, penduga kernel, penduga spline, dan fourier. Dalam
8
perkembangannya, fourier dikembangkan menjadi penduga wavelet dengan mengganti basis-basis fungsi konstan, sinus dan cosinus pada penduga deret fourier dengan basis-basis fungsi wavelet (Hardle, 1994).
2.3
Penduga Kernel
Penduga kernel diperkenalkan oleh Rosenblatt (1956) yang merupakan pengembangan dari estimator histogram. Rosenblatt mengusulkan menempatkan smoothing kernel di setiap pengamatan. Kernel memiliki parameter pemulus yang mengatur tingkat kehalusan kurva dugaan kernel yang disebut bandwidth h. Pemilihan bandwidth h akan memengaruhi hasil smoothing kernel. Nilai bandwidth h yang semakin kecil akan menyebabkan bentuk kurva semakin kasar dan sebaliknya semakin besar nilai bandwidth h akan menyebabkan kurva semakin mulus. Hal ini serupa dengan yang tersaji pada Gambar 1.
Gambar 1. Estimasi kernel dengan bandwidth h= 0.2, 0.8, 1.4 dan 4.
9
Secara umum kernel K dengan bandwidth h didefinisikan sebagai: Kh(x) =
( )
untuk
dan h>0
Serta memenuhi : (i) K(x) (ii) ∫ (iii) ∫ (iv) ∫
0, untuk semua x ( )
=1
( ) ( )
Sementara penduga densitas kernel untuk fungsi densitas f(x) didefinisikan sebagai: ̂ ( )=
∑
(
∑
.
) /
Terdapat beberapa jenis fungsi kernel yaitu: 1. Kernel Uniform : K(x) =
;|x| 1 , 0 selainnya
2. Kernel Triangle : K(x) = (1 - |x|)
;|x|
1 , 0 selainnya
;|x|
1 , 0 selainnya
3. Kernel Epanechnikov : K(x) = (1 -
)
4. Kernel Kuartik : K(x) = (
)
;|x|
1 , 0 selainnya
5. Kernel Triweight : K(x) = (1 -
)
;|x|
1 , 0 selainnya
.
/
;|x|
1 , 0 selainnya
6. Kernel Cosinus : K(x) = 7. Kernel Gaussian : K(x) =
√
(2.2)
10
Berdasarkan persamaan (2.2) penduga densitas kernel tergantung pada dua parameter yaitu fungsi kernel K dan bandwidth h. Berikut gambar demonstrasi pengaruh fungsi kernel K yang berbeda terhadap pemulusan kurva dengan bandwidth h tetap.
Gambar 2. Estimasi kernel dengan uniform kernel(…), triangle kernel( quartic kernel(---); bandwidth h=0,8.
),
Berdasarkan Gambar 2. dapat dilihat bahwa perkiraan f(x) oleh fungsi kernel K yang berbeda memberikan kualitatif perkiraan f(x) yang berbeda atau dengan kata lain perkiraan kepadatan agak berbeda meskipun dengan bandwidth yang sama (Hardle, 1991).
Dalam regresi kernel pemilihan bandwidth jauh lebih penting dibandingkan dengan pemilihan fungsi kernel. Hal ini disebabkan penggunaan fungsi kernel yang berbeda dengan nilai bandwidth optimal menghasilkan estimasi kurva regresi yang hampir sama. Permasalahan dalam kernel adalah pemilihan bandwidth, bukan pada pemilihan fungsi kernel. Fungsi kernel yang umum
11
digunakan adalah kernel Gaussian dan kernel Epanechnicov. Kernel Triangle sering digunakan karena lebih mudah dan cepat dalam perhitungan (Sukarsa dan Srinadi, 2012).
2.4
Penduga Nadaraya-Watson
Jika terdapat n data pengamatan {(Xi ,Yi)+ dimana
dan
yang memenuhi persamaan (2.1)
, maka penduga m(x) adalah:
̂( )
( |
)
∫
( (
)
(2.3)
)
Penyebut pada persamaan (2.3) diduga dengan menggunakan penduga densitas kernel sebagai berikut: ( )= ∑
(
)
Fungsi densitas peluang bersama diduga dengan perkalian kernel, yaitu : ́
(
)= ∑
(
)
(
)
Sehingga, pembilang dari penduga Nadaraya menjadi : ∫
́
(
)
∑
(
)∫
(
)
∑
(
)∫
(
)
∑
(
) ∫(
∑
(
)
) ( )
12
Dengan demikian bentuk penduga Nadaraya-Watson dapat ditulis : ∑
̂( )
̂( )
)
∑
(
)
∑
.
/
∑ ∑
̂( ) ̂( )
(
. .
∑
/
.
∑
/
(2.4)
/
( )
dimana ( )
( ∑
) (
(2.5)
)
Matriks W pada persamaan (2.5) disebut dengan Hat Matriks dari penduga m(x). Persamaan (2.4) ditemukan oleh Nadaraya dan Watson (1964), sehingga disebut estimator Nadaraya-Watson (Hardle, 1991).
Dalam penelitian ini, akan digunakan fungsi kernel gausian yang didefinisikan:
K(x) =
;
√
Sehingga penduga Nadaraya-Watson menjadi :
∑ ̂( ) ∑
(
)
√ .
√
/
13
√
̂( )
(
∑
√
.
∑
(
∑
̂( )
)
/
)
(2.6) (
∑
)
̂( ) (
)
dengan
(2.7) (
∑
)
Matriks W pada persamaan (2.7) disebut dengan Hat Matriks dari penduga m(x) sedangkan persamaan (2.6) merupakan estimator Nadaraya-Watson dengan menggunakan kernel Gaussian.
2.5
Deret Fourier
Menurut Tolstov (1962), jika fungsi f(x) terdefinisi pada interval [ (
diluar selang ini oleh
)
] dan
( ) maka f(x) merupakan fungsi periodik
( ) dapat direpresentasikan dengan deret perluasan fourier
dengan periode 2L. sebagai berikut : ( )
( )
∑( ∑(
( (
)
(
)
(
)) ))
14
dengan: ∫
( )
∫
( )
.
/
∫
( )
.
/
2.6
;
Penduga Fourier
Diberikan n data pengamatan {(xi ,yi)+ ,
- dan
yang memenuhi persamaan (2.1). Jika
, dan diasumsikan periode m(x) adalah
, maka
penduga m(x) dapat didekati oleh deret fourier yang didefinisikan sebagai berikut: ̂( )
∑
.
/
.
/
(2.8)
persamaan (2.8) merupakan penduga m(x) dengan metode fourier untuk bentuk data gelombang periodik dengan a0 ,
dan
adalah koefisien Fourier.
Berdasarkan persamaan (2.8), untuk menentukan koefisien deret fourier dapat dilakukan perhitungan seperti pada metode parametrik sebagai berikut: ̂( )
∑
̂( )
,
( (
)
( ̂( )
(
)
( (
) (
( )
( (
)
;
)
) (
,
)
)
) (
)
( (
) )
)]; j=1,2,…,J
15
Jadi, persamaan regresi nonparametrik menjadi : =̂( ) +
[ ]=
i = 1,2,3,...,n, n menyatakan banyaknya jumlah data
̂( ) ̂( ) [̂(
+[ ]
)]
Dengan : ̂( )
[
,
(
)
(
)
(
)
(
)
(
)
(
)-
,
(
)
(
)
(
)
(
)
(
)
(
)-
,
(
)
(
)
(
)
(
)
(
)
(
)]
Misalkan ̂ ( )=
, maka
( (
A=[ (
) ) )
( (
) )
( (
) )
(
)
(
)
,
( ( (
) ) )
( (
) )
( (
) )
(
)
(
)
-
Menurut Chaterjee dan Andi (2006), nilai
terbaik dapat diperoleh dengan
meminimalkan nilai kuadrat galat (metode least Square). Karena Y=A
, maka :
(
Nilai
) (
)
minimum diperoleh jika diferensial pertamanya sama dengan nol =
((
) (
))
]
16
=
(
=
(
=
(
=
(
)(
) ) );
karena konstanta
)
= = (
)
=
(2.9)
Jika ̂
memiliki invers, persamaan (2.9) memberikan solusi yang unik, yaitu: (
)
Karena ̂ ( ) ̂( )
(
̂( )
, (
maka : ) )
-
(2.10)
Hat matrix Fourier yang dilambangkan dengan yang memenuhi ̂ ( )
merupakan matrix berukuran
. Berdasarkan persamaan (2.10) maka Hat
matrix pada metode Fourier didefnisikan sebagai: (
Hat matrix
)
akan digunakan pada rumus metode pemilihan bandwidth optimal
untuk teknik pemulus Fourier.
17
2.7
Pemilihan Bandwidth Optimal
Bandwidth merupakan parameter pemulus yang berfungsi untuk mengontrol kemulusan dari kurva yang diduga. Menurut Hardle (1991), pada metode kernel tingkat kemulusan kurva ditentukan oleh pemilihan bandwidth h, semakin kecil pemilihan nilai bandwidth h bentuk kurva dugaan akan semakin kasar dan semakin besar nilai bandwidth h bentuk kurva dugaan akan semakin mulus. Namun, tingkat kemulusan pada fourier berlaku sebaliknya, dimana semakin kecil parameter pemulus J semakin mulus bentuk kurva dugaan dan semakin besar parameter pemulus J semakin kurang mulus bentuk kurva dugaan dari f(x).
Tujuan estimasi kurva tidak hanya untuk memperoleh kurva yang mulus tetapi juga memiliki tingkat kesalahan yang tidak terlalu besar. Berdasarkan hal itu perlu dipilih nilai bandwidth optimal sehingga didapatkan kurva yang mulus dengan kesalahan yang minimum. Terdapat beberapa kriteria pemilihan bandwidth yang telah diperkenalkan, seperti Cross-Validation (CV), Generalized Cross Validation (GCV), Bayesian Information Criterion (BIC), Minimum Description Length (MDL), Akaike Information Criterion (AIC), serta Improved Akaike Information Criterion (AICC). Dalam penelitian ini akan digunakan kriteria AIC, AICC , dan GCV untuk mencari nilai bandwidth optimal.
18
2.7.1
Akaike Information Criterion (AIC) dan Improved Akaike Information Criterion (AICC)
AIC klasik dirancang oleh Akaike tahun 1973 berisi estimator informasi Kullback-Leibler untuk pemilihan model dan tahun 1989 Hurvich dan Tsai mengembangkan akaike untuk regresi parametrik dan autoregressive time series. Dalam sampel kecil bias AIC bisa sangat besar, dan mereka mengusulkan versi dikoreksi AICC . AIC dan AICC didefinisikan sebagai (̂ ) dengan ̂
∑
(
(
)
(̂ )
(
)
(2.11)
̂ ( )) , n merupakan jumlah data yang digunakan,
dan p jumah parameter regresi dalam model (Hurvich dan Tsai, 1989).
Berdasarkan persamaan (2.11), Hurvich, et al., (1998) mengembangkan akaike untuk regresi nonparametrik dan memperkenalkan metode pemilihan parameter pemulus AICc dengan mengganti jumlah parameter p dengan trace dari hat matriks H (tr (H)). Dan mendefinisikan AICC untuk pemilihan parameter pemulus sebagai: (̂ )
dengan ̂ digunakan,
∑
(
*
( )
+
( )
(2.12)
̂ ( )) dimana n merupakan jumlah data yang
merupakan parameter pemulus dan H adalah hat matriks berukuran
nxn yang memenuhi ̂
(Hurvich, et al., 1998).
19
Pemilihan parameter pemulus menggunakan Akaike Information Criterion didefinisikan sebagai: (̂ ) ∑
dengan ̂ digunakan,
/
(2.13)
̂ ( )) dimana n merupakan jumlah data yang
(
merupakan parameter pemulus dan H adalah hat matriks berukuran
nxn yang memenuhi ̂
2.7.2
( )
.
(Manzan, 2003).
Generalized Cross Validation (GCV)
Generalized Cross Validation (GCV) merupakan bentuk modifikasi dari Cross Validation (CV) yang merupakan metode terdahulu untuk memilih parameter pemulus. GCV didefinisikan sebagai: ( )
dengan
(
,
̂ ) ( )
-
merupakan parameter pemulus dan
yang memenuhi ̂
2.8
∑
( ) ,
( )
-
(2.14)
adalah hat matriks berukuran nxn
(Craven dan Wahba, 1979).
Ukuran Kebaikan Penduga
Kebaikan suatu penduga dapat dilihat dari tingkat kesalahannya, semakin kecil tingkat kesalahan semakin baik estimasinya. Menurut Aydin (2007) terdapat beberapa kriteria untuk menentukan tingkat kesalahan antara lain Mean Square Error (MSE), Root Mean Square Error (RMSE), Mean Absolute Error (MAE),
20
dan Mean Absolute Percentage Error (MAPE). Penelitian ini akan menggunakan Mean Square Error (MSE) sebagai kriteria untuk menentukan tingkat kesalahan yang didefinisikan sebagai: ∑
(
̂)
(2.15)
Dapat juga dengan mengamati nilai koefisien determinasi (R2) yang semakin besar nilai R2 semakin baik estimasinya. Koefisien determinasi didefinisikan sebagai: (2.16) Dengan
, dimana makin dekat
dan sebaliknya, makin dekat
dengan 1 makin baik estimasinya,
dengan 0 makin jelek estimasinya. JKT (Jumlah
Kuadrat Total) merupakan jumlah kuadrat simpangan dari rata-rata variabel respon, JKR (Jumlah Kuadrat Regresi) merupakan jumlah kuadrat simpangan hasil dugaan dengan rata-rata variabel respon y, dan JKG (Jumlah Kuadrat Galat) mengukur residual dalam prediksi.
Jadi dapat dituliskan sebagai :
∑(
Dengan
̅)
∑( ̂
̅)
∑(
̂)
adalah data variabel respon ke-i, ̅ adalah rata-rata variabel respon,
sedangkan ̂ adalah nilai hasil dugaan variabel respon ke-i.
21
Secara grafis dideskripsikan sebagai berikut:
Gambar 3. Ilustrasi grafis JKG, JKT, dan JKR pada garis regresi.
(Chatterjee dan Hadi, 2006).