BAB V PENUTUP
5.1 Kesimpulan Berdasarkan pembahasan pada bab-bab sebelumnnya baik secara matematis maupun dalam studi kasus, diperoleh kesimpulan sebagai berikut: 1.
Dari hasil studi kasus pada 74 sungai di Indonesia yang daerah pengalirannya lebih dari 1000 km2 tahun 2010 di bab IV diperoleh: a. Kernel dengan infinite order akan memberikan hasil yang optimal jika kelipatan titik estimasi x dipilih sekecil mungkin atau titik-titik yang diestimasi hampir di seluruh bilangan real pada interval data yang digunakan. Hal tersebut dapat dilihat ketika kelipatan nilai estimasi x yang digunakan 0,1, 0,2 dan 0,3 maka nilai MSE terkecil sebagian besar dihasilkan pada estimasi yang menggunakan kernel dengan order tak hingga yaitu kernel sinus. Namun ketika kelipatan nilai estimasi x yang digunakan 0.5, 0,6 dan 0.7 maka nilai MSE terkecil sebagian besar dihasilkan pada estimasi yang menggunakan kernel dengan order berhingga yaitu kernel normal. b. Perubahan nilai bandwidth pada setiap kelipatan nilai estimasi x mempengaruhi nilai MSE yang dihasilkan. Nilai bandwidth yang kecil yaitu 0.13 memberikan nilai MSE yang cukup besar dibandingkan 0.3445996 dan 0.5. Begitu juga berlaku pada nilai bandwidth yang besar yaitu 1. Hal ini disebabkan oleh sifat dari parameter bandwidth yaitu semakin kecil nilai bandwidth maka grafik yang dihasilkan akan semakin kasar dan menjauhi fungsi yang sebenarnya. Begitu juga ketika bandwidth yang dipilih besar maka grafik yang dihasilkan akan semakin halus. Sifat inilah yang mempengaruhi nilai MSE yang dihasilkan. 55
54
Tinggi rendahnya grafik memperlihatkan besar dan kecilnya nilai MSE. Dari grafik MSE di atas memperlihatkan bahwa nilai MSE yang dihasilkan pada bandwidth lebih dari 0,3445996 tidak begitu jauh berbeda antara kernel order berhingga maupun yang tak hingga. Namun pada bandwidth kurang dari 0,3445996 memperlihatkan bahwa terjadi perbedaan nilai MSE yang cukup signifikan dari ketiga kernel terlebih pada kelipatan titik x = 0,5 dan x = 0,7. Pada kelipatan titik x = 0,5 kernel normal menghasilkan nilai MSE yang paling besar. Sedangkan pada kelipatan titik
x = 0,7 kernel cosinus menghasilkan nilai MSE yang paling besar
dibandingkan kernel normal untuk bandwidth kurang dari 0,3445996. Grafik dari masing-masing kelipatan titik dapat dengan lengkap dilihat pada lampiran 4. Berdasarkan studi kasus dengan pengambilan nilai kelipatan pada titik x antara 0,1 – 0,7, kernel sinus akan lebih unggul ketika titik-titik yang diestimasi hampir berada di seluruh bilangan real di selang data pengamatan. Sedangkan kernel normal akan lebih unggul ketika titik-titik yang diestimasi hanya pada beberapa bilangan real di selang data pengamatan. Namun secara keseluruhan nilai MSE yang terkecil paling banyak dihasilkan oleh kernel dengan order tak hingga yaitu kernel sinus. Nilai MSE yang kecil dalam hal ini menunjukkan bahwa hasil estimasi yang dihasilkan oleh estimator dekat dengan nilai fungsi aslinya. Sehingga estimator Nadaraya Watson dengan kernel berorder tak hingga khususnya sinus dapat memberikan hasil estimasi yang tidak jauh berbeda dengan keadaan yang sebenarnya. Dalam hal ini untuk mengestimasi volume sungai di Indonesia pengamat tidak harus melakukan observasi terlebih dahulu. Sehingga pemerintah dapat lebih hemat dalam hal biaya, tenaga dan juga waktu dalam mengestimasi volume sungai di Indonesia.
53
Berikut grafik MSE dari masing-masing kelipatan nilai x:
Bandwidth
Bandwidth
a. Grafik MSE dengan kelipatan titik x = 0.1
b. Grafik MSE dengan kelipatan titik x = 0.3
Bandwidth
Bandwidth
c. Grafik MSE dengan kelipatan titik x = 0.5
d. Grafik MSE dengan kelipatan titik x = 0.7
Gambar 4.5 Grafik MSE
52
2.
pada kelipatan x sebesar 0,3, nilai MSE yang terkecil masih didominasi oleh kernel infinite order yaitu sinus dengan bandwidth 0,13, 0,5 dan 1. Sedangkan pada bandwidth 0,3445996 nilai MSE yang terkecil dihasilkan oleh kernel normal.
3.
pada kelipatan x sebesar 0,4, nilai MSE yang terkecil dihasilkan oleh kernel infinite order yaitu sinus dengan bandwidth 0,13 dan 1. Sedangkan pada bandwidth 0,3445996 dan 0,5 nilai MSE yang terkecil dihasilkan oleh kernel normal.
4.
pada kelipatan x sebesar 0,5, nilai MSE yang terkecil dihasilkan oleh kernel infinite order yaitu sinus dengan bandwidth 0,13. Sedangkan pada bandwidth 0,3445996, 0,5 dan 1 nilai MSE yang terkecil dihasilkan oleh kernel normal.
5.
pada kelipatan x sebesar 0,6 dan 0,7 di setiap nilai bandwidth yang dipilih terlihat bahwa nilai MSE yang terkecil dihasilkan oleh estimator dengan menggunakan kernel normal. Ketika kelipatan x dipilih yang kecil, dalam kasus ini kelipatan x kurang dari
0,4, maka estimator dengan menggunakan kernel infinite order yaitu sinus akan menghasilkan nilai MSE yang kecil yang berarti bahwa kernel sinus akan memiliki performance lebih baik, berapapun bandwidth yang dipilih, dibandingkan kernel yang lainnya. Sedangkan nilai MSE terkecil akan dihasilkan oleh estimator dengan menggunakan kernel normal ketika kelipatan x yang dipilih cukup besar dalam kasus ini untuk kelipatan x lebih dari 0,4. Dari tabel di atas, nilai MSE yang terkecil dihasilkan oleh estimator yang menggunakan kernel sinus dengan ketentuan sebagai berikut 12 MSE kecil dihasilkan oleh estimator dengan menggunakan kernel normal, 15 dihasilkan oleh estimator dengan kernel sinus dan 1 dihasilkan oleh estimator dengan kernel cosinus. Sehingga dari hasil tabel di atas terlihat bahwa MSE terkecil paling banyak dihasilkan oleh estimator yang menggunakan kernel sinus. Berikut akan ditampilkan grafik dari MSE dari masing-masing kelipatan titik x.
51
0,5
0,6
0,7
0,3445996
0,2010336
0,2487284
0,2356519
0,5
0,2072396
0,2208997
0,2178995
1
0,3600139
0,3539623
0,3551501
0,13
1,352872
0,4963074
1,0337
0,3445996
0,1751454
0,2487284
0,2255095
0,5
0,1836912
0,2208997
0,2121826
1
0,3500706
0,3539623
0,3531269
0,13
1,356637
0,4963074
1,965438
0,3445996
0,1579634
0,2487284
0,2134736
0,5
0,1584852
0,2208997
0,2052315
1
0,3380866
0,3539623
0,3506531
0,13
1,356785
0,4963074
5,011454
0,3445996
0,1536994
0,2487284
0,1998664
0,5
0,1340825
0,2208997
0,1970795
1
0,3241813
0,3539623
0,3477281
Tabel 4.1: Nilai-nilai MSE Nilai-nilai MSE yang dihasilkan seperti yang terlihat pada tabel di atas berbeda antara yang satu dengan yang lain, yaitu: 1.
pada kelipatan x sebesar 0,1 dan 0,2 setiap nilai bandwidth yang dipilih terlihat bahwa nilai MSE yang terkecil dihasilkan oleh estimator dengan menggunakan kernel berorder infinite khususnya kernel sinus.
50
besar akan menghasilkan grafik yang semakin mulus. Dari keempat gambar di atas terlihat bahwa pada masing-masing kelipatan titik x grafik yang dihasilkan saling berhimpit, sehingga belum dapat diambil kesimpulan kernel manakah yang memberikan performance terbaik. Maka kebaikan estimasi akan dilihat melalui nilai MSE ketiga kernel dari masing-masing kelipatan nilai x dan bandwidth. Berikut nilai-nilai MSE yang dihasilkan setelah melakukan pegolahan data dengan menggunakan program R: Nilai MSE
Kelipatan
Bandwidth
Titik Estimasi 0,1
0,2
0,3
0,4
Normal
Sinus
Cosinus
0,13
0,4982647
0,4963074
0,4957802
0,3445996
0,269451
0,2487284
0,2530287
0,5
0,2515239
0,2208997
0,2274729
1
0,3768402
0,3539623
0,3585203
0,13
0,6237044
0,4963074
0,5001564
0,3445996
0,2533656
0,2487284
0,2495126
0,5
0,2422269
0,2208997
0,2255545
1
0,3734509
0,3539623
0,3578464
0,13
1,030359
0,4963074
0,536074
0,3445996
0,2291352
0,2487284
0,2436954
0,5
0,227195
0,2208997
0,2223609
1
0,3678283
0,3539623
0,3567232
0,13
1,303002
0,4963074
0,6681886
49
a.
Grafik dengan bandwidth 0.13
d. Grafik dengan bandwidth 0.5
b. Grafik dengan bandwidth 0,3445996
d. Grafik dengan bandwidth 1
Gambar 4.4 Grafik estimasi dengan kelipatan nilai x sebesar 0,7
Grafik dari setiap kelipatan titik x dengan bandwidth yang berbeda-beda menunjukkan bahwa semakin kecil bandwidth yang dipilih maka grafik yang dihasilkan akan semakin kasar. Sedangkan sebaliknya pemilihan bandwidth yang
48
a. Grafik dengan bandwidth 0.13
c. Grafik dengan bandwidth 0.5
b. Grafik dengan bandwidth 0,3445996
d. Grafik dengan bandwidth 1
Gambar 4.3: Grafik estimasi dengan kelipatan nilai x sebesar 0,5
47
a.
Grafik dengan bandwidth 0.13
c. Grafik dengan bandwidth 0.5
b. Grafik dengan bandwidth 0,3445996
d. Grafik dengan bandwidth 1
Gambar 4.2: Grafik estimasi dengan kelipatan nilai x sebesar 0,3
46
Berikut grafik hasil proses estimasi menggunakan data aliran sungai dengan nilai kelipatan titik-titik x 0,1; 0,3; 0,5 dan 0,7, grafik hasil estimasi dapat dilihat lebih lngkap pada lampiran 3:
a.
c.
Grafik dengan bandwidth 0.13
Grafik dengan bandwidth 0.5
b. Grafik dengan bandwidth 0,3445996
d. Grafik dengan bandwidth 1
Gambar 4.1: Grafik estimasi dengan kelipatan nilai x sebesar 0,1
45
4.2 Pengolahan Data dengan Program R Proses yang dilakukan dalam melakukan pengolahan data dengan R untuk melakukan estimasi adalah sebagai berikut: 1. Masukkan data berpasangan (xi,yi) 2. Masukkan kernel yang digunakan sebagai pembanding. Kernel yang digunakan adalah sebagai berikut: 1 1 exp x 2 , x 2 2
Kernel yang normal: K x Kernel yang sinus: K x
sin x
x
Kernel yang cosinus: K x
2 cos x
2 cos x
x2
3. Masukkan nilai kelipatan untuk titik x yang akan diestimasi 4. Masukkan nilai bandwidth. 5. Plot pasangan data (xi,yi) 6. Plot hasil estimasi dengan kernel order berhingga (normal) 7. Plot estimasi dengan kernel order tak hingga (sinus dan cosinus) 8. Mendapatkan nilai MSE dari ketiga kernel 9. Membandingkan antara ketiga nilai MSE dari ketiga kernel Dalam proses estimasi melalui studi kasus, nilai bandwidth yang digunakan adalah 0,13, 0,3445996, 0,5, 1. Bandwidth dipilih dari yang kecil sampai yang besar yang dapat digunakan sebagai pembanding nilai-nilai MSE dari ketiga kernel yang digunakan dan juga yang dapat memperlihatkan pengaruh peranan bandwidth terhadap hasil estimasi. Bandwidth 0,3445996 merupakan bandwidth optimum dari proses smoothing menggunakan ksmooth. Pada studi kasus ini, kelipatan titik estimasi yang dipilih adalah 0,1, 0,2, 0,3, 0,4, 0,5, 0,6 dan 0,7. Kelipatan titik-titik tersebut dipilih agar dapat digunakan sebagai pembanding dalam melihat nilai MSE yang dihasilkan. Sehingga dari perbandingan tersebut dapat ditentukan kernel manakah yang mempunyai performance yang lebih baik.
BAB IV STUDI KASUS
Pada bab ini akan dibahas studi kasus dari hasil pengamatan rata-rata volume air sungai di Indonesia yang pengalirannya lebih dari 1000 km2. Melalui regresi nonparametrik dengan menggunakan estimator Nadaraya Watson data tersebut akan dibandingkan nilai MSE antara kernel yang berorder tak hingga dan berhingga. Fungsi kernel yang digunakan untuk yang berorder tak hingga adalah K x
sin x
x
dan K x
2 cos x , sedangkan untuk fungsi kernel
2 cos x
x2
berorder hingga yang digunakan adalah kernel Normal. Data yang dapat dilihat pada lampiran 1 tersebut akan diolah dengan menggunakan program R 4.1 Informasi Data Data yang digunakan pada studi kasus ini diambil dari Statistik Indonesia, Statistical Yearbook of Indonesia 2013 yang dapat dilihat pada situs resmi Badan Pusat Statistik (BPS). Data yang digunakan dalam penelitian ini berjumlah 74 sungai di Indonesia yang daerah pengalirannya lebih dari 1000 km2 tahun 2010. Dalam proses estimasi dengan pendekatan nonparametrik salah satu syarat yang harus dipenuhi adalah data harus kontinu. Dalam studi kasus ini, penulis menggunakan data sungai di Indonesia yang daerah pengalirannya lebih dari 1000 km2 tahun 2010 dimana variabel independen yaitu tinggi aliran air (juta m) dan volume air (juta dam3) sebagai variabel dependen Data aliran sungai dalam penelitian ini digunakan untuk membandingkan performance antara estimator dengan fungsi kernel yang berorder berhingga dan tak hingga.
44
43
aˆ x P nh 1 o h q 0 . fˆ x
(3.4)
3. Membuktikan estimator rˆ x berdistribusi normal secara asimtotik Berdasarkan persamaan 3.2
rˆ x r x
aˆ1 x aˆ2 x . fˆ x fˆ x
nh rˆ x r x o h q
aˆ x nhaˆ2 x nh 1 o hq . fˆ x fˆ x
Maka berdasarkan lemma 3.2.3 dan persamaan 3.3 dan 3.4:
nh rˆ x r x o h q
N 0, K 2 s ds 2 x f x d f x
2 2 K s ds x d . N 0, f x ∎ Terbukti bahwa estimator rˆ x berdistribusi normal secara asimtotik.
42
f x o hq .
b.
Nilai variansi dari aˆ1 x
1 n x Xi var aˆ1 x var K r X i r x nh i 1 h 2 x u 2 1 2 x u 2 E K r u r x E K r u r x nh h h 2 2 1 x u q 2 E K 2 r u r x f x o h nh h
2 2 1 x u q K2 r u r x f u du f x o h 2 nh h
2 2 1 1 2 q K s r x sh r x f x sh ds f x o h . nh h
P Akan dibuktikan bahwa aˆ1 x f x o hq 0 .
Berdasarkan teorema 2.2.2, didapatkan: 2 1 P aˆ1 x f x o h q K 2 s r x sh r x f x sh ds nh 2 1 q f x o h h .
2
Ketika
n maka
var aˆ1 x 0 . Berdasarkan definisi 2.2.6 maka
P aˆ1 x f x o hq 0 sehingga
0 .
nh aˆ1 x f x o hq
P f x , sehingga Telah dibuktikan bahwa fˆ x
P
41
1 nh
K s
2
2 x sh f x sh ds .
2 1 bi x 0 . Ketika n diperoleh E i 1 n n
Sehingga
1 n d bi x N 0, K 2 s ds 2 x f x atau n i 1 d nh aˆ2 x N 0, K 2 s ds 2 x f x .
P 2. Membuktikan aˆ1 x f x o hq 0 .
a.
Nilai ekspektasi dari aˆ1 x adalah
E aˆ1 x
1 n x Xi E K r X i r x nh i 1 h 1 x u E K r u r x h h
1 x u K r u r x f u du h h
K s r x sh r x f x sh ds .
Menggunakan definisi 2.2.7, didapatkan: E aˆ1 x K s r ' x sh
f x f ' x sh o hk f x o h q
r q sh
q
q! f
p
sh p!
o hq
p
o h p ds
(3.3)
40
x Xi K h Andaikan bi x h
i , maka
nh aˆ2 x
1 n bi x . n i 1
Didapatkan: E bi x 0 x Xi K h var bi x var h
i
2 2 x Xi i K h E h
2 x sh f x sh K 2 s ds .
Berdasar
definisi
var bi x K 2 s ds
2.2.7 2
dan
asumsi
3.2.1
x f x .
Akan dibuktikan bahwa bi x memenuhi definisi 2.2.9. 2 1 n 1 x Xi E bi x E K i i 1 n i 1 nh h n
1 nh
2
x X i E K h i 1 n
1 x u EK nh h
2
2
i
2
1 h
didapatkan
39
Maka berdasarkan Lemma 2.2.1:
rˆ x
gˆ x p g x r x . f x fˆ x
Sehingga terbukti rˆ x merupakan estimator yang konsisten secara asimtotik pada kurva regresi r x ketika h 0 dan nh . Teorema 3.2.1 Jika x berada dalam interval terbuka dimana f x mempunyai turunan kontinu terbatas p dan r x mempunyai turunan kontinu terbatas q maka berdasarkan asumsi 3.2.1 – 3.2.6,
nh rˆ x r x o h
q
2 x 2 N 0, K z dz . f x d
Bukti:
Yi r X i i Yi r X i r x r x i 1 n 1 n 1 n K h x X i Yi K h x X i r x K h x X i r X i r x n i 1 n i 1 n i 1 1 n Kh x X i i . n i 1 Sehingga,
rˆ x r x dengan aˆ1 x
aˆ1 x aˆ2 x . fˆ x fˆ x
(3.2)
1 n 1 n ˆ dan K x X r X r x a x h Kh x X i i . i i 2 n i 1 n i 1
Langkah berikutnya akan dianalisis distribusi asimtotis dari komponen aˆ2 x dan kekonvergenan dari komponen
aˆ1 x . fˆ x
1. Membuktikan bahwa komponen aˆ2 x berdistribusi normal secara asimtotis
38
Berdasarkan lemma 3.2.1 dan lemma 3.2.2, telah didapatkan:
E fˆ x f x o h p dan
1 1 1 var fˆ x K 2 s f x ds o O . nh nh n
Sehingga,
P fˆ x f x o h p
1 1 1 K 2 s f x ds o O nh nh n
2
,
ketika n berakibat var fˆ x 0 . Berdasarkan definisi 2.2.6 maka p fˆ x f x .
∎
b.
Berdasarkan asumsi 3.2.1 – 3.2.4 serta lemma 3.2.1 dan 3.2.2 akan dibuktikan bahwa gˆ x konvergen dalam probabilitas ke g x . Pembuktian kekonsistenan dari gˆ x hampir serupa dengan dengan fˆ x yaitu dengan menggunakan definisi dari kekonvergenan dalam peluang dan
juga ketaksamaan Chebychev. Akan dibuktikan lim P gˆ x g x 0 , n
untuk semua 0 . Berdasarkan teorema 2.2.2, lemma 1 dan lemma 2 maka:
P gˆ x E gˆ x
var gˆ x
2
=
r x x f x 2
P gˆ x g x o(h k
ketika
n
berakibat
2
nh
var gˆ x 0 .
1 1 K z dz o nh O n 2
2
Berdasarkan
2.2.6
maka
p gˆ x g x .
∎
,
37
b.
Berdasarkan definisi 2.2.4 dan lemma 3.2.1 dan lemma 3.2.2 maka:
r x x f x K s ds o 1 O 1 o h MSE gˆ x nh nh n 2
2
2
k
2
Ketika
n
maka
MSE gˆ x
nilai
secara
asimtotik
adalah
1 MSE gˆ x O . n ∎
Sifat-sifat dari fˆ x dan gˆ x telah dipahami secara terpisah, analisis berikutnya akan
mengkaji
kekonsistenan
kekonsistenan dari
etimator
dari
estimator
rˆ x .
tersebut,
akan
dibuktikan
Sebelum terlebih
mencari dahulu
kekonsistenan dari estimator fˆ x dan gˆ x . Lemma 3.2.3 Berdasarkan asumsi 3.2.1 – 3.2.4 serta lemma 3.2.1 dan 3.2.2 maka: a.
p fˆ x f x
b.
p gˆ x g x .
Bukti: a.
Akan dibuktikan bahwa fˆ x konvergen dalam probabilitas ke f x dengan menggunakan asumsi 3.2.1 – 3.2.4 serta lemma 3.2.1 dan 3.2.2. Berdasarkan definisi dari konvergen dalam probabilitas, akan dibuktikan:
lim P fˆ x f x 0 , untuk semua 0 . n
Dengan menggunakan teorema 2.2.2, maka:
P fˆ x E fˆ x
var fˆ x
2
.
.
36
pada semua bilangan real ℝ, dengan menggunakan ekspansi deret Taylor pada perkalian rf u disekitar x, berdasarkan asumsi 3.2.1 dan definisi 2.2.5 maka:
E Kh x u y 2
f x r x nh
1 K s ds o nh . 2
Sehingga covariansi dari fˆ x dan gˆ x adalah:
1 1 2 cov fˆ x , gˆ x E K h x u y E K h x u E K h x u y n n
f x r x nh
1 1 K s ds o nh O n . 2
∎ Akibat 3.2.1 Berdasarkan asumsi 3.2.1 serta lemma 3.2.1 dan lemma 3.2.2 maka nilai MSE dari masing-masing fˆ x dan gˆ x :
a.
1 MSE fˆ x O n
b.
1 MSE gˆ x O . n
Bukti: a.
Berdasarkan definisi 2.2.4 dan lemma 3.2.1 dan lemma 3.2.2 maka:
2 1 1 1 2 p MSE fˆ x K s f x ds o O o h . nh nh n
Ketika
n
maka
nilai
MSE fˆ x
secara
asimtotik
adalah
1 MSE fˆ x O . n ∎
35
1 n 1 n ˆ ˆ cov f x , g x cov K h x X i , K h x X j Y j n j 1 n i 1 1 2 cov K h x X i , K h x X j Y j i j n
1 cov K h x u , K h x u y n 1 E K h x u .K h x u y E K h x u E K h x u y n 1 2 E K h x u y E K h x u E K h x u y n
1 1 2 E K h x u y E K h x u E K h x u y . n n
Perhatikan untuk E K h x u y :
E Kh x u y 2
2
1 2 K h x u y f u , y du dy n
1 K 2 h x u y f y u f u du dy n 1 2 K h x u f u y f y u dy du n 1 K 2 h x u f u E y X u du n
Andaikan
,
1 2 K h x u f u r u du n
1 2 K s f x sh r x sh ds . nh
rf mempunyai
turunan kontinu terbatas k pada selang tertutup
dan rf mempunyai turunan k+1 pada interval terbuka , yang
memuat nilai x dengan k = min{p,q} dan andaikan rf merupakan fungsi mulus
34
2 1 E K 2 h x u y 2 E K h x u y . n
Perhatikan untuk E K 2 h x u y 2 : E K 2 h x u y 2
K x u y f u, y du dy 2
2
h
K x u y f y u f u du dy 2
2
h
K 2 h x u f u y 2 f y u dy du
K x u f u E y 2
h
2
X u du
K x u f u E r u
2
h
i
2
X u du
K x u f u r u u du . 2
2
2
h
Sehingga: var gˆ x
1 2 2 2 k K h x u f u r u u du g x o h n
2
1 1 K 2 s f x sh r 2 x sh 2 x sh ds g x o h k nh n
Berdasarkan asumsi 3.2.1, definisi 2.2.5 dan definisi 2.2.7 maka:
r x x f x K s ds o 1 O 1 . var gˆ x nh nh n 2
2
2
∎
c.
r x f x 2 1 1 cov fˆ x , gˆ x K s ds o O . nh nh n
2
.
33
E K h2 x u
1 h2 s 2 2 2 K s f x ds K s sh f ' x 2 f '' x h
hps p f p!
p
x
h p 1s p 1 f p 1!
p 1
x ds .
Sehingga:
var fˆ x n1 E K h2 x u E K h x u
2
h2 s 2 1 n 1 K 2 s f x ds K 2 s sh f ' x f '' x h 2
h ps p f p!
p
x
h p 1s p 1 f p 1!
p 1
x ds f x o h p
2
1 1 h2 s 2 2 2 K s f x ds K s sh f ' x nh 2 f '' x nh
h ps p f p!
p
x
h p 1s p 1 f p 1!
p 1
1 f x o h p n
x ds
2
.
Berdasarkan asumsi 3.2.1, definisi 2.2.5 maka variansi dari penyebut estimator Nadaraya Watson adalah sebagai berikut:
1 1 1 var fˆ x K 2 s f x ds o O . nh nh n
∎
b.
1 n var gˆ x var K h x X i Yi n i 1
1 n var K h x X i Yi 2 n i 1
1 var K h x X Y n
32
r x x f x var gˆ x 2
b.
2
nh
1 1 K z dz o nh O n 2
r x f x cov fˆ x , gˆ x nh
c.
1 1 K z dz o nh O n . 2
Bukti: a.
Menurut persamaan (2.7):
1 n var fˆ x var K h x X i n i 1 1 2 n
n
var K x X h
i 1
i
1 var K h x X n
n1 E K h2 x u E K h x u
. 2
Perhatikan untuk E K h2 x u : E K
2 h
x u K h2 x u f u du
1 h2
K
2
x u f u du h
1 K 2 s f x sh ds . h
Berdasarkan definisi 2.2.7, maka: 1 h2 s 2 E K x u K 2 s f x sh f ' x f '' x h 2 2 h
h p 1s p 1 f p 1!
p 1
x ds
h ps p f p!
p
x
31
vh rf k 1 x K v dv . g x k 1! k 1
Sehingga bias dari pembilang estimator Nadaraya Watson adalah sebagai berikut:
vh rf k 1 x K v dv g x E gˆ x g x g x k 1!
k 1
vh rf k 1 x K v dv k 1!
k 1
vh rf k 1 x k 1!
.
k 1
Ketika suku sisa
deret Taylor di atas merupakan order
kecil dari hk maka dengan menggunakan asumsi pembatasan dari sifat bandwidth h, n maka h 0 , suku sisa deret Taylor di atas konvergen ke nol, yaitu:
vh rf k 1 x K v dv k 1! lim
k 1
hk
h 0
Sehingga
bias
dari
v h rf k 1 x K v dv 0 . lim h 0 k 1!
pembilang
estimator
k 1
Nadaraya
Watson
adalah
E gˆ x g x o hk .
∎ Asumsi 3.2.4 Titik x merupakan titik kontinu dari 2 x , f x C untuk C > 0 dan fungsi r serta fungsi f masing-masing terdiferensial di sekitar x. Lemma 3.2.2 Jika x berada dalam interval terbuka dimana f x mempunyai turunan kontinu terbatas p dan r x mempunyai turunan kontinu terbatas q, berdasarkan asumsi 3.2.1 –3.2.4 maka: a.
f x 2 1 1 var fˆ x K z dz o O nh nh n
30
dengan menggunakan ekspansi deret Taylor pada perkalian rf u disekitar x maka ekspektasi dari gˆ x adalah sebagai berikut: E gˆ x
r u f u K x u du h
r x vh f x vh K v dv
rf x vh rf ' x
vh rf k 1 x K v dv k 1! k 1
rf x K v dv vh rf ' x K v dv
vh rf k x K v dv vh rf k 1 x K v dv , k ! k 1! k 1
k
dengan terletak diantara x dan x hv . Ketika K terintegralkan ke satu, semua momennya adalah nol dan ketika
g x r x f x maka: E gˆ x
rf x K v dv vh rf ' x K v dv
vh rf k x K v dv vh rf k 1 x K v dv k ! k 1! k 1
k
rf x K v dv h rf ' x vK v dv
h rf k x v k K v dv vh rf k 1 x K v dv k 1! k ! k 1 vh k 1 rf x 0 0 0 rf x K v dv k 1! k
k 1
29
Sehingga:
1 n E gˆ x E K h x X i Yi n i 1
1 n E Kh x X i Yi n i 1
E K h x X Y E K h x u y
K x u y f u, y du dy h
K x u y f y u f u du dy h
K h x u f u y f y u dy du
K x u f u E y X u du h
K x u f u r u du h
r u f u K x u du . h
Bias untuk pembilang estimator Nadaraya-Watson adalah: E gˆ x g x
r u f u K x u du g x . h
Andaikan
,
rf mempunyai
turunan kontinu terbatas k pada selang tertutup
dan rf mempunyai turunan k+1 pada interval terbuka , yang
memuat nilai x dengan k = min{p,q} dimana p merupakan turunan kontinu terbatas dari fungsi f x dan q merupakan turunan kontinu terbatas dari fungsi r x , dan andaikan rf merupakan fungsi mulus pada semua bilangan real ℝ,
28
Berdasarkan persamaan (2.4), bias dari penyebut estimator Nadaraya-Watson dengan kernel order tak hingga adalah:
bias fˆ x E fˆ x f x
f x
f
p 1
f
p 1
x sh p 1!
p 1
p 1
x sh p 1!
p 1
Ketika suku sisa
f
x sh p 1!
p 1
K s ds f x
K s ds .
deret Taylor di atas merupakan order kecil
dari hp maka berdasarkan asumsi pembatasan dari sifat bandwidth h, n maka
h 0 , suku sisa deret Taylor di atas konvergen ke nol, yaitu:
lim h 0
f
p 1
x sh p 1!
p 1
K s ds
lim
hp
h 0
f
p 1
x s p1h K s ds 0 . p 1!
Sehingga bias fˆ x o h p . ∎
b. Bias pembilang estimator Nadaraya-Watson dengan kernel order tak hingga Menurut persamaan (2.9) estimator fungsi r adalah: rˆ x
gˆ x fˆ x
1 n K h x X i Yi n i 1 . 1 n Kh x X k n k 1
27
Bukti: a. Bias penyebut estimator Nadaraya-Watson dengan kernel order tak hingga.
K s f x sh ds .
Menurut persamaan (2.8) : E fˆh x
Menurut definisi 2.2.7, kita dapatkan:
f ' x sh
f x sh f x p
f
1!
x sh
p
p!
f
f '' x sh
2!
p 1
f ''' x sh
2
x sh p 1!
3
3!
p 1
,
dengan terletak diantara x dan x sh . Persamaan (2.8) menjadi:
K s f x sh ds
E fˆ x
2 3 f ' x sh f '' x sh f ''' x sh K s f x 1! 2! 3! p p 1 f p x sh f p 1 x sh ds p! p 1!
f x K s ds hf ' x K s s ds
h f ''' x
f
p 1
2
3
6
h 2 f '' x
K s s
3
ds
h
x sh p 1!
f
p
x
p!
p 1
p
K s s
2
ds
K s s
p
ds
K s ds .
Fungsi K adalah fungsi yang berorder tak hingga yaitu K terintegralkan ke satu, semua momennya adalah nol sehingga:
E fˆ x f x 0 0
0
f
p 1
f x
f
p 1
x sh p 1!
p 1
x sh p 1! K s ds .
p 1
K s ds
26
3.2 Sifat Asimtotik Estimator Nadaraya Watson dengan Kernel Berorder Tak Hingga Kita akan menguji perilaku dari estimator Nadaraya-Watson kelas kernel baru yaitu kernel dengan order tak hingga untuk n pengamatan pasangan data yang berdistribusi identik dan independen dengan densitas f. Untuk memahami estimator tersebut secara menyeluruh, kita akan memulai dengan suatu lemma yang mengukur perilaku asimtotik dari pembilang dan penyebut estimator tersebut yaitu fˆ x dan gˆ x dimana fˆ x merupakan estimator densitas kernel dari f x dan gˆ x merupakan estimator dari g x . Dalam prosesnya kita memerlukan beberapa asumsi. Kita akan memberikan batasan untuk perilaku bandwidth h ketika n dan pada distribusi bersyarat dari error. Asumsi 3.2.1 Ketika n , bandwidth h 0 dan nh .
Asumsi
3.2.2
εi
adalah
random
error
dengan
asumsi
independen,
E i X i x 0 dan E 2i X i x 2 .
Asumsi 3.2.3
berdistribusi identik dan independen
dengan densitas f. Lemma 3.2.1 Jika x berada dalam interval terbuka dimana f x mempunyai turunan kontinu terbatas p dan r x mempunyai turunan kontinu terbatas q, maka berdasarkan asumsi 3.2.1 dan 3.2 2:
a.
E fˆ x f x o h p
b.
E gˆ x g x o hk
dengan k = min{p,q}.
25
Permasalahan di atas dapat diselesaikan dengan membuat transisi dari 0 ke 1 pada daerah asal Fourier yang kurang kasar. Devroy dan Gyorfi, Hall dan Marron, pada kasus estimasi densitas spektral, Politis dan Romano, mempelajari kernel dari Tranformasi Fourier yang diberikan oleh:
1 jika s 1 2 s 2 1 s jika 1 2 s 1 . jika s 1 0 Kernel yang bersesuaian adalah:
K x
2 cos x .
2 cos x
x2
Gambar dari kernel di atas adalah sebagai berikut:
24
1 1 ix ix e e x 2i
sin x
x
.
Berikut gambar dari fungsi flat-top kernel di atas:
Pada gambar di atas terlihat bahwa bagian belakang atau ekor dari kernel tersebut sangat bergelombang. Ada dua permasalahan akibat dari hal ini. Pertama, ekor dari kernel tersebut yang turun secara pelan-pelan dan gerakan-gerakan negatif
yang sangat besar meningkatkan
K x dx , 2
yang juga akan meningkatkan
variansi dari estimasinya. Kedua, gelombang besar yang jauh dari 0 menghasilkan bias sampel yang berhingga karena gelombang tersebut memberikan pengamatan yang cukup jauh dari x yang sangat berpengaruh dalam melakukan estimasi di titik x. Permasalahan-permasalahan tersebut membuat estimator fungsi kepadatan yang menggunakan kernel tersebut menjadi tidak stabil dalam bersaing kecuali untuk sampel yang berukuan sangat besar.
23
1 jika s c , g s jika s c
s
dengan fungsi g dipilih sehingga membuat s , 2 s dan s s dapat diintegralkan. Flat-top Kernel diberikan sebagai berikut:
K x
1 2
se
isx
ds .
(3.1)
Kernel yang memenuhi definisi di atas menjamin bahwa
x K x dx 0 , i
untuk semua bilangan bulat i. Menurut Politis dan Romano (1995) keuntungan menggunakan kernel ini adalah kita tidak perlu memilih fungsi kernel yang baru ketika ada data yang baru, kernel yang sama dengan bandwidth yang berbeda akan menyesuaikan kemulusan dari fungsi kepadatan yang tidak diketahui. Berikut diberikan contoh yang memenuhi definisi di atas. Diberikan fungsi
s sebagai berikut: 1 0
s
jika s 1 jika s 1
Menurut definisi 2.5.2:
K x
1 2
1 2
se
isx
ds
1 1 isx 0.e ds 1.eisx ds 0.eisx ds 1 1
1 2
1 isx 1.e ds 1
1 1 isx 1 e 1 2 ix
1 1 ix ix e e 2 ix
.
BAB III ESTIMASI NADARAYA-WATSON DENGAN KERNEL ORDER TAK HINGGA
3.1
Kernel dengan Order Tak Hingga Menurut Berg (2008) fungsi Kernel dikatakan mempunyai order v jika
memenuhi: 1.
x
v
K x dx
R
2.
x K x dx 0, i
i 1, 2,..., v 1 .
Seperti yang telah dijelaskan pada bab sebelumnya yaitu jika banyak turunan dari fungsi tersebut tidak diketahui maka untuk mengestimasi jumlah turunan dari fungsi tersebut sangat sulit, sehingga kita kesulitan untuk memilih kernel dengan order berapakah yang digunakan. Untuk mengurangi permasalahan tersebut, kita fokus pada fungsi kernel yang secara efektif mempunyai order kernel tak hingga. Kelas kernel tersebut secara otomatis mengurangi bias ke o(hp) tidak peduli berapa kali fungsi tersebut dapat diturunkan.
Definisi 3.1.1 (Berg, 2008). K(x) dikatakan berorder tak hingga jika memenuhi:
x K x dx 0, i
i 1, 2,...
Definisi 3.1.2 (McMurry dan Politis, 2003). Sebuah flat-top Kernel K dengan order tak hingga secara umum dibentuk melalui Transformasi Fourier λ, yaitu untuk nilai tetap c > 0
22
21
legend("bottomright",c("fungsi
r","estimasi
h
kecil","estimasi
optimal","estimasi h besar"),lty=c(1,1,1,1),lwd=c(2,2,2,2),col=c(2,5,4,3)) 2. Hasil output
Gambar 2.2: Grafik estimasi dengan KSmooth
h
20
Menurut Hardle (1991) nilai-nilai statistik pembilang dari estimator Nadaraya-Watson dengan fungsi kernelnya mempunyai order dua adalah sebagai berikut:
Bias gˆ x
h2 g '' x 2 K o h 2 , h 0 2
var gˆ x nh f x s 2 x K 2 o nh 1
2
1
,
untuk nh
2 1 h4 MSE gˆ x nh f x s K 2 g '' x 2 K o nh o h 4 , 4 h 0, nh 1
2
2
dengan s 2 x E Y 2 X x . Berdasarkan nilai statistik dari pembilang estimator Nadaraya-Watson di atas dan nilai statistik dari estimasi densitas kernel maka dapat diperoleh nilai MSE dari estimator Nadaraya-Watson yaitu:
MSE rˆ x nh
1
2 x f x
r ' x f ' x h4 K 2 r '' x 2 4 f x 2
o h 4 , h 0, nh .
2
2 1 2 K o nh
Berikut diberikan contoh proses smoothing dengan estimator NadarayaWatson dari data yang dibangkitkan menggunakan program R: 1. Proses smoothing dalam R a=runif(1000) e=rnorm(1000) x=sort(a) r=cos(2*pi*x) y=r+e plot(x,y) lines(x,r,col=2,lwd=2) lines(ksmooth(x,y,bandwidth=0.03),col=5,lwd=2) lines(ksmooth(x,y,bandwidth=0.30),col=4,lwd=2) lines(ksmooth(x,y,bandwidth=1),col=3,lwd=2)
19
2.5 Estimator Nadaraya Watson Estimasi kernel untuk fungsi regresi r(x) dikonstruksi sebagai berikut: r x E Y X x
y f y x dy
y f x, y
dy .
f x
Estimator fungsi regresi untuk fungsi densitas f yang tidak diketahui adalah: y fˆh1 ,h2 x, y rˆ x dy fˆ x h
1 n K h x X i Yi n i 1 1 n Kh x X k n k 1
gˆ x . fˆ x
(2.9)
Estimator fungsi regresi rˆ x di atas merupakan rata-rata lokal yang diusulkan oleh Nadaraya-Watson sehingga disebut juga sebagai estimator Nadaraya-Watson. Berdasarkan persamaan (2.1) maka Estimator NadarayaWatson mempunyai fungsi bobot sebagai berikut: Wi x
Kh x X i n
1 Kh x X k n k 1
Kh x X i , fˆ x h
dengan fˆh x merupakan estimator densitas kernel. Menurut Takezawa (2003) fungsi bobot dalam estimator Nadaraya-Watson mempunyai karakteristik sebagai berikut: n
W x 1 . i 1
i
18
(i) Fungsi f bersifat kontinu dan terintegralkan secara kuadrat (ii) Bandwidth h memenuhi asumsi lim h 0 dan lim nh n
n
(iii) Fungsi kernel K merupakan fungsi kepadatan probabilitas yang terbatas dan simetri di sekitar daerah aslinya. Bukti:
Bias fˆh x E fˆh x f x K s f x sh ds f x
K s f x ds K s
K s K s
f '' x sh
2
1!
ds K s
2! f t x sh
f ' x sh
t
t!
ds
f ''' x sh 3!
3
ds
ds K s o ht ds f x .
Karena K merupakan kernel berorder tinggi maka menurut definisi:
Bias fˆh x f x 0 0 K s
K s
f t x sh
t
t!
f t x sh
t
t!
ds o ht ds f x
ht t f x o ht , h 0. ds o h ds t!
t
t
Terbukti bahwa ketika K merupakan kernel berorder tinggi bias dari estimasi
ht t f x o ht , h 0 . densitas kernel tersebut adalah t! t
Namun muncul permasalahan yaitu ketika derajat kemulusan atau jumlah turunan dari fungsi tersebut tidak diketahui maka untuk mengestimasi jumlah turunan dari fungsi f sangat sulit, sehingga kita kesulitan untuk memilih kernel dengan order berapakah yang digunakan. Untuk mengurangi permasalahan tersebut, kita fokus pada fungsi kernel yang secara efektif mempunyai order kernel tak hingga. Kelas kernel tersebut secara otomatis mengurangi bias ke o(hp) tidak peduli berapa kali fungsi f tersebut dapat diturunkan. Kernel dengan order tak hingga tersebut akan dibahas lebih dalam lagi pada bab III.
17
Bukti:
MSE fˆh x var fˆh x bias fˆh x
nh
1
K
2 2
f x o nh
1
2
h2 f '' x 2 K o h 2 2
2
2 1 h4 nh f x K 2 f '' x 2 K o nh o h 4 , . 4 h 0, nh . 1
2
MSE fˆh x konvergen ke 0 bila h 0, nh , maka estimator densitas kernel p f x . konsisten yaitu fˆh x
2.4 Estimasi Densitas Kernel untuk Kernel Berorder Tinggi Dalam menganalisis harga harapan dari estimasi densitas kernel, kernel yang digunakan pada sub bab sebelumnya adalah kernel yang memenuhi syarat moment pertamanya bernilai nol dan momen keduanya bernilai positif. Pada sub bab ini difokuskan pembahasan mengenai kernel dengan order tinggi dengan bias kurang dari O(h2). Suatu kernel dikatakan berorder v jika memenuhi syarat sebagai berikut: 1.
K x 0 , untuk semua nilai x
2.
K x dx 1
3.
0, j 1, j x K x dx j 0, j v
, v 1
.
Teorema 2.4.1 (Hardle, 1991) Andaikan kernel K berorder tinggi, fˆh x merupakan estimator dari fungsi densitas f yang mempunyai turunan kontinu terbatas p dan v adalah order kernel, maka bias dari fungsi f tersebut adalah
t
ht t f x o ht , h 0 dimana t = min{p,v} dengan asumsi sebagai t!
berikut:
16
Bias fˆh x E fˆh x f x K s f x sh ds f x
h2 s 2 K s f x sh f ' x f '' x o h 2 ds f x 2
h2 f '' x 2 K o h2 , h 0 . 2
(ii) Variansi dari fˆh x adalah
1 var fˆh x var K h x X n
n1 E K h2 x X E K h x X
2
2 x u n1 h2 K 2 f u du f x o 1 h
2 n1 h1 K 2 s f x sh ds f x o 1
n1 h1 K nh
1
K
2 2
2 2
f x o 1 f x o 1 2
f x o nh
1
,
untuk nh .
Teorema 2.3.4 (Wand dan Jones, 1995). Bila fˆh x estimator densitas kernel maka
4
2 1 h 1 2 MSE fˆh x nh f x K 2 f '' x 2 K o nh o h 4 , . 4 h 0, nh .
15
1 n x Xi E fˆh x E K nh i 1 h
1 n x Xi EK nh i 1 h
E Kh x X
Kh x y f y dy K s f x sh ds .
(2.8)
Ketika h 0 maka:
E fˆh x K s f x sh ds f x K s ds = f x .
Sebelum membahas mengenai statistik dari estimator densitas kernel akan diberikan asumsi-asumsi sebagai berikut: (i) Turunan kedua dari fungsi f bersifat kontinu, terintegralkan secara kuadrat dan juga monoton (ii) Bandwidth h memenuhi asumsi lim h 0 dan lim nh n
n
(iii) Fungsi kernel K merupakan fungsi kepadatan probabilitas yang terbatas dan simetri di sekitar daerah aslinya. Berdasarkan asumsi di atas maka statistik dari estimator densitas kernel adalah sebagai berikut: Teorema 2.3.3 (Wand dan Jones, 1995). Bila fˆh x estimator densitas kernel maka (i)
2
h Bias fˆh x f '' x 2 K o h 2 , h 0 2
1 1 2 (ii) var fˆh x nh f x K 2 o nh , untuk nh
Dengan 2 K x 2 K x dx dan K Bukti: (i) Bias dari fˆh x adalah
2 2
adalah
K x dx . 2
14
Gambar 2.1: Grafik jenis-jenis kernel Definisi 2.3.2 (Hardle, 1991). Estimator densitas kernel untuk fungsi densitas
f h x adalah n
1 fˆh x K h x X i n i 1
1 n x Xi K nh i 1 h
.
(2.7)
Andaikan fˆh x adalah estimator densitas kernel dari suatu fungsi kepadatan
f h x pada titik x ϵ ℝ dan andaikan Xi berdistribusi identik dengan fungsi kepadatan f h x , maka:
13
3.
x K x dx 0
4.
x K x dx 0
5.
K x dx .
2
2
Berikut diberikan beberapa contoh fungsi kernel, antara lain: 1 I x 1 2
1.
Kernel Uniform: K x
2.
Kernel Triangle: K x 1 x I x 1
3.
Kernel Epanechnikov: K x
4.
Kernel Quartic: K x
5.
Kernel Triweight: K x
6.
Kernel Cosinus: K x
7.
Kernel Gausian: K x
15 1 x2 16
3 1 x 2 I x 1 4
I x 1 2
35 1 x2 32
I x 1 3
cos x I x 1 4 2 1 1 exp x 2 , x 2 2
Grafik dari masing-masing fungsi kernel di atas:
12
Definisi 2.2.9. Andaikan X1 , X 2 ,
, X n variabel random yang independen
sedemikin hingga E X n n dan var X n n . Didefinisikan 2
Yn X n n n
Tn Yi i 1
n
S n2 var Tn i2 i 1
Syarat Liapunov didefinisikan 0 sedemikian sehingga
1 S
EY n
2 i 1 n
2
i
0 untuk n
2.3 Estimasi Densitas Kernel untuk Kernel Berorder Dua Pandang observasi X1 , X 2 ,
, X n berdistribusi identik dan independen dengan
densitas f x . Estimasi densitas kernel bergantung pada dua parameter yaitu h sebagai bandwidth atau lebar pita dan K sebagai fungsi kernel.
Suatu
kernel
dikatakan
berorder
2
jika
K x 0 , K x dx 1 ,
x K x dx 0 dan x K x dx , untuk semua nilai x 2
Definisi 2.3.1 (Hardle, 1991). Secara umum fungsi Kernel dengan bandwidth h didefinisikan sebagai berikut: Kh x
1 x K , - ∞ < x < ∞ dan h > 0, h h
yang memenuhi sifat-sifat: 1.
K x 0 , untuk semua nilai x
2.
K x dx 1
(2.6)
11
Teorema 2.2.3(Subanar,2013). Misalkan X n , Yn ,n = 1,2,3,... barisan pasangan variabel random dan c konstanta, maka d P d a. X n X , Yn c X n Yn X c
d Xc, bila c 0 X nYn b. X n X , Yn c P 0, bila c 0 X nYn d
P
d P c. X n X , Yn c
Xn
Yn
d X , bila c 0 . c
Definisi 2.2.7 (Purcell dan Varberg, 1987). Andaikan suatu fungsi f x dan turunannya, yaitu f x , f ' x , f '' x ,
, f n x kontinu dalam selang [a,b] dan
xo a, b maka untuk nilai x disekitar xo , f x dapat diekspansi (diperluas) ke dalam deret Taylor sebagai,
f x f xo f ' xo Apabila
atau
x xo f '' 1!
xo
x xo 2!
2
... .
persamaan di atas dapat dinyatakan sebagai
f xo h f xo
h h2 hn n f ' xo f '' xo ... f xo ... . 1! 2! n!
Definisi 2.2.8 (Paul dan David, 1986). Andaikan f x fungsi yang tidak periodik yang berada pada
L2 , , sehingga transformasi Fourier
didefinisikan sebagai berikut
1 F 2
f x e
i x
dx ,
dengan L2 , adalah himpunan fungsi kontinu, lim
N
dan f N x
N
F e
N
i x
d .
f x f x N
2
dx 0
10
Definisi 2.2.6 (Roussas, 1973). Barisan variabel random {Xn} dikatakan P konvergen ke X (dalam probabilitas), dinotasikan X n X , jika untuk setiap
0, P X n X 0 untuk n .
Lemma 2.2.1 (Roussas, 1973)
Jika
P P X n X dan Yn Y
maka
Xn P X , dimana P Yn 0 P Y 0 1 . Yn Y
Bukti: Untuk menunjukkan
Xn P X 1 P 1 akan ditunjukkan bahwa , jika Yn Y Yn Y
P Yn 0 P Y 0 0 untuk setiap n. Akan ditunjukkan bahwa jika fungsi f y kontinu di Y yang bernilai riil dan P P f Y . Diketahui f fungsi kontinu bernilai riil Yn Y maka f Yn
sehingga f Yn dan f Y variabel random dan diketahui juga bahwa f y kontinu di Y yang berarti bahwa untuk setiap 0 , terdapat 0 sedemikian hingga Yn Y berakibat f Yn f Y . Karena f Yn dan f Y variabel
random berakibat:
P f Yn f Y P Yn Y . P Diketahui Yn Y , maka untuk setiap 0 ,
lim P f Yn f Y lim P Yn Y 1 , n n sehingga terbukti bahwa
untuk setiap n maka
P f Yn f Y . Karena P Yn 0 P Y 0 1
1 1 P 1 fungsi kontinu dari Yn , sehingga . Yn Yn Y
Menurut Bain (1992) maka
Xn P X . Yn Y
9
Teorema 2.2.1 (Subanar, 2013). Bila X variabel random tak negatif dan andaikan a>0 maka P X a
EX a
.
Bukti:
Karena X 0 maka E X x f x dx . 0
E X x f x dx 0 a
0
a
x f x dx x f x dx
x f x dx a
a f x dx a
a f x dx a
a P X a , sehingga E X a P X a atau P X a
EX a
.
Teorema 2.2.2 (Subanar, 2013). Bila X variabel random dengan E(X) = μ, var(X) = σ2 maka untuk setiap 0, P X 2 . 2
Bukti: Misalkan w X , w 0 , didapatkan E w E X 2 . 2
2
Menurut teorema 2.2.1,
P w2
E w
2
P X 2 2
P X
2
2
2
2 .
8
2.2 Definisi dan Teorema yang Terkait Berikut diberikan definisi-definisi dan teorema-teorema yang terkait dalam tesis, yaitu: Definisi 2.2.1 (Bain, 1992). Momen ke-n dari variabel random x adalah
k E xn x n f x dx .
(2.2)
Definisi 2.2.2 (Bain, 1992). Variansi dari suatu variabel random kontinu x adalah 2 var x E x .
(2.3)
Definisi 2.2.3 (Wand dan Jones, 1995). Bias dari estimator fungsi kepadatan f(x) adalah
bias fˆ x E fˆ x f x .
(2.4)
Definisi 2.2.4 (Wand dan Jones, 1995). Andaikan x suatu variabel random kontinu nilai MSE dari estimator fungsi kepadatan f(x) adalah MSE fˆ x = Var fˆ x + Bias2 fˆ x .
(2.5)
Definisi 2.2.5 (Wand dan Jones, 1995). Andaikan an dan bn adalah barisan suatu fungsi, a.
an O bn jika lim
an M, M 0 bn
b.
an o bn jika lim
an 0 bn
c.
a an ~ bn jika lim n 1 . n b n
n
n
BAB II LANDASAN TEORI
2.1 Ide Dasar Smoothing Salah satu pendekatan dalam regresi yang sering digunakan adalah regresi nonparametrik. Pendekatan ini digunakan untuk data yang tidak diketahui bentuk kurva atau fungsi regresinya. Andaikan fungsi tersebut adalah fungsi r. Dalam hal ini diasumsikan bahwa fungsi r termuat dalam kelas fungsi kontinu mulus di dekat persekitaran x. Terdapat berbagai macam teknik yang dapat digunakan untuk mendapatkan estimasi dari fungsi r(x) tersebut. Teknik yang paling sederhana untuk mengestimasi kurva atau fungsi regresi r(x) adalah melalui rata-rata dari variabel response Y yang dekat dengan titik x biasa disebut local average (rata-rata lokal). Rata-rata lokal hanya didefinisikan pada pengamatan yang dekat dengan x. Misalkan kita ingin mengestimasi fungsi r(x) untuk beberapa x∈[0,1]. Jika r adalah fungsi yang kontinu, maka nilai-nilai fungsi pada Xi yang dekat dengan x seharusnya akan cukup dekat dengan r(x). Hal ini memberikan usulan bahwa merata-rata nilai Yi yang bersesuaian dengan Xi yang dekat dengan x akan menghasilkan estimator tak bias untuk fungsi r(x). Rata-rata lokal merupakan ide dasar dari teknik smoothing. Pada teknik smoothing ini, rerata sederhana di atas digantikan dengan jumlahan berbobot. Biasanya bobot yang lebih besar diberikan pada Yi yang nilai Xi nya mendekati titik estimasi x.
Secara umum prosedur tersebut dapat didefinisikan sebagai
berikut: rˆ x
dengan
W
ni
x i 1
variabel prediktor
n
1 n Wni x Yi , n i 1
(2.1)
adalah barisan dari bobot yang bergantung pada seluruh
X
n
i
i 1
.
7
6
1.6 Sistematika Penulisan BAB I PENDAHULUAN : Pada bab ini membahas tentang latar belakang dan permasalahan, tujuan dan manfaat penelitian, tinjauan pustaka, metodologi penelitian, dan sistematika penulisan. BAB II LANDASAN TEORI : Pada bab ini membahas tentang ide dasar smoothing, definisi dan teorema statistika yang terkait, estimasi densitas kernel untuk kernel berorder dua, estimasi densitas kernel untuk kernel berorder tinggi, estimator Nadaraya-Watson. BAB III PEMBAHASAN : Pada bab ini akan dijelaskan contoh fungsi kernel berorder tak hingga, dan juga akan dipaparkan mengenai performance
dari
pembilang dan penyebut estimator Nadaraya-Watson dengan kelas kernel baru tersebut serta kekonsistenan dan distribusinya secara asimtotis. BAB IV STUDI KASUS : Pada bab ini akan dilakukan studi kasus dari data rata-rata volume air sungai di Indonesia yang pengalirannya lebih dari 1000 km2 dengan program R kemudian dibandingkan performance antara estimator Nadaraya-Watson kernel order tak hingga dengan kernel order berhingga dari grafik maupun nilai MSEnya. BAB V KESIMPULAN DAN SARAN : Bab ini berisi pembahasan mengenai kesimpulan yang diperoleh dari bab-bab sebelumnya dan saran untuk penelitian selanjutnya berdasarkan apa yang telah dibahas pada bab-bab sebelumnya.
5
Order Flat-Top Kernels juga menguji sifat-sifat asimtotik kernel, namun menggunakan kelas kernel yang baru yaitu kernel dengan order yang tak hingga (infinite) menggunakan estimator Gasser-Muller. Penelitian yang hampir serupa juga pernah diteliti oleh Timothy L McMurry dan Dimitris N Politis (2008) dalam jurnalnya yang berjudul Minimally Biased Nonparametric Regression and Autoregressseion. Dalam jurnalnya tersebut Timothy dan Dimitris membahas mengenai bias regresi dan autoregresi nonparametrik secara minimal dengan menggunakan kelas kernel yang baru yaitu kernel dengan order tak hingga, namum dalam tesis ini penulis hanya akan membahas mengenai regresi nonparametrik dengan menggunakan kelas kernel yang baru yaitu kernel dengan infinite order, dimana kernel tersebut dapat secara otomatis dapat mereduksi bias estimator r menjadi O(hk) tanpa peduli berapa kali turunan kontinunya.
1.5 Metode Penelitian Metodologi yang digunakan dalam penelitian ini adalah studi literatur. Langkah-langkah yang dilakukan penulis adalah sebagai berikut: 1.
Mencari dan menentukan jurnal yang akan dijadikan bahan acuan.
2.
Mengumpulkan jurnal-jurnal lain yang relevan dengan materi dalam jurnal acuan.
3.
Mempelajari
buku-buku
pendukung
yang
berkaitan
dengan
topik
permasalahan penelitian. 4.
Mempelajari dan membahas topik penelitian yang meliputi: teori regresi nonparametrik, ide dasar smoothing, estimator kernel, estimasi fungsi dalam regresi nonparametrik, sifat-sifat fungsi kernel, estimasi densitas kernel, fungsi estimator Nadaraya Watson, kernel dengan infinite order.
5.
Mempelajari performance (bias dan variansi) dari pembilang dan penyebut estimator Nadaraya-Watson dengan infinite order kernel serta melakukan simulasi dengan software R.
6.
Menyusun laporan penelitian sesuai dengan buku petunjuk penulisan tesis yang diberlakukan.
4
3.
Melakukan studi kasus dari data rata-rata volume air sungai di Indonesia yang pengalirannya lebih dari 1000 km2 melalui teknik pemulus kernel menggunakan estimator Nadaraya-Watson kernel berorder berhingga dan tak hingga dengan menggunakan program R.
4.
Membandingkan performance antara estimator Nadaraya-Watson kernel berorder berhingga dengan tak hingga dilihat dari grafik dan nilai MSE.
1.3 Manfaat Penelitian Manfaat yang diharapkan diperoleh dari penulisan tesis ini adalah: 1.
Bagi penulis diharapkan dapat menambah pemahaman mengenai sifat-sifat asimtotis dari estimator Nadaraya-Watson dengan kelas baru kernelnya.
2.
Dapat memberikan sumbangan terhadap perkembangan ilmu pengetahuan dan menambah wawasan pengetahuan dalam bidang statistika terutama dalam mencari estimasi fungsi densitas dari regresi nonprametrik dengan teknik smoothing, dan dalam memahami sifat-sifat estimator Nadaraya-Watson dengan kelas kernel baru secara asimtotis.
3.
Bagi pembaca sebagai motivasi untuk mengembangkan penemuan baru dalam mengestimasi fungsi dalam regresi nonparametrik dengan teknik smoothing.
1.4 Tinjauan Pustaka Dalam jurnalnya Kernel Estimators of Regression Function, Bierens (1985) meneliti mengenai bagaimana cara menetapkan fungsi kernel dan juga cara pemilihan bandwidth. Selain itu, dalam jurnalnya tersebut Bierens juga membahas mengenai sifat-sifat asimtotik dari estimator Nadaraya-Watson dengan kernel yang mempunyai finite order. Sedangkan Jianqing Fan (2007) dalam jurnalnya yang berjudul Design Adaptive Nonparametric Regression membahas mengenai performance diantara dua metode smoothing yaitu lokal linear dan juga kernel. Estimator kernel yang digunakan oleh Jianqing Fan adalah estimator Gasser Muller dan juga Nadaraya-Watson. Timothy L McMurry dan Dimitris N Politis (2003) dalam jurnalnya yang berjudul Nonparametric Regression with Infinite
3
Sedangkan kernel K berfungsi sebagai bobot yang ikut menentukan kemulusan fungsi r, ketepatan pemulus kernel sebagai estimator, dan juga dalam menentukan performance (bias, variansi dan MSE) yang optimal secara asimtotik. Menurut Timothy dan Dimitris (2003) jika kernel K mempunyai order v dan fungsi kepadatan r mempunyai turunan kontinu sebanyak k kali maka Bias ( rˆ x ) = CK,r(x) hn + o(hn)
(1.3)
Dimana n=min{v,k} dan CK,r(x) adalah fungsi terbatas yang bergantung pada K, r, dan turunan fungsi r. Ketika fungsi r cukup mulus atau dapat dideferensialkan sebanyak k kali dimana v ≥ k, maka bias rˆ x dapat direduksi menjadi o(hk) dengan secara tepat memilih kernel dengan order yang lebih besar dari banyaknya diferensial. Namun untuk mengestimasi jumlah diferensial dari fungsi r tidaklah mudah, sehingga kita kesulitan untuk menentukan order kernel berapakah yang harus dipilih agar bias estimator tersebut dapat direduksi menjadi o(hk). Oleh karena itu ditetapkan suatu kernel yang memiliki “infinite order”. Kernel tersebut mampu mereduksi bias rˆ x dari o(hn) menjadi o(hk) tidak peduli berapa besar k. Dalam tesis ini akan dicari performance (bias, variansi) dari penyebut dan pembilang estimator Nadaraya –Watson menggunakan kernel berorder tak hingga kemudian mencari sifat-sifat dari estimator tersebut secara asimtotik baik distribusinya maupun kekonsistenannya. Kemudian dibandingkan performance dari kernel berorder tak hingga dengan kernel berorder berhingga menggunakan program R dengan membandingkan nilai MSE dari masing-masing kernel.
1.2 Tujuan Penelitian Berdasarkan apa yang telah diuraikan pada latar belakang di atas maka tujuan dari penulisan tesis ini adalah: 1.
Mencari performance (bias dan variansi) dari pembilang dan penyebut estimator Nadaraya-Watson dengan kelas baru kernel yaitu infinite order Kernel secara asimtotik.
2.
Menyelidiki kekonsistenan dan distribusi dari estimator Nadaraya-Watson dengan kelas baru kernel secara asimtotik.
2
masing-masing
metode
tersebut,
fungsi
r(Xi)
akan
diestimasi
dengan
menggunakan rata-rata bobot lokal yang mendekati x. Kemulusan fungsi r(Xi) dan sifat-sifat dari bobot yang digunakan dalam rata-rata tersebut menentukan performance dari estimator. Menurut Hardle (1990) estimator Nadaraya-Watson didefinisikan sebagai berikut: 1 n x Xi Yi K nh i 1 h rˆ x 1 n x Xk K nh k 1 h
(1.2)
dengan K(x) adalah fungsi kernel yang digunakan sebagai pembobot, sedangkan h (bandwidth) adalah parameter yang digunakan sebagai pemulus. Penyebut dari estimator di atas biasa kita sebut sebagai estimator densitas kernel atau biasa disimbolkan dengan fˆh x . Menurut Hardle (1994) ketepatan suatu pemulus kernel sebagai estimator dari r ditentukan oleh dua hal yaitu bandwidth dan fungsi kernel yang digunakan sebagai bobot. Bandwidth h pada estimator di atas berfungsi untuk menyeimbangkan antara bias dan variansi dari fungsi tersebut. Bandwidth yang terlalu kecil akan menyebabkan fungsi yang diestimasi tersebut menjadi sangat kasar sehingga hubungan variansinya tinggi dan memiliki potensi bias yang rendah. Sebaliknya jika bandwidth yang terlalu besar menyebabkan fungsi yang diestimasi akan sangat mulus sehingga hubungan variansinya rendah dan memiliki potensi bias yang besar. Oleh karena itu diperlukan pemilihan bandwidth yang optimum. Cross validation, plug-in adalah beberapa metode yang digunakan untuk mendapatkan bandwidth yang optimum. Pemilihan bandwidth yang optimum dilakukan dengan cara memperkecil tingkat kesalahan. Semakin kecil tingkat kesalahannya semakin baik estimasinya. Untuk mengetahui ukuran tingkat kesalahan suatu estimator dapat dilihat dari MSE (Mean Squared Error) atau MISE (Mean Integrated Squared Error).
BAB I PENDAHULUAN
1.1 Latar Belakang Masalah Analisis regresi merupakan metode analisis data yang menggambarkan hubungan antara variabel respon dengan satu atau beberapa variabel prediktor. Analisis regresi tersebut dirancang untuk keadaan dimana variabel respon diperkirakan memiliki hubungan dengan variabel-variabel prediktor lainnya. Andaikan terdapat n pengamatan pasangan X1 , Y1 , X 2 , Y2 ,
, X n , Yn sampel
dengan Xi adalah variabel prediktor dan Yi adalah variabel respon, maka hubungan linear antara variabel respon dengan variabel prediktor yang memenuhi model di bawah ini: Yi = r(Xi) + εi,
(1.1)
dapat dicari. Dimana εi adalah random error dengan asumsi independen, E(εi)=0 dan Var(εi)=σ2, dan r(Xi) adalah fungsi regresi yang tidak diketahui dan akan diestimasi. Dalam hal ini fungsi r(Xi) diasumsikan kontinu dan mempunyai tingkat kemulusan tertentu. Ada dua jenis pendekatan yang digunakan untuk mengestimasi fungsi regresi r(Xi) yaitu secara parametrik maupun nonparametrik. Pendekatan parametrik dilakukan jika ada asumsi tentang bentuk fungsi regresi r(Xi) mengenai hubungan antara
variabel
respon
dan
variabel
prediktor,
sedangkan
pendekatan
nonparametrik dilakukan jika tidak ada asumsi tentang bentuk fungsi regresi r(Xi) dan akan diestimasi berdasarkan data pengamatan dengan menggunakan teknik smoothing. Dalam hal ini, kurva regresi diasumsikan termuat dalam suatu fungsi mulus yang mempunyai turunan yang kontinu. Ada berbagai macam teknik smoothing yang digunakan dalam pendekatan nonparametrik antara lain histogram, estimator kernel, deret orthogonal, estimator spline, k-NN, deret fourier, dan wavelet. Dan salah satu teknik yang akan digunakan dalam tesis ini adalah estimator kernel. Menurut Timothy dan Dimitris (2008) ada berbagai macam estimator kernel antara lain yang diusulkan oleh Nadaraya dan Watson, Gaseer dan Muller, dan estimator lokal polinomial. Pada
1
ABSTRACT NADARAYA WATSON REGRESSION ESTIMATION WITH INFINITE ORDER KERNEL
by
Maria Suci Apriani 11/321856/PPA/03510
The function estimation of r(Xi) in linier regretion which is drawn near with nonparametric approach is done if there is no assumption about regretion function form of
r(Xi). One of techniques used is smoothing technique with kernel.
Function of rˆ x can be reduced to be o(hk) with choosing the kernel that has the bigger order from the amount of differensial number. Therefore, a kernel which has “infinite order” can be determined. Keywords: non-parametric regression, Fourier transformation, Taylor series.
xiii
INTISARI
ESTIMASI REGRESI NADARAYA-WATSON DENGAN KERNEL BERORDER TAK HINGGA
Oleh
Maria Suci Apriani 11/321856/PPA/03510
Estimasi fungsi r(Xi) dalam regresi linear yang didekati dengan pendekatan nonparametrik dilakukan jika tidak ada asumsi tentang bentuk fungsi regresi r(Xi). Salah satu teknik yang digunakan adalah teknik penghalusan dengan kernel. Bias rˆ x dapat direduksi menjadi o(hk) dengan memilih kernel yang memiliki order lebih besar dari banyaknya diferensial. Sehingga ditetapkan suatu kernel yang memiliki “infinite order”.
Kata kunci: Regresi nonparametrik, transformasi Fourier, deret Taylor
xii
DAFTAR LAMPIRAN Halaman Lampiran 1.
Data Rata-rata Air Sungai di Indonesia yang Pengalirannya Lebih dari 1000 km2 ..........................................................
58
Lampiran 2.
Hasil Estimasi .....................................................................
62
Lampiran 3.
Grafik Hasil Estimasi ..........................................................
76
Lampiran 4.
Grafik MSE ... .....................................................................
81
Lampiran 5.
Program Estimasi ................................................................
83
Lampiran 6.
Program MSE .....................................................................
89
xi
DAFTAR TABEL
Halaman Tabel 4.1 Nilai-nilai MSE ........................................................................
x
50
DAFTAR GAMBAR
Halaman Gambar 2.1 Grafik jenis-jenis Kernel
.....................................................
Gambar 2.2 Grafik estimasi dengan Ksmooth
14
.........................................
21
Gambar 3.1 Grafik Kernel Sinus ..............................................................
24
Gambar 3.2 Grafik Kernel Cosinus ..........................................................
25
Gambar 4.1 Grafik estimasi dengan kelipatan nilai x sebesar 0.1 ..............
46
Gambar 4.2 Grafik estimasi dengan kelipatan nilai x sebesar 0.3 ..............
47
Gambar 4.3 Grafik estimasi dengan kelipatan nilai x sebesar 0.5 ..............
48
Gambar 4.4 Grafik estimasi dengan kelipatan nilai x sebesar 0.7 ..............
49
Gambar 4.5 Grafik MSE ..........................................................................
53
ix
5.2
Saran .............................................................................
56
DAFTAR PUSTAKA ................................................................................. LAMPIRAN ................................................................................................
57 58
viii
DAFTAR ISI
Halaman HALAMAN JUDUL .................................................................................. i HALAMAN PENGESAHAN .................................................................... ii HALAMAN PERNYATAAN ................................................................... iii HALAMAN PERSEMBAHAN ................................................................. iv PRAKATA .................................................................................................. v DAFTAR ISI. .............................................................................................. vii DAFTAR GAMBAR .................................................................................. ix DAFTAR TABEL ....................................................................................... x DAFTAR LAMPIRAN ............................................................................... xi INTISARI.................................................................................................... xii ABSTRACT ................................................................................................ xiii BAB I
PENDAHULUAN .................................................................... 1.1 Latar Belakang ............................................................. 1.2 Tujuan Penelitian .......................................................... 1.3 Manfaat Penelitian ........................................................ 1.4 Tinjauan Pustaka .......................................................... 1.5 Metode Penelitian ......................................................... 1.6 Sistematika Penulisan ...................................................
1 1 3 4 4 5 6
BAB II
LANDASAN TEORI ............................................................... 2.1 Ide Dasar Smoothing .................................................... 2.2 Definisi dan Teorema yang Terkait .............................. 2.3 Estimasi Densitas Kernel untuk Kernel Berorder Dua ................................................................ 2.4 Estimasi Densitas Kernel untuk Kernel Berorder Tinggi ............................................................ 2.5 Estimator Nadaraya Watson .........................................
7 7 8
BAB III
BAB IV
BAB V
12 17 19
ESTIMASI NADARAYA-WATSON DENGAN KERNEL ORDER TAK HINGGA ........................................................................
22
3.1 3.2
22
Kernel dengan Order Tak Hingga................................. Sifat Asimtotik Estimator Nadaraya Watson dengan Kernel Berorder Tak Hingga............................
26
STUDI KASUS 4.1 Informasi Data .............................................................. 4.2 Pengolahan Data dengan Program R ............................
44 45
PENUTUP 5.1 Kesimpulan ...................................................................
55
vii
7.
Agustinus Hary Setyawan yang tidak jemu-jemunya memberikan doa dan semangat untuk penulis terutama ketika penulis merasa putus asa.
8.
Saudara-saudaraku di keluarga Bintaran, Mas Adven, Mas Hayom, Mb Nova, Mb Indu, Venti, Sella dan Anggit yang selalu memberikan dukungan doa bagi penulis.
9.
Cita Murti Pramaeswari yang memberikan dukungan dan semangat selama proses pengerjaan tesis dan sidang.
10. Teman-teman seperjuangan, Pak Aris, Kak Sri, Kak Bobby, Mba Endang, Kak Sadri, Sita, Arum, Kak Yani, Tika, Dian Ayu, Andre dan Dian Pratama yang selalu memberikan keceriaan selama berjuang di UGM. 11. Rekan-rekan mahasiswa S2 matematika khususnya minat statistik angkatan 2011 yang menjadi tempat diskusi dan belajar bersama. 12. Semua pihak yang telah membantu baik secara langsung maupun tidak langsung yang tidak dapat penulis sebutkan satu persatu dalam tesis ini. Dengan segala keterbatasan penulis yang sifatnya manusia maka penulis sangat menyadari bahwa tesis ini masih jauh dari kesempurnaan, karena kesempurnaan hanyalah milik Sang Maha Sempurna. Oleh karena itu saran dan kritik yang sifatnya membangun sangat penulis harapkan. Akhir kata semoga tesis ini bisa membawa manfaat khususnya kepada penulis sendiri dan kepada pembaca pada umumnya.
Yogyakarta, Maret 2014
Penulis
vi