ANALISIS REGRESI PADA DATA OUTLIER DENGAN MENGGUNAKAN LEAST TRIMMED SQUARE (LTS) DAN MM-ESTIMASI
Heru Nurcahyadi
PROGRAM STUDI MATEMATIKA FAKULTAS SAINS DAN TEKNOLOGI UNIVERSITAS ISLAM NEGERI SYARIF HIDAYATULLAH JAKARTA 2010 M / 1432 H
PENGESAHAN UJIAN Skripsi berjudul “Analisis Regresi pada Data Outlier dengan Menggunkan Least Trimmed Square (LTS) dan MM-Estimasi” yang ditulis oleh Heru Nurcahyadi, NIM 105094003092 telah diuji dan dinyatakan lulus dalam sidang Munaqosyah Fakultas Sains dan Teknologi Universitas Islam Negeri Syarif Hidayatullah Jakarta pada tanggal 19 Mei 2009. Skripsi ini telah diterima sebagai salah satu satu syarat untuk memperoleh gelar sarjana strata satu (S1) Program Studi Matematika.
Menyetujui :
Penguji 1,
Penguji 2,
Yanne Irene, M.Si NIP. 19741231 2005012 018
Gustina Elfiyanti, M.Si NIP. 19820820 200901 2006
Pembimbing 1,
Pembimbing 2,
Summa’inna, M.Si NIP. 150 408 699
Bambang Ruswandi, M.Stat NIP. 0305 108 301
Mengetahui :
Dekan Fakultas Sains dan Teknologi
Ketua Program Studi Matematika,
DR. Syopiansyah Jaya Putra, M.Sis NIP. 19680117 200112 1 001
Yanne Irene, M.Si NIP. 19741231 2005012 018
ii
PERSEMBAHAN
Skripsi ini aku persembahkan untuk kedua orang tuaku, keluarga besarku, dan keluarga besar Prodi Matematika MOTTO
‘Karena sesungguhnya sesudah kesulitan itu ada kemudahan, dan sesungguhnya sesudah kesulitan itu ada kemudahan. Maka apabila kamu telah selesai (dari sesuatu urusan), kerjakanlah dengan sungguh-sungguh (urusan) yang lain, dan hanya kepada Tuhanmulah kamu berharap.’ (QS. Alam Nasyrah ayat 5-8) “pelajarilah ilmu Barang siapa mempelajarinya karena ALLAH, itu Taqwa. Menuntutnya, itu Ibadah. Mengulang-ngulangnya, itu Tasbih. Membahasnya, itu Jihad. Mengajarkannya kepada orang yang tidak tahu, itu Sedekah. Memberikannya kepada ahlinya, itu mendekatkan diri kepada ALLAH.” (Muhammad bin Muhammad al-Ghazali).
PERNYATAAN
DENGAN INI SAYA MENYATAKAN BAHWA SKRIPSI INI BENARBENAR HASIL KARYA SENDIRI YANG BELUM PERNAH DIAJUKAN SEBAGAI SKRIPSI ATAU KARYA ILMIAH PADA PERGURUAN TINGGI ATAU LEMBAGA MANAPUN.
Jakarta, 15 Desember 2010
Heru Nurcahyadi 105094003092
iii
ABSTRACT
Regression analysis is a statistical methodology that describes the relationship of independent variables and the dependent variable. From the relationship it established a model that can be used to predict the value of the dependent variable using the dependent variable. The resulting model is derived from the method of least square (LS), which must satisfy some assumptions. With the existence of a data which is not similar to most other data, called outliers, then the LS method using the resulting regression model did not meet the assumptions and regression models did not fit with the data. Outlier on the x-direction is called leverage can be detected by using the h-hat matrix, while the y-direction is called discrepancies can be detected by using the externally studentized residual, and the influence can be detected by using DFFITS and COOK'SD. method of least trimmed square (LTS) to produce regression models that fit to the data even though half of the data is outlier data, because it has a high value of breakdown point that is 50%. Other robust methods that have a breakdown point of 50% is MM-Estimate that use the S-Estimated initial iteration. LTS model is very good at simple regression analysis compared with MM-estimation seen from the estimated residual scale. While the multiple regression analysis of MM-Estimation is better when compared with the LTS seen from the estimated residual scale. Keywords: least square (LS), outlier, leverage, h-hat matrix, discrepancies, externally studentized residual, value influences, DFFITS, COOK'SD, least trimmed square (LTS), breakdown point, robust method, MM-estimation, S-estimation.
vi
ABSTRAK Analisis regresi adalah metodologi statistika yang menggambarkan hubungan atau pengaruh dari varibel independen dan variable dependen. Dari hubungan itu dibentuk suatu model yang bisa digunakan untuk memprediksikan nilai variable dependen dengan menggunakan variable dependen. Model yang dihasilkan diturunkan dari metode least square (LS), yang harus memenuhi beberapa asumsi. Dengan adanya suatu data yang tidak sejenis dengan sebagian data yang lain, yang disebut outlier, maka penggunaan metode LS model regresi yang dihasilkan tidak memenuhi asumsinya dan model regresinya tidak fit dengan data. Outlier pada arah-x disebut leverage dapat dideteksi dengan menggunakan h-hat matrik, sedangkan pada arah-y disebut discrepancy dapat dideteksi dengan menggunakan externally studentized residual, dan nilai influence dapat dideteksi dengan menggunakan DFFITS dan COOK’SD. metode least trimmed square (LTS) dapat menghasilkan model regresi yang fit terhadap data walaupun setengah dari datanya merupakan data outlier, karena mempunyai nilai breakdown point yang tinggi yaitu 50%. Metode robust yang lain yang mempunyai breakdown point 50% adalah MM-Estimasi yang menggunkan iterasi awal S-Estimasi. Model LTS sangat baik pada analisi regresi sederhana dibandingkan MM-estimasi dilihat dari estimasi skala residualnya. Sedangkan pada analisis regresi berganda MM-estimasi lebih baik jika dibandingkan dengan LTS dilihat dari estimasi skala residualnya. Kata kunci: least square (LS), Outlier, leverage, h-hat matrik, discrepancy, externally studentized residual, DFFITS, COOK’SD, least trimmed square (LTS), breakdown point, metode robust, MM-Estimasi, S-Estimasi.
v
KATA PENGANTAR
بسم هللا اار حمن اار حيم Assalamu’alaikum Wr. Wb. Puji syukur kehadirat Allah SWT yang telah memberi rahmat dan karuniaNya sehingga penulis dapat menyelesaikan skripsi ini. Shalawat serta salam tak lupa disampaikan kepada Nabi Muhammad SAW. Skripsi ini adalah syarat kelulusan yang harus ditempuh dalam menyelesaikan pendidikan sarjana strata satu Program Studi Matematika Fakultas Sains dan Teknologi Universitas Islam Negeri Syarif Hidayatullah Jakarta. Kami mengucapkan terima kasih kepada para pihak yang telah banyak membantu dalam penyelesaian skripsi ini, di antaranya : 1. Dr. Syopiansyah Jaya Putra, M.Sis, Dekan Fakultas Sains dan Teknologi . 2. Yanne Irene, M.Si, sebagai Ketua Program Studi Matematika dan dosen penguji I. 3. Suma’inna, M.Si, Sekretaris Program Studi Matematika dan dosen Pembimbing I. 4. Bambang Ruswandi, M.Stat, dosen pembimbing II 5. Seluruh dosen Prodi Matematika yang telah memberikan ilmu-ilmu yang sangat bermanfaat bagi penulis. 6. Seluruh civitas akademika Fakultas Sains dan Teknologi atas bantuannya dalam bidang administrasi.
vii
7. Kedua orang tuaku: H. Ahyad dan Hj. Nurhayati, adikku: Herwin Adriyan, dan keluargaku yang senantiasa mendoakan dan memberikan semangat selalu pada penulis dalam penyelesaian skripsi ini. 8. Pamanku, Sersan Satu Unang Sunarya dan keluarganya yang telah banyak mendorong dan membantu dalam penyelesaian skripsi ini. 9. Mukhlis, Dede Kurniawan, Syakur, dan Perdy atas persahabatannya selama ini, semoga selalu kekal hingga akhir waktu. 10. Seluruh teman-teman angkatan 2004, 2005, 2006, 2007, dan 2008 semoga Allah tetap mengekalkan ukhuwah kita. Kritik dan saran sangat kami harapkan demi penyempurnaan skripsi. Mohon maaf bila ada kekurangan. Semoga skripsi ini dapat bermanfaat bagi para pembaca, khususnya bagi penulis pribadi. Wassalamu’alaikum Wr.Wb.
Jakarta, 15 Desember 2010
Penulis
viii
DAFTAR ISI
HALAMAN JUDUL
..............................................................................
i
PENGESAHAN UJIAN ......................................................................... .
ii
PERNYATAAN .......................................................................................
iii
PERSEMBAHAN DAN MOTTO ............................................................
iv
ABSTRAK ...............................................................................................
v
ABSTRACT .............................................................................................
vi
KATA PENGANTAR
...........................................................................
vii
DAFTAR ISI ...........................................................................................
ix
DAFTAR TABEL
xi
..................................................................................
DAFTAR GAMBAR .................................................................................
xiii
DAFTAR LAMPIRAN ........................................................................... .
xiv
BAB I.
PENDAHULUAN .....................................................................
1
1.1. Latar Belakang ...................................................................
1
1.2. Permasalahan......................................................................
4
1.3. Pembatasan Masalah ..........................................................
4
1.4. Tujuan Penulisan ................................................................
5
1.5. Manfaat Penulisan ..............................................................
5
BAB II. LANDASAN TEORI .................................................................
6
2.1. Model Persamaan Regresi Linear…………………………
6
2.2. Outlier Dalam Regresi: Sumber, Jenis danDeteksi Outlier…
11
2.3. Robust Estimasi…………………………………………...
26
ix
BAB III. ROBUST ESTIMASI PADA REGRESI ...................................
37
3.1. Least Trimmed Square .......................................................
37
3.2. MM-Estimasi .....................................................................
45
BAB IV. APLIKASI MODEL ..................................................................
52
4.1. Aplikasi pada Regresi Sederhana .......................................
52
4.2. Aplikasi pada Regresi Berganda ........................................
60
BAB V. KESIMPULAN DAN SARAN ..................................................
65
5.1. Kesimpulan ........................................................................
65
5.2. Saran ...................................................................................
61
REFERENSI ............................................................................................
67
LAMPIRAN ..............................................................................................
68
x
DAFTAR GAMBAR
Gambar 2.1 : Model Regresi Linear Sederhana .................................................
7
Gambar 2.2 : Garis Least Square .......................................................................
9
Gambar 2.3 : Outlier pada Arah-y ...................................................................
14
Gambar 2.4 : Outlier pada Arah-x ...................................................................
15
Gambar 2.5 : Outlier pada (xk,yk) ….. .............................................................
16
Gambar 2.6 : Fungsi Huber ..............................................................................
25
Gambar 2.7 : Fungsi Bisquare ........................................................................
31
Gambar 4.1 : Plot Leverage ... .........................................................................
53
Gambar 4.2 : Scatterplot dan Garis Least Square ...........................................
56
Gambar 4.3 : Distribusi Normal Residual Data Pensiunan ..............................
56
Gambar 4.4 : Garis Least Trimmed Square Data Pensiunan ............................
57
Gambar 4.5 : Garis MM-Estimasi Data Pensiunan ..........................................
59
Gambar 4.6 : Distribusi Normal Data Table (4.5) ...........................................
62
xiii
DAFTAR TABEL
Tabel 3.3.1: Efisiensi Asimptotik S-Estimator................................................
51
Tabel 4.1 : dana pensiunan ...........................................................................
52
Tabel 4.2 : pemeriksaan data outlier pada arah-x dana pensiunan ................
53
Tabel 4.3 : pemeriksaan data outlier pada arah-y dana pensiunan ................
54
Tabel 4.4 : Perbandingan LS, LTS, MM-Estimasi Dana Pensiunan .............
59
Tabel 4.5 : Data Survival Time .....................................................................
60
Tabel 4.6 : pemeriksaan data outlier pada data table 4.5 . ............................
62
Tabel 4.7 : Perbandingan LS, LTS, MM-Estimasi data tabel 4.5 .................
64
xi
DAFTAR LAMPIRAN
Lampiran 1 : Data Dana Pensiunan .................................................................
68
Lampiran 2 : Pemeriksaan Data Outlier pada Arah-x Dana Pensiunan ..........
68
Lampiran 3 : Pemeriksaan Data Outlier pada Arah-y Dana Pensiunan ..........
69
Lampiran 4 : Data Survival Time ....................................................................
70
Lampiran 5 : Pemeriksaan Leverage Data Survival Time ….. ........................
71
Lampiran 6 : Pemeriksaan Discrepancy Data Survival Time ….....................
72
Lampiran 7 : Pemeriksaan Nilai Influence Data Survival Time ….. ...............
73
xiv
BAB I PENDAHULUAN
1.1
Latar Belakang Model matematik dalam statistika merupakan penyederhanaan dari realitas
atau permasalahan yang diteliti oleh statistikawan. Oleh karena itu, diperlukan asumsi-asumsi agar model tersebut dapat menggambarkan permasalahannya. Selain itu, asumsi diperlukan agar dapat merumuskan apa yang statistikawan ketahui atau terka (conjectures) mengenai penganalisisan data atau masalah permodelan statistik yang dihadapinya, dan pada saat yang bersamaan asumsi diperlukan agar model yang dihasilkan dapat memudahkan (manageable) dalam sudut pandang teoritik dan komputasinya. Salah satu asumsi yang paling banyak ditemukan dalam satatistik adalah asumsi kenormalan, yang telah ada selama 2 abad, asumsi kenormalan menjadi kerangka berpikir dalam semua metode statistik inferensi, yaitu: Regresi, analisis variansi, analisis multivarit, model runtun waktu dan lain-lain. Bahkan terdapat justifikasi untuk asumsi kenormalan dengan argumen teori yaitu teorema limit pusat. Sering kali dalam prakteknya asumsi kenormalan terpenuhi secara aproksimasi pada sebagian besar data observasi. Bahkan, beberapa observasi berbeda pola atau bahkan tidak berpola mengikuti distribusi normal. Hal ini dikarenakan observasi yang “tidak normal”, observasi yang terpisah dari obsevasiobservasi lainnya yang dikenal dengan data outlier. Dengan data outlier asumsi kenormalan seringkali tidak terpenuhi, walupun jumlah data cukup besar.
1
Sehingga statistikawan kemungkinan melakukan kesalahan dalam memodelkan suatu fenomena dengan adanya kehadiran data outlier. Oleh karena itu, diperlukan metode yang bisa mengatasi masalah tersebut. Dalam mengatasi data outlier harus dilihat dari sumber munculnya data yang menjadi outlier tersebut. Outlier mungkin ada karena adanya data terkontaminasi, yaitu adanya kesalahan pada saat melakukan pengambilan sampel pada populasi. Outlier yang disebabkan oleh data terkontaminasi dapat dihapuskan dari data penelitian atau jika memungkinkan dilakukan sampling ulang. Akan tetapi, jika setelah melakukan beberapa kali sampling ulang namun data outlier tetap muncul maka data tersebut jangan dihapuskan dari data penelitian, karena analisis data yang dihasilkan akan tidak mencerminkan populasi yang diteliti. Outlier pada kasus tersebut digolongkan pada kasus yang jarang. Untuk mengatasinya diperlukan metode lain supaya analisis data dengan hadirnya data outlier tetap tahan (robust) terhadap asumsi yang diterapkan pada penganalisisan datanya. Metode tersebut dikenal dengan Metode Robust. Metode inilah yang akan jadi penelitain penulis pada tugas akhir ini. Model matematik dalam statistika yang banyak ditemukan dalam berbagai bidang adalah model regresi. Model regresi merupakan suatu model yang menggambarkan hubungan dari variabel dependen dengan variabel-variabel independen, dengan adanya hubungan tersebut diharapkan variabel independen dapat
memprediksikan
nilai-nilai
variabel
dependen.
Model
regresi
mengasumsikan bahwa error dari model tersebut harus berdistribusi normal, bervariansi konstan, dan saling independen antar observasi. Dengan adanya
2
outlier pada data regresi mengakibatkan model regresi tidak memenuhi asumsinya dan model regresi tidak cocok (fit) terhadap data yang akan dimodelkan, karena nilai koefisien dari model regresi tersebut sangat dipengaruhi oleh adanya outlier. Oleh karena itu, model yang dihasilkan tidak dapat digunakan untuk memprediksikan. Sehingga, outlier pada regresi harus diatasi. Salah satu metode guna mengatasi outlier pada regresi adalah metode robust. Metode robust yang akan dipakai pada tugas akhir ini adalah MMEstimasi dan least trimmed square (LTS) merupakan dua metode yang mempunyai nilai breakdown point yang tinggi yaitu hampir 50%. MM-estimasi merupakan metode robust dengan iterasi point estimasi dari model regresi. Dalam MM-estimasi dibutuhkan iterasi awal (initial) dan iterasi akhir (final). LTS merupakan metode dengan pertama-tama menghitung h, banyak data yang menjdikan estimasi Robust, dengan sebelumnya menyusun residual kuadrat dari yang terkecil sampai dengan yang terbesar. Disamping penanganan outlier pada regresi, yang lebih penting adalah pengidentifikasian data yang menjadi outlier. Metode pengidentifikasian yang digunakan pada tugas akhir ini adalah dengan melihat leverage, nilai discrepancy, dan nilai influence-nya. leverage hanya menggambarkan kasus yang terjadi pada variabel independen. Untuk tiap kasus, leverage menginformasikan seberapa jauh kasus tesebut dari nilai mean himpunan data variabel independen. Sedangkan discrepancy merupakan jarak antara nilai prediksi dengan nilai observasi dari variabel dependen (Y), yaitu Y i Yˆi , yang merupakan nilai dari residual, e i . Pada dasarnya, nilai yang menjadi outlier menyebabkan nilai residual menjadi
3
besar dan tidak jatuh pada garis regresi. dan yang terakhir nilai influence merupakan
kombinasi
dari
ukuran
leverage
dan
discrepancy
yang
menginformasikan mengenai bagaimana perubahan dari persamaan regresi jika kasus ke-i dihilangkan dari himpunan data. 1.2
Permasalahan 1.
Bagaimana pengidentifikasian outlier dengan menggunakan leverage, nilai discrepancy, dan nilai influence dari data regresi.
2.
Bagaimana cara mengestimasi nilai-nilai parameter model regresi dengan adanya data outlier dengan menggunakan Least trimmed square (LTS) dan MM-Estimasi pada data regresi tersebut.
3.
Bagaimana perbandingan model regresi yang dihasilkan dengan menggunakan Least trimmed square (LTS) dan MM-Estimasi.
1.3
Pembatasan Masalah Pada skripsi ini, permasalahan akan dibatasi, yaitu sebagai berikut: 1.
Data outlier diasumsikan bukan berasal dari sumber kesalahan sampling, akan tetapi data outlier tersebut merupakan kejadian yang khusus atau jarang.
2.
Pengidentifikasian outlier menggunakan metode h-matriks untuk mengidentifikasi nilai leverage, metode externally studentized residual untuk mengidentifikasi nilai discrepancy, dan metode DFFIT’S dan Cook’sD untuk mengidentifikasi niali influence.
4
3.
Penanganan data outlier pada regresi akan digunakan metode MMEstimasi dan Least Trimmed Square, kemudian perbandingannya hanya dengan melihat estimasi skala residualnya.
4. 1.4
Asumsi regresi yang dipakai hanya asumsi kenormalan.
Tujuan Penulisan 1.
Mengidentifikasikan data outlier dengan menggunakan leverage, nilai discrepancy, dan nilai influence dari data regresi, sehingga diketahui data yang menjadi outlier dari sekumpulan data regresi.
2.
Mengetahui cara mengestimasi nilai-nilai model parameter regresi dengan adanya data outlier dengan menggunakan Least trimmed square (LTS) dan MM-Estimasi pada data regresi.
3.
Membandingkan model regresi yang dihasilkan dengan menggunakan Least trimmed square (LTS) dan MM-Estimasi.
1.5
Manfaat Penulisan 1.
Dapat
mengetahui
cara
pengidentifikasian
outlier
dengan
menggunakan leverage, nilai discrepancy, dan nilai influence dari data regresi. 2.
Dapat mengetahui pengestimasian nilai-nilai model parameter regresi dengan adanya data outlier dengan menggunakan Least trimmed square (LTS) dan MM-Estimasi pada data regresi.
3. Dapat mengetahui perbandingan model regresi yang dihasilkan dengan menggunakan Least trimmed square (LTS) dan MMEstimasi.
5
BAB II LANDASAN TEORI
2.1
Model Persamaan Regresi Linear Analisis regresi merupakan suatu proses pencarian model matematika
terbaik yang cocok dengan data yang menghubungkan variabel dependen (juga biasa disebut respon) dengan variabel independen (prediktor). Bentuk umum model regresi linear adalah:
y E y
2.1
Dengan, y = variabel dependen
E y = ekspektasi dari y.
= random error.
Model regresi di atas tidak mempertimbangkan sejumlah variabel independen (x) yang berkorelasi sangat kuat dengan variabel dependen (y), dengan menggunakan variabel independen maka keakuratan dalam mengestiamsi
E y dapat diperoleh. Sehingga E y dapat diestimasi dengan bentuk persamaan linear, yaitu:
E y 0 1 x
2.2
Dengan model probabilistik, Persamaan 2.2 di atas ditulis dengan:
6
y 0 1 x
2.3
Persamaan 2.3 di atas disebut Model Linear Orde-Pertama atau Model Linear Sederhana, karena hanya terdapat satu variabel independen dengan : y = variabel dependen. x = variabel independen.
E y = 0 1 x = komponen deterministik.
0 = intercept pada sumbu y, titik potong dengan sumbu y.
1 = kemiringan dari garis regresi, yaitu sejumlah kenaikan (atau penurunan) dari mean y untuk setiap kenaikan (atau penurunan) 1-unit x.
= komponen random error. y 4
E y 0 1 x
3
1
2
0
1 x 1
2
3
4
Gambar 2.1 Model Regresi Linear Sederhana
Jika terdapat variabel independen lebih dari satu, maka modelnya disebut Model Regresi Linear Berganda atau Model Regresi Linear Umum dengan persamaan modelnya sebagai berikut : y 0 1 x 2 x2 ..... k xk
2.4
Pada Persamaan-persamaan di atas (2.3 dan 2.4) terdapat komponen random error ( ). Distribusi dari menentukan seberapa ”bagusnya” model yang 7
menggambarkan hubungan sebenarnya antara variabel dependen y dan variabel independen x. Ada empat asumsi yang menyangkut distribusi dari , yaitu [1] : 1.Mean distribusi probabilitas dari adalah 0. Artinya rata-rata error pada percobaan yang dilakukan secara tak hingga adalah 0 untuk setiap pengambilan variabel independen. Asusmsi ini mengakibatkan nilai mean dari y, untuk setiap nilai x yang diberikan adalah E y 0 1 x . 2.Variansi distribusi probabilitas dari adalah konstan untuk setiap pengambilan variabel independen. 3.Distribusi probabilitas dari berdistribusi normal. 4.Error dari setiap dua observasi adalah independen. Artinya error dari salah satu nilai y tidak memberikan pengaruh terhadap error dari nilai y yang lain. Dari persamaan-persamaan di atas nilai koefisien yaitu 0 dan i (untuk i = 1 sampai dengan k) tidak diketahui karena merupakan nilai parameter. Oleh karena itu, dibutuhkan data sampel untuk mengestimasi koefisien-koefisien tersebut. Misalkan Y1 , Y2 ,...., Yk merupakan variabel random berdistribusi normal dengan mean masing-masing E y 0 xi , dengan i = 1, 2, ....,k, dan variansi yang tidak diketahui 2 Misalkan akan dicari model regresi linear sederhana. Fungsi likelihood dari variabel random Y1 , Y2 ,...., Yk adalah:
k
L 0 , 1 , 2 i 1
y 0 1 xi 2 exp i 2 2 2 2 1
1 2 2
k
2
1 exp 2 2
k
y i 1
i
2 0 1 xi
8
Untuk memaksimumkan fungsi L 0 , 1 , 2 , atau ekuivalen dengan meminimumkan: k
ln L 0 , 1 , 2
k ln 2 2 2
y i 1
0 1 xi
2
i
2 2
,
harus dipilih 0 dan 1 dengan meminimumkan: k
H 0 , 1 yi 0 1 xi
2
i 1
Karena
xi , y i
yi 0 1 xi yi E y merupakan jarak vertikal dari titik
terhadap garis y E y . Oleh karena itu, H 0 , 1 merepresentasikan
jumlah kuadrat tersebut. Dengan memilih 0 dan 1 sedemikian hingga jumlah kuadrat dari jarak tersebut minimum dengan seperti itu artinya garis lurus
y E y mem-fitting data. Oleh karena itu, metode ini disebut Metode Least square [1].
xi , yi
E y 0 1x1
yi E y
Gambar 2.2 Garis Least Square Untuk meminimumkan
H 0 , 1 , harus dicari
H 0 , 1 0 0
dan
H 0 , 1 0, 1
9
k H 0 , 1 2 y i 0 1 xi 1 0 0 i 1 k
k
0 y i k 0 1 xi i 1
i 1
k
ˆ0
y i 1
k
i
1 xi i
k
y 1 x
Jadi dari penurunan diatas di dapat ˆ0 y ˆ1 x , notasi ˆ merupakan notasi estimator untuk nilai parameter , sedangkan untuk nilai ˆ1 adalah sebagai berikut: k H 0 , 1 2 y i 0 1 x i x i 0 1 i 1 k
0 y i xi y 1 x xi 1 xi2
karena 0 y 1 x
i 1 k
k
i 1
i 1
k
k
i 1
i 1
0 y i xi y xi 1 x xi 1 xi2 k xi k 0 y i xi yk i 1 k i 1
k xi x k i 1 1 k
k 2 1 xi i 1 k
k
k
0 y i xi ky x k 1 x 1 x 2
i 1
k
i 1
k
i 1
2 i
karena x
x i 1
i
k
1 xi2 kx 2 xi y i kx y i 1
k
x y
ˆ1
i 1 k
i
x i 1
i
2 i
kx y kx 2
Jadi dari penurunan di atas nilai dari ˆ1 yang merupakan estimator dari 1 k
adalah ˆ1
x y i 1 k
i
x i 1
i
2 i
kx y
, dengan k merupakan jumlah data sampel. kx
2
10
2.2
Outlier Dalam Regresi: Sumber, Jenis dan Deteksi Outlier
2.2.1
Sumber Outlier Outlier adalah satu atau lebih data yang tidak biasa, yang tidak cocok dari
sebagian data lainnya (one or more atypical data points that do not fit with the rest of the data). Outlier mungkin disebabkan karena dalam melakukan observasi melakukan beberapa
kesalahan, hal ini
yang biasa disebut observasi
terkontaminasi, juga bisa outlier merepresentasikan observasi yang akurat dari kasus yang jarang. Apapun sumber outlier, dalam beberapa kasus menyebabkan dampak yang sangat besar dalam mengestimasi koefisien regresi , standar error, dan estimasi keseluruhan variabel prediktor, R 2 .[2] Outlier muncul karena data terkontaminasi dalam beberapa cara. Observasi yang terkontaminasi dapat dan harus diminimalisir dengan prosedur penelitian dan pengolahan data yang hati-hati. Observasi yang terkontaminasi disebabkan [2]: 1. Kesalahan pelaksanaan prosedur penelitian; misalnya: interviewer salah baca dalam beberapa pertanyaan, atau eksperimenter melakukan yang salah atau perlakuan yang kurang sempurna. 2. Ketidakakuratan dalam pengukuran variabel dependen; misalnya peralatan mengalami kerusakan sehingga pengukuran variabel dependen tidak akurat. 3. Kesalahan penulisan atau pengetikan data. 4. Kesalahan perhitungan dari pengukuran; mislnya peneliti kurang tepat menghitung sejumlah variabel independen atau membuat kesalahan dalam perhitungan dari ukuran
11
5. Partisipan yang kurang perhatian. Misal dala kasus tertentu, partisipan sedang dalam keadaan lelah, sakit atau mabuk, dan tidak mampu merespon dengan baik terhadap materi percobaan. Tiap statistik diagnostik yang akan dibahas nanti, secara potensial dapat menolong dalam pendeketsian data yang terkontaminasi. Ketika peneliti mendeteksi outlier, perlakuan pertamanya adalah melihat kemungkinan bahwa outlier merupakan data yang terkontaminasi. Data dan perhitungan harus diperiksa keakurasiannya. Jika dapat diverifikasi bahwa outlier merupakan data yang terkontaminasi, maka data tersebut tidak harus dimasukkan dalam penganalisisan data. Jika memungkinkan, peneliti bisa mengganti data yang terkontaminasi ini dengan data yang benar dari kasus yang ditelitinya, atau menghapusnya dari himpunan data yang diteliti. Untuk kasus yang lain, outlier dapat juga merepresentasikan data yang valid, tidak terkontaminasi, akan tetapi outlier tersebut merupakan kasus yang jarang dalam populasi. Ketika outlier yang dideteksi bukan data yang terkontaminasi, maka outlier dapat diperlakukan dengan dua penekanan dalam mengatasi outlier. Pertama, mengeliminasi pengaruh dari kasus jarang tersebut. Kedua, outlier mungkin merepresentasikan signal yang halus dari suatu fenomena yang sangat penting atau ketidak-tepatan dari penentuan model regresi yang telah diujikan, dan penelitian berusaha untuk memahami kasus yang jarang ini sebagai sesuatu yang membawa ke bentuk yang sangat penting dalam penelitian ilmiah.
12
2.2.2
Jenis Outlier Analisis regresi memberikan suatu model yang menggambarkan
hubungan dari beberapa variabel independen ( X i , i = 1,2,…n) dengan variabel dependen
( Yi , i 1, 2,...., n ).
Model
regresi
tersebut
didapatkan
dengan
menggunkan metode estimasi kuadrat terkecil (least square estimate). Metode LS didasarkan pada asumsi bahwa error dari model yang dihasilkan harus berdistribusi normal. Karena dengan error berdistribusi normal metode LS memberikan estimasi parameter yang optimal bagi model regresi tersebut [3]. Akan tetapi, dengan adanya data outlier asumsi kenormalan model regresi tersebut akan tidak terpenuhi [5]. Seperti diketahui pada analisis regresi, terdapat satu variabel dependen yang digambarkan pada scatterplot sebagai arah y, dan beberapa variabel independen pada scatterplot digambarkan sebagai arah x. Oleh karena itu, keberadaan data outlier mungkin teredapat pada arah-y atau pada arahx atau di keduanya. Data outlier pada arah-y akan memberikan nilai residual r yang sangat besar (positif atau negatif). Hal ini disebabkan karena data yang menjadi outlier mempunyai jarak yang sangat besar terhadap garis LS. Seperti yang ditunjukkan gambar (2.3.a) yang merupakan scatterplot dan garis LS dari enam titik,
x1, y1 ,...., x6 , y6 , yang hampir terletak pada suatu garis lurus (garis LS). Oleh karena itu, penyelesaian LS kecocokannya sangat bagus untuk ke-6 data tersebut. Akan tetapi, andaikan dengan data yang sama, tetapi data ke-4 merupakan data outlier, yaitu y4 yang disebabkan karena ada suatu kesalahan, maka titik x4 , y4 mungkin akan jauh dari garis ideal (garis LS). Hal ini digambarkan pada gambar 13
(2.3.b). titk data yang ke-4 bergeser ke atas dan jauh dari posisi asalnya (ditunjukkan dengan bulatan), dan titik ke-4 itu memberikan pengaruh yang besar pada garis LS, yang sangat berbeda dari garis LS pada gambar (2.3.a) yaitu garis LS tidak memberikan kecocokan terhadap ke-6 data tersebut.
Gambar 2.3 (a). Enam data asli dan garis LS-nya. (b). Data yang sama dengan data pada (a), tetapi dengan outlier dalam arah-y, yaitu y4 . Sedangkan data outlier pada arah-x, memberikan pengaruh yang sangat besar pada estimator metode LS karena outlier pada arah-x akan membalikkan garis LS. oleh karena itu, outlier pada arah-x disebut sebagai titik leverage [3]. Seperti ditunjukkan pada gambar (2.4.a) yang merupakan scatterplot dan garis LS dari lima titik data x1 , y1 ,..., x5 , y5 yang hampir terletak pada suatu garis lurus (garis LS). Misalkan dengan data yang sama akan tetapi titik x1 adalah outlier yang disebabkan karena suatu kesalahan. Maka, garis LS akan berbalik dari keadaan yang digambarkan pada gambar (2.4.a), seperti yang ditunjukkan pada gambar( 2.4.b). Hal ini dapat dijelaskan sebagai berikut: karena x1 terletak jauh, maka residual r1 dari garis asal (seperti yang ditunjukkan pada gambar 2.4.a)
14
menjadi sangat besar (negatif), berkontribusi terhadap besarnya jumlah
5
r2
i 1 i
untuk garis tersebut. Oleh karena itu, garis asal tidak dapat dipilih dari prespektif LS, dan tentunya garis pada gambar (2.4.b) mempunyai nilai
5
r 2 yang
i 1 i
terkecil, karena itu garis asal dibalikkan menjadi garis pada gambar (2.4.b) untuk mengurangi besarnya nilai r12 , bahkan jika keempat bentuk lainnya, r22 , r32 , r42 , r52 , sedikit dinaikkan [3].
Gambar 2.4 (a). Data asal dengan lima titik dan garis LS-nya. (b). Data yang sama dengan data (a), tetapi dengan satu data outlier pada arah-x, yaitu x1 . Secara umum, suatu observasi
xk , yk
dikatakan suatu titik leverage
ketika xk terletak jauh dari sebagian besar data observasi xi dalam sampel. Sebagai catatan, bahwa suatu titik leverage tidak memasukkan nilai yk ke dalam perhitungan, jadi titik Ketika
xk , yk
xk , yk tidak
harus perlu menjadi outlier pada regresi.
dekat terhadap garis regresi yang ditentukan dengan sebagian
besar data, maka hal itu dapat diperkirakan sebagai titik leverage yang bagus seperti ditunjukkan pada gambar (2.5). Oleh karena itu, untuk mengatakan bahwa
xk , yk adalah
suatu titik leverage hanya merujuk pada kepotensialannya
15
mempengaruhi secara kuat terhadap koefisien-koefisien regresi (disebabkan keterpencilannya komponen xk saja). Titik
xk , yk tidak
harus dipandang
menyebabkan pengaruh yang besar terhadap koefisien-koefisien regresi, karena mungkin saja titik
xk , yk tepat
pada garis yang ditentukan kecendrungannya
dengan sebagian besar himpunan data lainnya [3].
Gambar 2.5 Titik xk , yk merupakan titik leverage karena xk terpencil. Akan tetapi,
xk , yk bukan
outlier regresi karena cocok dengan pola
kelineran sebagian himpunan titik data lainnya. Dalam regresi berganda, xi1 ,..., xip terletak pada suatu ruang berdimensi p. Suatu titik leverage tetap didefinisikan sebagai suatu titik xk1 ,..., xkp , yk di mana
x
k1
,..., xkp merupakan titik-titik yang terpisah dari himpunan data xi1 ,..., xip .
Seperti sebelumnya, suatu titik leverage yang berpotensial berpengaruh besar pada koefisien regresi LS, bergantung pada nilai aktual dari yk . akan tetapi pada situasi ini, akan sangat susah mengidentifikasi titik-titik leverage, karena dimensinya yang tinggi [3].
16
2.2.3 Deteksi outlier Data outlier dapat dikenali dengan pemerikasaan visual dari data mentahnya (raw) atau dari diagram pencar dari variabel independen dan variabel dependen. Dalam kasus ketika terdapat lebih dari dua variabel independen, beberapa outlier mungkin akan sangat sulit dideteksi dengan pemeriksaan visual. Oleh karena itu, dibutuhkan alat bantu pada pemeriksaan visual dengan menggunakan uji statistik tertentu yang dikenal dengan regresi diagnostik yang dapat membantu dalam pendeteksian outlier. Regresi diagnostik merupakan kasus statistik, artinya mungkin akan terdapat satu nilai dari tiap diagnostik statistik dari tiap n-kasus dalam himpunan data. Suatu sampel dengan 150 kasus akan menghasilkan 150 nilai dari tiap diagnostik statistiknya, salah satunya merepresentasikan tiap kasus dalam himpunan data tersebut. Regresi diagnostik statistik digunakan untuk memeriksa tiga karakteristik yang secara potensial merupakan data outlier. Pertama adalah leverage: yang menggambarkan seberapa tidak biasanya kasus tersebut dalam bentuk variabel independnya?. Kedua adalah discrepancy (jarak) antara nilai prediksi dan nilai observasi pada variabel hasil (Y). Ketiga adalah influence, yang menggambarkan besaran dari perubahan koefisien regresi jika outlier
dihilangkan
dari
himpunan
data.
Secara
konseptual,
influence
merepresentasikan perkalian dari leverage dan discepancy. Tiap karakteristik ini harus diperiksa, karena ketiganya mengidentifikasi aspek-aspek yang berbeda dari data outlier.
17
1.
Leverage Leverage hanya menggambarkan kasus yang terjadi pada variabel
independen. Untuk tiap kasus, leverage menginformasikan seberapa jauh kasus tesebut dari nilai mean himpunan data variabel independen. Jika hanya terdapat satu variabel independen, leverage dapat ditentukan sebagai [2]: 1 X i M X leverage = h ii n x 2
2
2.5
dengan hii adalah leverage kasus ke-i, n banyaknya data, Xi adalah nilai untuk kasus ke-i, MX adalah mean dari X, dan
x
2
merupakan jumlah kuadrat n kasus
dari simpangan Xi dari meannya. Jika kasus ke-i bernilai MX, maka bentuk kedua dari persamaan di atas akan 0 dan hii akan memiliki nilai kemungkinan yang minimum,
1 . Misalkan kasus ke-i skor pada X menjadi jauh dan jauh dari MX, n
maka akan menaikkan hii. Nilai maksimum dari hii adalah 1 nilai mean dari leverage untuk n-kasus dalam suatu sampel adalah M hii k 1 n , dengan k merupakan jumlah variabel independen. Perhitungan leverage di atas untuk kasus dengan satu variabel independen, dapat digeneralisasi untuk kasus dengan variabel independen lebih dari satu. Untuk kasus dengan banyak variabel independen, yang menjadi menarik adalah seberapa jauh nilai-nilai untuk tiap k variabel untuk kasus ke-i, X i 1 , X i 3 ,..., X ik , dari centroid variabel independen, centroid merupakan mean dari data,
M 1 , M 2 ,..., M k . Penghitungan nilai hii untuk kasus ini dengan menggunakan persamaan [4]:
18
H X X' X
1
X'
2.6
dengan H merupakan matrik n n dan X merupakan matrik n k 1 . Dengan n merupakan banyaknya data, dan k merupakan jumlah koefisein
k
variabel
independen ditambah 1 sebagai nilai konstanta 0 . Diagonal dari H berisi nilainilai leverage. Jadi, leverage untuk kasus ke-i, hii, merupakan nilai dari baris ke-i dan kolom ke-i darai H. Penentuan nilai yang memiliki leverage yang besar didasarkan pada nilai cutoff. Nilai hii yang melebihi nilai cutoff dideteksi sebagai outlier. Adapun nilai cutoff yang telah ditentukan dari [2], adalah 2 k 1 n untuk data yang banyak
n 15 ,
sedangkan untuk data yang sedikit
n 15 digunakan
cutoff
3 k 1 n . n k 1 . Dengan n merupakan banyaknya data, dan k merupakan jumlah koefisein k
variabel independen ditambah 1 sebagai nilai konstanta
0 . 2.
Discrepancy Diagnostik statistik untuk data outlier yang kedua adalah discrepancy atau
jarak antara nilai prediksi dengan nilai observasi dari variabel dependen (Y), yaitu
Y i Yˆi , yang merupakan nilai dari residual, e i . Pada dasarnya, nilai yang menjadi outlier menyebabkan nilai residual menjadi besar dan tidak jatuh pada garis regresi. Nilai discrepancy penghitungannya dengan menggunakan dua metode yaitu Internally Studentized Residuals dan Externally Studentized Residuals.
19
Internally studentized residuals menunjukkan satu dari dua hal yang menyangkut residual mentah (raw). Ekspektasi dari variansi residual untuk kasus ke-i diekspresikan sebagai [2]:
variansi ei MSresidual 1 hii
2.7
Dengan MSresidual merupakan estimasi dari keseluruhan variansi dari residual
sekitar garis regresi = 1 R 2
y n k 1. 2
hii merupakan leverage dari
kasus ke-i. standar deviasi dari residualdari kasus ke-i adalah
sd ei MS residual 1 hii
2.8
Internally studentized residuals merupakan rasio dari besaran nilai residual dari kasus ke-i dengan standar deviasi dari residual kasus ke-i [2], yaitu:
Internally studentized residuals i
ei sd ei
2.9
Besar dari Internally studentized residuals berjarak antara 0 dan
n k 1 . Sungguh tidak menguntungkan, Internally studentized residuals tidak mengikuti distribusi standar statistk, karena persamaan (2.9) penyebut dan pembilangnya tidak saling bebas. Jadi Internally studentized residuals tidak bisa diinterpretasi menggunakan kurva normal atau t tabel. Dengan demikian, kebanyakan yang lebih disukai dalam menghitung discrepancy adalah dengan menggunakan Externally Studentized Residuals. Externally Studentized Residuals merupakan isu yang kedua dalam perhitungan data yang merupakan outlier. Externally Studentized Residuals menunjukkan isu ini dengan memisalkan apa yang terjadi jika kasus yang
20
dianggap outlier dihapuskan dari himpunan data. Misalkan Yi i nilai perediksi kasus ke-i, tetapi kasus ke-i dihapuskan dari himpunan data. Outlier berkontribusi secara substansial terhadap estimasi variansi residual sekitar garis regresi,
MS residual . Sedangkan MS residual i untuk variansi residual dengan kasus ke-i yang merupakan outlier dihapuskan dari data. Misalkan d i sebagai perbedaan antara data asli observasi, Y, dengan nilai prediksi untuk kasus ke-i yang berasal dari himpunan data dengan kasus ke-i dihapuskan, yaitu: d i Y i Yˆi i . Externally studentized residuals untuk kasus ke-i, t i , dihitung sebagai berikut [2]:
di SE d i
ti
2.10
Paralel dengan Persamaan (2.9), pembilang dari persamaan (2.10) merupakan residual yang mana untuk kasus ke-i dihapuskan dan penyebut merupakan standar error dengan kasus ke-i diahapuskan. Residual yang dihapuskan, d i , dapat dihitung dengan menggunakan residual awal, e i , yaitu dengan di
ei 1 hii
2.11
dan nilai standar residual juga dapat dihitung dengan:
SE d i
MS residual i 1 hii
2.12
jika persamaan-persamaan di atas dimasukkan ke (2.10), maka t i menjadi:
21
ti
ei
MS residual i 1 hii
2.13
Penentuan nilai outlier berdasarkan nilai Externally studentized residuals lebih banyak digunakan. Karena jika model regresi cocok dengan data, maka Externally studentized residuals akan mengikuti distribusi t dengan df n k 1 [2]. Penentuan nilai cutoff –nya berdasrkan distribusi t, jika nilai t i lebih besar dari nilai t tabel dengan derajat kepercayaan , maka data tersebut memiliki nilai discrepancy yang besar dan dikategorikan sebagai outlier. 3.
Nilai Influence Metode yang ketiga dalam diagnostik statistik untuk mendeteksi adanya
outlier adalah dengan penentuan nilai influence. Ukuran dari influence merupakan kombinasi dari ukuran leverage dan discrepancy yang menginformasikan mengenai bagaimana perubahan dari persamaan regresi jika kasus ke-i dihilangkan dari himpunan data. Dua jenis pengukuran influnece yang biasa digunakan, pertama adalah ukuran ke-influence-an global, yaitu DFFITS dan Cook’sD, yang memberikan informasi mengenai bagaimana kasus ke-i mempengaruhi keseluruhan krarkteristik dari persamaan regresi. jenis yang kedua adalah ukuran ke-influnece-an khusus, yaitu DFBETAS, yang menginformasikan mengenai bagaimana kasus ke-i mempengaruhi tiap-tiap koefisien regresi. umumnya, keduanya dalam pengukuran ke-influence-an harus diperiksa. Untuk mengukur ke-influence-an global digunakan statistik DFFITS (kependekan dari difference in fit standardized), dan Cook’sD, seperti externally studentized residuals, keduanya merupakan aspek yang membandingkan
22
persamaan regresi ketika kasus ke-i dimasukkan dan tidak dimasukkan dalam perhitungan himpunan data. Ukuran pertama dalam mengukur ke-influence-an adalah DFFITS, yang didefinisikan sebagai berikut [2]:
DFFITS i
Yˆi Yˆi i MS residual i hii
2.14
dengan Yˆi merupakan nilai prediksi ketika kasus ke-i dimasukkan ke dalam himpunan data, Yˆi i merupakan nilai prediksi ketika kasus ke-i dihapuskan dari himpunan data, MS residual i merupakan nilai variansi dari residual ketika kasus ke-i dihapuskan dari himpunan data dan hii merupakan nilai leverage seperti yang didefinisikan pada (2.5 dan 2.6). Pembilang pada (2.14) disebut DFFIT, yang menginformasikan seberapa besar nilai prediksi kasus ke-i akan berubah dalam unit data observasi Y jika kasus ke-i dihapuskan dari data. Penyebut pada (2.14) memberikan standardisasi DFFIT sehingga DFFITSi mengestimasi nilai dari standar deviasi di mana Yˆi , nilai prediksi untuk kasus ke-i, akan berubah jika kasus ke-i dihapuskan dari data. Seperti telah disebutkan di atas ukuran ke-influence-an merupakan perkalian dari leverage dan discrepancy. Oleh karena itu, DFFITS dapat diekspresikan dengan [2]:
DFFITS i t i
hii 1 hii
2.15
23
secara aljabar ekuivalen dengan (2.14). Dengan t i merupakan externally studentized residuals yang didefinisikan pada (2.13) dan hii merupakan leverage yang didefinisikan pada (2.5 dan 2.6). Jika nilai t i dan hii keduanya naik, maka besar dari DFFITS juga akan ikut naik hal ini menunjukkan kasus tersebut mempunyai pengaruh yang besar pada hasil analisis redresi. DFFITS = 0 ketika kasus ke-i persis terletak pada garis regresi sehingga Yˆi tidak mengalami perubahan ketika kasus i dihapuskan. Jika terletak pada centroid data sampel masih tetap memberikan beberapa pengaruh (influence), karena nilia minimum dari hii adalah 1 . Tanda dari DFFITS akan positif jika Yˆi Yˆi i dan negatif n ketika Yˆi Yˆi i . Ukuran kedua untuk mengukur ke-influence-an global pada hasil model regresi karena kasus ke-i adalah Cook’sD, yang didefinisikan sebagai dengan [2]:
Cook ' sD i
Yˆ Yˆ i
2
i i
k 1 MS residual
2.16
dengan Yˆi merupakan nilai prediksi ketika kasus ke-i dimasukkan ke dalam himpunan data, Yˆi i merupakan nilai prediksi ketika kasus ke-i dihapuskan dari himpunan data, k merupakan jumlah koefisien model regresi, dan MS residual merupakan nilai variansi dari residual. Jadi, Cook’sD membandingkan nilai prediksi dari Y dengan kasus i dimasukkan dan dihapuskan dari data. Penyebut
24
pada persamaan (2.16) di atas memberikan nilai yang distandardisasi. Tidak seperti DFFITS, Cook’sD akan selalu 0 , tidak bisa negatif. DFFITS dan Cook’sD dua ukuran yang berhubugan. Oleh karena itu, DFFITS dan Cook’sD mempunyai persamaan matematik sebagai berikut [2]:
DFFITS i MS residual i k 1 MS residual 2
Cook ' sD i
2.17
DFFITS dan Cook’sD merupakan statisitk dapat saling dipertukarkan, keduanya dapat digunakan untuk memberikan informasi mengenai ke-influencean dari kasus i yang merupakan outlier. Penentuan kasus i sebagai outlier berdasarkan cutoff masing-masing. Untuk DFFITS, nilai DFFITS (dengan mengabaikan tandanya) yang besarnya 1 untuk data ukuran kecil n 15 dan sedang dideteksi sebagai outlier. Sedangkan untuk data yang ukuran besar, nilai DFFITS 2
k 1 n
merupakan data outlier. Untuk Cook’sD digunakan nilai
cutoff 1.0 atau dengan nilai kritik dari distribusi F dengan 0.50 dan
df k 1, n k 1 , jika nilai Cook’sD melebihi nilai kritik dari distribusi F dideteksi sebagai outlier [2]. BFBETASij merupakan jenis kedua dari ke-influence-an statistik yang penting jika peneliti ingin memfokuskan pada koefisien regresi tertentu dalam persamaannya. BFBETASij merupakan perbandingan koefisien-koefisien regresi ketika kasus ke-i dimasukkan versus tidak dimasukkan pada data. BFBETASij untuk kasus ke-i didefinisikan sebagai berikut [2]:
25
DFBETAS ij
j j i
2.18
SE j i
pada persamaan di atas, pembilang merupakan perbedaan dari koefisien dengan seluruh data dimasukkan, j , dengan koefisien jika kasus ke-i dihilangkan, j i . Penyebut, SE j i , merupakan standar error dari j i setelah data ke-i dihapuskan. Pembagian dengan SE j i memberikan nilai yang telah distandardisasi, gunanya untuk mengintrepretasi secara umum pengaruh dari kasus ke-i untuk semua koefisien regresi. Tiap kasus data akan memiliki (k + 1) BFBETASij
yang
berkorepodensi
dengan
tiap
koefisien
regresi
dalam
persamaannya termasuk intercept 0 . Penentuan kasus yang memiliki ke-influence-an yang merupakan outlier berdasarkan BFBETASij adalah kasus yang memiliki DFBETAS ij 1 untuk ukuran sampel yang kecil dan sedang, sedangkan untuk ukuran sampel yang besar ditentukan dengan cutoff DFBETAS ij 2.3
Robust Estimasi
2.3.1
M-Estimasi
2 [2]. n
Suatu estimator yang hampir baik (variansi kecil) untuk berbagai jenis distribusi, tidak perlu yang terbaik untuk sebarang dari salah satunya., disebut suatu Robust Estimator. yaitu suatu estimator yang dihubungkan dengan solusi dari persamaan: n
x 0 i 1
i
2.19
26
Persamaan (2.19) di atas sering disebut robust M-estimator (dinotasikan dengan ˆ ) karena persamaan (2.19) tersebut dapat dianggap sebagai maksimum likelihood estimator. Jadi dalam menemukan suatu robust M-estimator harus dipilih suatu fungsi yang akan memberikan suatu estimator yang baik untuk tiap distribusi pada himpunan ruang lingkupnya. Fungsi yang telah dikenal adalah fungsi Huber yang merupakan kombinasi
yang
dihubungkan
dengan
distribusi
normal
dan
distribusi
eksponensial ganda, yaitu [5]: x k , x, k,
x k k x k , k x,
2.20
yang diturunkan dari fungsi x , dengan fungsi x adalah sebagai berikut [5]:
x2 x x 2 2k x k
jika x k jika x k
2.21
Fungsi x berbentuk quadratik pada pusatnya, tetapi naik secara linear ke takterhingga seperti dapat dilihat pada gambar (2.6). M-estimasi yang berkorespodensi dengan kasus limit k dan k 0 merupakan mean dan median. Nilai k yang dipilih adalah yang membawa ke asymptotik variansi (keefesiensian yang diberikan) pada distribusi normal. Persamaan (2.21) di atas mempunyai fungsi bobot:
w x 1
jika x k
k x
jika k x
27
Gambar 2.6 Fungsi Huber dan Fungsi Dengan fungsi Huber masalah lain muncul, yaitu jika digandakan tiap
X1 , X 2 ,..., X n , estimator seperti X dan median juga akan ganda. Salah satu cara dalam mengatasi kesulitan ini adalah dengan pemecahan yang lain, tetapi sama hasilnya, yaiut dengan memecahkan persamaan: n
xi d
i 1
0
2.22
dengan d merupakan suatu estimasi skala yang robust. Nilai d yang sering digunakan adalah [6]:
d
median xi median xi 0.6745
2.23
pembagi 0.675 dimasukkan ke dalam definisi Persamaan (2.23) adalah karena d merupakan suatu estimasi yang konsisten dari jika data sampel munsul dari distribusi normal [6]. Jadi, dapat di aproksimasi dengan d di bawah asumsi distribusi normal.
28
Skema pemilihan d juga memberikan suatu petunjuk dalam pemilihan nilai k. karena jika data sampel muncul dari distribusi normal, maka dapat diharapkan kebanyakan nilai-nilai x1 , x2 ,..., xn memenuhi pertidaksamaan [6]: xi k d
2.24
kemudian [6]:
x xi i d d
2.25
Sebagai ilustrasi, jika seluruh nilai-nilai yang memenuhi pertidaksamaan (2.24), maka Persamaan (2.22) menjadi: x i d i 1 n
n xi 0 i 1 d
2.26
Persamaan (2.2.6) mempunyai pemecahan x , yang tentu saja yang lebih diinginkan
karena
bersesuaian
dengan
distribusi
normal.
Karena
d
mengaproksimasi , nilai-nilai popular dari k yang digunakan adalah 1.5 dan 2.0 [6], karena dengan pemilihan tersebut kebanyakan variable biasanya akan memenuhi Pertidaksamaan (2.24). Selain hal di atas, suatu proses iterasi harus selalu digunakan untuk memecahkan Persamaan (2.22). salah satu skema yang akan digambarkan adalah Metode Newton.
Misal ˆ0
merupakan estimasi awal dari , seperti
ˆ0 median xi . Aproksimasi bagian sebelah kiri persamaan (2.22) dengan kedua awal ekspansi deret Taylor dari ˆ0 untuk didapatkan:
29
n
xi ˆ0 ˆ0 d
i 1
ˆ 1 0 0, d
x d n
'
i 1
i
2.27
hasil dari (2.24) memberikan estimasi yag kedua dari , n x ˆ d i 0 i 1 d , ˆ1 ˆ0 n ˆ ' xi 0 i 1 d
2.28
Persamaan (2.28) disebut langkah pertama dari M-estimasi dari , jika digunakan ˆ1 pada tempat ˆ0 , didapatkan ˆ2 , langkah kedua M-estiamsi dari . Proses ini dapat berlangsun sampai mendapatkan sebarang tingkat akurasi yang diinginkan. Dengan fungsi , penyebut pada bentuk kedua Persamaan (2.28), yaitu: n
xi ˆ0 , d
'
i 1
khususnya secara mudah dihitung karena ' x 1, k x k , dan nol jika lainnya. Jadi penyebut tersebut merupakan penjumlahan sedehana bilanganbilangan x1 , x2 ,..., xn sedemikian hingga xi ˆ0 d k. Selain fungsi dan Huber, suatu fungsi lain yang sering digunakan juga adalah fungsi dan Bisquare, yang didefinisikan sebagai [5]: 1 1 x k 2 3 x 1
jika x k jika x k
2.29
dengan fungsi Bisquare sebagai berikut:
30
6 x 12 x 3 6 x 5 x k k k k k k 1
jika x k
2.30
jika x k
Fungsi pada Persamaan (2.29) dan (2.30) digambarkan pada gambar 2.7 berikut:
Gambar 2.7 Fungsi Estimasi dan Bisquare Disamping fungsi estimasi Bisquare yang telah didefinisikan pada Persamaan (2.29) dan (2.30) di atas, salah satu fungsi yang serimg digunakan juga adalah fungsi optimal, yang didefinisikan [5]: 2 3.25k 2 4 6 8 x x x x x k 2 1.792 h1 h2 h3 h4 k k k k 2 x 2
jika
x 3 k
jika 2 jika
x 3 k
2.31
x 2 k
Dan fungsi optimal didefinisikan dengan:
31
0 3 5 7 x x x x x k g1 g 2 g3 g 4 k k k k x
jika
x 3 k
jika 2 jika
x 3 k
2.32
x 2 k
Dengan g1 1.944, g 2 1.728, g3 0.312, g 4 0.016,
2.3.2
g1 2 g2 h2 4 g3 h3 6 g4 h2 8 h1
Trimmed Mean Pendekatan lain selain M-estimasi dalam mengestimasi lokasi pada data
yang mengandung outlier adalah Trimmed Mean. Dengan Trimmed Mean dalam data yang mengandung outlier seolah-olah membuang bagain data yang terbesar dan terkecilnya. Secara jelasnya, misalkan 0,1 2 dan m n 1 dengan [.] menunujukkan bagian bulatnya, dan -Trimmed Mean didefinisikan sebagai [5]:
x
nm 1 x(i ) n 2m i m1
2.33
dengan x i merupakan statistik terurut.
32
Trimmed Mean secara sepintas seperti menekan atau memadatkan data observasi. akan tetapi, tidak demikian. Karena hasilnya pada akhirnya merupakan fungsi untuk seluruh data observasi. Kasus khusus untuk 0 dan 0.5 merupakan mean sampel dan median sampel.
2.3.3
Ukuran ke-Robust-an Tujuan dari metode robust secara kasar dapat dikatakan adalah untuk
mengembangkan estimasi yang mempunyai suatu kelakuan yang “baik” dalam suatu “lingkungan” model. Diantara ukuran yang mengukur ke-robust-an adalah: 1.
Influence Function (IF) Sebelum mendefinisikan IF terlebih dahulu akan didefinisikan dulu kurva
sensitive (sensitive curve (SC)), yaitu: misal x0 suatu outlier yang ditambahkan kedalam himpunan data, maka SC dari
suatu estimasi ˆ untuk titik sampel
x1 ,...., xn adalah perbedaan dari
ˆ x1 ,..., xn , x0 ˆ x1 ,..., xn , yang merupakan fungsi lokasi outlier x0 Fungsi influence dari suatu estimator merupakan suatu jenis asimptotik dari SC yang mengaproksimasi kelakuan dari ˆ ketika data sampel yang terdapat bagian kecil dari outlier, yang secara matematik didefinisikan sebagai [5]: IFˆ x0 , F lim 0
ˆ 1 F x ˆ F 0
2.34
33
ˆ 1 F 0
0
.
dengan x0 merupakan titik massa pada x0 , yaitu distribusi yang sedemikian hingga P x x0 1 dan “ ” merupakan tanda yang menyatakan limit dari yang tak diketahui, maka ˆ
kanan. Jika terdiri dari p parameter-parameter
merupakan vektor p-dimensi dan begitu halnya dengan IF-nya.
Kuantitas ˆ 1 F x0 adalah nilai asimptotik dari estimasi ketika distribusi yang membangunnya adalah F dan bagian dari outlier sama dengan
x0 . Jadi jika kecil kuantitas tersebut dapat diaproksimasi dengan [5]:
ˆ 1 F x ˆ F IFˆ x0 , F
2.35
0
dan bias ˆ 1 F x0 ˆ F diaproksimasi dengan IFˆ x0 , F IF dapat dianggap sebagai kasus khusus dari kurva sensitif, dalam pengertian berikut: ketika ditambahkan observasi yang baru x0 terhadap sampel
x1 ,, xn bagian yang terkontaminasi adalah 1 n 1 , dan juga didefinisikan SC yang distandardisasi, yaitu sebagai berikut:
SCn x0
ˆn 1 x1 , , xn , x0 ˆn x1 , , xn
1 n 1
,
n 1 ˆn 1 x1 , , xn , x0 ˆn x1 ,, xn
2.36
yang serupa dengan Persamaan (2.34) dengan 1 n 1 diharapkan
adalah
jika
xi nya
i.i.d
dengan
distribusi
F,
yang maka
SC x0 IF x0 , F untuk n yang besar dapat dibuat tepat. Misal untuk tiap x0 , 34
SC x0 merupakan variabel random, dan jika ˆ merupakan M-estimasi lokasi dengan mempunyai batas dan fungsi- yang kontinu, atau merupakan trimmed mean, maka untuk tiap x0 [5]
SCn x0 a.s. IFˆ x0 , F
2.36
dengan “a.s.”merupakan kekonvergenan dengan probabilitas 1 (“almost sure” convergen). Hasil ini diperluas untuk M-estiamasi lokasi ˆ yaitu: IFˆ x0 , F
x0 ˆ , E ' x ˆ
2.37
dan untuk M-estimasi skala ˆ adalah:
IFˆ x0 , F ˆ
2.
x0 ˆ . E x ˆ ' x ˆ
2.38
Breakdown point (BP) Breakdown point suatu titik estimasi ˆ dari parameter adalah kuantitas
terbesar dari keterkontaminasian (proporsi dari outlier) yang terdapat dalam data sedemikian hingga ˆ tetap memberikan informasi mengenai , mengenai distribusi dari titik-titik yang bukan outlier dalam himpunan data tersebut. Misal merentang atas suatu himpunan . Kelayakan dari estimasi ˆ untuk memberikan informasi mengenai yang terkontaminasi harusnya tidak dapat mengantarkan ke tak terhinggaan atau terhadap batas dari , jika tidak kosong. Sebagai contoh, untuk skala atau sebaran parameter didapatkan
35
0, , dan estimasi harus tetap terbatas, dan juga terbatas jauh dari 0, dalam pengertian bahwa jarak antara ˆ dan 0 harus lebih besar dari suatu nilai positif. Menurut [5] suatu asimptotik kontaminasi BP dari suatu estimasi ˆ pada F,
dinotasikan * ˆ, F , adalah nilai * 0,1 sedemikian hingga untuk * ,
ˆ 1 F G sebagai suatu fungsi dari G yang tetap terbatas, dan juga terbatas dari batas . Definisi tersebut bermaksud bahwa terdapat suatu batas dan himpunan yang tertutup K sedemikian hingga K (dengan merupakan batas dari ) sedemikian hingga
ˆ 1 F G K * dan G.
2.39
36
BAB III ROBUST ESTIMASI PADA REGRESI
3.1
Least trimmed square (LTS) Sebelum membahas mengenai least trimmed square (LTS), akan
diketengahkan dahulu sifat-sifat ke-equivariant- an yang harus dimiliki oleh suatu estimator ( penggunaan kata “equivariant” dalam statistic merujuk pada transformasi sebagaimana mestinya, dan kata lawannya yaitu invariant merujuk pada kuantitas yang tetap tidak berubah), yaitu: regresi equivariant, skala equivariant, dan affine equivariant. Suatu estimator T disebut sebagai regresi equivariant jika memenuhi:
T
x , y x v ; i 1,...., n T x , y ; i 1,...., n v, i
i
i
i
i
3.1
dengan v merupakan sebarang vektor kolom. Suatu estimator T disebut sebagai skala equivariant jika memenuhi:
T
x , cy ; i 1,...., n cT x , y ; i 1,...., n , i
i
i
3.2
i
untuk sebarang konstanta c. skala equivariant menyebabkan bahwa kecocokan secara esensial independen dari pemilihan satuan pengukuran pada variabel respons y. Sedangakan, suatu estimator T adalah affine
equivariant jika
memenuhi:
T
x A, y ; i 1,...., n A T x , y ; i 1,...., n , 1
i
i
i
i
3.3
untuk sebarang matrik persegi A yang nonsingular . dengan kata-kata, affine equivariant berarti bahwa suatu transformasi linear dari x i yang harus
37
mentransformasikan estimator
yˆi xiT xi A A 1T . Hal ini
T , karena
memperbolehkan penggunaan system koordinat lain dari variabel eksplanatori, dengan tanpa mempengaruhi pengestimasian yˆ i . Dari [3] dinyatakan suatu teorema yang menyatakan bahwa: Teorema 3.1. Sebarang regresi equivariant dari estimator T memenuhi:
n* T , Z n p 2 1 n pada seluruh sampel Z. Menurut [3] least trimmed square didefinisiskan sebagai:
min r2 ˆ h
i 1
3.4 i:n
dengan sebelumnya menyusun residual kuadrat dari yang terkecil sampai dengan yang terbesar, yaitu:
r 2
1:n
r2
2:n
... r 2
n:n
kemudian menambahkan hanya bentuk h yang pertama dari bentuk-bentuk ini. Dengan h n 2 1 , sehingga LTS akan memiliki breakdown point yang sama dengan
n 2 p 2 n [Rousseeuw]
dengan p merupakan jumlah variabel
independen dan notasi [] menyatakan bagian bilangan bulat terbesar yang kurang dari
atau
sama
dengan
bilangan
bulat
tersebut.
Selain
itu,
untuk
h n 2 p 1 2 LTS yang mungkin mencapai nilai maksimum dari
38
teorema 3.1 di atas. Sebelum memerikasa sifat-sifat ke-robust-an dari LTS, akan dijelaskan dahulu ke-equivariant-an dari LTS, yaitu sebagai berikut: Lemma 3.1 Suatu estimator LTS merupakan regresi, skala, dan affine equivariant. Bukti. Regresi equvariant seperti yang telah dinyatakan pada (3.1-3.3), maka untuk LTS regresi equivariant berdasarkan kesamaan sebagai berikut:
h
i 1
yi xi v xi v θ
2
i:n
h
yi xi θ i 1
2
,
i:n
untuk sebarang vektor kolom v . Untuk skala dan affine equivariant dibuktikan sama seperti di atas. Sifat ke-robust-an dari LTS didasarkan pada breakdown point-nya, yang didefinisikan [3]: Nilai breakdown point dari metode LTS yang didefinisikan pada (3.4) dengan h n 2 p 1 2 sama dengan:
n* T , Z n p 2 1 n.
3.5
Bukti. Dalam usaha membuktikannya diasumsikan bahwa semua observasi dengan xi1 ,, xip 0 dihapuskan dan observasi-observasinya merupakan dalam kedaan umum. Yang dimaksud dengan kedaan umum adalah jika sebarang p dari variabel independen menentukan θ secara unik Langkah
pertama
adalah
dengan
menunjukkan
bahwa
n* T , Z n p 2 1 n karena sampel Z xi , yi ; i 1,..., n terdiri dari n titik dalam kondisi yang umum, hal ini akan memenuhi:
39
inf 0; terdapat suatu p 1 dimensi subruang dari V y 0 ,sedemikian 1 2
hingga V meliputi sekurang-kurangnya p dari xi
yang merupakan selalu positif, dengan V adalah himpunan dari semua x dengan jarak terhadap V tidak lebih dari , Andaikan θ meminimumkan (3.4) untuk Z, dan dinotasikan dengan H yang berkorespodensi dengan hyperplane yang diberikan dengan persamaan y xθ. diberikan M max i ri , dengan ri yi xi θ. sekarang
akan
dikonstruksikan
Z ' xi' , yi' ; i 1,...., n dengan
sebarang
menyimpan
sampel
terkontaminasi
n n p 2 n p 1 2
observasi-observasi dari Z dan dengan menggantikan yang lainnya dengan nilainilai yang berubah-rubah. Hal ini cukup untuk membuktikan bahwa
θ - θ'
terbatas, dengan θ ' berkorepodensi terhadap Z ' yang dinotasikan dengan H’, jadi hyperpalne H’ yang berkorespodensi merupakan hal yang berbeda dari H. tanpa kehilangan keumumannya diasumsikan bahwa θ' θ, karena itu, H' H. Dengan teorema dimensi dari aljabar linear, irisan dari H H' mempunyai dimensi p 1. jika pr H H' merupakan proyeksi vertical dari H H' terhadap
y 0 ,
berdasarkan hal itu, paling banyak p 1 dari x i yang bagus (bukan outlier) dapat terletak pada
pr H H '
. Sekarang didefinisikan A sebagai himpunan
observasi-observasi bagus yang tersisa. Sekarang misalkan sebarang
xa , ya
termasuk di A, dan ra ya xaθ dan ra' ya xaθ' . konstruksikan vertikal plane 2-dimensi Pa melalui xa , ya dan tegak lurus terhadap pr H H' . sebelumnya
40
akan dikonstruksikan nilai residual pada
Pa yaitu sebagai berikut [3]:
ri xi θ yi xi θ yi dengan xi θ tan , dengan merupakan sudut
dalam 2, 2 yang dibentuk antara H dengan garis horizontal pada Pa . Oleh karena itu, merupakan sudut antara garis tegak lurus terhadap H dan 0,1 , karena itu: θ,1 0,1' arccos θ,1 0,1
1 arccos 1 θ
2
dan akhirnya didapat tan θ . Berdasarkan hal itu, maka:
ra' ra x a θ' x a θ tan ' tan tan ' tan θ' θ , karena
θ' - θ θ θ' 2 θ θ' θ θ' θ 2 θ berdasarkan pertidaksamaan di atas didapat:
ra' ra θ' - θ 2 θ , dengan ra dan ra' adalah residual yang berhubungan dengan H dan H’ berkorespodensi dengan titik xa , ya . Sekarang jumlah dari h residual kuadrat pertama dari sampel baru Z’ yang berhubungan dengan θ yang terdahulu, dengan sekurang-kurangnya n p 1 2 h dari residual-residual ini menjadi sama
41
seperti sebelumnya, yaitu kurang dari atau sama dengan hM 2 . karena θ ' berkorespodensi dengan Z’ berdasarkan hal itu juga didapatkan
y x θ h
' i
i 1
' 2
' i
hM 2 . i:n
jika sekarang diasumsikan bahwa
θ' - θ 2 θ M 1 h
,
maka, untuk semua a di A memenuhi
ra' ra θ' θ 2 θ M 1 h , jadi
ra' ra' ra ra M 1 h M M h . Sekarang perhatikan bahwa dari
n A h 1.
oleh karena itu, himpunan h
x , y harus terdiri sekurang-kurangnya satu dari x , y , jadi ' i
' i
a
y x θ h
i 1
' i
' ' 2 i
a
ra' hM 2 , 2
i:n
suatu kontradiksi. Ini menyebabkan bahwa
θ' θ 2 θ M 1 h
untuk semua sampel Z ' . Langkah kedua adalah mendapatkan Pertidaksamaan sebaliknya yaitu
n* T , Z n p 2 1 n yang segera didapatkan berdasarkan teorema 3.1 dan lemma 3.1
42
Cara lain menginterpretasikan Persamaan (3.5) adalah dengan mengatakan bahwa T akan tetapi terbatas jika
lebih dari
1 n p 1 observasi tidak 2
terkontaminasi. Nilai dari h menghasilkan nilai yang maksimum dari breakdown point. Di lain sisi, jumlah observasi yang jelek n A harus tetap kurang dari h dan A p 1 harus sekurang-kurangnya h. nilai yang terbaik dari h adalah kemudian diperoleh dengan meminimumkan
A atas h yang terletak pada
A 1 n h dan A 1 h p, yang menghasilkan h n 2 p 1 2 . pada umumnya, h mungkin bergantung pada beberapa proporsi trimming , umpanya dengan
h n 1 p 1 atau
h n 1 1.
Maka
dengan
breakdown point n* sama dengan proporsi ini. Untuk mendekati 50%, maka akan didapatkan LTS estimator, sedangkan untuk mendekati 0%, maka akan didapatkan LS estimator [3]. Suatu LTS estimator juga akan memenuhi sifat kecocokan yang tepat, yang dinyatakan sebagai berikut[3]: Jika terdapat beberapa θ sedemikian hingga cenedrung (strictly) lebih dari 1 2
n p 1 dari suatu observasi yang memenuhi
yi xi θ secara tepat dan dalam
posisi yang umum, maka penyelesaian LTS sama dengan θ apapun
bentuk
observasinya. LTS mempunyai kekonvergenan n 2 , dengan efesiensi keasimptotikan 1
terhadap distribusi normal seperti M-estimator yang didefinisikan dengan [3]:
43
x 1 1 2
x, x 0,
3.6
lainnya,
Persamaan (3.6) disebut tipe-Huber skipped mean dalam kasus estimasi lokasi sama dengan yang didefinisikan pada Persamaan (2.20). Langkah-langkah penentuan estimasi dengan menggunkan LTS dapat dijelaskan sebagai berikut: 1.
Bentuk n h 1 subsampel dengan tiap subsampel ini terdiri dari
h observasi. 2.
Untuk tiap subsampel dihitung:
1 h yi:n h i 1
y 1 . . .
y n h 1
3.
1 n yi:n h i n h 1
Hitung jumlah kuadarat dari tiap subsampel: h
SQ 1 yi:n y 1 i 1
2
. . . SQ n h 1
y n
i n h 1
4.
i:n
y n h 1
Solusi yang dipilih adalahy
j
2
j
yang memberikan nilai SQ paling
kecil.
44
3.2
MM-Estimasi Pendekatan estimasi robust regresi dengan x i dan yi yang mungkin
terdapat outlier adalah dengan menggunkan suatu M-estimasi
ˆ
yang
didefinisikan sebagai [5]:
min
ri ˆ ˆ i 1 n
3.7
dengan suatu yang terbatas dan suatu permulaan skala ˆ yang memliki breakdown point yang tinggi. Skala ˆ akan dibutuhkan untuk memenuhi syaratsyarat tertentu yang akan didiskusikan kemudian. Jika mempunyai turunan , maka, n
ri
ˆ x i 0
i
0
3.8
dengan adalah redescending (non-monoton). Menyebabkan pengestimasian pada Persamaan (3.7) mungkin memiliki banyak solusi dikarenakan memiliki minum lokal dari fungsi pada sisi kiri Persamaan (3.7), dan umumnya hanya satu solusi (solusi terbaik) yang menyebabkan minimum global dari ˆ yang didefinisikan
pada
(3.7).
salah
satu
metode
yang
digunakan
untuk
mengaproksimasi ˆ yang didefinisikan pada (3.7) adalah metode MM-estimasi. Metode MM-estimasi didefinisikan kedalam tiga langkah. Langkah pertama adalah menghitung estimasi βˆ * yang memiliki breakdown point yang tinggi, misalnya LTS atau least median square (LMS) . dalam langkah pertama ini
45
tidak diperlukan robust estimator yang efesien. Langkah kedua adalah menghitung suatu M-estimasi skala ˆ dengan 50% breakdown point yang
dihitung dari residual ri βˆ * dari estimasi robust yang cocok pada langkah awal. Langkah terakhir, mencari solusi dari persamaan (3.8), yang memenuhi:
S βˆ S βˆ *
3.9
dengan
ri ˆ n S ˆ ˆ i 1
Sekarang akan dijelaskan secara detail langkah-langkah di atas. Estimasi awal yang robust ˆ0 harus regresi, skala dan affine equivariant yang telah didefinisikan di subbab 3.1 di atas, yang memastikan bahwa memberikan sifatsifat yang sama. Salah satu estimasi yang akan dibahas adalah estimasi berdasarkan pada robust skala residual. Yang didefinisikan sebagai berikut: misal
ˆ ˆ r merupakan suatu skala equivariant dari robust estimasi skala yang berdasarkan pada suatu vektor residual
r r1 ,..., rn .
3.9
Maka suatu regresi esrimasi dapat difenisikan sebagai:
ˆ min ˆ r .
3.10
46
Estimasi demikian merupakan regresi, skala, dan affine equivariant, dan disebut sebagai S-Estimasi [3]. Sebaraan ˆ r didefinisikan sebagai solusi dari [3]: 1 n ri K n i 1 ˆ
3.11
Dengan K disamakan dengan E , dengan merupakan normal standar. Dengan fungsi harus memenuhi kondisi di bawah ini [5]: (S1). merupakan simetrik dan terdiferensial secara kontinu, dan
0 0. (S2). Terdapat c 0 sedemikian hingga merupakan cendrung naik pada
0, c dan konstan pada c, . Jika terjadi lebih dari satu penyelesaian pada (3.11), maka jadikan
ˆ r sama dengan supremum dari himpunan penyelesaiannya; ini artinya ˆ r sup ˆ ; 1 n ri ˆ K . jika tidak terdapat penyelesaian pada (3.11), maka jadikan ˆ r = 0. Karena kondisi (S2), x ' x akan selalu nol dari nilai x tertentu, jadi merupakan fungsi redescending. Fungsi yang demikian contohnya adalah fungsi Biweight Tuckey’s yang didefinisikan [5]:
x2 x4 x6 2 4 x 26 2c 6c c 6
untuk x c 3.12
untuk x c.
47
Persamaan (3.12) sama dengan yang dinyatakan pada Persamaan (2.29), fungsi yang lain yang bisa digunakan adalah fungsi yang dinyatkan pada (2.31)
Untuk menunjukkan breakdown point dari S-estimator adalah 50%, di mana suatu kondisi tambahan pada fungsi dibutuhkan, yaitu:
K 1 c 2
(S3).
Kondisi ini mudah dipenuhi. Pada kasus (3.27) dengan K E , diterima dengan menggunkan c 1.547 . Berikut adalah lemma dan beberapa teorema yang diturunkan dari (S1) sampai dengan (S3), yaitu sebagai berikut: Lemma 3.3.1. untuk tiap memenuhi kondisi (S1)-(S3) dan untuk tiap n, terdapat konstanta positif dan sedemikian hingga estimator ˆ yang diberikan (3.11) memenuhi:
med ri ˆ r1 ,..., rn med ri . i
i
Di sini medi atau ˆ r1 ,..., rn mungkin nol. Teorema 3.3.1. untuk setiap yang memenuhi (S1)-(S3), selalu terdapat suatu solusi terahadap (3.25). Teorema 3.3.2. suatu S-estimator yang dibentuk dari suatu fungsi yang memnuhi (S1)-(S3) memiliki breakdown point
n* n 2 p 2 n
48
untuk sebarang sampel
x , y ; i 1,...., n dalam posisi umum. i
i
Teorema 3.3.2 menyebabkan bahwa jika terdapat beberapa β sedemikian hingga sekurang-kurangnya
n n 2 p 1 dari titik-titik yang memenuhi
yi xi β secara tepat dan pada posisi yang umum, maka S-estimasi untuk vektor regresi akan sama dengan β apapun observasi yang lainnya. Jika kondisi (S3) diganti dengan
K , c dengan
0 12 ,
maka S-estimator
yang berkorespodensi
breakdown point cendrung terhadap *
mempunyai
ketika n . Jika hal itu
diasumsikan bahwa K E dalam usaha untuk mendapatkan suatu estimasi skala yang konsisten terhadap residual yang terdistribusi normal. Disamping resistansinya yang tinggi terhadap data yang terkontaminasi , S-estimator juga berkelakuan baik ketika data tidak terkontaminasi. Untuk melihat hal ini, akan dilihat keasimptotikan kelakuan S-estimator pada model Gaussian, dengan
xi , yi
merupakan variabel random i.i.d yang memenuhi
yi xi β0 ei ,
3.13
x i mengikuti suatu distribusi H, dan ei independen terhadap x i dan berdistribusi
e 0 untuk 0 0 . Sebelum melihat keasimptotikan kenormalan dari Sestimasi akan diketengahkan dulu teorema yang menjamin kekonvergenan dari estimator S-estimasi, yaitu sebagai berikut:
49
Teorema 3.3.3. misal merupakan suatu fungsi yang memenuhi (S1) dan (S2), dengan turunan ' . asumsikan bahwa: 1.
u u tidak naik untuk u 0 ;
2.
EH x , dan H merupakan suatu kepadatan.
Misal xi , yi i.i.d yang yang memenuhi model pada (3.28), dan misalkan
βˆ n merupakan penyelesaian dari (3.25) untuk titik n yang pertama, dan
ˆ n ˆ r1 βˆ n ,...., rn βˆ n . jika n maka βˆ n β0 a.s.
dan
ˆ n 0 a.s.
dengan a.s. menyatakan selalu konvergen (absolutely converge). Selanjutnya akan ditunjukkan keasimptotikan kenormalan dari Sestimator, yang dinyatakan dalam sebuah teorema, yaitu sebagai berikut: Teorema 3.3.4. dengan tanpa kehilangan keumumannya misalkan β0 0 dan
0 1 . Jika kondisi dari teorema 3.3.3 terpenuhi dan 1.
terdiferensial pada seluruh titik tetapi terhingga, maka ' dan
d 0; '
2.
3 EH xt x merupakan nonsingular dan EH x , maka:
50
1 L n 2 β n β0
dan L n n 0 1 2
N 0, E x x d d 1
t
2
'
2
2 y E d y N 0, 2 . y y d y
Karena teorema 3.3.4, maka dapat dihitung keasimptotikan keefisiensian e dari S-estimator yag berasal dari fungsi yang didefimisikan pada (3.12) untuk nilai-nilai breakdown point * yang berbeda-beda. Seperti yang ditunjukkan pada table di bawah ini: Tabel 3.3.1. Efisiensi Asimptotik S-Estimator untuk Nilai-nilai * yang Berbeda-beda, dengan Menggunakan Fungsi Biweight Tuckey’s
* 50% 45% 40% 35% 30% 25% 20% 15% 10%
e 28.7% 37.0% 46.2% 56.0% 66.1% 75.9% 84.7% 91.7% 96.6%
c 1.547 1.756 1.988 2.251 2.560 2.937 3.420 4.096 5.182
K 0.1995 0.2312 0.2634 0.2957 0.3278 0.3593 0.3899 0.4194 0.4475
Dari tabel 3.3.1 di atas terlihat bahwa nilai-nilai c yang lebih besar dari 1.547 menghasilkan keasimptotikan efisiensi yang bagus terhadap model utama Gaussian, tetapi mempunyai breakdown point yang kecil.
51
BAB IV APLIKASI MODEL
4.1
Aplikasi Pada Regresi Sederhana Data yang digunakan adalah data perusahaan asuransi pensiunan Belanda
dari 18 cabang perusahaan. Data ini terdiri dari data yaitu: pendapatan premi yang merupakan variabel independen dan premi cadangan yang merupakan variabel dependen.[3] Data terlampir pada lampiran I. 4.1.1 Pemeriksaan Outlier Sebelum menganalisis menggunkan regresi akan diperiksa terlebih dahulu apakah dalam data tersebut terdapat outlier pada arah-y atau arah-x atau ada pada keduanya. a. Pemeriksaan Leverage Leverage disebabkan adanya data outlier pada arah-x, deteksi yang digunakan adalah dengan melihat nilai hii dan dengan membandingkan nilai centroidnya. Data yang lebih besar dari nilai centroid (mean) variabel independen dan nilai hii yang melebihi nilai cutoff 3 k 1 n dengan k merupakan banyaknya variabel independen dan n adalah banyaknya data, digolongkan sebagai data yang tidak biasa (outlier). Mean dari data dana pensiun adalah 176.0222, dan nilai cutoff dari nilai h adalah 0.33. untuk data dana pensiun didapatkan lima data pertama dari nilai centroid dan nilai-nilai h-nya ditabelkan pada 4.2, sebagian data lainnya dilampirkan.
52
Tabel 4.2 pemeriksaan data outlier pada dana pensiun untuk 18 cabang pada arah-x No 1. 2. 3. 4. 5.
x 10.4 15.6 16.2 17.9 37.8
y 272.2 212.9 120.7 163.6 226.1
centroid 176.02 176.02 176.02 176.02 176.02
hii 0.070383 0.069467 0.069363 0.069071 0.065883
cutoff 0.33 0.33 0.33 0.33 0.33
Untuk menentukan mana yang menjadi nilai leverage akan dihipotesisikan bahwa H0 : ℎi ≤ 𝑐𝑢𝑡𝑜𝑜𝑓, 𝑚𝑎𝑘𝑎 �؆𝑢𝑘𝑎𝑛 𝑑𝑎𝑡𝑎 𝑜𝑢𝑡𝑙𝑖𝑒𝑟 H1 : ℎ𝑖 > 𝑐𝑢𝑡𝑜𝑓𝑓, 𝑚𝑎𝑘𝑎 𝑑𝑎𝑡𝑎 𝑚𝑒𝑟𝑢𝑝𝑎𝑘𝑎𝑛 𝑜𝑢𝑡𝑙𝑖𝑒𝑟
Dari perhitungan didapatkan bahwa data ke-18 mempunyai h18 yaitu 0.873729, melebihi nilai cutoff-nya yaitu 0.33. oleh karena itu, H0 ditolak utnuk data ke-18, artinya data ke-18 merupakan outlier. sedangkan untuk sisa data yang lain nilai dari hi kurang dari nilai cutoff yang ditentukan. Pemeriksaan data outlier dengan penntuan nilai hi dilampirkan. Untuk lebih jelasnya disajikan gambar (4.1), yang menyajikan leverage dan variabel independen inde x plot le ve rage Vs. data inde pe nde n 0.9 0.8 0.7
leverage
0.6 0.5 0.4 0.3 0.2 0.1 0.0 0
200
400
600
800
1000
1200
1400
x
Gambar 4.1 indeks plot leverage Vs. data variabel independen (xi) 53
b.
Pemeriksaan Outlier pada Arah-y (Nilai Discrepancy) Nilai discrepancy merupakan jarak antara nilai prediksi dengan nilai
observasi variabel dependen, yaitu Y i Yˆi , yang merupakan nilai dari residual,
e i . nilai yang menjadi outlier menyebabkan nilai residual menjadi besar dan tidak jatuh pada garis regresi. Nilai discrepancy penghitungannya dengan menggunakan dua metode yaitu Internally Studentized Residuals dan Externally Studentized Residuals. Pemeriksaan data outlier pada arah-y pada tugas akhir ini hanya akan digunakan dengan metode Externally Studentized Residuals (ti). Penentuan nilai outlier berdasarkan nilai Externally studentized residuals berdasarkan Penentuan nilai cutoff –nya yang mengikuti distribusi t dengan df n k 1. jika nilai t i lebih besar dari nilai t tabel dengan derajat kepercayaan 𝛼 2, maka data tersebut memiliki nilai discrepancy yang besar dan dikategorikan sebagai outlier. Dan diberikan hipotesis:H0 : −𝑡𝑡𝑎𝑏𝑒𝑙 ≤ 𝑡𝑖 ≤ 𝑡𝑡𝑎𝑏𝑒𝑙 , 𝑚𝑎𝑘𝑎 �晦�𝑢𝑘𝑎𝑛 𝑑𝑎𝑡𝑎 𝑜𝑢𝑡𝑙𝑖𝑒𝑟 H1 : 𝑡𝑖 > 𝑡𝑡𝑎𝑏𝑒𝑙 𝑎𝑡𝑎𝑢 𝑡𝑖 < 𝑡�㡣𝑎𝑏𝑒𝑙 , 𝑚𝑎𝑘𝑎 𝑑𝑎�〰�𝑎 𝑚𝑒𝑟𝑢𝑝𝑎𝑘𝑎𝑛 𝑜𝑢𝑡𝑙𝑖𝑒𝑟
Untuk data dana pensiun di atas Penentuan nilai outlier berdasarkan nilai Externally studentized residuals, dengan nilai ttabel = 2.120 pada 𝛼 2 = 0.05 2 = 0.025 disajikan lima data pertama dalam table 4.3, untuk data yang lainnya dilampirkan. Tabel 4.3 pemeriksaan data outlier pada dana pensiun untuk 18 cabang pada arah-y No 1. 2. 3. 4. 5.
x 10.4 15.6 16.2 17.9 37.8
y 272.2 212.9 120.7 163.6 226.1
Externally studentized residuals (ti) -0.52552 -0.63674 -0.76284 -0.71694 -0.76536
t0.025,16 2.120 2.120 2.120 2.120 2.120
Jenis data Bukan Bukan Bukan Bukan Bukan
54
Dari tabel 4.3 di atas nilai Externally studentized residuals yang lebih dari ttabel adalah data ke-15 dan data ke-18 dengan masing-masing nilai Externally studentized residuals adalah 3,058 dan -4,90717. Oleh karena itu, H0 pada kedua data ini ditolak artinya kedua data tersebut merupakan outlier. Deteksi outlier yang selanjutnya adalah dengan melihat nilai dari jarak Cook’s dan DFFITS (kependekan dari difference in fit standardized), yang digunkan untuk mendeteksi adanya outlier yang menjadi nilai influence. Ukuran dari influence merupakan kombinasi dari ukuran leverage dan discrepancy yang menginformasikan mengenai bagaimana perubahan dari persamaan regresi jika kasus ke-i dihilangkan dari himpunan data. Penentuan nilai DFFITS dan Cook’s. Jika nilai DFFITS dan Cook’s 1 atau < -1 maka dikategorikan sebagai outlier. Pendeteksian outlier dengan DFFITS dan Cook’s menghasilkan data ke-18 sebagai outlier ke-18 sebagai outlier dengan nilai DFFITS = -12.9082 yang kurang dari nilai cutoff , -1, dan Cook’s distance = 34.1087 yang lebih dari nilai cutoff, 1, untuk pendeteksian data yang lainnya terlampir. Dari pendeteksian leverage, nilai discrepancy, nilai DFFITS dan Cook’s didapatkan data outlier yaitu: data ke-15 yang merupakan outlier pada arah-y dan data ke-18 yang merupakan nilai leverage dan yang meberikan nilai influence terhadap model regresi. 4.1.2 Analisis Regresi a.
Metode Least Square Penerapan metode least square pada data dana pensiun dari perusahan
asuransi Belanda di atas menghasilkan persamaan model: yˆ = 632.301 + 5.018 x
(4.1)
55
Persamaan (4.1) dapat digambarkan sebagai berikut:
Scatterplot of y vs x 8000 18
7000 6000
y
5000 17
4000
15
16
3000 2000 1000 0
14 7 13 12 9 11 6 8 10 1 2 45 3
0
200
400
600
800
1000
1200
1400
x
Gambar 4.2 Scatterplot dan Garis Least Square dari Data Dana Pension
Garis least square dari data dana pensiunan sangat dipengaruhi oleh data ke18, seperti dapat dilihat pada gambar (4.2) di atas, garis LS tidak melwati sebagian besar data, tetapi, lebih menuju ke data18. Dan nilai estimasi skala residual yang menunjukkan ke-fit-an garis LS terhadap data sebesar 795,1. Dengan metode LS variabel independen dapat menjelaskan variabel dependen koefisien R sebesar 82,16%.
Akan tetapi, persamaan (4.1) tidak memenuhi
asumsi dari metode LS yaitu asumsi kenormalan residual, seperti dapat dilihat pada gambar berikut ini: Probability Plot of RESI1 Normal
99
Mean StDev N KS P-Value
95 90
-5.05275E-13 771.3 18 0.241 <0.010
Percent
80 70 60 50 40 30 20 10 5
1
-2000
-1000
0 RESI1
1000
2000
Gambar 4.3 Distribusi Normal dari Residual Data Dana Pensiunan
56
Distribusi dari residual data pensiunan tidak memenuhi asumsi kenormalan. Hal ini dapat ditunjukkan dengan gambar (4.3) dan dengan uji kenormalan kolomorgov-semirnov, nilai dari P-value bahwa data normal hanya 0.001, kurang dari tingkat siginfikansi = 0.05. oleh karena itu, persamaan tersebut tidak dapat digunakan untuk analisis regresi dari data dana pensiunan dari ke-18 cabang perusahaan asuransi Belanda.
b. metode Least Trimmed Square (LTS) Analisis regresi untuk data dana pensiunan karena tidak dapat menggunakan metode LS, maka akan digunakan metode lain yang Robust terhadao kehadiran outlier yaitu data ke-15 dan data ke-18. Persamaan model yang didapatkan dari metode LTS adalah: yˆ =181.6062+8.9183x
(4.2)
Persamaan dari (4.2) dapat digambarkan sebagai berikut:
12000
y
8000
4000
0
0
200
400
600
800
1000
1200
1400
x
Gambar 4.4 Garis LTS untuk Data Dana Pensiunan
57
Dari gambar (4.4) di atas garis LTS melewati keabanyakan titik data dan mengabaikan pengaruh dari titik ke-18. Persamaan (4.2) jika dibandingkan dengan persamaan (4.1) maka, pada persamaan (4.2) 0 atau intercept-nya adalah 181,6062, sedangkan pada persamaan (4.1) nilainya adalah 632,301. Sangat besar sekali, karena pada persamaan (4.1) sangat dipengaruhi oleh outlier, sedangkan pada (4.2) tidak terpengaruh. Untuk persamaan (4.2) nilai koefisien, ˆ1 , adalah 8,9183, sedangkan pada persamaan (4.1) adalah 5,018. Dengan metode LTS nilai koefisien R-square adalah 90,37% lebih besar dari R-square dengan menggunakan metode LS. Dan nilai estimasi skala residual dari LTS adalah 354,2, nilai yang sangat kecil jika dibandingkan dengan estimasi skala yang dihasilka oleh metode LS. Tidak
seperti metode LS yang harus memenuhi
beberapa asumsi, metode LTS tidak perlu memenuhi asumsi seperti asumsi pada metode LS. metode LTS memilik breakdown point yang tinggi, yaitu 50%, artinya persamaan (4.2) tetap akan memberikan kecocokan data yang tepat walupun data outliernya hampir setengahnya dari keseluruhan data.
c.
Metode MM-Estimasi Metode yang selanjutnya adalah MM-estimasi dengan menggunakan S-
estimasi sebagai initial estimasinya. Persamaan yang dihasilkan dengan metode ini adalah:
yˆ 126.8782 8.4298 x
(4.3)
Persamaan (4.3) digambarkan sebagai berikut:
58
6000
y
4000
2000
0
0
200
400
600
800
1000
1200
1400
x
Gambar 4.5 garis MM-estimasi untuk Data Dana Pensiunan Dari gambar (4.5) di atas garis MM-estimasi melewati garis ke-18 dan tetap memberikan kecocokan terhadap data yang lainnya. Persamaan (4.3) mempunyai konstanta, 0 , adalah 126,8782 lebih kecil dari dua metode sebelumnya, dan nilai koefisien, ˆ1 , adalah 8,4298 yang juga lebih kecil dari metode LTS. Dengan metode MM-estimasi niali koefisien R2 adalah 71,7% , nilai yang lebih kecil dari kedua metode sebelumnya. Metode MM-estimasi dengan S-estimasi sebagi estimasi awal mempunyai breakdown point yang tinggi yaitu 50% sama seperti metode LTS dan dengan keefisiensian terhadap distribusi normal sekitar 85%. Gambaran perbandingan yang lengkap diberikan oleh tabel 4.4 berikut ini: Table 4.4 perbandingan nilai-nilai intercept, koefisien, skala estimasi, dan R2 dari metode LS, LTS dan MM-estimasi. No
Metode Regresi
Intercept
Koefisien
Estimasi Skala Residual
R2
1.
LS
632,301
5,018
795,1
81,15%
2.
LTS
181,6062
8,9183
354,2
90,37%
3.
MM-estimasi
126,8782
8,4298
395
71,7%
59
4.2
Aplikasi Pada Regresi Berganda Data yang digunakan adalah data yang diperoleh dari [7] yang terdiri dari
empat variabel independen yaitu: blood clotting (pembekuan darah(x1)), prognostic index (x2), enzyme function test (x3), liver function test (x4), dan variabl dependennya adalah survival time. Data berjumlah 54 buah. Pada tabel 4.5 adalah 4 data pertama dan sebagiannya dilampirkan. Tabel 4.5 Data Survival Time no x1 x2 x3 x4 y 1
6.7 62 81 2.59 200
2
5.1 59 66 1.7
3
7.4 57 83 2.16 204
4
6.5 73 41 2.01 101
101
4.2.1 Pemeriksaan Outlier Sebelum menganalisis menggunkan regresi akan diperiksa terlebih dahulu apakah dalam data tersebut terdapat oulier pada arah-y atau arah-x atau ada pada keduanya. a.
Pemeriksaan Leverage Data yang lebih besar dari nilai centroid (mean) variabel independen dan
nilai hii yang melebihi nilai cutoff 2 k 1 n digolongkan sebagai outlier. Nilainilai centroid dari keempat variabel independen adalah 5.783333, 63.42593, 77.2037, 2.744259. dan nial cutoff-nya adalah 0,1852. Data yang termasuk outlier pada data survival time tabel (4.5) adalah data ke-16, 28, 32, 38, dan 43 dengan nilai hii masing-masing adalah 0,189087, 0,264561, 0,219006, 0,31775, 0,260665
60
yang semuanya lebih besar dari nilai cutoff, 0,1852. Untuk pemeriksaan data ditabelkan pada (4.6), data yang lainnya terlampir. b.
Pemeriksaan Discrepancy Penentuan nilai outlier berdasarkan nilai Externally studentized residuals
berdasarkan Penentuan nilai
cutoff –nya yang mengikuti distribusi t dengan
df n k 1. jika nilai t i lebih besar dari nilai t tabel dengan derajat kepercayaan
, maka data tersebut memiliki nilai discrepancy yang besar dan dikategorikan sebagai outlier. Untuk data pada tabel (4.5) nilai t tabel dengan derajat kepercayaan
= 0.05 adalah 2,01. Nilai discrepancy-nya adalah data ke-17 dan 21 dengan nilai Externally studentized residuals masing-masing adalah 2.2679, 10.0852 yang lebih besar dari nilai t tabel . Untuk pemeriksaan datanya ditabelkan pada (4.6), data yang lainnya terlampir. Deteksi outlier yang selanjutnya adalah dengan melihat nilai dari jarak Cook’s dan DFFITS, penentuan outlier dengan menggunkan Cook’s distance adalah jika nilai yang melebihi Ftabel dengan df k 1, n k 1 dengan 0.05 , maka data tersebut digolongkan sebagai outlier. Sedangkan penentuan outlier berdasarkan nilai DFFITS adalah nilai yang melebihi 2
k 1
n . Nilai Ftabel
untuk data tabel (4.4) adalah 2,21, sedangkan nilai cutoff untuk penentuan berdasarkan DFFITS adalah 0,61. Dari data pada tabel (4.5) yang menjadi data outlier adalah data ke-17, 21, dan 32. Untuk pemeriksaan data ditabelkan pada (4.6) selengkapnya dilampirkan.
61
Tabel 4.6 Pemeriksaan data outlier pada data tabel 4.5 leverage
no
hii
discrepancy
cutoff
ti
influence
cutoff
Dffit
cutoff
1.
0.039845 0.1852 -0.5893
2.01 -0.12005
0,61
2.
0.036983 0.1852
2.01
0.01462
0,61
3.
0.106676 0.1852 -0.6346
2.01 -0.21928
0,61
4.
0.081727 0.1852
-0.06
2.01 -0.01791
0,61
5.
0.124131 0.1852
1.0872
2.01
0.4093
0,61
6.
0.08127
0.4743
2.01
0.14107
0,61
0.1852
0.0746
4.2.2 Analisis Regresi a.
Metode Least Square Penerapan metode least square pada data tabel (4.5) di atas menghasilkan
model:
yˆ -620.0512 33.8520x1 4.2701x2 4.1111x3 12.1025x4
(4.4)
karena residual yang dihasilakn oleh persamaan (4.5) tidak berdistribusi normal hal ini ditunjukan pada gambar (4.6) berikut: Probability Plot of RESI1 Normal
99
Mean StDev N KS P-Value
95 90
1.578984E-15 59.29 54 0.161 <0.010
Percent
80 70 60 50 40 30 20 10 5
1
-200
-100
0
100 RESI1
200
300
Gambar 4.6 Normal Plot dari Residual Persamaan (4.4)
62
Dan uji kenormalan tidak terpenuhi karena nilai P-value-nya 0,01 lebih kesil dari tingkat kepercayaan 0,05. Oleh karena itu, Persamaan (4.4) di atas tidak dapat digunakan kerena tidak memnuhi asumis untuk metode LS, yaitu asumsi kenormalan. R-square yang dihasilkan dari metode LS ini adalah 83,35%. Dan menghasilkan residual standar error sebesar 61,67. b.
Metode Least Trimmed Square Penerapan metode least trimmed square pada data tabel (4.4) di atas
menghasilkan model:
yˆ -478.9261 29.3677x1 3.1154x2 3.2763x3 15.0201x4
(4.5)
dengan metode LTS R-square yang dihasilkan adalah 91,1% lebih besar dari yang dihasilkan oleh metode LS. dan nilai konstanta dari LTS (persamaan 4.5) jika dibandingkan dengan persamaan (4.4) lebih kecil, dan untuk koefisien-koefisien
x1 , x2 , x3 persamaan (4.5) juga lebih kecil dari persamaan (4.4). sedangkan nilai koefisien x4 pada persamaan (4.5) lebih besar dari persamaan (4.4). dan persamaan (4.5) menghasilkan estimasi residual error sebesar 24,8 lebih kecil dari persamaan (4.4) c.
Metode MM-Estimasi Penerapan metode MM-estimasi pada data tabel (4.4) di atas menghasilkan
model: 𝑦 = −353.6101 + 25.8923𝑥1 + 2.4334𝑥2 + 2.7282𝑥3 + 0.4754𝑥4 .(4.6) Dengan metode MM-estimasi, R-square yang dihasilkan adalah 94,1% lebih besar dari yang dihasilkan oleh dua metode sebelumnya dan menghasilkan estimasi residual sebesar 20,96 lebih kecil jika dibandingkan dengan kedua metode sebelumnya. Dan juga nilai konstanta dan koefisien persamaan (4.6)
63
memiliki nilai-nilai yang kecil jika dibandingkan dengan kedua metode sebelumnya. Gambaran perbandingan yang lengkap diberikan oleh tabel 4.6 berikut ini: Table 4.6 perbandingan nilai-nilai intercept, koefisien, skala estimasi, dan R2 dari metode LS, LTS dan MM-estimasi. No
Metode Regresi
Koefisien
Intercept x1
x2
x3
x4
Estimasi Skala Residual
R2
1.
LS
-620,051
33,8520
4,2701
4,1111
12,1025
61,67
83,35%
2.
LTS
-478,926
29,3677
3,1154
3,2763
15,0201
24,8
91,3%
3.
MMestimasi
-353,610
25,8923
2,4334
2,7282
0,4754
20,96
94,1%
64
BAB V KESIMPULAN DAN SARAN
5.1
Kesimpulan Pendeteksian outlier yang dibahas terdiri dari pendeteksian leverage,
pendeteksian discrepancy, dan nilai influence dapat digunakan deteksi menggunakan nilai hii, pendeteksian nilai discrepancy menggunakan externally studentized residual (ti), pendeteksian nilai influence dapat digunakan DFIIT’S dan Cook’S distance. Ketiga metode ini dibandingkan dengan suatu nilai cutoff. Jika ketiga nilai tersebut melebihi masing-masing nilai cutoff-nya maka suatu data dideteksi sebagai outlier. Kehadiran data outlier pada regresi akan memberikan nilai-nilai konstanta dan koefisien pada model regresi membesar jika menggunakan metode least square. Selain itu, nilai estimasi skala residual yang menggambarkan ke-fit-an suatu garis least square besar. Hal itu tidak terjadi pada analisis regresi yang menggunakan metode least trimmed square dan MM-estimasi. Nilai konstanta dan nilai-nilai koefisien dari metode least trimmed square dan MM-estimasi tidak terpengaruh oleh kehadiran data outlier, bahkan jika data outlier itu pun hamper setengah banyaknya darri data, karena kedua metode tersebut mempunyai nilai breakdown point sampai 50%. Dan estimasi skala residual dari metode least trimmed square dan MM-estimasi lebih kecil dibandingkan dengan metode least square.
65
Sedangkan jika least trimmed square (LTS) dibandingkan dengan metode MM-estimasi, metode LTS pada analisis regresi sederhana (satu variable independen)
memberikan nilai estimasi skala residual lebih kecil dari nilai
estimasi skala residual metode MM-estimasi. Sedangkan untuk analisis regresi berganda metode MM-estimasi menunjukkan estiamsi skala residual yang lebih besar dari metode LTS.
5.2
Saran Pada tugas akhir ini hanya digunakan dua metode robust yaitu least
trimmed square dan MM-estimasi. Oleh karena itu, untuk penelitian yang lain supaya digunakan metode robust yang lainnya seperti Least median square (LMS), least winsorized square (LWS) dan lain sebagainya. Kemudian data yang digunakan lebih beragam lagi supaya bisa melihat metode mana yang cocok digunakan.
66
REFERENSI
[1] Mendenheell, Wiliam, A second Course in statistics: Regression Analysis. Edisi kelima. Prentice Hall, New Jersey, 1996 [2] Cohen, Jacob, Applied Multiple Regression/Correlation Analysis For The Behavioral Sciences. Edisi ketiga. Lawrence Erlbaum Associate. New Jersey. 2003 [3] Rousseeuw, Peter J., Annick M.Leroy, robust regression and outlier detection. John Wiley & Sons, 1986 [4] Weisberg, Sanford, Applied Linear Regression, Edisi ketiga. John Willey and Sons, Inc Publication. Hoboken, New Jersey. 2005 [5] Yohai, Victor J., Robust Statistics Theory and Methods. John Wiley and Sons Ltd. England, 2006. [6] Hoog, R.V., Allen T. Craig, Introduction to Mathematical Statistics. Edisi kelima. Prentice Hall international, inc., Englewood Cliffs, New Jersey. 1996. [8]
Soemartini, pencilan (outlier). 2007.
67
Lampiran I Tabel 4.1 dana pensiun untuk 18 cabang
No 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18.
x 10.4 15.6 16.2 17.9 37.8 46.9 52.4 52.9 71 73.9 16.3 77 131.2 151 206.1 314.7 470.8 1406.3
y 272.2 212.9 120.7 163.6 226.1 622.9 1353.2 363.6 951.7 307.2 588.4 952.5 1157.3 2105.6 3581.4 3404.7 4095.3 6802.7
Lampiran II Tabel 4.2 pemeriksaan data outlier pada dana pensiun untuk 18 cabang pada arah-x No 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13.
x 10.4 15.6 16.2 17.9 37.8 46.9 52.4 52.9 71 73.9 16.3 77 131.2
y 272.2 212.9 120.7 163.6 226.1 622.9 1353.2 363.6 951.7 307.2 588.4 952.5 1157.3
centroid 176.02 176.02 176.02 176.02 176.02 176.02 176.02 176.02 176.02 176.02 176.02 176.02 176.02
hii 0.070383 0.069467 0.069363 0.069071 0.065883 0.064568 0.063817 0.06375 0.061518 0.061193 0.069346 0.060856 0.056642
cutoff 0.33 0.33 0.33 0.33 0.33 0.33 0.33 0.33 0.33 0.33 0.33 0.33 0.33
Jenis data Bukan Bukan Bukan Bukan Bukan Bukan Bukan Bukan Bukan Bukan Bukan Bukan Bukan
68
14. 15. 16. 17. 18.
151 206.1 314.7 470.8 1406.3
2105.6 3581.4 3404.7 4095.3 6802.7
176.02 176.02 176.02 176.02 176.02
0.055894 0.056045 0.065951 0.102526 0.873729
0.33 0.33 0.33 0.33 0.33
Bukan Bukan Bukan Bukan Outlier
Lampiran III Tabel 4.3 pemeriksaan data outlier pada dana pensiun untuk 18 cabang pada arah-y Externally studentized Jenis no x y t0.05 residuals data 1. 10.4 272.2 -0.52552 2.120 Bukan 2. 15.6 212.9 -0.63674 2.120 Bukan 3. 16.2 120.7 -0.76284 2.120 Bukan 4. 17.9 163.6 -0.71694 2.120 Bukan 5. 37.8 226.1 -0.76536 2.120 Bukan 6. 46.9 622.9 -0.30918 2.120 Bukan 7. 52.4 1353.2 0.58285 2.120 Bukan 8. 52.9 363.6 -0.68267 2.120 Bukan 9. 71 951.7 -0.04641 2.120 Bukan 10. 73.9 307.2 -0.89794 2.120 Bukan 11. 16.3 588.4 -0.15881 2.120 Bukan 12. 77 952.5 -0.08324 2.120 Bukan 13. 131.2 1157.3 -0.16745 2.120 Bukan 14. 151 2105.6 0.92182 2.120 Bukan 15. 206.1 3581.4 3.058 2.120 Outlier 16. 314.7 3404.7 1.63126 2.120 Bukan 17. 470.8 4095.3 1.51935 2.120 Bukan 18. 1406.3 6802.7 -4.90717 2.120 Outlier
69
Lampiran IV Table 4.5 survival time x2 x3 x4 y No x1 6.7 62 81 2.59 200 1 5.1 59 66 1.7 101 2 7.4 57 83 2.16 204 3 6.5 73 41 2.01 101 4 7.8 65 115 4.3 509 5 5.8 38 72 1.42 80 6 5.7 46 63 1.91 80 7 3.7 68 81 2.57 127 8 9 6 67 92 2.5 202 10 3.7 76 94 2.4 203 11 6.3 84 83 4.13 329 12 6.7 51 43 1.86 65 13 5.8 83 88 3.95 330 14 7.7 62 67 3.4 168 15 7.4 74 68 2.4 217 6 85 28 2.98 87 16 17 3.7 51 41 1.55 34 18 7.3 68 74 3.56 215 19 5.6 57 87 3.02 172 20 5.2 52 76 2.85 109 21 5.8 96 114 3.95 830 22 3.4 83 53 1.12 136 23 6.7 26 68 2.1 70 24 5.8 67 86 3.4 220 25 6.3 59 100 2.95 276 26 5.8 61 73 3.5 144 27 5.2 52 86 2.45 181 28 11.2 76 90 5.59 574 29 5.2 54 56 2.71 72 30 5.8 76 59 2.58 178 31 3.2 64 65 0.74 71 32 8.7 45 23 2.52 58 5 59 73 3.5 116 33 34 5.8 72 93 3.3 295 35 5.4 58 70 2.64 115 36 5.3 57 99 2.6 184 37 2.6 74 86 2.05 118 38 4.3 8 120 2.85 120 39 4.8 61 76 2.45 151 40 5.4 52 88 1.81 148 41 5.2 49 72 1.84 95 70
42 43 44 45 46 47 48 49 50 51 52 53 54
3.6 8.8 6.5 3.4 6.5 4.5 4.8 5.1 3.9 6.6 6.4 6.4 8.8
28 99 1.3 75 90 88 6.4 483 56 77 2.85 153 77 93 1.48 191 40 84 3 123 73 106 3.05 311 86 101 4.1 398 67 77 2.86 158 82 108 4.55 310 77 46 1.95 124 85 40 1.21 125 59 85 2.33 198 78 72 3.2 313
Lampiran V Pemeriksaan leverage data table 4.5 x2 x3 x4 No x1 6.7 62 81 2.59 1 5.1 59 66 1.7 2 7.4 57 83 2.16 3 6.5 73 41 2.01 4 7.8 65 115 4.3 5 5.8 38 72 1.42 6 5.7 46 63 1.91 7 8 3.7 68 81 2.57 6 67 92 2.5 9 10 3.7 76 94 2.4 11 6.3 84 83 4.13 12 6.7 51 43 1.86 13 5.8 83 88 3.95 14 7.7 62 67 3.4 15 7.4 74 68 2.4 6 85 28 2.98 16 17 3.7 51 41 1.55 18 7.3 68 74 3.56 19 5.6 57 87 3.02 20 5.2 52 76 2.85 21 5.8 96 114 3.95 22 3.4 83 53 1.12 23 6.7 26 68 2.1
y 200 101 204 101 509 80 80 127 202 203 329 65 330 168 217 87 34 215 172 109 830 136 70
cutoff 0.1852 0.1852 0.1852 0.1852 0.1852 0.1852 0.1852 0.1852 0.1852 0.1852 0.1852 0.1852 0.1852 0.1852 0.1852 0.1852 0.1852 0.1852 0.1852 0.1852 0.1852 0.1852 0.1852
HI1 0.039845 0.036983 0.106676 0.081727 0.124131 0.08127 0.047382 0.060138 0.055526 0.07453 0.065277 0.080764 0.059973 0.050458 0.08157 0.189087 0.151355 0.038603 0.027375 0.044225 0.153731 0.141251 0.124505
Jenis data bukan bukan bukan bukan bukan bukan bukan bukan bukan bukan bukan bukan bukan bukan bukan outlier bukan bukan bukan bukan bukan bukan bukan
71
24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54
5.8 6.3 5.8 5.2 11.2 5.2 5.8 3.2 8.7 5 5.8 5.4 5.3 2.6 4.3 4.8 5.4 5.2 3.6 8.8 6.5 3.4 6.5 4.5 4.8 5.1 3.9 6.6 6.4 6.4 8.8
67 59 61 52 76 54 76 64 45 59 72 58 57 74 8 61 52 49 28 90 56 77 40 73 86 67 82 77 85 59 78
86 100 73 86 90 56 59 65 23 73 93 70 99 86 120 76 88 72 99 88 77 93 84 106 101 77 108 46 40 85 72
3.4 2.95 3.5 2.45 5.59 2.71 2.58 0.74 2.52 3.5 3.3 2.64 2.6 2.05 2.85 2.45 1.81 1.84 1.3 6.4 2.85 1.48 3 3.05 4.1 2.86 4.55 1.95 1.21 2.33 3.2
220 276 144 181 574 72 178 71 58 116 295 115 184 118 120 151 148 95 75 483 153 191 123 311 398 158 310 124 125 198 313
0.1852 0.1852 0.1852 0.1852 0.1852 0.1852 0.1852 0.1852 0.1852 0.1852 0.1852 0.1852 0.1852 0.1852 0.1852 0.1852 0.1852 0.1852 0.1852 0.1852 0.1852 0.1852 0.1852 0.1852 0.1852 0.1852 0.1852 0.1852 0.1852 0.1852 0.1852
0.02792 0.055787 0.055338 0.031417 0.264561 0.083994 0.042994 0.106039 0.219006 0.092267 0.033969 0.028826 0.047335 0.105797 0.31775 0.027146 0.061503 0.038149 0.148072 0.260665 0.026771 0.132737 0.068236 0.068364 0.09949 0.027048 0.177734 0.085847 0.174638 0.050524 0.123695
bukan bukan bukan bukan outlier bukan bukan bukan outlier bukan bukan bukan bukan bukan outlier bukan bukan bukan bukan outlier bukan bukan bukan bukan bukan bukan bukan bukan bukan bukan bukan
Lampiran VI
PEMERIKSAAN DISCREPANCY DATA TABLE 4.5 ttabel Jenis data no TRES1 1 -0.5893 2.01 bukan 0.0746 2.01 bukan 2 3 -0.6346 2.01 bukan -0.06 2.01 bukan 4 1.0872 2.01 bukan 5 0.4743 2.01 bukan 6 0.4706 2.01 bukan 7 8 -0.5425 2.01 bukan 72
9 -1.2699 2.01 bukan -0.708 2.01 bukan 10 11 -0.2344 2.01 bukan 12 0.6928 2.01 bukan 13 -0.1704 2.01 bukan -0.896 2.01 bukan 14 15 -0.6398 2.01 bukan 16 -0.1818 2.01 bukan 17 2.2679 2.01 outlier 18 -0.8199 2.01 bukan 19 -0.5737 2.01 bukan 20 -0.2622 2.01 bukan 21 10.0852 2.01 outlier 22 0.9634 2.01 bukan 23 0.8161 2.01 bukan 24 -0.6061 2.01 bukan 25 -0.2639 2.01 bukan 26 -0.5839 2.01 bukan 27 0.3227 2.01 bukan
Lampiran VII Pemeriksaan outlier berdasarkan DFFIT dan COOK’s distance data table 4.5 COOK1 cutoff DFIT1 cutoff Jenis data no 1 0.00292 2.31 -0.12005 0.61 bukan 2 0.00004 2.31 0.01462 0.61 bukan 3 0.00974 2.31 -0.21928 0.61 bukan 4 0.00007 2.31 -0.01791 0.61 bukan 0.4093 0.61 bukan 5 0.03338 2.31 6 0.00404 2.31 0.14107 0.61 bukan 7 0.00224 2.31 0.10496 0.61 bukan 8 0.00382 2.31 -0.13724 0.61 bukan 9 0.01873 2.31 -0.30792 0.61 bukan 10 0.00816 2.31 -0.20093 0.61 bukan 11 0.00078 2.31 -0.06194 0.61 bukan 12 0.00852 2.31 0.20535 0.61 bukan 13 0.00038 2.31 -0.04304 0.61 bukan 14 0.00857 2.31 -0.20654 0.61 bukan 15 0.00736 2.31 -0.19068 0.61 bukan 16 0.00157 2.31 -0.08777 0.61 bukan 17 0.16915 2.31 0.95775 0.61 outlier 18 0.00543 2.31 -0.1643 0.61 bukan 19 0.00188 2.31 -0.09625 0.61 bukan 73
20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54
0.00065 1.20946 0.03058 0.01907 0.00214 0.00084 0.00405 0.00069 0.07152 0.00265 0.00003 0.00772 0.08309 0.00449 0.00023 0.00037 0.00898 0.01367 0.03792 0.00005 0.00154 0.00029 0.01024 0.00848 0.00205 0.01016 0.00358 0.00013 0.00356 0.00153 0.03622 0.00236 0.00251 0.00234 0.00903
2.31 2.31 2.31 2.31 2.31 2.31 2.31 2.31 2.31 2.31 2.31 2.31 2.31 2.31 2.31 2.31 2.31 2.31 2.31 2.31 2.31 2.31 2.31 2.31 2.31 2.31 2.31 2.31 2.31 2.31 2.31 2.31 2.31 2.31 2.31
-0.05641 4.29843 0.39071 0.30775 -0.10272 -0.06415 -0.14133 0.05813 0.59798 0.114 0.01183 0.1951 0.6478 -0.14865 -0.03372 -0.04252 -0.21172 -0.26027 0.43278 0.01628 -0.08696 0.03755 0.22459 -0.20406 -0.10065 -0.22386 -0.13276 -0.02564 0.13228 -0.08668 -0.42486 -0.10755 -0.11097 -0.10732 -0.21096
0.61 0.61 0.61 0.61 0.61 0.61 0.61 0.61 0.61 0.61 0.61 0.61 0.61 0.61 0.61 0.61 0.61 0.61 0.61 0.61 0.61 0.61 0.61 0.61 0.61 0.61 0.61 0.61 0.61 0.61 0.61 0.61 0.61 0.61 0.61
bukan outlier bukan bukan bukan bukan bukan bukan bukan bukan bukan bukan outlier bukan bukan bukan bukan bukan bukan bukan bukan bukan bukan bukan bukan bukan bukan bukan bukan bukan bukan bukan bukan bukan bukan
74