BAB 2
LANDASAN TEORI
2.1 Outlier
Outlier merupakan suatu pengamatan yang menyimpang cukup jauh dari pengamatan lainnya sehingga menimbulkan kecurigaan bahwa pengamatan tersebut berasal dari distribusi data yang berbeda (Hawkins dalam Sujatmiko, 2005:4). Distribusi pertama disebut sebagai “distribusi dasar” (basic distribution) yang menghasilkan pengamatan “baik”. Distribusi kedua disebut sebagai “distribusi kontaminan” (contaminating distribution) yang menghasilkan pengamatan “tidak baik”. Jumlah maksimum outlier dalam data yang diperbolehkan adalah 50 persen (Rousseeuw dan Leroy dalam Hubert dan Van Driessen,2004:303).
Berdasarkan pengaruh pengamatan outlier terhadap data, maka outlier dapat dibedakan menjadi tiga, yaitu : •
Shift Outlier, mampu menggeser vektor rata-rata sehingga pusat data menjadi berubah.
•
Scale Outlier, mampu merubah bentuk ellipsoid dari data.
•
Radial Outlier, selain menggeser pusat ellipsoid juga merubah bentuk ellipsoid.
Pengamatan yang dikategorikan sebagai pencilan mempunyai nilai residu yang relatif besar untuk ukuran residu pada ketetapan pengamatan. Diasumsikan bahwa hubungan anatara dua variabel x dan y diperkirakan dengan garis lurus. Model regresi formalnya adalah yi = β 0 + β1 xi + ... + ε i
(2.1)
Dengan β 0 dan β1 adalah parameter untuk diestimasi. ε i adalah kesalahan random yang tidak diperhatikan dan diasumsikan berdistribusi normal. Diberikan data
Universitas Sumatera Utara
yang cukup pada x dan y, model parameter dapat diestimasi dengan metode least squares. Interpretasi dari koefisien regresi adalah menyediakan bentuk kedekatan dimana tidak ada variabelyang menyimpangdari asumsi dasar regresi yang telah diketahui. Asumsi ini diperiksa dengan menganalisis regresi residual.
Analisis residu biasanya dimulai dengan grafik dari residu dengan variabel ^
bebas x, dan memfitkannilai y . Secara umum grafik ini dimulai dengan titik-titik untuk memeriksa simpangan dari model asumsi, seperti ketidakcukupan asumsi garis lurus, kecukupan variansi konstan, ada tidaknya outlier dan korelasi kesalahan. Dalam kajian ini perhatian terbatas untuk mendeteksi outlier dan mengukur pengaruhnya pada hasil regresi.(Chatterje-Price,1977)
Untuk mendeteksi outlier dapat dilakukan dengandiagramdan perhitungan nilai seperti : 1. Scatter Plot Data observasi diplotkan dalam suatu grafis, jika terdapat data yang jauh dari kumpulan plot maka dapat dikatakan bahwa data tersebut termasuk pencilan. 2. Boxplot Dengan menggunakan nilai kuartil 1,2 dan 3 yang akan membagi sebuah urutan data menjadi beberapa bagian.
IQR = Q3 - Q1
(2.2)
Dengan : Q1 = Kuartil ke 1 Q2 = Kuartil ke 2 Q3 = Kuartil ke 3 IQR = Interquartule Range (Jangkauan) Dengan batas bukan pencilan kurang dari 1,5xIQR
atas dan besar dari
1,5xIQR bawah. [10]
Universitas Sumatera Utara
3. Leverage Values, DfFITS, Cook’s Distance, dan DfBETA(s) • Leverage Values; menampilkan nilai leverage (pengaruh) terpusat. Outlier yang
disebabkan oleh variabel prediktor dinamakan leverage. Leverage sangat sulit diketahui sejak awal karena : 1. Visualisasi seperti scatter diagram tidak mampu menggambarkan secara utuh dalam satu gambar. 2. Beberapa pencilan dalam data membentuk efek masking / tidak terlihat mencolok. • DfFITS atau Standardized DfFIT; menampilkan nilai perubahan dalam hargayang diprediksi bilamana data yang dianggap pencilan dikeluarkan, yang sudah distandarkan. • Cook’s Distance; menampilkan nilai jarak Cook • DfBETA(s);
menampilkan
nilai
perubahan
koefisien
regresi
sebagai
hasilperubahan yang disebabkan oleh pengeluaran data yang dianggap pencilan. Digunakan untukmendeteksi pencilan pada variabel bebas.
Adapun ketentuan yang berlaku dalam pengambilan keputusan adanya pencilan atau tidak adalah sebagai berikut :
Ket. : n = Jumlah observasi (sampel); p = Jumlah parameter
4. Internal Studenization ( Residu Yang Distudentkan) Umumnya outlier memiliki nilai y yang ekstrim. Untuk mendeteksi apakah terdapat outlier atau tidak, Internal Studenization (Residu yang distudentkan) Hipotesis : H0: ∆i = o ( tidak terdapat outlier ) H1: ∆i≠o ( terdapat outlier )
Universitas Sumatera Utara
Uji Statistik :
t=
r s 1 − hii
≈ t n − p −1
2.3
Dengan :
1 2 ri ∑ n− p Dengan: r = residu p= banyaknya variabel bebas hii = 2p/n s=
Kriteria uji : HO ditolak jika ti≥tα/2;n-p-1 , dan HO diterima jika ti
2.2 Pengamatan Berpengaruh
Pencilan dapat dilihat sebagai pengamatan dengan sisaan yang cukup besar yakni nilai mutlak dari residu lebih besar dari 2 atau ǀr iǀ>2, tetapi Seber (1977,hal165) memberikan patokan kasaryakni nilai mutlak dari residu lebih besar dari 3 atau ǀr iǀ>3, sedangkan pengamatan berpengaruh lebih berkaitan dengan besarnya perubahan yang terjadi pada koefisien regresi jika pengamatan tersebut disisihkan. Secara umum, pencilan tidak selalu berarti pengamatan berpengaruh ataupun sebaliknya. Ada atau tidaknya pengamatan berpengaruh dalam analisis tidak hanya merubah nilai koefisien regresi tapi juga akan merubah penafsiran atau kesimpulan. Pendekatan eksploratif mungkin dianggap kurang efisien dan berkesan mencoba-coba, sehingga dibutuhkan pendekatan yang lebih sistematik. Prosedur yang dapat ditempuh dalam hai ini adalah pemeriksaan sisaan.
Penentuan pengamatan berpengaruh didasarkan pada nilai coverage/cakupan yang disimbolkan dengan h. Secara umum 0≤h≤ 1 dan ∑h = p, dengan p adalah banyaknya parameter dalam model. Sehingga secara rata-rata besarnya h adalah p/n. Hoaglin dan Welsch (1978) menyebutkan bahwa h > 2p/n dapat dianggap cukup besar untuk menyatakan pengamatan tersebut berpotensi sebagai pengamatan berpengaruh. Sedangkan Huber (1981) membayangkan 1/h sebagai besaran yang setara dengan
Universitas Sumatera Utara
^
banyaknya pengamatan yang ikut menentukan pendugaan y , sehingga nilai h > 0,5 dianggap besar dan kritis, dan h > 0,2 sebagai petunjuk peringatan.
Pada dasarnya nilai h yang semakin besar menunjukkan semakin besar potensinya untuk berpengaruh, yang kemudian dapat diketahui setelah analisis dengan penyisihan pengamatan tersebut.
DfFITS dan jarak Cook (Cook’s Distance) digunakan untuk mengukur amatan berpengaruh. Suatu amatan dikatakan berpengaruh jika nilai mutlak DfFITS > 1 untuk gugus data berukuran kecil dan nilai mutlak DfFITS >
untuk gugus data
berukuran sedang dan besar. Cook’s Distance > F(0,5;p;n-p) dikatakan berpengaruh. Contoh pola hubungan data yang mengandung pencilan Gambar 2.1 Scaterplot WRI Januari dan Luas Panen Periode I. Scatterplot of LP-1 vs WRI Jan 350
15
300
LP-1
250 200 150 100
5
8 7
50
14
9
1
10
12
3
2 4
6
11
13
0 20
40
60
80 WRI Jan
100
120
140
Gambar 2.1 menunjukkan contoh pola hubungan Weighted Rainfall Index Januari (WRI Jan) terhadap luas panen padi periode I (LP I). Diketahui pada pengamatan ke15 terletak lebih jauh dari pola pengamatan-pengamatan lainnya pada umumnya. Melalui perbandingan nilai DfFITS dapat dikatakan pengamatan tersebut sebagai outlier dikarenakan memiliki nilai DfFITS = 5.74699 lebih dari batas DfFITS yaitu 2 2 / 15
= 0.730297. Pengamatan ke-11 juga merupakan outlier.
Universitas Sumatera Utara
2.3 Regresi Robust
Metode kuadrat terkecil atau OLS (ordinary least square) merupakan metode penduga terbaik untuk analisis regresi, namun metode ini sangat sensitif terhadap pencilan. Bahkan jika hanya terdapat satu saja pencilan extrim dalam data, maka akan mengakibatkan penyimpangan pada dugaan OLS.Untuk mengatasi data yang mengandung pencilan diperlukan metode yang tegar terhadap pencilan yang disebut sebagai metode robust.
Titik pencilan dapat dideteksi dengan menggunakan nilai residualnya.Titik pencilan dikatakan 0 jika r ≤ 3 dan 1 untuk lainnya. ^ ^ ^ Dengan ri =Yi − β 0 + β1 X 1i + β 2 X 2i , i =1,..., n
(2.4)
Titik Leverage dapat dideteksi dengan menggunakan jarak robust yaitu ( X i − T ( X ))T C ( X ) −1 ( X i − T ( X )) RD( X i ) =
Dimana :
(2.5)
RD : Jarak Robust T(X) : vektor rata-rata robust C(X) : matriks kovarians robust. [10]
Langkah-langkahpendeteksian outlier dengan metode Least Trimmed Squares pada Regresi Robust meliputi beberapa tahap : 1. Tentukan pencilan pada data 2. Tentukan nilai coverage yakni h = [n / 2] + [( p + 1) / 2] 3. Buat subset dari data yaitu sebanyak kombinasi n dari h. 4. Gunakan metode kuadrat terkecil biasa untuk mendapatkan nilai parameter dan residu dari tiap subset 5. Tentukan model fit dengan mencari jumlah kuadrat residu yang terkecil dari keseluruhan subset Setelah didapat model yang fit, kemudian a. Hitung nilai residu robust untuk menentukan titik pencilan, yang diperoleh dari model fit Least Trimmed Squares b. Hitung nilai jarak robust untuk menentukan titik leverage
Universitas Sumatera Utara
c. Buat plot antara jarak robust vs residu robust [10]
Dan
terakhir
plot
antara
residu
robust
dan
jarak
robust
memungkinkanpengguna untuk mencirikan/membedakan 4 model titik yaitu: observasi biasa,pencilan vertikal, titik good leverage dan titik bad leverage. 1. Observasi regular yaitu suatu titik yang memiliki nilai residu robust dan nilaijarak robust kecil. 2. Pencilan vertikal yaitu suatu titik yang memiliki nilai residu robust besar dannilai jarak robust kecil. 3. Good leverage yaitu suatu titik yang memiliki nilai residu robust kecil dannilai jarak robust besar. Ini berarti bahwa Xi menjauh tetapi Yi cocok dengangaris linear. 4. Bad leverage yaitu suatu titik yang memiliki nilai residu robust dan nilaijarak robust besar. Titik ini lebih berbahaya dari pada pencilan karenamemiliki pengaruh paling besar pada regresi linear klasik. Tentu saja tidak selalu semua titik ini dimiliki oleh data.
2.4 Least Trimmed Squares
Least Trimmed Squares(LTS) merupakan suatu metode pendugaan parameter regresi robust untuk meminimumkan jumlah kuadrat h residual (fungsi objektif). ^
h
β = ∑ r(2i:n )
(2.6)
i =1
h= [n / 2] + [( p + 1) / 2]
Dengan Keterangan :
r(i2) : Kuadrat residual yang diurutkan dari terkecil ke terbesar. r(12) < r(22) < r(23) < …. < r(i2) < … < r(h2 ) < … < r(n2 ) n : Banyaknyapengamatan p: Parameter regresi
Universitas Sumatera Utara
Jumlah h menunjukkan sejumlah subset data dengan kuadrat fungsi objektif terkecil. Nilai h pada persamaan (2.6) akan membangun breakdown point yang besar sebanding dengan 50%. Algoritma LTS menurut Rousseeauw dan Van Driessen (1999) dalam Willems dan Aels (2005) adalah gabungan FAST-LTS dan C-steps. Tahapan algoritma yang digunakan FAST LTS, C-steps dan FWLS yaitu : 1) Menghitung estimasi parameter bo
(
2) Menentukan n residual ri 2 = yˆ i − X i bo
) yang bersesuaian dengan (b ) kemudian 2
o
2 menghitung sejumlah ho = (n + p + 1) / 2 pengamatan dengan nilai e(i ) terkecil. ho
3) Menghitung
∑r i =1
2 (i )
4) Melakukan estimasi parameter bnew dari ho pengamatan.
(
)
2
5) Menentukan n kuadrat residual ri 2 = yˆ i − X i bnew yang bersesuaian dengan (bnew) 2 kemudian menghitung sejumlah hnew pengamatan dengan nilai e(i ) terkecil. hnew
6) Menghitung
∑r i =1
2 (i )
7) Melakukan C-steps yaitu tahap 4 sampai 6 untuk mendapatkan fungsi objektif yang kecil dan konvergen.
Dengan metode LTS, model hubungan antara WRI Jan dan LP I diperoleh h = 9 subset data dengan kuadrat fungsi objektif terkecil.
Kemudian melalui FWLS
didapatkan hanya variabel intercept yang signifikan berpengaruh, R Square 18,19 % dan standard deviasi 12,38.
2.5 Penggunaan LTS dalam masalah outlier
Untuk menanggulangi pencilan pada data, yaitu dengan mengeluarkan ataumembuang observasi ke-i pada data yang diduga merupakan pencilan. Kemudiandilakukan pengujian kembali untuk mendeteksi terdapat atau tidaknya pencilanpada data sampai tidak terdapat lagi pencilan pada data tersebut.Meskipun pencilan identik dengan data yang tidak bagus, akan tetapi iamerupakan bagian terpenting dari data, karena
Universitas Sumatera Utara
menyimpan informasi tertentu. Untuk itu alternatif yang dapat diambil terhadap data yang terkontaminasipencilan adalah dengan menggunakan metode Least Trimmed Square (LTS) dalampenaksiran model regresi.
Universitas Sumatera Utara