BAB 1
PENDAHULUAN
1.1 Latar Belakang Masalah
Regresi merupakan suatu metode statistika yang digunakan untuk menyelidiki pola hubungan antara dua atau lebih variabel.Bentuk atau pola hubungan variabelvariabel tersebut dapat diidentifikasi berdasarkan scatter plot atau pengalaman masa lalu yang memuat informasi tentang kurva regresi.
Tujuan dari analisis regresi adalah untuk mengestimasi parameter model yang menyatakan pengaruh hubungan antara variabel prediktor dan variabel respon. Metode estimasi yang banyak digunakan untuk mengestimasi parameter model regresi adalah metode kuadrat terkecil (Ordinary Least Squares). Metode ini mempunyai asumsi-asumsi yang beberapa diantaranya dalam penggunaan pada data riil sering tidak dapat dipenuhi. Salah satu asumsi tersebut adalah mengenai kenormalan residual ei yang sering dilanggar ketika adanya pengamatan yang bersifat outlier.
Outlier tidak dapat dibuang atau dihapus begitu saja dari pengamatan.Menurut Draper dan Smith (1992), adakalanya outlier memberikan informasi yang tidak bisa diberikan oleh titik data lainnya, misalnya karena outlier timbul dari kombinasi keadaan yang tidak biasa yang mungkin saja sangat penting dan perlu diselidiki lebih jauh.
Penolakan begitu saja terhadap suatu pencilan bukanlah prosedur yang bijaksana.Pencilan baru dapat ditolak setelah ditelusuri ternyata akibat dari kesalahan kesalahan seperti kesalahan mencatat amatan bersangkutan atau kesalahan ketika menyiapkan perlatan.Bila ternyata bukan akibat dari kesalahan kesalahan itu perlu diadakan penyelidikan.
Universitas Sumatera Utara
Akibat dari adanya outlier, residual tidak lagi berdistribusi normal atau variansi dari residualnya tidak lagi homogen.Model regresi yang baik memerlukan data yang baik pula. Suatu data dikatakan baik apabila data tersebut berada di sekitar garis regresi. OLS bukan merupakan prosedur regresi yang robust terhadap adanya outlier,karena estimasinya menjadi tidak sesuai meskipun hanya dengan kehadiran satu outlier dalam data (Rousseeuw dan Leroy, 1987). Sehingga untuk mengatasi hal tersebut, dibutuhkan suatu estimator robust yang mempunyai kemampuan mendeteksi outlier sekaligus menyesuaikan taksiran parameter regresi.
Ada beberapa metode dalam regresi robust yang dapat digunakan untuk menangani data pencilan,yaitu Estimasi M dengan Type Welsch dan Least Trimmed Square.Karena itu penulis tertarik untuk membandingkan kedua estimasi tersebut untuk mendapatkan estimasi yang lebih baik untuk menangani data pencilan tersebut dengan judul “STUDI PERBANDINGAN ANTARA ESTIMASI M DENGAN TYPE WELSCH DENGAN LEAST TRIMMED SQUARE DALAM REGRESI ROBUST UNTUK MENGATASI ADANYA DATA PENCILAN “
1.2 Rumusan Masalah
Permasalahan yang dibahas disini adalah mengatasi adanya outlier (data pencilan) dalam regresi linier berganda menggunakan regresi robust yaitu dengan estimasi M type welsch dan least trimmed square dengan terlebih dahulu mendeteksi adanya data pencilan.
1.3 Tujuan Penelitian Penelitian ini bertujuan membandingkan dua estimasi regresi robust dalam mengatasi adanya data pencilan untuk mendapatkan estimasi yang terbaik berdasarkan nilai R2 (koefisien determinasi)
Universitas Sumatera Utara
1.4 Batasan Masalah Adapun batasan masalah dalam skripsi saya ini adalah 1.
Adapun data yang diambil penulis dalam skripsi ini ialah data bangkitan yang terdiri dari 28 buah data.
2.
Metode yang dipakai penulis dalam mengatsi data pencilan ini adalah regersi robust dengan estimasi M type Welsch dan Least Trimmed Square
3.
Pengolahan data dengan menggunakan software SPSS dan Matlab.
1.5 Kontribusi Penelitian 1.Mendapatkan informasi mengenai cara mendeteksi outlier 2.Membandingkan estimasi M type Welsch dengan Least Trimmed Square
1.6 Tinjauan Pustaka
Secara umum analisis regresi digunakan untuk melihat hubungan antara variabel terikat dengan satu atau lebih variabel bebas. Model yang dihasilkan menggunakan analisis regresi adalah model regresi. Model regresi linear dapat dinyatakan sebagai berikut:
ˆ = β x + β x + ... + β x + ε Y n n 1 1 2 2 Metode kuadrat terkecil memerlukan beberapa asumsi yang harus dipenuhi oleh komponen i , yaitu memenuhi asumsi kenormalan, kehomogenan ragam, dan keacakan (tidak memiliki autokorelasi).Jika semua asumsi itu terpenuhi, maka penduga hasil Metode Kuadrat Terkecil pada model regresi merupakan penduga yang bersifat BLUE (Best Linier Unlinier Estimasi) (Myers 1990). Prinsip dasar dari Metode Kuadrat Terkecil adalah meminimumkan jumlah kuadrat sisaan (selisih antara data sebenarnya dengan data dugaan) dari model regresi yang terbentuk.
Pencilan (Outlier) adalah data yang tidak mengikuti pola umum dalam model regresi yang dihasilkan, atau tidak mengikuti pola data secara keseluruhan.Apabila dalam data amatan terdapat data pencilan, maka alternatif langkah yang dibuat adalah menghilangkan ataupun membuang data pencilan
Universitas Sumatera Utara
secara langsung terlebih dahulu sebelum dilakukan analisis lanjutan.Data pencilan dapat dibuang jika data diperoleh dari kesalahan teknis seperti kesalahan mencatat amatan atau kesalahan menyiapakan peralatan.
Jika terdapat masalah yang berkaitan dengan outlier , maka diperlukan alat diagnosis yang dapat mengidentifikasi masalah outlier, salah satunya dengan menyisihkan outlier dari kelompok data kemudian menganalisis data tanpa outlier.
Terdapat beberapa metode untuk menentukan batasan pencilan dalam sebuah analisis:
1.6.1.Boxplot
Identifikasi outlier dapat menggunakan metode grafis. Metode ini merupakan yang paling umum yakni dengan mempergunakan kuartil dan jangkauan. Kuartil 1, 2, dan 3 akan membagi sebuah urutan data menjadi empat bagian. Jangkauan (IQR, Interquartile Range) didefinisikan sebagai selisih kuartil 1 terhadap kuartil 3, atau IQR Q3 Q1
Data-data pencilan dapat ditentukan yaitu nilai yang kurang dari 1.5*IQR terhadap kuartil 1 dan nilai yang lebih dari 1.5*IQR terhadap kuartil 3.
1.6.2.Leverage values,DfFITS,Cook Distance dan DfBeta(s)
Kriteria pengambilan keputusan ada atau tidaknya pencilan adalah Jika
Leverage Values
>(2p-1)/n
DfFITS
>2*sqrt(p/n)
Cook Distance
F(0,5;p;n-p)
DfBeta(s)
2/sqrt(n)
Pencilan (outlier)
Universitas Sumatera Utara
Estimasi parameter menggunakan jumlah kuadrat terkecil menjadi kurang baik apabila distribusi residual-nya tidak normal dan mengandung outlier.Salah satu solusinya adalah menggunakan regresi robust. Metode regresi robust yang paling sering digunakan adalah estimasi M, yang diperkenalkan oleh Huber pada tahun 1973 (Chen, 2002).
Menurut Fox (2002), pada umumnya estimasi M meminimalisasi fungsi obyektif dengan persamaan: n
n
(ei ) (Yi Xb) .Persamaan estimasinya adalah i 1
i 1
n
(Y i 1
i
Xb) X T 0
dengan dan merupakan fungsi influence yang digunakan untuk memperoleh bobot.Lalu, residua- nya distandarisasi, sehingga persamaan menjadi
n
(Yi Xb) / ˆ ) X T 0. Nilai ˆ
i 1
MAR dengan MAR merupaka Median 0,6745
Absolute Residual.
Menurut Ryan, metode ini merupakan metode analisis yang memiliki sifat: 1. Sama baiknya dengan MKT ketika semua asumsi terpenuhi dan tidak terdapat titik data
yang berpengaruh.
2. Dapat menghasilkan model regresi yang lebih baik daripada MKT ketika asumsi tidak dipenuhi dan terdapat titik data yang berpengaruh. 3. Perhitungannya cukup sederhana dan mudah dimengerti, tetapi dilakukan secara iteratif sampai diperoleh dugaan terbaik yang memiliki standar error parameter yang paling kecil.
Estimasi M dengan type Welsch adalah penduga parameter menghasilkan model yang lebih baik dari model hasil Metode Kuadrat Terkecil (MKT) yang didasarkan atas kriteria R2
Universitas Sumatera Utara
Adapun algoritma penyelesain dari Estimasi M dengan Type Welsch adalah: 1. Menentukan data 2. Mengestimasi parameter model regresi menggunakan metode kuadrat terkecil sehingga didapatkan yˆ i ,o dan menghitug i , 0 y i yˆ i , 0 3.Menentukan ˆ 0 dan pembobot awal
w i,0
ψ(ε *i,0 ) i i,0
(ε )
.Dengan i*, 0
i ,0 .Nilai ˆ 0
1 n 1[Yi Yˆi ] MAR n ˆ 0 diperoleh dengan menggunakan rumus ˆ 0 untuk 0,6745 0,6745 masing-masing iterasi t. 4.Berdasarkan tabel diatas diperoleh ψ(ε *i,0 ) (ε *i,0 ) exp( (ε *i,0 / c ) 2 ) . 5.Mencari estimasi pada masing-masing iterasi dengan weighted least square yaitu (XTWt-1X)-1XTWt-1Y 6.Tahap (3) dan (4) diulang sampai diperoleh estimasi parameter model yang konvergen, artinya selisih hasil iterasi t dengan t-1 bernilai 0. 7. Perhitungan dilakukan menggunakan komputer R2 adalah suatu indikator yang menggambarkan berapa banyak variasi yang dijelaskan dalam model. Didefinisikan sebagai: R
b1 x1 y b2 x 2 y b3 x 3 y
2
y
2
Least Trimmed Square adalah salah satu alternatif terhadap penduga least penduga least square yang bersifat robust adalah pendugaan dengan kriteria meminimumkan. Tahapan algoritma Least Trimmed Square adalah 1. Menghitung estimasi parameter b0 2.Menentukan n residual ri 2 ( yˆ i X i bo ) 2 yang bersesuain dengan (bo ) kemudian menghitung sejumlah h0 (n p 1) / 2 pengamatan dengan nilai e(i2 ) terkecil.
Universitas Sumatera Utara
h0
3. Menghitung
r i 1
2 (i )
4. Melakukan estimasi parameter bnew dari h0 pengamatan. 5.Menentukan n kuadrat residual ri 2 ( yˆ X i bnew ) 2 yang bersesuain dengan (bnew) kemudian menghitung sejumlah hnew pengamatan dengan e(i2 ) terkecil. hnew
6. Menghitung
r i 1
2 (i )
7.Melakukan C-steps yaitu tahap 4 sampai 6 untuk mendapatkan fungsi objektif yang kecil dan konvergen.
Universitas Sumatera Utara