Jurnal Eksponensial Volume 2, Nomor 2, Nopember 2011
ISSN 2085-7829
Metode Minimum Covariance Determinan Pada Analisis Regresi Linier Berganda Dengan Kasus Pencilan Minimum Covariance Determinants Method On Multiple Linear Regression Analysis The Case Outliers Sifriyani Program Studi Statistika FMIPA Universitas Mulawarman Abstract One of the methods used to model linear regression on data containing outliers is robust regression. Robust regression is a method used to overcome the deviation from the classical assumptions. One method to overcome the deviation robust outlier assumption is minimum covariance determinant (MCD). MCD principle is to use some of the data that has the smallest determinant of covariance to determine the weighting. Identification of outliers and estimate the parameters. This method can produce a model that is more precise than the MKT. this paper will show resistance to outliers in the MCD method uses simulated data with observations of the size of 30, 50, 100, and 150 data as well as the percentage of outliers as much as 10%, 20%, 30% and 40%. Keywords : regression, outliers, robust, MKT, MCD. 1.
PENDAHULUAN Dalam analisis regresi linier berganda yang mengandung data pencilan, pendeteksian tidak dapat dilihat dengan menggunakan diagram pencar (scatter plot). Beberapa metode untuk mendeteksi hal ini adalah DFFITS, Cook’s Distance, Leverage Values (Soemartini, 2007) dan menggunakan matriks rata-rata dan matriks kovarians yaitu jarak mahalonobis. Akan tetapi metode-metode ini kurang maksimal bila pengamatan mengandung lebih dari satu data pencilan. Hal ini disebabkan metode jarak mahalonobis tidak dapat mengatasi masking dan swamping effect. Dalam Surya (2008) dijelaskan bahwa masking effect merupakan pengaruh pada data pencilan yang terjadi pada saat data pencilan tidak terdeteksi sebagai pencilan karena adanya data pencilan lain yang berdekatan sedangkan swamping effect merupakan pengaruh pada kumpulan data yang terjadi saat data yang bukan pencilan terdeteksi sebagai data pencilan. Masking dan swamping effect dapat diatasi dengan penaksir robust untuk vektor rata-rata dan matriks kovariansi, sehingga didapat jarak mahalonobis robust. Penaksir robust merupakan penaksir yang ajeg terhadap penyimpangan asumsi. Salah satu metode penaksir robust yang dapat mengukur jarak dan mendeteksi titik pencilan adalah penaksir minimum covariance determinant. Rousseuw (2004) menjelaskan bahwa penaksir M yang dikemukakan Huber pada tahun 1973 tidak dapat mengatasi pencilan pada ruangX sehingga dikembangkanlah metode LMS. Metode LMS memiliki proses yang sangat lama dalam menaksir parameter sehingga dikembangkan metode LTS. Kelemahan metode
LTS adalah tidak dapat mendeteksi seluruh pencilan. Metode robust lain yang dapat mengatasi pencilan ruang-X, mendeteksi seluruh pencilan dan memberikan proses yang relatif cepat adalah regresi minimum covariance determinant (MCD) (Rousseuw, 2004). Metode ini dapat mendeteksi seluruh pencilan dalam data dan memiliki ketahanan yang cukup besar tehadap pencilan (Rousseuw, 2004). Prinsip metode MCD adalah menggunakan vector rata-rata dan matriks kovarians yang didapat dari penaksir MCD untuk menentukan bobot dari setiap data, sehingga didapat taksiran parameter model MCD. Paper ini akan membahas tentang pengidentifikasian pencilan, pembobotan data, dan penentuan parameter analisis regresi berganda dengan menggunakan penaksir robust, yaitu penaksir MCD. Hasil yang diperoleh kemudian dibandingkan dengan metode MKT. Akan ditunjukkan juga bahwa metode ini memiliki ketahanan terhadap pencilan dengan membandingkan nilai-nilai bias, MSE, dan R2 yang diperoleh metode MKT dan MCD. 2. 2.1
LANDASAN TEORI Analisis Regresi Linier Model persamaan analisis regresi berganda secara umum dapat ditulis dalam notasi matriks sebagai berikut; ࢅ = ࢄࢼ + ࢿ (1) dimana ࢅ : vektor variabel tak bebas (n x 1) ࢄ : matriks variabel bebas (n x p) ࢼ : vektor parameter (p x 1) ࢿ : vektor error (n x1) p : k + 1, k = jumlah variabel bebas, n = jumlah data
Program Studi Statistika FMIPA Universitas Mulawarman
43
Jurnal Eksponensial Volume 2, Nomor 2, Nopember 2011 Jumlah kolom matriks X sebesar k + 1 disebabkan oleh adanya variabel X semu yang dimasukkan ke dalam model yang bernilai 1 untuk setiap Y. sehingga bentuk X sebagai berikut. 1 ݔଵଵ ݔଵଶ ⋯ ݔଵ ݔଶଵ ݔଶଶ ⋯ ݔଶ ܺ = ൦1 ⋮ (2) ⋮ ⋱ ⋮ ൪ ⋮ 1 ݔଵ ݔଶ ⋯ ݔ Metode klasik yang digunakan untuk menaksir parameter model adalah metode kuadrat terkecil (MKT) yang mempunyai prinsip meminimumkan jumlah kuadrat residual. Taksiran parameter untuk model MKT adalah: = (ࢄࢀࢄ)ିࢄࢅ ࢼ (3) 2.2
Pencilan Pengamatan yang dikategorikan sebagai pencilan harus dilihat berdasarkan sebaran datanya, maka penyebab pencilan itu dapat diketahui, apakah berdasarkan penyimpangan oleh variabel bebasnya (X) atau berdasarkan variabel tak bebasnya (Y), atau bahkan berdasarkan keduanya. Penyimpangan oleh variabel bebas atau levelrage point sangat sukar dideteksi sejak awal karena dalam scatter plot tidak dapat terlihat dan membentuk efek masking. (Suryana, 2008) Pada umumnya untuk mengidentifikasi pencilan, dapat digunakan jarak kuadrat mahalonobis yaitu: ഥ∗ )ࢀ)ି(ࢄ ∗ − ࢂ(ࢄ ഥ∗ )ࢀ)ࢀ (4) ࢊࡹ ࡰ = (ࢄ∗ − ࢂ(ࢄ ݔଵଵ ݔଵଶ ⋯ ݔ ࢀ ݔଶଵ ݔଶଶ ⋯ ݔ ܺ∗ = ൦ ⋮ ⋮ ⋱ ⋮ ൪ ݔଵ ݔଶ ⋯ ݔ C-1= invers matriks kovariansi (k x k) ഥ∗ = matriks rata-rata tiap baris ܺ ∗ (k x 1) ࢄ
Nilai jarak mahanolobis untuk setiap pengamatan didapat dari matriks diagonal utama persamaan (4). Suryana (2008) menjelaskan pengamatan diidentifikasi sebagai pencilan jika memenuhi ketentuan sebagai berikut: ࢊࡹ ࡰ > () (5) dengan: () =࣑,(ିࢻ) , () merupakan batas pencilan α = taraf signifikansi Penggunaan jarak mahalanobis tidak lagi maksimal untuk mengidentifikasi pencilan jika lebih dari satu pengamatan pencilan. Hal ini muncul akibat adanya pengaruh masking dan swamping. Pengaruh masking dan swamping kedunya dapat diatasi dengan menggunakan penaksir robust untuk vektor rata-rata dan matrik kovariansi sehingga dihasilkan jarak kuadrat mahalonobis robust.
ISSN 2085-7829
2.3
Penaksir Robust Penaksir yang robust terhadap pencilan merupakan penaksiran yang ajeg terhadap adanya pencilan atau tidak peka bila terjadi penyimpangan data sehingga hasil taksiran terhadap parameter model tidak akan mendekati nilai yang sebenarnya. Dalam Kristian (2010) dijelaskan bahwa tujuan penaksir robust yaitu: i. Menghasilkan taksiran yang sama baiknya dengan taksiran MKT (pada saat residualnya berdistribusi normal dan terbatas dari kesalahan). ii. Menghasilkan taksiran yang baik ketika terdapat kondisi (i) tidak terpenuhi. Dalam penaksir robust dikenal jarak robust dan residu robust. Jarak robust merupakan modifikasi dari jarak mahalonobis, yaitu menggantikan matriks vektor rata-rata dan matriks kovarians metode klasik dengan matriks rata-rata dan kovarians metode robust. Jarak robust diperoleh dengan rumus sebagai berikut: ∗ ഥ∗ࡾࡰ )ࢀ)ି ഥ∗ ࢀ ࢀ () ࢊࡾࡰ = (ࢄ ∗ − ࢂ(ࢄ ࡾࡰ (ࢄ − ࢂ(ࢄ ࡾࡰ ) ) dengan : ିࡾࡰ = invers matriks kovariansi (k x k) ഥ∗ ࡾࡰ = matriks rata-rata tiap baris ܺ ∗ (k x 1) ࢄ Residu robust merupakan error yang diperoleh dari regresi robust. Berdasarkan jarak robust dapat dikategorikan titik levelrage yang lebih dapat dipercaya daripada jarak mahalonobis. Kristian (2010) menjelaskan titik leverage dapat dideteksi dengan jarak robust dengan syarat sebagai berikut: 0 Jika ࢊࡾࡰ < () = ݁݃ܽݎ݁ݒ݁ܮቄ 1 untuk lainnya (7) Berdasarkan Hubert et al (2008), dari residu robust dapat diketahui titik pencilan dengan kritis standardized residual, sebagai berikut: > )ݍ(ܥ (8) ௦ dimana: ݁ = residual ܧܵ ܯ√ =ݏ, s = simpangan baku ݁ ଶ = )ݍ(ܥට ߯,(ଵିఈ) ,
dengan q = jumlah variabel tak bebas
3.
MINIMUM COVARIANCE DETERMINANT (MCD) Metode MCD merupakan penaksir robust untuk rata-rata dan matriks kovarians dengan mencari sebagian data yang mempunyai kovarians minimum yang digunakan untuk mengidentifikasi pencilan, menentukan jarak dan residu robust yang akan digunakan untuk pembobotan data dan penentuan parameter regresi.
Program Studi Statistika FMIPA Universitas Mulawarman
44
Jurnal Eksponensial Volume 2, Nomor 2, Nopember 2011
ISSN 2085-7829
Metode MCD mencari himpunan bagian data dari matriks X* sejumlah h pengamatan, yaitu: ℎ = (݊ + ݇ + 1)/2 (9) dengan ݊ > ݇ Berdasarkan pengamatan (9) maka terdapat kombinasi pengamatan matriks himpunan bagian data dari matriks pengamatan X* sejumlah a, dengan a diidentifikasi sebagai berikut: ܽ = ܥ (10) Diperoleh matriks himpunan bagian data Hb sebagai berikut: ݔଵଵ ݔଵଶ ⋯ ݔ ࢀ ݔଶଵ ݔଶଶ ⋯ ݔ ࡴ࢈ = ൦ ⋮ (11) ⋮ ⋱ ⋮ ൪ ݔଵ ݔଶ ⋯ ݔ dengan b = 1,…, a kemudian untuk setiap Hb, sebut sebagai Hbl diperoleh nilai matriks rata-rata tl dan matriks kovarians Cl sebagai berikut: ࢚ = . (ࡴ ࢈)ࢀ. ࢂ∗ (12)
Berdasarkan Huberts et al (2008), diketahui matriks kovarians ൫Σ൯ dari variabel X dan variabel Y sebagai berikut: Σ Σ Σ = ቈ (15) Σ Σ dengan : Σ = matriks kovarians dari X (k x k) Σ = matriks kovarians dari X dan Y (k x 1) Σ = nilai varians Y Setelah mendapat nilai matriks kovarians ൫Σ൯ dapat diketahui nilai kovarians dari error yaitu: ் Σ = Σ − ߚመெ Σ ߚመெ (16) dengan ߚመெ = Σ Σ Huberts et al (2008) menjelaskan bahwa bobot wii dirumuskan dengan ketentuan berikut: 1, ݆݅݇ܽ ݀ ቀ݁൫ߚመெ ൯ቁ ݓ = ቊ (17) 0, ݈ܽ݅݊݊ܽݕ dengan
Dari persamaan (13) dapat diketahui nilai det(Cl) ≠ 0 maka dengan menggunakan persamaan (4) dapat diketahui nilai jarak mahalanobis. Nilai jarak mahalonobis yang diperoleh kemudian diurutkan dari nilai terkecil, diambil nilai dMD sebanyak h. identifikasi nomor pengamatan dMD terpilih. Bentuk matriks X* baru sebanyak h pengamatan, dengan elemen matriksnya berupa pengamatan pada variabel X berdasarkan identifikasi nomor pengamatan. Sebut matriks X* baru, sebagai Hbl dengan l = l+1.
Berdasarkan penjelasan di atas jelas bahwa metode regresi MCD merupakan salah satu penerapan dari pembobotan robust. Pembobotan robust merupakan suatu alternatif untuk memperoleh taksiran parameter yang peka terhadap pencilan. Sehingga regresi MCD dimodelkan dengan persamaan sebagai sebagai berikut: ெ = (ܺ ் ܹ ܺ)ିଵ(ܺ ் ܹ ܺ) ߠ (19)
ࢎ
= (ࡴ ࢈ − ࢂ∗ (࢚)ࢀ)ࢀ(ࡴ ࢈ − ࢂ∗ (࢚)ࢀ) (13) ࢎ dengan ࢂ∗ adalah matriks yang berukuran h x 1, sebagai berikut: 1 1 ∗ ࢂ = ⋮ (14) 1
Dengan persamaan (12) dan (13) didapat nilai tl dan Cl dari matriks Hbl yang baru, kemudian didapat nilai determinannya. Bandingkan dengan det(Cl) dan det(Cl-1), jika: 1. det(Cl) ≠ det(Cl-1), dengan menggunakan persamaan (4) didapat kembali nilai jarak mahalanosi yang baru, kemudian bentuk X* baru sehingga didapat Hbl baru. 2. det(Cl) = det(Cl-1), pengolahan data dilakukan dari awal lagi, dengan himpunan bagian data Hb selanjutnya, sehingga didapat nilai determinan Hb lainnya. Bandingkan seluruh nilai determinan matriks kovarians yang didapat dari himpunan bagian data Hb, kemudian pilih yang bernilai minimum. Definisikan matriks himpunan bagian data Hb yang memiliki nilai determinan minimum sebagai HMCD. Nilai tl dan Cl yang didapat HMCD disebut sebagai tMCD dan CMCD.
்
ିଵ
݀ ቀ݁൫ߚመெ ൯ቁ = ට ݁൫ߚመெ ൯൫Σ൯ ቀ݁൫ߚመெ ൯ቁ
Berdasarkan persamaan (17) dapat dibentuk matriks W berukuran n x n sebagai berikut: ݓଵଵ ݓଵଶ ⋯ ݓଵ ݓଶଵ ݓଶଶ ⋯ ݓଶ = ݓ൦ ⋮ (18) ⋮ ⋱ ⋮ ൪ ݓଵ ݓଶ ⋯ ݓ dengan entri matriks wij = 0, dimana i = j
3.1
Simulasi Data Resistensi metode MCD terhadap pencilan dapat ditunjukkan menggunakan simulasi data. Simulasi data adalah data yang diperoleh dari pembangkitan data dalam hal ini dengan membangkitkan ei yang berdistribusi N(0,1). Selanjutnya data ini dianalisis dengan menggunakan metode regresi MCD dan MKT kemudian dibandingkan. Proses ini dilakukan berulang kali sehingga diharapkan menghasilkan suatu pola yang dapat memberikan kesimpulan mengenai metode yang diteliti. 4.
HASIL DAN PEMBAHASAN Dari data simulasi diperoleh nilai bias, MSE dan koefisien determinasi, nilai bias untuk setiap ukuran pengamatan dan presentase pencilan digambarkan dengan grafik berikut:
Program Studi Statistika FMIPA Universitas Mulawarman
45
(15)
Jurnal Eksponensial Volume 2, Nomor 2, Nopember 2011
ISSN 2085-7829
Gambar 2.2 Grafik MSE (ߚመ) untuk SemuaUkuran Pengamatan dan Presentase Pencilan
Gambar 2.1 Grafik Bias Untuk Semua Ukuran dan Presentase Pencilan Dari grafik terlihat bahwa garis metode MKT selalu berada di bawah garis metode MCD pada saat pencilan 0% atau tidak terdapat pencilan pada data. Terlihat juga ketika pencilan muncul dalam kata, maka garis metode MCD selalu berada di bawah garis metode MKT. hal ini menunjukkan bahwa metode MCD memiliki bias yang relatif kecil dibanding metode MKT. Nilai MSE untuk setiap ukuran pencilan dan ukuran pengamatan dapat dilihat dalam grafik berikut:
Berdasarkan grafik terlihat bahwa nilai MSE ൫ߚመଷ൯ untuk semua data yang mengandung pencilan dengan metode MCD dan MKT sama baiknya, garis metode MKT hanya sedikit dibawah metode MCD untuk setiap ukkuran pengamatan. Akan tetapi ketika data sudah mengandung pencilan, garis metode error yang besar dihasilkan oleh metode MKT. Nilai koefisien determinasi untuk setiap ukuran pengamatan dan presentase pencilan terlihat dalam grafik berikut:
Program Studi Statistika FMIPA Universitas Mulawarman
46
Jurnal Eksponensial Volume 2, Nomor 2, Nopember 2011
ISSN 2085-7829
MCD lebih mendekati nilai yang sebenarnya dibandingkan dengan metode MKT. 5.
KESIMPULAN Berdasarkan analisis dan pembahasan pada bab IV, maka dapat disimpulkan sebagai berikut: Dari simulasi data, dengan pengulangan sebanyak 10 kali dan ukuran pengamatan masingmasing sebanyak 30, 50, 100, 150, menunjukkan bahwa regresi MKT tidak dapat mengestimasi model dengan baik bila terdapat pencilan dalam data. Hal ini ditunjukkan oleh rata-rata hasil ekstimasi parameter model yang cukup jauh menyimpang dari nilai yang sebenarnya serta ratarata MSE dan bias yang selalu jauh lebih besar dibandingkan yang dihasilkan regresi MCD.
Gambar 2.3 Grafik Koefisien Determinasi untuk Semua Ukuran Pengamatan dan Presentase Pencilan. Berdasarkan grafik terlihat bahwa garis metode MCD selalu lebih besar dari garis metode MKT untuk setiap ukuran pengamatan dan presentase pencilan. Ini menunjukkan bahwa metode MCD memiliki garis regresi sampel yang lebih mendekati sebagian besar data dibandingkan metode MKT. Berdasarkan rangkaian penjelasan tersebut, dapat terlihat bahwa nilai bias dan MSE yang dihasilkan oleh metode MCD lebih kecil dibandingkan dengan MKT serta nilai koefisien determinasi yang dihasilkan MCD lebih besar dari MKT untuk setiap ukuran pengamatan dan ukuran pencilan. Terlihat juga bahwa nilai rata-rata estimasi parameter yang dihasilkan oleh metode
6. DAFTAR PUSTAKA Hubert, Mia. Et al. 2008. High-Breakdown Robust Multivariat Methods. Statistical Science, Vol. 23, No. 1. Kristian, Yuddy. 2010. Estimasi Parameter Model dalam Regresi Linier Berganda dengan Metode Least Trimmed Squares (LTS). Tesis. Bandung: Program Pascasarjana UNPAD BANDUNG. Rousseeuw, P.J. et al. 2004. Robust Multivariat Regression.Technometrics, Vol. 46, No. 3. Soemartini. 2007. Pencilan (outlier), (online), (http:// resources.unpad.ac.id/unpadcontent/…/OUTLIER(PENCILAN).pdf. Suryana. 2008. Perbandingan Kinerja Penaksir Robust “MCD” dan “MWCD” dalam Analisis Diskriminan Kuadratik. Tesis. Surabaya: Program Magister ITS SURABAYA.
Program Studi Statistika FMIPA Universitas Mulawarman
47
Jurnal Eksponensial Volume 2, Nomor 2, Nopember 2011
Program Studi Statistika FMIPA Universitas Mulawarman
ISSN 2085-7829
48