BAB I PENDAHULUAN
1.1
Latar belakang Beberapa penelitian sering sekali melibatkan banyak variabel. Hal ini
bertujuan agar mendekati kebenaran kesimpulan yang diperoleh dari nilai taksiran sementara (hipotesis). Konsekuensinya perhitungan menjadi sulit karena banyak variabel yang digunakan. Untuk mengatasi keadaan ini, dilakukan usaha-usaha statistik yang bertujuan menyederhanakan struktur variabel atau mereduksi dimensi data, tanpa mengabaikan variabel-variabel yang telah diukur. Salah satu metode statistik untuk mereduksi dimensi data adalah analisis komponen utama (AKU). AKU merupakan salah satu analisis multivariat yang sangat dikenal, yang mampu mereduksi dimensi data yang besar dan saling berkorelasi menjadi dimensi yang lebih kecil dan tidak saling berkorelasi, tanpa kehilangan banyak informasi. AKU merupakan suatu kombinasi linier yang menghasilkan p variabel menjadi k variabel yang lebih kecil. Secara umum, komponen utama ditaksir berdasarkan penaksir biasa yaitu Maximum Likelihood Estimator (MLE), perhitungannya didasarkan pada matriks variansi-kovariansi sampel biasa, yaitu
2
Penggunaan matriks variansi-kovariansi ini sangat sensitif terhadap adanya pencilan (outlier). Jika data mengandung pencilan maka akan mengakibatkan distribusi data menjadi sangat menjulur (heavy tailed distribution) karena penyebaran data yang sangat jauh, akibatnya matriks variansi-kovariansi akan kehilangan efisiensinya dan mengakibatkan sifat penaksir menjadi bias dan tak konsisten. Oleh karena itu pereduksian dimensi data yang menggunakan metode MLE menjadi kurang dapat dipercaya. Pencilan merupakan suatu pengamatan yang menyimpang cukup jauh dari pengamatan lainnya sehingga menimbulkan kecurigaan bahwa pengamatan berasal dari distribusi data yang berbeda (Hawkins dalam Sujatmiko, 2005:4). Terdapat beberapa penyebab munculnya pencilan yaitu pencilan yang disebabkan oleh variabel bebas, dinamakan pencilan leverage dan pencilan yang disebabkan oleh variabel tak bebas, dinamakan pencilan influence. Pencilan leverage terbagi menjadi beberapa jenis yaitu bad leverage dan good leverage. Jenis bad leverage menghasilkan AKU yang buruk sedangkan jenis good leverage menghasilkan AKU yang baik. Pendeteksian pencilan leverage
berdasarkan
penaksir
MLE
menggunakan
jarak
Mahalanobis.
Pendeteksian pencilan leverage dengan jarak Mahalanobis menjadi tidak maksimal, karena keberadaan efek masking dan swamping. Efek Masking terjadi pada saat pengamatan pencilan tidak terdeteksi karena adanya pengamatan pencilan lain yang berdekatan sedangkan efek swamping terjadi saat pengamatan baik teridentifikasi sebagai pencilan.
3
Untuk mengatasi masalah ini diperlukan suatu metode penaksir yang kokoh terhadap pencilan yang disebut sebagai metode robust. Sehingga, tujuan metode AKU robust adalah metode komponen utama yang tidak terlalu dipengaruhi oleh pencilan. Salah satu metode robust yang mempunyai kemampuan mengukur jarak sekaligus mendeteksi jenis pencilan leverage adalah Minimum Covariance Determinant (MCD) yang diperkenalkan oleh Rousseeuw (1984). MCD adalah suatu
metode
yang
menaksir
rata-rata
dan
variansi-kovariansi
dengan
menggunakan sebagian pengamatan yang menghasilkan determinan matriks variansi-kovariansi terkecil. Tujuan metode MCD adalah mencari himpunan bagian dari sekumpulan pengamatan yang mempunyai determinan matriks variansi-kovariansi terkecil. Suatu ukuran tingkat ketaksensitifan suatu penaksir robust terhadap keberadaan pencilan digunakan breakdown point. Breakdown point adalah jumlah pengamatan minimal yang dapat menggantikan sejumlah pengamatan awal yang berakibat pada nilai taksiran yang dihasilkan sangat berbeda dari taksiran sebenarnya. Dengan breakdown point dapat diketahui seberapa banyak pencilan dalam data yang dapat membuat penaksir berubah. Menurut Hubert (2007: 5), MCD mempunyai sifat statistik yang tergolong penaksir robust yang baik karena memenuhi batas jumlah maksimum pencilan dalam data, yaitu sebesar 50 persen. Berdasarkan uraian di atas penulis tertarik untuk mengkaji metode minimum covariance determinant dalam suatu karya tulis,
selanjutnya tugas akhir ini
penulis beri judul “MENDETEKSI PENCILAN (OUTLIER) DALAM ANALISIS
4
KOMPONEN
UTAMA
ROBUST
DENGAN
METODE
MINIMUM
COVARIANCE DETERMINANT ”.
1.2
Rumusan masalah Berdasarkan latar belakang yang telah dijelaskan, permasalahan dalam
penulisan tugas akhir ini dirumuskan sebagai berikut: 1. Bagaimanakah mendeteksi pencilan (outlier) dalam analisis komponen utama robust dengan metode Minimum Covariance Determinant? 2. Bagaimanakah penerapan mendeteksi pencilan (outlier) dalam analisis komponen
utama
robust
dengan
metode
Minimum
Covariance
Determinant pada studi kasus?
1.3
Batasan masalah Agar pembahasan masalah menjadi lebih spesifik pada penulisan tugas
akhir ini dibahas untuk p variabel yang kurang dari atau sama dengan n pengamatan. Ketika p variabel lebih besar dari n pengamatan, maka metode yang digunakan sudah berbeda yaitu dengan metode Projection Pursuit (PP). Dan dalam metode MCD akan diasumsikan bahwa matriks variansi-kovariansi dari MCD tidak nol.
5
1.4
Tujuan penulisan Tujuan penulisan tugas akhir ini adalah: 1. Untuk mengetahui bagaimana mendeteksi pencilan (outlier) dalam analisis komponen
utama
robust
dengan
metode
Minimum
Covariance
Determinant. 2. Untuk mengetahui bagaimana penerapan mendeteksi pencilan (outlier) dalam analisis komponen utama robust dengan metode Minimum Covariance Determinant pada studi kasus.
1.5
Sistematika Penulisan Adapun sistematika penulisan yang digunakan pada penulisan tugas akhir
ini adalah sebagai berikut: BAB I
Pendahuluan Mengemukakan latar belakang, rumusan masalah, pembatasan masalah, tujuan penulisan dan sistematika penulisan.
BAB II
Landasan Teori Mengemukakan landasan teori yang mendukung Bab III diantaranya menjelaskan konsep-konsep matriks, definisi persamaan karakteristik, dan lain-lain.
BAB III
Minimum Covariance Determinant Membahas tentang mendeteksi pencilan (outlier) dalam analisis komponen utama robust dengan metode Minimum Covariance
6
Determinant. BAB IV
Studi Kasus Pembahasan studi kasus penggunaan dari bahasan dalam Bab III, studi kasus yang diambil oleh penulis adalah data yang berasal dari sebuah tesis yang berjudul Weather-Related Geo-Hazard Assessment Model for Railway Embankment Stability.
BAB V
Kesimpulan dan Saran Mencoba merangkum keseluruhan hasil pembahasan dalam bentuk kesimpulan dan saran.
DAFTAR PUSTAKA LAMPIRAN