PERBANDINGAN METODE KEKAR BIWEIGHT MIDCOVARIANCE DAN MINIMUM COVARIANCE DETERMINANT DALAM ANALISIS KORELASI KANONIK
FREZA RIANA
SEKOLAH PASCASARJANA INSTITUT PERTANIAN BOGOR BOGOR 2012
i
PERNYATAAN MENGENAI TESIS DAN SUMBER INFORMASI Dengan ini saya menyatakaan bahwa tesis “Perbandingan Metode Kekar Biweight Midcovariance dan Minimum Covariance Determinant dalam Analisis Korelasi Kanonik” adalah karya saya dengan arahan dari komisi pembimbing dan belum diajukan dalam bentuk apa pun kepada perguruan tinggi mana pun. Sumber informasi yang berasal atau dikutip dari karya yang diterbitkan mau pun tidak diterbitkan dari penulis lain telah disebutkan dalam teks dan dicantumkan dalam Daftar Pustaka di bagian akhir tesis ini.
Bogor, Agustus 2012 Freza Riana NRP G152100051
ii
ABSTRACT FREZA RIANA. Comparison Robust Biweight Midcovariance and Minimum Covariance Determinant Methods in Canonical Correlation Analysis. Supervised by ERFIANI and AJI HAMIM WIGENA. Canonical Correlation Analysis (CCA) is a multivariate linear used to identify and quantify associations between two sets of random variables. Its standard computation is based on sample covariance matrices, which are however very sensitive to outlying observations. The robust methods are needed. There are two robust methods, i.e robust Biweight Midcovariance (BICOV) and Minimum Covariance Determinant (MCD) methods. The objective of this research is to compare the performance of both methods based on mean square error. The data simulations are generated from various conditions. The variation data consists of the proportion of outliers, and the kind of outliers: shift, scale, and radial outlier. The performance of robust BICOV method in CCA is the best compared to MCD and Classic.
Keywords : Robust, Canonical Correlation Analysis, Outlier, Biweight Midcovariance, Minimum Covariance Determinant.
iii
RINGKASAN FREZA RIANA. Perbandingan Metode Kekar Biweight Midcovariance dan Minimum Covariance Determinant dalam Analisis Korelasi Kanonik. Dibimbing oleh ERFIANI dan AJI HAMIM WIGENA. Analisis korelasi kanonik (AKK) merupakan suatu metode peubah ganda yang memiliki tujuan untuk mengidentifikasi dan mengukur hubungan antara dua gugus peubah. AKK berdasarkan pada matriks peragam dan membentuk suatu kombinasi linier dari setiap gugus peubah sedemikian sehingga korelasi di antara kedua gugus peubah tersebut menjadi maksimum. Namun matriks peragam pada AKK sangat sensitif terhadap pengamatan pencilan. Ada beberapa jenis pengamatan pencilan, pertama, shift outlier yaitu pengamatan pencilan dari sebaran rata-ratanya berbeda dengan sebaran dasarnya (tanpa pencilan) tetapi peragamnya sama. Jenis kedua, scale outlier yaitu pengamatan pencilan yang peragamnya berbeda tetapi kedua sebarannya sama. Jenis ketiga, radial outlier yaitu pengamatan pencilan yang mucul dari sebaran dengan rata-rata dan peragam berbeda. Pencilan tersebut dapat mengakibatkan sebaran data menjadi tidak normal, sehingga matriks peragamnya tidak efisien dan sifat penduganya menjadi berbias. Salah satu pendekatan untuk mengatasi pengamatan pencilan yaitu dengan menggunakan metode kekar. Beberapa metode kekar yang dikembangkan dalam AKK, diantaranya Minimum Covariance Determinant, Projection Pursuit, Alternating Regression, Sign Test, dan Biweight Midcovariance. Matriks peragam yang dihasilkan dari metode-metode tersebut menjadi alternatif sebagai pengganti matriks peragam klasik. Tujuan dari penelitian ini adalah: 1) Menentukan metode kekar yang terbaik antara BICOV dan MCD dalam AKK melalui data simulasi dengan berbagai kondisi pencilan dan proporsi pencilan; 2) Menerapkan AKK dengan metode kekar yang terbaik untuk kasus data struktur ekonomi dan kesejahteraan rakyat yang didapat dari data Survey Ekonomi Nasional (SUSENAS) dan Survey Penduduk Antar Sensus (SUPAS) tahun 1995. Data dalam penelitian ini terdiri dari dua sumber yaitu data simulasi dan data sekunder. Data simulasi berupa data bangkitan yang berguna untuk mengukur kinerja metode BICOV dan MCD dalam AKK. Data sekunder dalam penelitian ini terbitan Badan Pusat Statistik (BPS) tahun 1996. Data sekunder tersebut sebagai penerapan contoh kasus untuk mengidentifikasi dan mengukur keeratan hubungan antara struktur ekonomi dan kesejahteraan rakyat. Data simulasi yang dibangkitkan yaitu: 1) Data populasi yang dibangkitkan dengan sebaran normal ganda , untuk gugus X dan gugus Y dengan 5000; 2) Data contoh tanpa pencilan (Gugus XY) yang berukuran nc=50 dan 100, dibangkitkan secara acak sebanyak M = 500 kali, mengikuti sebaran seperti data populasi; 3) Data cotoh dengan pencilan didapatkan dengan mengubah data Gugus XY sejumlah proporsi pencilan ( dengan berbagai jenis kondisi pencilan. Selanjutnya, kinerja metode kekar BICOV dan MCD dalam AKK diukur melalui berbagai data simulasi, berdasarkan pada: perbedaan jumlah pengamatan, proporsi pencilan, jenis pencilan terdiri dari shift outlier, scale outlier, radial outlier, gugus data pencilan yaitu Gugus X*Y dan Gugus X*Y*.
iv
Data sekunder dalam penelitian terdiri dari dua gugus peubah yaitu gugus peubah struktur ekonomi dan gugus peubah kesejahteraan rakyat. Gugus peubah struktur ekonomi terdiri dari empat peubah, yaitu Persentase PDRB dari sektor pertanian, persentase pekerja di sektor pertanian, persentase pekerja dengan jenis pekerjaan utama 1 (tenaga profesional, teknisi dan yang sejenis), atau 2 (tenaga kepemimpinan dan ketatalaksanaan, atau 3 (tenaga usaha dan yang sejenis, persentase pekerja dengan status pekerja utama sebagai pekerja keluarga. Gugus peubah kesejahteraan rakyat terdiri dari enam peubah, yaitu persentase penduduk dengan pengeluaran di atas UMR per kapita per bulan, persentase rumah tangga dengan penerangan listrik/petromak, persentase rumah tangga yang memiliki TV/Video/Laserdisc, persentase rumah tangga dengan jenis bahan bakar untuk memasak minyak tanah/kayu, persentase penduduk tertinggi lulus SMA atau perguruan tinggi, persentase angka kelahiran total (TFR) tahun (1990-1995). Berdasarkan hasil simulasi pada kondisi shift outlier menunjukkan bahwa metode BICOV mampu meminimumkan nilai mean square error (MSE) dengan pola grafik yang konsisten mulai dari data dengan proporsi pencilan 2% sampai dengan 12 %, baik untuk gugus X*Y maupun gugus X*Y*. Sebaliknya metode MCD dan klasik menghasilkan pola grafik yang tidak konsisten, dengan nilai MSE yang berubah-ubah untuk proporsi pencilan yang berbeda. Pada kondisi pencilan scale outlier menunjukkan bahwa metode klasik yang paling buruk dengan nilai MSE paling maksimum dan pola grafik yang berubah-ubah. Metode MCD merupakan metode yang lebih baik dibandingkan klasik, dengan menghasilkan nilai MSE lebih rendah dibandingkan klasik. Akan tetapi, nilai MSE yang paling rendah dan pola grafik yang konsisten untuk setiap proporsi pencilan yang berbeda ditunjukkan oleh metode BICOV. Pada kasus data dengan kondisi radial outlier, tidak satupun keseluruhan hasil simulasi data menunjukkan metode klasik lebih baik daripada metode MCD. Namun dibandingkan MCD, metode BICOV memberikan nilai MSE paling minimum untuk setiap proporsi pencilan 12% untuk gugus X*Y dan gugus X*Y*. Hasil dari kedua gugus data yaitu gugus struktur ekonomi dan kesejahteraan rakyat terdapat delapan pengamatan yang teridentifikasi sebagai pencilan. Kedua gugus struktur tersebut mempunyai keeratan hubungan sebesar 0.96, artinya gugus struktur ekonomi berkorelasi dengan gugus kesejahteraan rakyat dengan korelasi 0.96. Kata Kunci : Analisis Korelasi Kanonik, Pencilan, Biweight Midcovariance,
Minimum Covariance Determinant.
v
© Hak Cipta milik IPB, tahun 2012 Hak Cipta dilindungi Undang-undang
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan atau menyebutkan sumbernya. Pengutipan hanya untuk kepentingan pendidikan, penelitian, penulisan karya ilmiah, penyusunan laporan, penulisan kritik, atau tinjauan suatu masalah dan pengutipan tersebut tidak merugikan kepentingan yang wajar bagi IPB. Dilarang mengumumkan dan memperbanyak sebagian atau seluruh Karya tulis dalam bentuk apa pun tanpa izin IPB.
vi
PERBANDINGAN METODE KEKAR BIWEIGHT MIDCOVARIANCE DAN MINIMUM COVARIANCE DETERMINANT DALAM ANALISIS KORELASI KANONIK
FREZA RIANA
Tesis Sebagai salah satu syarat untuk memperoleh gelar Magister Sains pada Program Studi Statistika Terapan
SEKOLAH PASCASARJANA INSTITUT PERTANIAN BOGOR BOGOR 2012 vii
Penguji Luar Komisi pada Ujian Tesis: Dr. Anang Kurnia
viii
Judul Tesis
: Perbandingan Metode Kekar Biweight Midcovariance dan Minimum Covariance Determinant dalam Analisis Korelasi Kanonik
Nama
: Freza Riana
NRP
: G152100051
Disetujui Komisi Pembimbing
Dr. Ir. Erfiani, M.Si Ketua
Dr. Ir. Aji Hamim Wigena, M.Sc Anggota
Diketahui,
Ketua Program Studi Statistika Terapan
Dekan Sekolah Pascasarjana
Dr. Ir. Anik Djuraidah, MS
Dr. Ir. Dahrul Syah, M.Sc.Agr
Tanggal Ujian: 09 Agustus 2012
Tanggal Lulus:
ix
PRAKATA
Puji dan syukur penulis panjatkan kepada Allah SWT atas segala rahmat dan karunia-Nya, sehingga karya ilmiah yang berjudul “Perbandingan Metode Kekar Biweight Midcovariance dan Minimum Covariance Determinant dalam Analisis Korelasi Kanonik” ini dapat diselesaikan. Terima kasih penulis sampaikan kepada 1. Ibu Dr. Ir. Erfiani, M.Si selaku pembimbing I dan Bapak Dr. Ir. Aji Hamim Wigena, M.Sc selaku pembimbing II, yang telah banyak memberikan bimbingan dan saran dalam penyusunan karya ilmiah ini. 2. Ibu Dr. Ir. Anik Djuraidah, M.S selaku ketua Program Studi Pascasarjana Statistika Terapan, yang telah memberikan motivasi untuk selalu gigih dan sabar selama masa perkuliahan. 3. Bapak Dr. Anang Kurnia selaku penguji luar komisi pada ujian tesis, yang telah memberikan kritik dan saran dalam perbaikan penyusunan karya ilmiah ini. 4. Kedua orangtua, Papa (Umar Surya Sudira) dan Ibu (Nurimah) serta kedua adik penulis (Dwi Febrina dan Rajab Febriantoro) yang telah memberikan dukungan, doa dan kasih sayang setiap saat. 5. Mb Mariana, Yani Quarta, dan Sahabat HIMASTER IPB 2010 (Statistika Terapan dan Statistika) atas kebersamaannya. Penulis menyadari masih banyak kekurangan dalam penulisan karya ilmiah ini. Untuk itu kritik dan saran yang membangun sangat diperlukan oleh penulis untuk penulisan karya ilmiah selanjutnya. Semoga karya ilmiah ini dapat bermanfaat.
Bogor, Agustus 2012
Freza Riana
x
RIWAYAT HIDUP Penulis dilahirkan di Palembang pada tanggal 28 September 1987 dari pasangan Bapak Umar Surya Sudira dan Ibu Nurimah. Penulis merupakan putri sulung dari tiga bersudara. Penulis menyelesaikan pendidikan SLTA di SMA Negeri 10 Palembang, kemudian melanjutkan perkuliahan di jurusan Matematika Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Sriwijaya, dan lulus pada tahun 2009. Tahun 2010 penulis diterima di Program Studi Statistika Terapan pada Sekolah Pascasarjana IPB.
xi
DAFTAR ISI Halaman DAFTAR TABEL………………………………………………………………...xiii DAFTAR GAMBAR……………………………………………………….....….xiv DAFTAR LAMPIRAN…………………………………………………………...xv PENDAHULUAN…………………………………………………………………..1 Latar Belakang ....................................................................................................... 1 Tujuan Penelitian .................................................................................................... 2 TINJAUAN PUSTAKA ............................................................................................ 3 Analisis Korelasi Kanonik...................................................................................... 3 Biweight Midcovariance ........................................................................................ 5 Minimum Covariance Determinant ........................................................................ 6 Pencilan .................................................................................................................. 8 Pendeteksian Pencilan ............................................................................................ 9 METODOLOGI ....................................................................................................... 11 Data ...................................................................................................................... 11 Data Simulasi ....................................................................................................... 11 Data Sekunder ...................................................................................................... 11 Metode .................................................................................................................. 12 HASIL DAN PEMBAHASAN ................................................................................ 17 Simulasi ................................................................................................................ 17 Kinerja Metode .................................................................................................... 17 Kondisi Shift Outlier ............................................................................................ 17 Kondisi Scale Outlier .......................................................................................... 19 Kondisi Radial Outlier ........................................................................................ 22 Penerapan Metode BICOV ................................................................................. 25 SIMPULAN DAN SARAN .................................................................................... 27 Simpulan ............................................................................................................... 27 Saran ..................................................................................................................... 27 DAFTAR PUSTAKA .............................................................................................. 29 LAMPIRAN ............................................................................................................ 31
xii
DAFTAR TABEL Halaman 1 Statistik deskriptif gugus data struktur ekonomi……………….......
25
2 Statistik deskriptif gugus data kesejahteraan rakyat…………...........
25
3 Nilai jarak Mahalanobis kekar....…....................................................
26
xiii
DAFTAR GAMBAR Halaman 1 Diagram Alir FAST-MCD..........……………………..........................
8
2 Diagram Alir Tahapan I Penelitian……………...................................
16
3 Diagram Alir Tahapan II Penelitian……….....…………….................
16
4 Grafik nilai MSE dengan kondisi shift outlier , nc=50 pengamatan: (a) Gugus X*Y, (b) Gugus X*Y* ……………………
18
5 Grafik nilai MSE dengan kondisi shift outlier , nc=50 pengamatan: (a) Gugus X*Y, (b) Gugus X*Y*……………………...
18
6 Grafik nilai MSE dengan kondisi shift outlier , nc=100 pengamatan: (a) Gugus X*Y, (b) Gugus X*Y* ……………………..
19
7 Grafik nilai MSE dengan kondisi shift outlier , nc=100 pengamatan: (a) Gugus X*Y, (b) Gugus X*Y* ……………………..
19
8 Grafik nilai MSE dengan kondisi scale outlier K1=100, nc=50 pengamatan: (a) Gugus X*Y, (b) Gugus X*Y*………………………
20
9 Grafik nilai MSE dengan kondisi scale outlier K2=144, nc=50 pengamatan: (a) Gugus X*Y, (b) Gugus X*Y*………………………
20
10 Grafik nilai MSE dengan kondisi scale outlier K1=100, nc=100 pengamatan: (a) Gugus X*Y, (b) Gugus X*Y*……………………..
22
11 Grafik nilai MSE dengan kondisi scale outlier K2=144, nc=100 pengamatan: (a) Gugus X*Y, (b) Gugus X*Y*…………………….
22
12 Grafik nilai MSE dengan kondisi radial outlier K1=100, nc=50 pengamatan: (a) Gugus X*Y, (b) Gugus X*Y*……………..
23
13 Grafik nilai MSE dengan kondisi radial outlier K2=144, nc=50 pengamatan: (a) Gugus X*Y, (b) Gugus X*Y*…………….
23
14 Grafik nilai MSE dengan kondisi radial outlier dan K1=100, nc=100 pengamatan: (a) Gugus X*Y, (b) Gugus X*Y*….
24
15 Grafik nilai MSE dengan kondisi radial outlier dan K2=144, nc=100 pengamatan: (a) Gugus X*Y, (b) Gugus X*Y*….
24
xiv
DAFTAR LAMPIRAN Halaman 1 Gugus data peubah struktur ekonomi…….........................................
31
2 Gugus data peubah kesejahteraan rakyat .…….…….........................
32
3 Nilai MSE dengan jumlah pengamatn nc=50.....................................
33
4 Nilai MSE dengan jumlah pengamatn nc=100….….….....................
34
xv
1
PENDAHULUAN Latar Belakang Analisis korelasi kanonik (AKK) merupakan suatu metode peubah ganda untuk mengidentifikasi dan mengukur hubungan antara dua gugus peubah. AKK berdasarkan pada matriks peragam (Dehon et al. 2000) dan membentuk suatu kombinasi linier dari setiap gugus peubah sedemikian sehingga korelasi di antara kedua gugus peubah tersebut menjadi maksimum (Johnson dan Wichern 2002). Namun matriks peragam pada AKK sangat sensitif terhadap pengamatan pencilan (Romanazzi 1992). AKK dapat diaplikasikan dalam berbagai bidang seperti pemasaran,
transportasi,
kedokteran,
meteorologi,
perbankan,
pertanian,
pendidikan, dan perekonomian. Hawkins dan McLachlan (1997) menyatakan bahwa ada dua jenis pengamatan pencilan. Pertama, shift outlier yaitu pengamatan pencilan dari sebaran rata-ratanya berbeda dengan sebaran dasarnya (tanpa pencilan) tetapi peragamnya sama. Kedua, scale outlier yaitu pengamatan pencilan yang peragamnya berbeda tetapi kedua sebarannya sama. Hubert dan Van Driessen (2004) menggabungkan keduanya yaitu pengamatan pencilan yang mucul dari sebaran dengan rata-rata dan peragam berbeda, yang dikenal sebagai radial outlier. Pencilan tersebut dapat mengakibatkan sebaran data menjadi tidak normal, sehingga matriks peragamnya tidak efisien dan sifat penduganya menjadi berbias (Yohai 2006). Salah satu pendekatan untuk mengatasi pengamatan pencilan yaitu dengan menggunakan metode kekar (Rancher 2002). Beberapa metode kekar yang dikembangkan dalam AKK, diantaranya Minimum Covariance Determinant, Projection
Pursuit,
Alternating
Regression,
Sign
Test,
dan
Biweight
Midcovariance. Dehon et al. (2000) membangkitkan data simulasi dengan proporsi pencilan 10% pada kondisi scale outlier, untuk membandingkan metode Minimum Covariance Determinant (MCD), Projection Pursuit,
Alternating
Regression, dan Sign Test. Hasil simulasinya menunjukkan bahwa MCD memberikan nilai Mean Square Error (MSE) paling minimum. Cannon dan Hsieh (2008)
menggunakan
metode
Biweight
Midcovariance
(BICOV)
yang
dikembangkan oleh Wilcox pada tahun 1997, untuk mengatasi pencilan pada peramalan curah hujan.
2
Pada penelitian ini akan dibandingkan kinerja metode BICOV dan MCD melalui data simulasi, dan selanjutnya metode kekar terbaik yang diperoleh diterapkan pada data bidang perekonomian untuk mengetahui korelasi antara gugus struktur ekonomi dan kesejahteraan rakyat.
Tujuan Penelitian Tujuan dari penelitian ini adalah: 1. Menentukan metode kekar yang terbaik antara BICOV dan MCD dalam AKK melalui data simulasi dengan berbagai kondisi pencilan dan proporsi pencilan. 2. Menerapkan AKK dengan metode kekar yang terbaik untuk kasus data struktur ekonomi dan kesejahteraan rakyat yang didapat dari data Survey Ekonomi Nasional (SUSENAS) dan Survey Penduduk Antar Sensus (SUPAS) tahun 1995.
3
TINJAUAN PUSTAKA Analisis Korelasi Kanonik Analisis korelasi kanonik (AKK) yang diperkenalkan oleh Hotelling pada tahun 1936, bertujuan untuk mengidentifikasi dan menghitung hubungan linier antara dua gugus peubah. Perhitungan AKK berfokus pada korelasi antara kombinasi linier dari dua gugus peubah. Ide utama dari AKK adalah mencari pasangan dari kombinasi linier yang memiliki korelasi terbesar. Pasangan kombinasi linier ini disebut peubah kanonik dan korelasinya disebut korelasi kanonik (Johnson dan Wichern 2002). Misalkan gugus peubah pertama , dengan
dan gugus kedua
. Karakteristik dari vektor peubah acak X dan
Y sebagai berikut:
Vektor rataan:
dengan
adalah rata-rata peubah X dan
adalah rata-rata peubah Y.
Matriks peragam dapat disusun sebagai berikut:
(1) Matriks peragam pada persamaan (1), selanjutnya disebut sebagai matriks peragam klasik, dengan: adalah matriks peragam peubah X berukuran (
)
adalah matriks peragam peubah Y berukuran (
)
adalah matriks peragam peubah X dan peubah Y berukuran (
)
adalah matriks peragam peubah Y dan peubah X berukuran (
)
Kombinasi linier kedua gugus peubah dapat dituliskan sebagai berikut:
4
= = = Vektor
koefisien
didapatkan
dengan
dari matriks vektor ciri
mencari
ciri
yang berpadanan dengan
Sedangkan untuk vektor koefisien
mencari akar ciri
akar
didapatkan dengan
dari matriks
berpadanan dengan vektor ciri
yang
, sehingga vektor koefisien
dan
adalah sebagai berikut:
dengan: adalah vektor pembobot kanonik U ke-i adalah vektor pembobot kanonik V ke-i adalah vektor ciri U ke-i adalah vektor ciri V ke-i adalah min
, i=
Selanjutya korelasi kanonik didapatkan dari:
Nilai koefisien korelasi kanonik berada pada kisaran
dan kuadrat
korelasi kanonik merupakan proporsi keragaman peubah kanonik U yang dapat dijelaskan oleh peubah kanonik V (Johnson dan Wichern 2002).
Metode Kekar Perhitungan AKK berdasarkan matriks peragam klasik sangat sensitif terhadap pencilan (Romanazzi 1992), sehingga diperlukan metode kekar untuk mengatasi pencilan (Rancher 2002). Beberapa metode kekar telah dikembangkan seperti Biweight Midcovariance dan Minimum Covariance Determinat. Kedua
5
matriks peragam yang dihasilkan dari kedua metode tersebut menjadi alternatif sebagai pengganti matriks peragam klasik.
Biweight Midcovariance Korelasi Pearson merupakan hubungan antara dua peubah yang bisa dipengaruhi oleh keberadaan suatu pengamatan pencilan (Wilcox 2004). Biweight midcorrelation merupakan alternatif sebagai pengganti dari korelasi Pearson. Biweight berasal dari pembobot Tukey’s bisquare yaitu:
adalah jumlah pengamatan,
Misalkan
median dari y, sehingga pembobot untuk
dengan
adalah median dari x, dan dan
adalah median dari
adalah
adalah:
dan
adalah median dari
. Peragam Biweight Midcovariance dari x dan y:
dengan: jika
, selainnya
jika
, selainnya
Peragam Biweight Midvariance dari x:
Peragam Biweight Midvariance dari y:
Matriks peragam BICOV sebagai berikut: (3)
6
Sehingga didapatkan Biweight Midcorrelation adalah:
Nilai korelasi pada Biweight Midcorrelation sama dengan nilai korelasi Pearson ≤ +1.
yaitu berada pada kisaran -1 ≤
Matriks peragam BICOV juga dapat digunakan dalam AKK yaitu dengan menggantikan matriks peragam klasik, sehingga didapatkan nilai korelasi kanonik sebagai berikut:
Minimum Covariance Determinant Minimum Covariance Determinant (MCD) diperkenalkan oleh Rousseeuw pada tahun 1985. Metode MCD bertujuan mencari submatriks H yang berisi unsur-unsur matriks sejumlah h elemen yang matriks peragamnya memiliki determinan terkecil (Rousseeuw 1999). Pada prinsipnya metode MCD adalah mencari submatriks H berukuran
yang dipilih secara acak sejumlah h
elemen dari matriks X berukuran
, dengan h merupakan bilangan bulat
terkecil dari
. Kemungkinan banyaknya submatriks H yang dapat
dipilih secara acak dari matriks X yaitu sebanyak kombinasi h dari n yang berbeda,
. Submatriks H digunakan untuk memperoleh dugaan vektor rataan
dan matriks peragam. Jika n kecil, maka penduga MCD relatif mudah dan cepat untuk diperoleh, tetapi jika n besar, maka perlu waktu lama dan banyak sekali kombinasi submatriks yang harus diperoleh untuk mendapatkan penduga MCD. Keterbatasan tersebut dapat diatasi dengan pendekatan FAST-MCD dengan algoritma C-Step yang dikembangkan oleh Rousseeuw dan Vandriessen (1999). Misalkan dari matriks
, dengan
berukuran
merupakan submatriks berukuran
. Hitung vektor rataan dan matriks peragam:
(5) Jika det(
, maka definisikan jarak relatif, yaitu:
7
, dengan i=1,2,..n. Urutkan jarak untuk setiap pengamatan, dengan Selanjutnya, sejumlah h pengamatan yang menghasilkan jarak terkecil menjadi
unsur
matriks
sedemikian
dan
. Kemudian, hitung , dengan det(
det(
Penjelasan det(
di
atas
sehingga berdasarkan matriks
.
mensyaratkan
det(
,
karena
jika
maka nilai objektif minimum untuk mendapatkan determinan
terkecil telah ditemukan. Selain itu, jika det( di atas akan menghasilkan
, penggunaan formulasi
yang det(
det(
. Dalam
FAST-MCD akan digunakan algoritma C-Step, ada pun algoritma dari C-Step sebagai berikut: 1. Tetapkan H(old), hitung 2. Hitung jarak relatif
mcd(old)
mcd(old)(i)
dan
mcd(old).
untuk i=1, 2, …, n
3. Urutkan jarak relatif hasil permutasi dari d(old)
d(old)
dengan d(old)
.
4. Tentukan H(new) 5. Hitung
mcd(new)
dan
mcd new)
.
6. Pengulangan algoritma C-Step akan menghasilkan sejumlah proses iterasi. Proses det( 7.
iterasi det(
akan
berhenti,
jika
det(
atau
.
Jika kondisi di atas belum terpenuhi, maka proses iterasi akan terus berlangsung hingga menghasilkan sejumlah h amatan yang memiliki nilai determinan terkecil dan konvergen.
8
Diagram alir FAST-MCD dapat dilihat pada Gambar 1: Misalkan didefinisikan X=[x1,x2,…xp] Tentukan H(1) dari X yang terdiri dari h elemen h=(n+p+1)/2
Iterasi berhenti, dan didapatkan matriks peragam (
Hitung rataan (t mcd (1)), peragam( mcd (1)) dan Det( mcd (1)) dari H(1)
Ya Tidak
Det( mcd (2))
Hitung jarak relatif di
Tentukan H(2) berdasarkan jarak relatif yang terkecil d(1)
Hitung rataan (t(2)), peragam ( mcd (2)) dan Det( mcd (2)) dari H(2)
Gambar 1 Diagram Alir FAST-MCD merupakan matriks peragam dengan determinan terminan terkecil. Matriks peragam MCD tersebut dapat dituliskan sebagai berikut: (5) Matriks pergam MCD dapat digunakan sebagai pengganti matriks peragam klasik dalam AKK. Sehingga didapatkan nilai korelasi kanonik dari:
Pencilan Pencilan merupakan suatu pengamatan yang menyimpang cukup jauh dari pengamatan lainnya sehingga menimbulkan kecurigaan bahwa pengamatan tersebut berasal dari sebaran data yang berbeda (Hawkins 1997). Berdasarkan pengaruh pengamatan pencilan terhadap data, pencilan dapat dibedakan menjadi tiga jenis. Pencilan pertama yaitu shift outlier, merupakan pengamatan pencilan yang berasal dari sebaran yang berbeda dengan sebaran dasarnya (tanpa pencilan) tetapi peragamnya sama. Shift outlier mampu menggeser vektor rataan sehingga pusat data menjadi berubah. Pada data menyebar normal, pergeseran vektor rataan
9
bisa melalui penambahan setiap vektor rataan dengan
satuan. Data dengan
kondisi shift outlier dapat dinyatakan dengan persamaan: (7) menyatakan proporsi pencilan dalam data dan
menyatakan vektor rataan
yang berfungsi sebagai shift outlier. Jenis kedua, scale outlier, yaitu pengamatan pencilan yang berasal dari peragam yang berbeda tetapi sebarannya sama. Scale outlier mampu merubah bentuk ellipsoid. Data dengan kondisi scale outlier dapat dinyatakan dengan persamaan: (8) menyatakan matriks peragam yang berfungsi sebagai scale outlier. Jenis ketiga merupakan gabungan dua jenis pencilan yaitu shift outlier dan scale outlier, yang disebut dengan radial outlier (Hubert dan Van Driessen 2004). Radial outlier mampu menggeser pusat ellipsoid dan merubah bentuk ellipsoid. Data dengan kondisi radial outlier dinyatakan dengan persamaan: (9)
Pendeteksian Pencilan Identifikasi pencilan pada peubah ganda umumnya didasarkan pada jarak Mahalanobis (Suryana 2008). Johnson dan Wichern (1998) menyatakan bahwa pengamatan ke-i diidefinisikan sebagai pencilan jika jaraknya lebih besar dari nilai khi-kuadrat pada sejumlah
dan
peubah. Perhitungan tersebut sebagai berikut:
merupakan vektor rataan dan matriks peragam. Rousseeuw dan Von Zomeren (1990) menjelaskan bahwa penggunaan
jarak Mahalanobis untuk pendeteksian pencilan pada peubah ganda menjadi tidak maksimal jika terdapat lebih dari satu pengamatan pencilan, karena adanya pengaruh masking dan swamping. Masking terjadi pada saat pengamatan pencilan tidak terdeteksi karena adanya pengamatan pencilan yang berdekatan, sedangkan swamping terjadi pada saat pengamatan bukan pencilan teridentifikasi sebagai pengamatan pencilan.
10
Salah satu metode kekar yang dikembangkan untuk mengatasi pencilan dengan jumlah lebih dari satu pengamatan pada kasus peubah ganda yaitu jarak Mahalanobis kekar MCD (Hubert et al. 2007). Suatu pengamatan ke-i didefinisikan sebagai pencilan jika: (10) dengan
dan
mcd
merupakan vektor rataan dan matriks peragam dari
sebagian data X yang mempunyai determinan matriks peragam terkecil.
11
DATA DAN METODE Data Data dalam penelitian ini terdiri dari dua sumber yaitu data simulasi dan data sekunder. Data simulasi berupa data bangkitan yang berguna untuk mengukur kinerja metode BICOV dan MCD dalam AKK. Data sekunder dalam penelitian ini merupakan terbitan Badan Pusat Statistik (BPS) tahun 1996 dalam tesis Harmini
(1997)
yang
“Hubungan
berjudul
Struktur
Ekonomi
dengan
Kesejahteraan Rakyat”. Data sekunder tersebut sebagai penerapan contoh kasus untuk mengidentifikasi dan mengukur keeratan hubungan antara struktur ekonomi dan kesejahteraan rakyat.
Data Simulasi Data Simulasi terdiri dari dua gugus peubah, didefinisikan gugus pertama dan gugus kedua yaitu gugus Y yang
sebagai gugus X yang berukuran berukuran
, dengan
,
dan
. Kedua gugus dibangkitkan
dari sebaran normal ganda. Kinerja metode BICOV dan MCD dalam AKK diukur melalui berbagai keragaman data simulasi. Keragaman data simulasi berdasarkan pada perbedaan: 1. Jumlah pengamatan untuk tiap peubah (nc=50,100) 2. Proporsi pencilan
2%, 4%, 6%, 8%, 10%, 12%)
3. Jenis pencilan (shift outlier, scale outlier, radial outlier) 4. Gugus peubah dengan data pencilan (gugus X*Y dan gugus X*Y*). a) Gugus X*Y didefinisikan untuk setiap
peubah pada gugus X
diberikan sejumlah proporsi pencilan dengan jumlah yang sama, sedangkan gugus Y tidak diberikan pencilan. b) Gugus X*Y* didefinisikan untuk setiap dan
peubah pada gugus X
peubah pada gugus Y diberikan sejumlah proporsi pencilan
dengan jumlah yang sama.
Data Sekunder Gugus peubah yang diamati dalam penelitian ini yaitu gugus peubah struktur ekonomi dan gugus peubah kesejahteraan rakyat. Gugus peubah struktur ekonomi terdiri dari empat peubah, yaitu Persentase PDRB dari sektor pertanian
12
(X1), persentase pekerja di sektor pertanian (X2) , persentase pekerja dengan jenis pekerjaan utama 1 (tenaga profesional, teknisi dan yang sejenis), atau 2(tenaga kepemimpinan dan ketatalaksanaan, atau 3 (tenaga usaha dan yang sejenis) (X3), persentase pekerja dengan status pekerja utama sebagai pekerja keluarga (X4). Gugus peubah kesejahteraan rakyat terdiri dari enam peubah, yaitu persentase penduduk dengan pengeluaran di atas UMR per kapita per bulan (Y1), persentase rumah tangga dengan penerangan listrik/petromak (Y2), persentase rumah tangga yang memiliki TV/Video/Laserdisc (Y3), persentase rumah tangga dengan jenis bahan bakar untuk memasak minyak tanah/kayu (Y4), persentase penduduk tertinggi lulus SMA atau perguruan tinggi (Y5), persentase angka kelahiran total (TFR) tahun (1990-1995) (Y6).
Metode Langkah-langkah analisis data yang dilakukan berkaitan dengan tujuan penelitian dilakukan melalui tahapan sebagai berikut: 1. Perbandingan metode BICOV dan MCD a) Membangkitkan data populasi Membangkitkan data populasi untuk gugus X berukuran dan gugus Y berukuran
, dengan
,
dan
. Data populasi gugus tersebut dibangkitkan dengan sebaran normal ganda
, dengan
dan
matriks peragamnya
b) Membangkitkan data contoh tanpa pencilan Membangkitkan data contoh mengikuti sebaran seperti data populasi, dengan jumlah pengamatan nc=50 dan 100. Data contoh dibangkitkan sebanyak M = 500 kali. c) Membangkitkan data dengan pencilan Simulasi untuk data pencilan didapatkan dengan mengubah data contoh sejumlah proporsi pencilan (
dengan berbagai jenis
13
kondisi pencilan. Kondisi berbagai jenis pencilan dibangkitkan pada gugus X*Y dan gugus X*Y*, sebagai berikut: i.
Pada kondisi ini pengamatan dalam bentuk shift outlier dengan rata-rata dan matriks peragam mengikuti persamaan (7). Masingmasing parameter diberikan nilai: 1) dengan
2) dengan
ii.
Pada kondisi ini pengamatan dalam bentuk scale outlier dengan rata-rata dan matriks peragam mengikuti persamaan (8). Masingmasing parameter diberikan nilai: 1)
. 2)
. iii.
Pada kondisi ini pengamatan dalam bentuk radial outlier dengan rata-rata dan matriks peragam mengikuti persamaan (9). Masingmasing parameter diberikan nilai:
14
1) dengan
. 2) , dengan
. d) Menentukan matriks peragam i.
Menghitung matriks peragam dengan metode klasik untuk gugus populasi, gugus XY, gugus X*Y dan gugus X*Y*.
ii.
Menghitung matriks peragam dengan metode BICOV untuk gugus populasi, gugus XY, gugus X*Y dan gugus X*Y*.
iii.
Menghitung matriks peragam dengan metode MCD untuk gugus populasi, gugus XY, gugus X*Y dan gugus X*Y*.
e) Menentukan nilai korelasi kanonik i.
Menghitung nilai korelasi kanonik klasik untuk gugus populasi, gugus XY, gugus X*Y dan gugus X*Y*.
ii.
Menghitung nilai korelasi kanonik dengan matriks peragam BICOV untuk gugus populasi, gugus XY, gugus X*Y dan gugus X*Y*.
iii.
Menghitung nilai korelasi kanonik dengan matriks peragam MCD untuk gugus populasi, gugus XY, gugus X*Y dan gugus X*Y*.
f) Menghitung nilai MSE untuk metode klasik, BICOV, dan MCD. MSE
=
15
dengan: m:
, adalan nilai korelasi contoh bangkitan ke-m
adalah nilai korelasi populasi didapatkan dari tanh-1
(Dehon et al. 2000)
g) Mengevaluasi kinerja metode klasik, BICOV dan MCD Membandingkan nilai MSE dari ketiga metode tersebut. Metode tersebut dikatakan terbaik atau paling kekar apabila memberikan nilai MSE paling minimum (Dehon et al. 2000). 2.
Penerapan metode BICOV dan MCD. Tahapan-tahapan yang dilakukan dalam analisis ini : 1) Mengidentifikasi adanya pencilan pada gugus data struktur ekonomi dan gugus data kesejahteraan rakyat dengan jarak mahalanobis kekar. 2) Menghitung matriks peragam dengan metode kekar yang terbaik dari hasil simulasi bangkitan. 3) Mengukur hubungan antara gugus data struktur ekonomi dan gugus data kesejahteraan rakyat dengan korelasi kanonik.
16
Mulai Membangkitkan data populasi (
Bangkitkan M=500 kali
Membangkitkan data contoh ( berukuran N Membangkitkan data dengan pencilan Gugus X*Y dan Gugus X*Y* Menduga matriks peragam dengan metode klasik, BICOV DAN MCD
Menghitung nilai korelasi kanonik
Menghitung nilai MSE
Mengevaluasi kinerja AKK dengan membandingkan nilai MSE Selesai
Gambar 2 Diagram Alir Tahapan I Penelitian
Mulai
Data
Mengidentifikasi pencilan
Menghitung matriks peragam Klasik
Menduga matriks peragam dengan metode kekar
Menghitung korelasi kanonik untuk tiap metode
Selesai
Gambar 3 Diagram Alir Tahapan II Penelitian
17
HASIL DAN PEMBAHASAN Simulasi Perbandingan kinerja metode BICOV dan MCD dalam AKK melalui data simulasi dimaksudkan untuk mencari metode kekar yang memberikan nilai MSE paling minimum. Kinerja kedua metode diukur melalui berdasarkan berbagai, kondisi pencilan, proporsi pencilan, jumlah pengamatan dan gugus peubah dengan data pencilan. Hasil keseluruhan simulasi dapat diamati pada Lampiran 3 dan Lampiran 4. Penjelasan nilai MSE pada lampiran tersebut digambarkan pada Gambar 4 sampai dengan Gambar 15.
Keseluruhan gambar menunjukkan
perbandingan kinerja ketiga metode yaitu Klasik (garis dengan simbol lingkaran), BICOV (garis dengan simbol persegi) dan MCD (garis dengan simbol segitiga). Sumbu absis menunjukkan proporsi pencilan dan sumbu ordinat menunjukkan nilai MSE dari korelasi kanonik pertama. Semakin rendah posisi garis semakin kecil nilai MSE yang berarti semakin baik kinerja suatu metode. Sebaliknya, semakin tinggi posisi garis semakin besar nilai MSE yang berarti semakin buruk kinerja suatu metode. Kinerja Metode Pada bagian ini ditunjukkan kinerja dari ketiga metode, yaitu metode klasik, BICOV, dan MCD dengan kondisi pencilan shift outlier, scale outlier, dan radial outlier untuk sejumlah proporsi pencilan dengan jumlah pengamatan contoh yang berbeda.
Kondisi Shift Outlier Gambar 4 menunjukkan bahwa metode BICOV memberikan nilai MSE paling minimum dengan pola grafik yang konsisten. Keseluruhan nilai MSE memberikan nilai yang sama sebesar 0.02 untuk setiap proporsi pencilan yang berbeda pada gugus X*Y dan gugus X*Y*, sedangkan metode klasik dan MCD tampak tidak kekar. Pola grafik metode klasik menunjukkan bahwa pertambahan proporsi pencilan diikuti bertambahnya nilai MSE. Sebaliknya secara umum nilai MSE dari metode MCD menurun dengan penambahan proporsi pencilan. Gambar 5 menunjukkan bahwa metode klasik memberikan nilai MSE paling maksimum dengan pola grafik yang berubah-ubah untuk gugus X*Y dan
18
gugus X*Y*. Berbeda dengan metode klasik, metode MCD menunjukkan pola grafik yang konsisten mulai dari proporsi pencilan 2% sampai dengan 10%, akan tetapi pola grafik berubah pada proporsi pencilan 12%. Dibandingkan kedua metode tersebut, metode BICOV memberikan nilai MSE paling minimum, sebesar 0.02 dengan pola grafik yang konsisten untuk setiap proporsi pencilan.
(a)
(b)
Gambar 4 Grafik nilai MSE dengan kondisi shift outlier pengamatan: (a) Gugus X*Y, (b) Gugus X*Y* (a)
Gambar 5
, nc=50
(b)
Grafik nilai MSE dengan kondisi shift outlier pengamatan: (a) Gugus X*Y, (b) Gugus X*Y*
, nc=50
Gambar 6 dan Gambar 7 menggambarkan gugus data dengan kondisi shift outlier
dan
serta jumlah pengamatan yang sama Nc=100.
Gambar 6 untuk semua proporsi pencilan menunjukkan bahwa metode BICOV memberikan nilai MSE paling minimum dengan pola grafik yang konsisten. Pada gugus X*Y dengan proporsi pencilan 2% hingga 10% memberikan nilai MSE yang sama sebesar 0.01 dan 0.02 untuk proporsi pencilan 12%. Sedangkan pada gugus X*Y* memberikan nilai MSE yang sama sebesar 0.01 untuk tiap hasil simulasi dengan proporsi pencilan yang berbeda. Metode klasik dan MCD memberikan nilai MSE yang lebih besar dibandingkan metode BICOV, dengan pola grafik yang tidak konsisten.
19
Berdasarkan grafik pada Gambar 7, terlihat bahwa pola grafik dari metode klasik berubah-ubah dan memberikan nilai MSE paling maksimum. Pada metode MCD, pola grafik menunjukkan kekonsistenan untuk gugus X*Y dengan nilai MSE sebesar 0.02. Namun pada gugus X*Y* pola grafik yang ditunjukkan hanya konsisten sampai proporsi pencilan 10% saja sebesar 0.02, kemudian berubah menjadi 0.3 pada proporsi pencilan 12%. Pola grafik yang
konsisten dan
memberikan nilai MSE paling minimum adalah metode BICOV. Keseluruhan nilai MSE yang diberikan metode BICOV sebesar 0.01 pada setiap hasil simulasi untuk setiap proporsi pencilan. (a)
Gambar
6 Grafik nilai MSE dengan kondisi shift outlier pengamatan: (a) Gugus X*Y, (b) Gugus X*Y* (a)
Gambar
(b)
, nc=100
(b)
7 Grafik nilai MSE dengan kondisi shift outlier pengamatan: (a) Gugus X*Y, (b) Gugus X*Y*
, nc=100
Keseluruhan hasil simulasi pada kondisi shift outlier menunjukkan bahwa metode BICOV mampu meminimumkan nilai MSE dengan pola grafik yang konsisten mulai dari gugus data tanpa pencilan sampai dengan proporsi pencilan 12 %, baik untuk gugus X*Y maupun gugus X*Y*.
Kondisi Scale Outlier Berdasarkan grafik pada Gambar 8 terlihat bahwa pola grafik metode klasik berubah-ubah dan memberikan nilai MSE yang paling maksimum.
20
Sedangkan pada metode MCD, nilai MSE yang diberikan lebih rendah, sebesar 0.08 untuk gugus data tanpa pencilan dan sampai dengan proporsi pencilan 4% untuk gugus X*Y. Kemudian pada proporsi pencilan 6% sampai dengan 12% memberikan nilai MSE sebesar 0.07. Pola grafik yang berubah-ubah juga terlihat pada gugus X*Y* dengan nilai MSE 0.08, 0.07, 0.08 untuk proporsi pencilan 0%, 2%, 4%, kemudian 0.03 untuk proporsi 6%, selanjutnya pada proporsi pencilan 8% sampai dengan 12% menghasilkan nilai MSE yang sama sebesar
0.07.
Dibandingkan metode MCD, metode BICOV memberikan nilai MSE lebih minimum, terlihat dengan pola grafik yang paling rendah untuk gugus X*Y dan gugus X*Y* dengan proporsi pencilan mulai dari 2% sampai dengan proporsi pencilan terbesar. Nilai MSE untuk gugus X*Y yaitu 0.02 pada proporsi pencilan 2% sampai dengan 4% dan 0.03 mulai dari 6% sampai dengan proporsi pencilan terbesar. Pada gugus X*Y* dengan proporsi pencilan 2% sampai dengan 10%, nilai MSE yang diberikan sama sebesar 0.02, hanya pada proporsi pencilan 12%, nilai MSE sebesar 0.03. (a)
Gambar 8
Gambar 9
(b)
Grafik nilai MSE dengan kondisi scale outlier K1=100, nc=50 pengamatan: (a) Gugus X*Y, (b) Gugus X*Y* (a) (b)
Grafik nilai MSE dengan kondisi scale outlier K2=144, nc=50 pengamatan: (a) Gugus X*Y, (b) Gugus X*Y*
Gambar 9 menunjukkan bahwa metode BICOV merupakan metode yang memberikan nilai MSE yang paling minimum untuk setiap
jumlah proporsi
21
pencilan yang berbeda pada gugus X*Y dan gugus X*Y*, terlihat dengan pola grafik yang ditunjukkan. Sedangkan kinerja metode klasik dan metode MCD terlihat tidak kekar, yang ditunjukkan dengan pola grafik yang berubah-ubah. Kondisi yang sama untuk gugus X*Y dan gugus X*Y*, yaitu scale outlier dengan faktor pengali K= 100 dan K=144 serta jumlah pengamatan Nc=100 yang tertera pada Gambar 10 dan Gambar 11. Berdasarkan grafik pada Gambar 10, pada gugus X*Y menunjukkan bahwa metode klasik menghasilkan nilai MSE paling maksimum, dengan pola grafik yang semakin menaik untuk setiap pertambahan proporsi pencilan mulai dari 2% sampai dengan 12%. Dibandingkan dengan metode klasik, metode MCD menunjukkan pola grafik yang konsisten, dengan memberikan nilai MSE sebesar 0.03 mulai dari proporsi pencilan 2% sampai dengan 12%. Namun dibandingkan dengan metode MCD, metode BICOV memberikan nilai MSE paling minimum, terlihat dari pola grafik mulai dari gugus pengamatan dengan proporsi pencilan 2% sampai dengan 8% sebesar 0.02 dan 0.01 untuk proporsi pencilan 10% sampai dengan 12% . Gugus X*Y* pada Gambar 10 menunjukkan bahwa metode klasik tampak tidak kekar terhadap pengamatan pencilan, terlihat dengan pola grafik yang berubah-ubah dan nilai MSE paling maksimum. Berbeda dengan metode klasik, metode MCD menunjukkan pola grafik yang kosisten, dengan memberikan nilai MSE sebesar 0.03 untuk setiap proporsi pencilan. Namun dibandingkan kedua metode tersebut, metode BICOV lebih kekar, terlihat dengan pola grafik yang konsisten dengan nilai MSE paling minimum sebesar 0.01 untuk setiap proporsi pencilan. Pola grafik pada Gambar 11 terlihat serupa dengan pola grafik pada Gambar 10. Grafik pada gugus X*Y menunjukkan bahwa nilai MSE yang diberikan oleh metode klasik paling maksimum, terlihat dari pola grafiknya yang selalu bertambah untuk setiap pertambahan proporsi pencilan. Sebaliknya, metode BICOV tampak lebih kekar, terlihat dari nilai MSE yang paling rendah dengan pola grafik yang konsisten untuk setiap proporsi pencilan. Pola grafik pada gugus X*Y* menunjukkan bahwa metode klasik tampak tidak kekar, ini ditunjukkan dari nilai MSE yang diberikan paling maksimum untuk setiap proporsi pencilan di antara metode lainnya. Sedangkan metode MCD, menunjukkan pola grafik yang konsisten dengan nilai MSE sebesar 0.02 untuk
22
setiap proporsi pencilan. Akan tetapi, dibandingkan dengan metode MCD, metode BICOV tampak lebih kekar, terlihat dengan pola grafik yang konsisten dan nilai MSE yang minimum untuk berbagai proporsi pencilan sebesar 0.01. (a)
(b)
Gambar 10 Grafik nilai MSE dengan kondisi scale outlier K1=100, nc=100 pengamatan: (a) Gugus X*Y, (b) Gugus X*Y* (a)
(b)
Gambar 11 Grafik nilai MSE dengan kondisi scale outlier K2=144, nc=100 pengamatan: (a) Gugus X*Y, (b) Gugus X*Y* Pada jumlah pengamatan Nc=50 dan Nc=100 dengan kondisi pencilan scale outlier menunjukkan bahwa metode klasik yang paling buruk dengan nilai MSE yang paling maksimum dan pola grafik yang berubah-ubah. Sedangkan metode MCD merupakan kinerja metode kekar yang lebih baik dibanding metode klasik. Namun dibandingkan MCD, metode BICOV merupakan metode paling kekar, dengan memberikan nilai MSE paling minimum dan pola grafik yang konsisten untuk setiap proporsi pencilan . Kondisi Radial Outlier Gugus data dengan kondisi radial outlier mengandung sifat shift outlier dan scale outlier. Grafik pada Gambar 12 dan Gambar 13 menggambarkan gugus dengan kondisi radial outlier
, K=100 dan
, K=144 dengan
jumlah pengamatan sama Nc=50 untuk gugus X*Y dan gugus X*Y*.
23
Pada Gambar 12 menunjukkan bahwa metode BICOV memberikan nilai MSE paling minimum di antara metode lainnya. Nilai MSE metode BICOV untuk gugus X*Y mulai dari proporsi pencilan 2% hingga 12 % adalah 0.02, 0.03, 0.03, 0.03, 0.04, dan 0.04. Sedangkan pada metode MCD memberikan nilai MSE berturut-turut mulai dari proporsi pencilan 2% sampai dengan proporsi pencilan terbesar adalah 0.08, 0.07, 0.06, 0.06, 0.06 dan 0.06. Dibandingkan dua metode BICOV dan MCD, metode klasik tampak tidak kekar dengan nilai MSE paling maksimum. Begitu juga pada gugus X*Y*, metode klasik memberikan nilai MSE paling maksimum, terlihat dari pola grafik yang lebih tinggi di antara metode lainnya. Metode MCD memberikan nilai MSE lebih kecil daripada metode klasik, akan tetapi metode BICOV memberikan nilai MSE paling kecil mulai dari proporsi pencilan terkecil sampai dengan proporsi pencilan 12%. (a)
(b)
Gambar 12 Grafik nilai MSE dengan kondisi radial outlier nc=50 pengamatan: (a) Gugus X*Y, (b) Gugus X*Y* (a)
K1=100,
(b)
Gambar 13 Grafik nilai MSE dengan kondisi radial outlier nc=50 pengamatan: (a) Gugus X*Y, (b) Gugus X*Y*
K2=144,
Pola garfik pada Gambar 13 untuk keseluruhan hasil simulasi pada gugus X*Y dan gugus X*Y* dengan proporsi pencilan 2% sampai dengan 12% menunjukkan bahwa metode BICOV memberikan nilai MSE paling minimum di antara metode klasik dan metode MCD.
24
Gambar 14 dan 15 merupakan grafik untuk gugus data dengan kondisi radial outlier
,
dan
,
serta jumlah
pengamatan yang sama Nc=100. Pola grafik pada Gambar 14
menunjukkan
bahwa metode BICOV tampak lebih kekar dibandingkan metode klasik dan MCD, dengan nilai MSE paling minimum sebesar 0.01 untuk setiap proporsi pencilan. Begitu juga pada Gambar 15, metode BICOV menghasilkan nilai MSE paling minimum mulai dari proporsi pencilan 2% sampai dengan 12%, dengan pola grafik yang konsisten. (a)
(b)
Gambar 14 Grafik nilai MSE dengan kondisi radial outlier dan K1=100, nc=100 pengamatan: (a) Gugus X*Y, (b) Gugus X*Y* (a)
(b)
Gambar 15 Grafik nilai MSE dengan kondisi radial outlier dan K2=144, nc=100 pengamatan: (a) Gugus X*Y, (b) Gugus X*Y* Pada kasus gugus data dengan kondisi radial outlier, tidak satupun hasil simulasi data menunjukkan metode MCD lebih baik daripada metode BICOV. Sedangkan metode klasik merupakan metode paling buruk di antara metode lainnya. Keseluruhan hasil simulasi menunjukkan bahwa metode BICOV memberikan nilai MSE paling minimum untuk setiap proporsi pencilan 12% untuk gugus X*Y dan gugus X*Y*.
25
Penerapan Metode BICOV Pada bagian ini dibahas penerapan AKK untuk mengidentifikasi dan mengukur keeratan hubungan antara gugus data struktur ekonomi dengan gugus kesejahteraan rakyat menggunakan metode BICOV. Pertama dikemukakan statistik deskriptif dari peubah-peubah pada gugus data struktur ekonomi dan kesejahteraan rakyat. Selanjutnya, dilakukan pendeteksian pencilan pada kesuluruhan data pengamatan. Kemudian mengukur keeratan hubungan kedua gugus peubah dengan menggantikan matriks peragam klasik dengan matriks peragam BICOV. Deskripsi data struktur ekonomi dan data kesejahteraan rakyat disajikan pada Tabel 1 dan Tabel 2. Tabel 1 menunjukkan simpangan baku yang cukup besar terdapat pada peubah
(persentase pekerja di sektor pertanian). Hal ini
berarti bahwa pekerja di sektor pertanian cukup beragam di setiap provinsi. Sedangkan pada gugus peubah kesejahteraan rakyat yang tertera pada Tabel 2, peubah yang menunjukkan simpangan cukup besar terdapat pada peubah (persentase rumah tangga dengan perencanaan listrik/petromak) dan (persentase rumah tangga memiliki TV/Video/Laserdisc). Tabel 1 Statistik deskriptif gugus data struktur ekonomi Peubah X1 X2 X3 X4
Rata-rata 27.22 52.84 10.55 22.16
Simpangan baku Minimum Maksimum 10.22 0.22 43.25 15.94 0.83 74.6 3.98 6.01 27.07 7.63 1.69 39.20
Tabel 2 Statistik deskriptif gugus data kesejahteraan rakyat Peubah Y1 Y2 Y3 Y4 Y5 Y6
Rata-rata 11.43 65.14 38.67 94.51 14.9 3159
Simpangan baku Minimum Maksimum 6.91 4.56 35.76 17.64 27.93 99.52 15.75 11.2 83.3 4.98 75.55 99.70 5.39 8.59 34.07 604 1834 4152
Tahap berikutnya, pengidentifikasian pencilan dengan jarak Mahalanobis kekar. Pada Tabel 3, ada delapan pengamatan yang teridentifikasi sebagai
26
pencilan, terlihat dari nilai jarak mahalanobis kekar (di2RD) yang dihasilkan lebih besar dari nilai
(18.3).
Tabel 3 Jarak Mahalanobis Kekar (di2RD) Provinsi DI Aceh Sumatera Utara Sumatera Barat Riau Jambi Sumatera Selatan Bengkulu Lampung DKI Jakarta Jawa Barat Jawa Tengah DI Yogyakarta Jawa Timur Bali
Jarak Mahalnobis (di2 RD) 7.88 10.67 437.56* 9.18 11.69 3.42 96.80* 6.92 740.53* 11.50 6.95 13.30 11.09 139.36*
Provinsi NTB NTT Timor-Timor Kalimantan Barat Kalimantan Tengah Kalimantan Selatan Kalimantan Timur Sulawesi Utara Sulawesi Tengah Sulawesi Selatan Sulawesi Tenggara Maluku Irianjaya
Jarak Mahalnobis (di2 RD) 165.41* 10.97 8.13 6.83 9.67 8.21 8.13 491.22* 10.83 289.35* 13.52 155.50* 11.10
Keterangan: *) di2 RD > Hasil korelasi kanonik pertama dari gugus peubah struktur ekonomi dan kesejahteraan rakyat sebesar 0.96. Nilai korelasi tersebut menjelaskan bahwa ada hubungan antara kedua gugus peubah tersebut sebesar 0.96. Nilai tersebut hampir sama dengan nilai korelasi kanonik pertama yang dihasilkan dengan menggunakan peragam klasik sebesar 0.98.
27
SIMPULAN DAN SARAN Simpulan Biweight Midcovariance merupakan metode kekar terbaik yang memberikan nilai mean square error paling minimum dibandingkan metode klasik dan metode kekar Minimum Covariance Determinant dalam Analisis korelasi kanonik dengan berbagai kondisi pencilan (shift outlier, scale outlier, radial outlier) dan proporsi pencilan mulai dari 2% sampai dengan 12%. Nilai korelasi kanonik pertama dari korelasi antar gugus peubah struktur ekonomi dan kesejahteraan rakyat dengan menggunakan metode biweight midcovariance sebagai pengganti matriks peragam klasik, diperoleh sebesar 0.96, artinya hubungan antara kedua gugus peubah tersebut sebesar 0.96.
Saran Penelitian selanjutnya perlu ditambahkan lagi keragaman dari simulasi bangkitan
data
untuk
mendapatkan
seberapa
kekar
metode
Biweight
Midcovariance terhadap data pencilan. Sedangkan untuk melihat kinerja metode Biweight Midcovariance dapat dibandingkan dengan metode-metode kekar lainnya.
28
29
DAFTAR PUSTAKA Cannon AJ, Hsieh WW. 2008. Robust Nonlinear Canonical Correlation Analysis : Application to Seasonal Climate Forecasting. http://www.nonlin-processesgeophys.net/15/221/2008/npg-15-221-2008.pdf. [20 Desember 2011].
Dehon C, Filzmoser P, Croux C. 2000. Robust Methods for Canonical CorrelationAnalysis.http://www.statistik.tuwien.ac.at/public/filz/papers/na mur00. pdf. [20 Desember 2011]. Dillon WR, Goldstein M. 1984. Multivariate Analysis Methods and Application. John Wiley & Sons. New York. Harmini. 1997. Hubungan Struktur Ekonomi dengan Kesejahteraan Rakyat: Suatu Pendekatan dengan Analisis Korelasi Kanonik [Tesis]. Bogor: Program Pascasarjana, Institut Pertanian Bogor. Hawkins DM, McLachlan GJ. 1997. High Breakdown Linear Discriminant Anaysis. Journal of the American Statistical Association, 437:136 –143. Hubert M, Van Driessen K. 2004. Fast and Robust Discriminant Analysis, Computational Statistics and Data Analysis. 45: 301-320. ftp://adrem.ua.ac.be/pub/preprints/02/Fasrob02.pdf. [ 7 Maret 2012]. Johnson RA, Winchern DW. 2002. Applied Multivariate Statistical Analysis. Fourth Edition. New Jersey : Prentice-Hall International inc. Marazzi A. 1993. Algorithms, Routines and S functions for Robust Statistics. California: Wadworth, Inc. Rancher AC. 2002. Methods of Multivariate Analysis. Second Edition. John Wiley & Sons. New York. Romanazzi M. 1992. Influence in Canonical Correlation Analysis. Psychometrika. 57:237-259. http://www.springerlink.com/content/l24p13843114jr65/. [1 April 2012]. Rousseeuw PJ, Van Driessen K. 1999. A Fast Algorithm for the Minimum Covariance Determinant Estimator. Technometrics. 3:212-223. ftp://ftp.win.ua.ac.be/pub/preprints/99/Fasalg99.pdf. [20 Februari 2012] Todorov V, Pires AM. 2007. Comparative Performance of Several Robust Linier Discriminant Analysis Methods. Statistical Journal.50:63-68. http://www.ine.pt/revstat/pdf/rs070104.pdf. [3 Maret 2012] Wilcox RR. 2004. Introduction to Robust Estimation and Hypotesis Testing. Second Edition. Academic press.
30
Yohai VJ. 2006. A Fast Algorithm for S-regression Estimates. Journal of Computational and Graphical Statistics. 15:414-427. http://www.stat.ualberta.ca/~wiens/stat578/papers/SalibianBarrera%20&%20Yohai.pdf. [7 Maret 2012]
31
Lampiran 1 Data gugus peubah struktur ekonomi No 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27
Provinsi DI Aceh Sumatera Utara Sumatera Barat Riau Jambi Sumatera Selatan Bengkulu Lampung DKI Jakarta Jawa Barat Jawa Tengah DI Yogyakarta Jawa Timur Bali NTB NTT Timor-Timor Kalimantan Barat Kalimantan Tengah Kalimantan Selatan Kalimantan Timur Sulawesi Utara Sulawesi Tengah Sulawesi Tenggara Sulawesi Selatan Maluku Irianjaya
X1 43.25 25.44 21.26 18.59 28.84 25.95 37.04 39.62 0.22 16.30 23.68 16.83 17.13 20.05 38.23 39.71 29.45 24.47 40.70 23.65 18.32 27.32 39.86 39.14 33.42 27.20 19.05
X2 58.90 54.48 50.92 52.73 62.12 59.84 64.72 69.14 0.83 29.08 40.35 36.01 42.52 39.52 50.37 73.11 73.15 67.85 64.06 45.94 37.58 51.15 57.51 53.35 57.34 59.58 74.60
X3 11.15 9.28 10.93 10.90 10.25 7.76 8.25 6.01 27.07 11.60 7.47 13.67 7.85 10.71 6.87 6.60 10.22 7.17 8.51 8.63 14.84 12.51 10.35 11.56 11.38 12.21 11.00
X4 21.33 22.56 19.22 17.22 14.64 22.73 30.95 29.70 1.69 9.72 18.82 21.11 18.82 19.12 22.62 39.20 30.22 26.25 29.33 23.18 17.84 15.61 24.36 18.45 27.15 21.99 34.51
(Sumber: Tesis Harmini 1997) Keterangan: X1: Persentase PDRB dari sektor pertanian X2: Persentase pekerja di sektor pertanian X3: Persentase dengan jenis pekerjaan utama 1 (tenaga professional, teknisi dan yang sejenis), atau 2 (tenaga kepemimpinan dan ketatalaksanaan), atau 3 (tenaga usaha dan yang sejenis) X4: Persentase dengan status pekerja utama sebagai pekerja keluarga
32
Lampiran 2 Data gugus peubah kesejahteraan rakyat No 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27
Provinsi DI Aceh Sumatera Utara Sumatera Barat Riau Jambi Sumatera Selatan Bengkulu Lampung DKI Jakarta Jawa Barat Jawa Tengah DI Yogyakarta Jawa Timur Bali NTB NTT Timor-Timor Kalimantan Barat Kalimantan Tengah Kalimantan Selatan Kalimantan Timur Sulawesi Utara Sulawesi Tengah Sulawesi Tenggara Sulawesi Selatan Maluku Irianjaya
Y1 8.62 4.56 13.20 9.97 7.73 6.80 7.28 5.88 35.76 10.09 11.22 27.37 9.24 17.53 9.03 7.83 5.36 10.41 15.57 10.96 14.45 8.12 17.60 13.96 6.18 6.39 7.38
Y2 69.76 78.82 70.38 63.61 65.70 63.10 57.89 49.87 99.52 80.24 78.53 83.16 78.13 89.13 68.14 27.93 28.14 46.96 51.69 64.69 80.66 84.01 64.99 61.69 46.14 66.35 39.53
Y3 32.60 53.70 40.40 54.80 41.80 44.10 39.30 29.20 83.30 52.10 38.80 51.10 36.50 58.10 20.50 11.20 12.50 40.00 37.60 49.50 55.20 31.10 25.10 32.70 25.70 27.50 19.80
Y4 94.24 93.28 96.92 91.76 94.44 95.70 97.29 97.45 75.56 92.67 96.27 90.11 95.71 87.82 98.68 99.70 99.07 97.01 97.71 96.19 90.92 98.28 95.74 88.04 95.34 98.94 96.93
Y5 16.08 15.25 17.28 15.10 12.39 11.03 16.68 10.20 34.07 13.05 10.21 23.11 11.65 19.58 9.81 9.20 8.59 8.79 13.08 13.03 21.14 19.55 14.49 15.97 15.23 14.56 13.13
Y6 3539 3499 3286 3394 3212 3465 3329 3375 2023 3032 2705 1834 2189 1977 3831 3658 4125 3574 3362 2899 2922 2529 3265 3083 3800 3651 3703
(Sumber: Tesis Harmini 1997) Keterangan: Y1: Persentase penduduk dengan pengeluaran di atas UMR per kapita per bulan Y2: Persentase rumah tangga dengan penerangan listrik/petromak Y3: Persentase rumah yang memiliki TV/Video/Laserdisc Y4: Persentase rumah tangga dengan jenis bahan bakar untuk memasak minyak tanah/kayu Y5: Persentase penduduk tertinggi dengan lulusan SMA atau perguruan tinggi Y6: Persentaseanka kelahiran total (TFR) tahun 1990-1995
33
Lampiran 3 Nilai MSE yang dihasilkan pada jumlah pengamatan nc=50 Jenis Pencilan Shift Outlier (+10)
Gugus Peubah Gugus X*Y
GugusX*Y*
Shift Outlier (+20)
Gugus X*Y
GugusX*Y*
Scale Outlier K=100
Gugus X*Y
GugusX*Y*
Scale Outlier K=144
Gugus X*Y
GugusX*Y*
Radial Oulier (+10,K=100)
Gugus X*Y
GugusX*Y*
Radial Oulier (+20,K=144)
Gugus X*Y
GugusX*Y*
Metode MLE BICOV MCD MLE BICOV MCD MLE BICOV MCD MLE BICOV MCD MLE BICOV MCD MLE BICOV MCD MLE BICOV MCD MLE BICOV MCD MLE BICOV MCD MLE BICOV MCD MLE BICOV MCD MLE BICOV MCD
0% 0.02 0.02 0.08 0.02 0.02 0.08 0.02 0.02 0.07 0.02 0.02 0.07 0.02 0.02 0.08 0.02 0.02 0.08 0.02 0.02 0.09 0.02 0.02 0.09 0.02 0.02 0.08 0.02 0.02 0.08 0.02 0.02 0.08 0.02 0.02 0.08
2% 0.13 0.02 0.08 0.30 0.02 0.07 0.23 0.02 0.06 0.54 0.02 0.05 0.08 0.02 0.08 0.16 0.02 0.07 0.09 0.02 0.09 0.25 0.02 0.09 0.17 0.02 0.08 0.50 0.02 0.08 0.21 0.02 0.07 1.60 0.02 0.07
4% 0.19 0.02 0.07 0.47 0.02 0.05 0.27 0.02 0.06 0.61 0.02 0.05 0.12 0.02 0.08 0.19 0.02 0.08 0.16 0.02 0.09 0.27 0.02 0.09 0.27 0.03 0.03 0.62 0.02 0.07 0.29 0.02 0.07 1.80 0.02 0.07
6% 0.27 0.02 0.07 0.42 0.02 0.05 0.29 0.02 0.05 0.32 0.02 0.04 0.18 0.02 0.07 0.16 0.02 0.03 0.20 0.02 0.08 0.28 0.02 0.08 0.03 0.04 0.06 0.54 0.02 0.07 0.31 0.02 0.07 1.72 0.02 0.07
Proporsi Pencilan 8% 10% 12% 0.28 0.29 0.29 0.02 0.02 0.02 0.06 0.05 0.05 0.28 0.19 0.43 0.02 0.02 0.02 0.05 0.13 0.04 0.30 0.30 0.31 0.02 0.02 0.02 0.05 0.04 0.04 0.43 0.26 0.34 0.02 0.02 0.02 0.04 0.12 0.05 0.21 0.24 0.26 0.03 0.03 0.03 0.07 0.07 0.07 0.15 0.12 0.10 0.02 0.02 0.03 0.07 0.07 0.07 0.24 0.27 0.28 0.03 0.03 0.04 0.07 0.07 0.07 0.21 0.17 0.13 0.02 0.02 0.03 0.07 0.07 0.07 0.33 0.36 0.38 0.03 0.04 0.04 0.06 0.06 0.06 0.48 0.34 0.25 0.03 0.03 0.03 0.06 0.06 0.06 0.32 0.32 0.32 0.02 0.02 0.03 0.07 0.06 0.06 1.27 1.02 0.82 0.02 0.02 0.02 0.07 0.06 0.06
34
Lampiran 4 Nilai MSE yang dihasilkan pada jumlah pengamatan nc=100 Jenis Pencilan Shift Outlier (+10)
Gugus Peubah Gugus X*Y
GugusX*Y*
Shift Outlier (+20)
Gugus X*Y
GugusX*Y*
Scale Outlier K=100
Gugus X*Y
GugusX*Y*
Scale Outlier K=144
Gugus X*Y
GugusX*Y*
Radial Oulier (+10,K=100)
Gugus X*Y
GugusX*Y*
Radial Oulier (+20,K=144)
Gugus X*Y
GugusX*Y*
Metode MLE BICOV MCD MLE BICOV MCD MLE BICOV MCD MLE BICOV MCD MLE BICOV MCD MLE BICOV MCD MLE BICOV MCD MLE BICOV MCD MLE BICOV MCD MLE BICOV MCD MLE BICOV MCD MLE BICOV MCD
0% 0.01 0.01 0.02 0.01 0.01 0.02 0.01 0.01 0.02 0.01 0.01 0.02 0.01 0.01 0.03 0.01 0.01 0.03 0.01 0.01 0.02 0.01 0.01 0.02 0.01 0.01 0.03 0.01 0.01 0.03 0.01 0.01 0.02 0.01 0.01 0.02
2% 0.15 0.01 0.02 0.34 0.01 0.02 0.33 0.01 0.02 0.63 0.01 0.02 0.11 0.01 0.03 0.10 0.01 0.03 0.13 0.01 0.02 0.12 0.01 0.02 0.20 0.01 0.03 0.32 0.01 0.03 0.34 0.01 0.02 1.09 0.01 0.02
4% 0.23 0.01 0.02 0.53 0.01 0.02 0.39 0.01 0.02 0.71 0.01 0.02 0.18 0.01 0.01 0.06 0.01 0.03 0.22 0.01 0.02 0.09 0.01 0.02 0.30 0.01 0.02 0.29 0.01 0.02 0.40 0.01 0.02 0.92 0.01 0.02
6% 0.28 0.01 0.02 0.64 0.01 0.02 0.42 0.01 0.02 0.65 0.01 0.02 0.24 0.01 0.03 0.06 0.01 0.03 0.28 0.01 0.02 0.07 0.01 0.02 0.35 0.01 0.02 0.21 0.01 0.02 0.42 0.01 0.02 0.66 0.01 0.02
Prporsi Pencilan 8% 10% 12% 0.31 0.33 0.34 0.01 0.01 0.02 0.02 0.02 0.02 0.39 0.39 0.45 0.01 0.01 0.01 0.02 0.02 0.26 0.44 0.45 0.45 0.01 0.01 0.02 0.02 0.02 0.02 0.44 0.43 0.48 0.01 0.02 0.02 0.02 0.02 0.32 0.29 0.31 0.33 0.01 0.02 0.02 0.03 0.03 0.03 0.07 0.08 0.09 0.01 0.01 0.01 0.03 0.03 0.03 0.33 0.36 0.37 0.01 0.02 0.02 0.02 0.02 0.02 0.07 0.08 0.10 0.01 0.01 0.02 0.02 0.02 0.02 0.38 0.39 0.40 0.02 0.02 0.02 0.02 0.02 0.02 0.14 0.09 0.06 0.01 0.01 0.01 0.02 0.02 0.02 0.43 0.44 0.44 0.01 0.01 0.02 0.02 0.02 0.02 0.45 0.35 0.27 0.01 0.01 0.01 0.02 0.02 0.02