PERBAN NDINGAN PENDUGA A MINIMU UM COVAR RIANCE DE ETERMIN NANT (MCD) DENGAN D M MAXIMUM M LIKELIH HOOD EST TIMATION N (MLE) PA ADA ANAL LISIS DISK KRIMINAN N UNTUK K DATA YA ANG MENG GANDUNG G PENCIL LAN
TR RI HARDI PUTRA
DEPAR RTEMEN STATISTIK S KA FAKU ULTAS MA ATEMATIIKA DAN ILMU I PEN NGETAHU UAN ALAM M INSTITU UT PERTA ANIAN BOG GOR BOGO OR 2013 3
RINGKASAN TRI HARDI PUTRA. Perbandingan Penduga Minimum Covariance Determinant (MCD) Dengan Maximum Likelihood Estimation (MLE) pada Analisis Diskriminan untuk Data yang Mengandung Pencilan. Dibimbing oleh KUSMAN SADIK dan DIAN KUSUMANINGRUM Penerapan analisis diskriminan untuk mengelompokkan objek atau individu ke dalam salah satu kelompok yang telah diketahui dalam suatu populasi begitu saja tidaklah cukup, perlu dipertimbangkan adanya pengaruh pencilan peubah ganda. Fungsi diskriminan klasik dibentuk berdasarkan pada pendugaan vektor rata-rata dan mariks ragam peragam yang diukur dengan kriteria rasio kemungkinan maksimum yang disebut sebagai Wilk’s lambda. Seperti yang kita tahu bahwa statistik Wilk’s lambda yang dibangun berdasarkan penduga Maximum Likelihood Estimation (MLE) sangat sensitif terhadap pengaruh pencilan. Dalam penulisan ini, versi kekar dari statistik Wilk’s lambda akan di bangun berdasarkan penduga Minimum Covariance Determinant (MCD) yang mempunyai efisiensi lebih tinggi. Dengan menggunakan metode MCD maka akan menghasilkan vektor rata-rata dan matriks ragam-peragam yang kekar terhadap pencilan sehingga fungsi diskriminan yang dihasilkan juga kekar. Penerapan penduga MCD dan MLE dalam analisis diskriminan juga akan mempengaruhi hasil penduga tingkat kesalahan klasifikasi Kata kunci: Analisis Diskriminan, Pencilan Peubah Ganda, Maximum Likelihood Estimation (MLE), Minimum Covariance Determinant (MCD), Penduga Tingkat Kesalahan Klasifikasi
PERBANDINGAN PENDUGA MINIMUM COVARIANCE DETERMINANT (MCD) DENGAN MAXIMUM LIKELIHOOD ESTIMATION (MLE) PADA ANALISIS DISKRIMINAN UNTUK DATA YANG MENGANDUNG PENCILAN
TRI HARDI PUTRA
Skripsi Sebagai salah satu syarat untuk memperoleh gelar Sarjana Statistika pada Departemen Statistika
DEPARTEMEN STATISTIKA FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2013
Judul
: Perbandingan Penduga Minimum Covariance Determinant (MCD) Dengan Maximum Likelihood Estimation (MLE) pada Analisis Diskriminan untuk Data yang Mengandung Pencilan Nama : Tri Hardi Putra NRP : G14080078
Menyetujui : Pembimbing I,
Pembimbing II,
Dr. Ir. Kusman Sadik, M.Si NIP : 196909121997021001
Dian Kusumaningrum, M.Si
Mengetahui : Ketua Departemen Statistika Fakultas Matematika dan Ilmu Pengetahuan Alam Institut Pertanian Bogor
Dr. Ir. Hari Wijayanto, MS NIP : 19650421 199002 1 001
Tanggal Lulus :
PRAKATA Alhamdulillahi Rabbil ‘Alamiin, segala puji dan syukur penulis panjatkan ke hadirat Allah SWT atas segala karunia-Nya sehingga penulis dapat menyelesaikan karya ilmiah ini. Shalawat serta salam semoga selalu tercurah kepada Nabi Muhammad SAW beserta keluarga, sahabat, dan pengikutnya hingga akhir zaman. Karya ilmiah ini berjudul “Perbandingan Penduga Minimum Covariance Determinant (MCD) Dengan Maximum Likelihood Estimation (MLE) pada Analisis Diskriminan untuk Data yang Mengandung Pencilan”. Penulis mengucapkan terima kasih kepada Bapak Dr.Ir. Kusman Sadik, M.Si dan Ibu Dian Kusumaningrum, M.Si selaku dosen pembimbing atas bimbingan, saran, dan masukan yang diberikan sehingga karya ilmiah ini dapat diselesaikan. Penulis juga mengucapkan terima kasih kepada Ayah dan Ibu serta adik-adikku atas segala doa, kasih sayang, dukungan, dan semangat yang telah diberikan kepada penulis. Di samping itu penulis juga mengucapkan terima kasih kepada seluruh dosen Departemen Statistika yang telah memberikan ilmu dan nasihat yang bermanfaat bagi penulis. Bimbingan yang diberikan oleh Maya Wulan Arini dan Ibu Epi dari Perum Bulog sangat membantu saya dalam menyelesaikan karya ilmiah ini, terima kasih tidak lupa saya ucapkan kepada keduanya. Tidak lupa juga kepada seluruh Staf Tata Usaha Departemen Statistika yang telah membantu dalam administrasi penulis selama perkuliahan. Teman-teman Statistika 45 serta semua pihak yang telah mendukung dan membantu penulis selama ini yang tidak dapat disebutkan satu- persatu. Terima kasih untuk semuanya. Semoga karya ilmiah ini dapat bermanfaat bagi semua pihak yang membutuhkan.
Bogor, Februari 2013
Tri Hardi Putra
RIWAYAT HIDUP Penulis dilahirkan di Jakarta pada tanggal 11 November 1990 dari pasangan Bapak Jayadi dan Ibu Muhimah S.Pd. Penulis merupakan anak ketiga dari tiga bersaudara. Tahun 2002 penulis lulus dari SD Negeri 02 Lenteng Agung, kemudian melanjutkan studi di SLTPN 98 hingga tahun 2005. Selanjutnya penulis menyelesaikan pendidikan di SMAN 38 Jakarta dan lulus pada tahun 2008. Pada tahun yang sama penulis diterima di IPB melalui jalur SNMPTN sebagai mahasiswa Departemen Statistika Fakultas Matematika dan Ilmu Pengetahuan Alam. Selama di IPB penulis aktif di Organisasi Kemahasiswaan diantaranya, sebagai staf divisi Beta Club pada periode kepengurusan 2009-2010.Penulis menjalankan tugas Praktik Lapang pada tanggal 13 Februari sampai 11 April 2012 di Badan Penelitian Kacang-kacangan dan Umbiumbian, Malang.
DAFTAR ISI
DAFTAR TABEL .......................................................................................................................viii DAFTAR GAMBAR ..................................................................................................................viii DAFTAR LAMPIRAN ...............................................................................................................viii PENDAHULUAN.......................................................................................................................1 Latar Belakang ..............................................................................................................1 Tujuan ...........................................................................................................................1 TINJAUAN PUSTAKA..............................................................................................................1 Analisis Diskriminan.....................................................................................................1 Uji Kenormalan Ganda .................................................................................................2 Uji Kesamaan Vektor Rata-Rata ...................................................................................2 Uji Kehomogenan Ragam (Box-M)...............................................................................2 Pencilan Peubah Ganda .................................................................................................3 Penduga Kemungkinan Maksimum ..............................................................................3 Penduga Kekar MCD ....................................................................................................3 Penduga Tingkat Kesalahan Klasifikasi ........................................................................4 METODOLOGI ..........................................................................................................................4 Data ...............................................................................................................................4 Metode Penelitian .........................................................................................................5 Metode Simulasi ............................................................................................................5 Penerapan pada Data Riil ..............................................................................................5 HASIL DAN PEMBAHASAN ...................................................................................................5 Karakteristik Data Simulasi ..........................................................................................5 Pencilan Peubah Ganda .................................................................................................6 Vektor Rata-Rata Penduga MCD dan MLE ..................................................................6 Matriks Ragam-Peragam Penduga MCD dan MLE ......................................................7 Skor Diskriminan Penduga MCD dan MLE .................................................................8 Hasil Salah Klasifikasi Penduga MCD dan MLE .........................................................9 Eksplorasi Data .............................................................................................................10 Uji Kenormalan Ganda .................................................................................................11 Uji Kesamaan Vektor Rataan dan Uji Kehomogenan Matriks Ragam-peragam ..........11 Pengidentifikasian Pencilan Penduga MCD dan MLE .................................................11 Skor Diskriminan Penduga MCD dan MLE .................................................................12 Kelompok Akhir Divre .................................................................................................12 KESIMPULAN ...........................................................................................................................13 SARAN ......................................................................................................................................13 DAFTAR PUSTAKA .................................................................................................................13
viii DAFTAR TABEL Halaman 1. Tabel Kesalahan Klasifikasi .................................................................................... .............4 2. Tabel Keterangan Skor Diskriminan ....................................................................... .............5 3. Tabel Keterangan Peubah Bebas ............................................................................. .............5 4. Nilai Rata-rata Matriks Ragam-Peragam Penduga MCD dari Semua Ukuran Data .............7 5. Nilai Rata-rata Matriks Ragam-Peragam Penduga MLE dari Semua Ukuran Data .............8 6. Contoh Pengelompokkan Kembali Amatan Pencilan dengan Skor Diskriminan MCD........8 7. Contoh Pengelompokkan Kembali Amatan Pencilan dengan Skor Diskriminan MLE.........9 8. Nilai Rata-rata Salah Klasifikasi n=20 .................................................................... .............9 9. Nilai Rata-rata Salah Klasifikasi n=40 .................................................................... .............10 10. Nilai Rata-rata Salah Klasifikasi n=200 .................................................................. .............10 11. Kesalahan Klasifikasi Penduga MCD ..................................................................... .............10 12. Hasil Uji Kehomogenan Matriks Ragam-peragam .................................................. .............11 13. Hasil Pengidentifikasian Pencilan dengan Penduga MCD ...................................... .............12 14. Pengelompokkan Kembali Amatan Pencilan dengan Skor Disriminan MCD......... .............12 15. Pengelompokkan Kembali Amatan Pencilan dengan Skor Disriminan MLE ......... .............12
DAFTAR GAMBAR
1. 2. 3. 4. 5.
Halaman Grafik Selisih Vektor Rata-rata MCD dengan Vektor Rata-rata Awal ..................................6 Grafik Selisih Vektor Rata-rata MCD dengan Vektor Rata-rata Awal ..................................7 Persentase Kelompok Awal Divre .........................................................................................11 Plot Jarak Mahalanobis dengan Amatan ................................................................................11 Plot Kuantil Khi-Kuadrat .......................................................................................................11
DAFTAR LAMPIRAN Halaman 1. Pembangkitan Ukuran Data Kelompok dan Proporsi Pencilan .............................................15 2. Contoh Salah Klasifikasi PendugaMCD dan MLE n=40 dengan Pencilan 10% ...................16 3. Nilai Vektor Rata-rata dan Matriks Ragam-Peragam Penduga MCD dan MLE n=20 ..........17 4. Nilai Vektor Rata-rata dan Matriks Ragam-Peragam Penduga MCD dan MLE n=40 ..........18 5. Nilai Vektor Rata-rata dan Matriks Ragam-Peragam Penduga MCD dan MLE n=200 ........19 6. Daftar Divre Kelompok Awal ...............................................................................................20 7. Hasil Uji Kesamaan Vektor Rataan.......................................................................................20 8. Analisis Diskriminan Kuadratik dengan Penduga MCD .......................................................21 9. Pengelompokan Divre dengan Analisis Diskriminan Penduga MCD dan MLE ...................22 10. Makro MINITAB Pengujian Kenormalan Ganda .................................................................23 11. Makro MINITAB Pendeteksian Pencilan .............................................................................24
1
PENDAHULUAN Latar belakang Salah satu kajian dalam analisis statistika adalah kajian yang membahas tentang pengelompokkan suatu individu yang berdasarkan pada beberapa karakteristik data. Dalam meneliti karakteristik data ini ditentukan beberapa peubah penciri yang membedakan suatu kelompok dengan kelompok lainnya. Analisis diskriminan dapat digunakan untuk mengetahui peubahpeubah penciri yang membedakan anggota kelompok suatu populasi dan sebagai kriteria pengelompokkan (Huberty 1934). Penerapan analisis diskriminan untuk mengelompokkan objek atau individu ke dalam salah satu kelompok yang telah diketahui dalam suatu populasi tidaklah cukup, perlu dipertimbangkan adanya pengaruh pencilan karena data yang mengandung pencilan mempengaruhi pengelompokkan di dalam analisis diskriminan. Data yang terkontaminasi oleh adanya pencilan akan menyebabkan terjadinya kesalahan klasifikasi jika penduga yang digunakan tidak memiliki vektor rata-rata dan matriks ragam-peragam yang kekar terhadap pencilan. Oleh sebab itu penduga MCD digunakan untuk mengatasi masalah ini karena sifatnya yang kekar terhadap pencilan. Fungsi diskriminan klasik dibentuk berdasarkan pada pendugaan vektor rata-rata dan mariks ragam peragam yang diukur dengan kriteria rasio kemungkinan maksimum yang disebut sebagai Wilk’s lambda. Seperti yang kita tahu bahwa statistik Wilk’s lambda yang dibangun berdasarkan penduga Maximum Likelihood Estimation (MLE) sangat sensitif terhadap pengaruh pencilan (Todorov 2007). Dalam penulisan ini, versi kekar dari statistik Wilk’s lambda akan di bangun berdasarkan penduga Minimum Covariance Determinant (MCD) yang mempunyai efisiensi lebih tinggi dalam mendeteksi pencilan. Dengan menggunakan metode MCD maka akan menghasilkan vektor rata-rata dan matriks ragam-peragam yang kekar terhadap pencilan sehingga fungsi diskriminan yang dihasilkan juga kekar. Metode MCD diperkenalkan oleh Rousseeuw pada tahun 1985, tujuan dari metode pendugaan MCD adalah mencari himpunan bagian sebanyak h elemen yang matriks ragam-peragamnya memiliki determinan terkecil (Rousseeuw 1999). Penelitian ini mengacu kepada penelitian yang berjudul Analisis Diskriminan Kuadratik Kekar (Arini 2011) dengan studi kasus divisi regional perum BULOG tahun 2009. Hasil dari penelitian itu memberikan informasi bahwa penduga MCD menghasilkan kinerja yang baik dalam mengelompokkan data pada analisis diskriminan
kuadratik yang mengandung amatan pencilan. Penelitian ini berbeda dengan penelitian sebelumnya, karena dalam penelitian ini menggunakan analisis diskriminan linier yang diberikan proporsi pencilan dengan menggunakan proses simulasi. Penelitian ini menggunakan pendekatan data simulasi dan data riil yang menyebar normal ganda. Data simulasi terdiri dari tiga peubah penjelas dan dua kelompok dengan analisis diskriminan linier karena menggunakan matriks ragam-peragam yang homogen dalam pembangkitannya. Berbeda dengan data simulasi data riil dalam penelitian ini terdiri dari empat peubah penjelas dan tiga kelompok dengan menggunakan analisis diskriminan kuadratik karena matriks ragam-peragamnya yang tidak homogen. Tujuan Penelitian ini dilakukan dengan tujuan untuk membandingkan kekekaran metode MLE dengan metode MCD dalam analisis diskriminan pada data yang mengandung pencilan. TINJAUAN PUSTAKA Analisis Diskriminan Analisis Diskriminan adalah teknik statistika yang digunakan untuk mengklasifikasikan individu atau objek ke dalam suatu kelompok berdasarkan kumpulan peubah-peubah penjelas. Kelompok–kelompok yang terbentuk bersifat saling lepas artinya setiap amatan hanya dapat dimasukkan ke dalam salah satu kelompok saja (Huberty 1934). Ada dua asumsi utama yang perlu diperhatikan pada analisis diskriminan, yaitu: 1. Sejumlah p peubah penjelas diasumsikan menyebar normal ganda. 2. Matriks ragam-peragam berukuran pxp dari peubah-peubah bebas dalam setiap kelompok sama (homogen), apabila tidak homogen maka yang dibentuk adalah fungsi diskriminan kuadratik. Skor diskriminan linear dibentuk berdasarkan matriks koragam antar kelompok yang homogen. Skor diskriminan linier didefinisikan dengan, (x) = Dimana : = skor diskriminan linier. = vektor rata-rata kelompok ke-k. = matriks ragam-peragam kelompok ke-k. Σk x = matriks amatan pada data. Observasi x akan termasuk ke dalam kelompok k jika skor diskriminan linier,
2
{
d k ( x ) = max d k ( x ) ; k = 1, . . . , g
}
Apabila matriks ragam-peragam antar kelompok tidak homogen, skor yang dibentuk adalah skor diskriminan kuadratik (Johnson dan Winchern 1998). Sebuah observasi x akan termasuk dalam kelompok k jika skor diskriminan kuadratik, d
Q k
( x ) = max {d ( x ) ; k = 1, Q k
}
pk
ln |
|
(x-
)t
Dimana : n = total banyaknya pengamatan . p = total banyaknya peubah penjelas. k = total banyaknya kelompok. |W|
Λ = |B
W|
= Wilk’s Lambda
...,g ,
dengan, (x) =
V = - [(n-1) – (p+k)/2] ln (Λ)
(x-
) + ln pk
matriks ragam-peragam dalam kelompok k. vektor rataan dalam kelompok ke-k. = Prior probability kelompok ke-k
dan adalah k Penduga tak bias untuk dan Sk. Skor diskriminan kuadratik berdasarkan data sampel dihitung dengan formula : ln | | (x- )t (x- ) + ln ( k ) akan tetapi, kedua penduga k dan Sk sangat dipengaruhi oleh keberadaan amatan pencilan. Akibatnya penduga yang dihasilkan menjadi tidak dan harus diduga dengan kekar sehingga penduga kekar. Salah satu metode yang dapat digunakan untuk mengatasi pencilan dalam data yaitu metode penduga MCD (Minimum Covariance Determinant) yang dikembangkan oleh Rousseeuw dan Driessen (1999). (x) =
Uji Kenormalan Ganda Uji kenormalan ganda menggunakan nilai jarak Mahalanobis ( d i2 ) dan nilai Khi-kuadrat. Nilai jarak Mahalanobis di dapat dengan rumus ′ -1 Σ (xi - ) sedangkan nilai Khid i2 = (xi kuadrat didapat dengan melihat nilai tabel Khikuadarat yang sudah tersedia. Apabila terdapat < χ2p, (1-α) dari seluruh lebih dari 50% nilai jumlah amatan, maka data menyebar normal ganda (Johnson dan Winchern 1998). Uji Kesamaan Vektor Rata-Rata Pengujian terhadap vektor nilai rata-rata antar kelompok dilakukan dengan hipotesis : H0 : μ1 = μ2 =.........= μk. H1 : minimal ada dua kelompok yang berbeda dimana μi ≠ μj untuk i ≠ j dengan i dan j= 1, 2,...p Statistik uji yang digunakan adalah statistik VBartlett yang mengikuti sebaran Khi-kuadrat dengan derajat bebas p(k-1). Statistik V-bartlett didapat melalui :
Dalam hal ini : W = matriks jumlah kuadrat dan hasil kali data dalam kelompok. B = matriks jumlah kuadrat dan hasil kali data antar kelompok. Apabila V > χ2 p(k-1), (1-α) maka H0 ditolak, hal ini menunjukkan bahwa terdapat perbedaan vektor nilai rata-rata antar kelompok sehingga layak disusun untuk mengkaji hubungan antar kelompok dan berguna untuk mengkelompokkan suatu objek baru ke dalam salah satu kelompok tersebut (Todorov dan Filzmoser 2007). Uji Kehomogenan Ragam (Box-M) Beberapa analisis statistika peubah ganda seperti analisis diskriminan linier membutuhkan asumsi matriks ragam-peragam yang homogen. Untuk menguji asumsi ini dapat dipergunakan statistik uji Box-M. Hipotesis dan statistik uji Box-M adalah, H0 : Σ1 = Σ2 = ... = Σk H1 : minimal ada dua kelompok yang berbeda dimana Σi = Σj untuk i ≠ j dengan i dan j=1, 2...p Statistik uji : 1 ⎡1 k v i ln S i − ln S pool ∑ 2 ⎣ 2 i =1
2 χ hitung = −2(1 − c1 ) ⎢
⎤
k
∑ v ⎥⎦ ii =1
i
dan k
S pool =
∑v S i =1 k
∑v i =1
⎡ ⎢ k 1 − c1 = ⎢ ∑ ⎢ i =1 v i ⎢⎣
i
i
i
⎤ ⎥⎡ 2 p 2 + 3 p − 1 ⎤ ⎥⎢ ⎥ k 6 ( p + 1)( k − 1) ⎦ v i ⎥⎥ ⎣ ∑ i =1 ⎦ 1
v i = ni − 1 Dimana : ni = banyaknya pengamatan kelompok ke-i. p = total banyaknya peubah penjelas. Si = matriks ragam-peragam kelompok ke-i. k = total banyaknya kelompok.
3
Jika, ≤
(k-1) p(p+1), (1-α)
maka terima hipotesis nol yang berarti matriks ragam-peragam bersifat homogen (Huberty 1934). Pencilan Peubah Ganda Data pencilan adalah suatu pengamatan yang menyimpang cukup jauh dari pengamatan lainnya sehingga menimbulkan kecurigaan bahwa pengamatan tersebut berasal dari distribusi data yang berbeda (Hawkins dalam Suryani 2009). Identifikasi data pencilan pada data multivariat umumnya menggunakan jarak kuadrat Mahalanobis. Pengamatan ke-i didefinisikan sebagai data pencilan peubah ganda jika jarak Mahalanobisnya lebih besar dari nilai Khikuadratnya pada p buah peubah (Jhonson 1998). d2MD = (xi -
′
d
MD =
(xi -
′
Pendugaan vektor rataan dan matriks ragamperagam bagi contoh acak tersebut dengan menggunakan metode pendugaan MLE adalah sebagai berikut :
S-1mcd
(xi -
2
)>χ
Σ
∑
1
X adalah matriks berukuran nxp dan 1 adalah vektor berukuran nx1 yang elemen elemennya adalah 1. Penduga Kekar MCD Penduga kekar MCD dalam analisis diskriminan kuadratik menghasilkan proporsi salah pengelompokan yang lebih kecil bila dibandingkan dengan penduga kekar lainnya seperti S dan MWCD (Minimum Weighted Covariance Determinant) (Suryana 2008). Penduga MCD dihasilkan dari algoritma FASTMCD (Rousseeuw dan Driessen 1999). MCD merupakan pasangan t(x) dan C(X) dari suatu sub sampel berukuran h pengamatan yang memiliki determinan matriks ragam-peragam terkecil. Batas selang sub-sampel h yaitu h0 ≤ h ≤ n dengan h0 = ((n+p+1)/2) (Rousseeuw dan Driessen 1999), ⎛n⎞ , , m = 1, . . . , MCD ≈ min det C ( X )
{ (
m
)}
⎜ ⎟ ⎝h⎠
dengan
p,(1-α)
Penduga Kemungkinan Maksimum Vektor rataan dan matriks ragam-peragam biasanya diduga dengan penduga kemungkinan maksimum atau Maximum Likelihood Estimation (MLE) (Johnson 1998). Metode ini biasa disebut dengan Wilk’s lambda, pada dasarnya prinsip metode ini adalah memaksimumkan fungsi peluang bersama dari data contoh yang kita miliki.
′
1
t ( x) =
mcd dan Smcd menyatakan vektor rataan dan matriks ragam-peragam yang di duga dengan metode MCD.
= n-1 1
= ∑
Σ-1 (xi - ) > χ2 p,(1-α)
dan Σ menyatakan vektor rataan dan matriks ragam-peragam. Penggunaan jarak Mahalanobis untuk mengidentifikasi pencilan peubah ganda tidak maksimal jika data mengandung lebih dari satu pengamatan pencilan. Hal ini muncul akibat adanya pengaruh Masking dan Swamping (Rousseuw 1990). Masking terjadi pada saat pengamatan pencilan tidak terdeteksi sebagai pencilan karena adanya pengamatan pencilan lain yang berdekatan sedangkan Swamping terjadi saat pengamatan bukan pencilan teridentifikasi sebagai pengamatan pencilan. Masking maupun Swamping dapat diatasi dengan menggunakan penduga kekar. MCD adalah salah satu penduga kekar untuk menduga vektor rataan dan matriks ragam-peragam yang digunakan untuk menduga jarak Mahalanobis sehingga disebut jarak kuadrat Mahalanobis kekar. Pengamatan ke-i diidentifikasikan sebagai pencilan peubah ganda jika jarak Mahalanobis kekarnya lebih besar dari nilai Khi-kuadratnya pada p buah peubah. 2
Jika terdapat contoh acak berukuran n yang terdiri atas p buah peubah x1, x2,…,xp, maka matriks X yang berukuran nxp dapat didefinisikan sebagai berikut,
C ( X) =
1 h ∑ xi h i =1
1 h ∑ xi − t ( x ) h − 1 i =1
(
) (x − t (x) )
t
i
Penduga MCD dengan algoritma FAST-MCD dilakukan dengan langkah-langkah sebagai berikut : a. Ambil sejumlah h0 pengamatan yang berbeda. Sehingga dari n pengamatan akan dihasilkan dengan h0 ≤ h ≤ n. Nilai h0 himpunan baru yang optimal memenuhi (n + p + 1)/2. b. Definisikan himpunan pertama sebagai H1. Berdasarkan himpunan H1 hitung vektor rataan
4
c.
d.
e. f.
dan matriks ragam-peragam ( 1 , S1), selanjutnya hitung det(S1). Definisikan himpunan kedua H2. Berdasarkan himpunan H1 hitung vektor rataan dan matriks ragam-peragam ( 2 , S2), selanjutnya hitung det(S2). Bandingkan det(S2) dengan det(S1). Bila det(S2) ≠ det(S1) ulangi langkah pada poin c untuk himpunan berikutnya sampai dipenuhi kondisi det(Sm+1) = det(Sm). Tetapkan anggota himpunan Hm sebagai himpunan dengan determinan matriks ragamperagam terkecil. Berdasarkan Hm data selanjutnya diberi bobot t −1 2 ⎪⎧1 jika ( xi − xm ) Sm ( xi − xm ) ≤ χ p ,0.975 (3) wi = ⎨ ⎪⎩0 jika lainnya
g. Berdasarkan bobot pada (3), maka penduga MCD untuk kelompok ke k dihitung sebagai: n
xMCD =
∑wx i =1 n
i
i
∑w
(4)
i
i =1
n
S MCD =
∑ w (x i =1
i
i
− xMCD )( xi − xMCD )
t
n
∑ w −1 i =1
i
Skor diskriminan kuadratik dengan menggunakan penduga kekar MCD diperoleh dengan menggantikan penduga vektor rata-rata dan matriks ragam-peragam dengan (4). Skor diskriminan kuadratik menjadi: 1 1 t 1 dkQMCD ( x) = − ln SMCDk − ( x − xMCDk ) S−MCDk ( x − xMCDk ) + ln ( pˆk ) 2 2
Observasi x akan termasuk dalam kelompok k jika skor diskriminan kuadratik
{
}
d kQMCD ( x ) = max d kQMCD ( x ) ; k = 1, . . . , g .
Penduga Tingkat Kesalahan Klasifikasi Keputusan pengklasifikasian berdasarkan kriteria tertentu tidak selalu memiliki ketepatan yang sempurna. Tingkat kesalahan klasifikasi dapat dilihat menggunakan tabel kesalahan klasifikasi berikut : Tabel 1 Tabel Kesalahan Klasifikasi. Taksiran (Predicted class) Kel 1 Kel 2 Kel 3 n12 n13 Kel 1 n11 Hasil Observasi Kel 2 n n n (Actual class)
Kel 3
21
22
23
n31
n32
n33
Apparent Error Rate (APER) didefinisikan sebagai nilai dari besar kecilnya jumlah observasi yang salah diklasifikasikan oleh fungsi klasifikasi (Johnson & Wichern 1998). Semakin kecil nilai APER maka mengindikasikan nilai salah klasifikasi semakin sedikit, APER dapat dihitung dengan menggunakan tabel klasifikasi yaitu : APER =
∑ N
dengan (i≠j).
Keterangan : N = Total seluruh amatan. METODOLOGI Data Data yang digunakan pada penelitian ini adalah data simulasi dan data riil. Data simulasi di dapat melalui pembangkitkan data dengan menggunakan perangkat lunak statistika. Penggunaan data simulasi ini bertujuan untuk mengevaluasi kekekaran penduga MCD dan MLE terhadap data pencilan, sedangkan data riil digunakan untuk penerapan dalam membandingkan pengaruh penduga MCD dan MLE terhadap data yang mengandung pencilan. Data simulasi ini terdiri dari 3 peubah penjelas dengan dua kelompok yang masing masing kelompoknya diberikan proporsi pencilan sebanyak 0%, 5%, 10%, 15% dan 20% dari jumlah data masing-masing kelompok. Matriks ragam-peragam antara kelompok tidak homogen dan antar peubah penjelas tidak saling berkorelasi. Data riil pada penelitian ini bersumber dari Perum Bulog tahun 2010 tentang pengklasifikasian 26 wilayah di Indonesia terhadap besarnya operasional di wilayahnya. Selama ini Bulog telah membagi Divisi Regional (Divre) menjadi tiga kelompok yaitu Divre dengan tipe A, tipe B dan tipe C. Pembentukkan ketiga kelompok divre ini tidak hanya berdasarkan ketersediaan stok beras yang melebihi, mencukupi atau kurang pada setiap wilayah tetapi juga memperhatikan besarnya operasional seperti wilayah kerja (coverage area), penyaluran dan daerah khusus. Semakin besar beban operasional suatu Divre maka akan semakin bagus dan dikatagorikan sebagai Divre bertipe A. Bulog perlu menggunakan teknik statistika untuk mengevaluasi kelompok Divre. Salah satu teknik statistika yang dapat digunakan adalah analisis diskriminan. Dengan menggunakan analisis diskriminan ini diharapkan 26 wilayah yang ada di Indonesia dapat dikelompokkan secara tepat sehingga dengan informasi yang tersedia Perum Bulog dapat membuat suatu keputusan dengan baik.
5
Data ini terdiri dari 26 amatan dengan empat peubah bebas dan tiga kelompok. Wilayah yang termasuk ke dalam 26 amatan ini dapat dilihat pada Lampiran 6, sedangkan macam-macam kelompok dan peubah bebas dapat dilihat pada Tabel 2 dan Tabel 3. Tabel 2 Tabel Keterangan Skor Diskriminan. Peubah Keterangan Y1 Divisi Regional A. Y2
Divisi Regional B.
Y3
Divisi Regional C.
Tabel 3 Tabel Keterangan Peubah Bebas. Peubah Keterangan X1 X2 X3
Produksi beras (ton/tahun). Pengadaan (ton/tahun). Raskin (ton/tahun).
X4
Jumlah Penduduk (jiwa).
Metode Penelitian Tahapan yang dilakukan dalam penelitian ini adalah sebagai berikut : A. Metode Simulasi 1. Menetapkan parameter μ1, μ2, 1, 2 dan Σ μ1=(1,2,3), μ2=(6,7,8), 1=(21,22,23), =(23,21,22) dan Σ=diag(3,3,3) dengan 2 nilai ragam=3 dan peragam=0. dan 2. Membangkitkan X(1)~MN(μ1,Σ) (2) X ~MN(μ2,Σ) untuk kelompok-1 dan kelompok-2 berukuran nxp dengan n=95 dan p=3 dengan kondisi antar peubahnya tidak saling berkorelasi, untuk lebih jelasnya dapat dilihat pada Lampiran 1. 3. Membangkitkan data pencilan multivariat 5% untuk kelompok-1 dan kelompok-2 X(pencilan(2)) X(pencilan(1))~MN( 1,Σ) dan ~MN( 2,Σ) berukuran n*xp dengan n*=5 dan p=3 dengan kondisi antar peubah bebasnya tidak saling berkorelasi, untuk yang lain dapat dilihat pada Lampiran 1. 4. Menggabungkan matriks data kelompok-1 beserta pencilannya dan matriks data kelompok-2 beserta pencilannya kedalam satu gugus data lalu uji kenormalan ganda dengan menggunakan plot kuantil khikuadrat. 5. Melakukan pengelompokan menggunakan analisis diskriminan dengan penduga kekar MCD dan MLE. 6. Melakukan perhitungan tingkat kesalahan klasifikasi. 7. Mengulangi langkah di atas sebanyak 100 kali ulangan. 8. Ulangi langkah satu sampai tujuh dengan
ukuran contoh dan proporsi pencilan sesuai dengan Lampiran 1. B. Penerapan Pada Data Riil 1. Melakukan eksplorasi data. 2. Melakukan uji kesamaan vektor rataan antar kelompok : H0: μ1 = μ2 = μ3 H1: sedikitnya ada dua kelompok dimana μi≠μj untuk i≠j dengan i dan j= 1,2,…p diharapkan dari uji ini adalah H0 ditolak, sehingga kita mempunyai informasi awal bahwa peubah yang sedang diteliti memang membedakan antar kelompok. 3. Melakukan uji kehomogenan matriks ragam-peragam dengan uji Box’s M. 4. Melakukan pengelompokan menggunakan analisis diskriminan dengan penduga kekar MCD dan MLE. 5. Melakukan perhitungan tingkat kesalahan klasifikasi. HASIL DAN PEMBAHASAN Karakteristik Data Simulasi Pembangkitan data yang dilakukan dalam penelitian ini adalah pembangkitan data dengan dua kelompok yang mengikuti sebaran normal ganda dengan cara pembangkitan data yang telah dijelaskan dalam metode penelitian. Data simulasi yang digunakan adalah data yang mewakili ketiga ukuran data yaitu kecil, sedang dan besar. D a t a dengan ukuran kecil diwakili oleh n=20, data ukuran sedang oleh n=40 d a n d a t a u k u r a n b e s a r o l e h n = 2 0 0 . Data dibangkitkan secara acak mengikuti sebaran normal ganda yang kemudian dikontaminasi dengan proporsi pencilan sebesar 0%, 5%, 10%, 15% dan 20% dari jumlah amatan masing masing kelompok. Pembangkitan data ini dilakukan sebanyak 100 kali ulangan dengan seluruh kombinasi ukuran data beserta proporsi pencilannya. Vektor rata-rata dan matriks ragam-peragam disesuaikan dengan asumsi yang digunakan pada analisis diskriminan linier. Asumsi pertama adalah peubah penjelas mampu membedakan kedua kelompok dengan baik, oleh sebab itu diberikanlah vektor rata-rata kelompok-1 sebesar μ1=(1,2,3) dan vektor rata-rata kelompok-2 sebesar μ2=(6,7,8) agar dapat membedakan kedua kelompok. Asumsi lain yang dibutuhkan pada analisis diskriminan linier adalah kehomogenan ragam. Agar asumsi tersebut terpenuhi maka matriks ragam-peragam yang digunakan untuk semua kelompok dan pencilan bernilai sama yaitu sebesar Σ=diag(3,3,3).
6
3 0 0 Σ=diag(3,3,3) = 0 3 0 0 0 3 Ruang lingkup masalah yang dibahas pada penelitian ini hanya menggunakan peubah penjelas dan kelompok yang berjumlah sedikit yaitu dengan tiga peubah penjelas dan dua kelompok. Ragam yang diberikan pada proses simulasi hanya mewakili satu ukuran ragam yaitu dengan ragam=3. Pencilan Peubah Ganda Pemberian proporsi pencilan pada data dilakukan ketika data bangkitan kelompok-1 dan kelompok-2 telah terbentuk dan memenuhi semua asumsi yang dibutuhkan. Data simulasi yang telah digabungkan antara data kelompok-1 dan kelompok-2 beserta pencilannya untuk masingmasing kelompok disebut dengan data awal. Pendeteksian pencilan pada data awal berguna untuk memberi informasi bahwa jika terdapat pencilan dalam data maka solusi yang dapat diberikan untuk melakukan pengelompokkan adalah dengan menggunakan penduga MCD. Hal ini dikarenakan penduga MCD memiliki vektor rata-rata dan matriks ragam-peragam yang kekar terhadap pencilan. Pembangkitan pencilan dilakukan dengan memberikan nilai vektor rata-rata yang sangat jauh dari nilai vektor rata-rata kedua kelompok, proporsi pencilan yang diberikan terdiri dari 0%20% dari jumlah amatan setiap kelompok. Pencilan ini dapat diidentifikasikan dengan menggunakan jarak Mahalanobis. Jarak Mahalanobis pada data awal berbeda dengan jarak Mahalanobis pada penduga MCD dan MLE. Jarak Mahalanobis pada data awal menggunakan vektor rata-rata yang berasal dari gabungan kedua kelompok, sedangkan jarak Mahalanobis penduga MCD dan MLE menggunakan vektor rata-rata yang sudah dipisahkan kedalam dua kelompok. Kekurangan dari jarak Mahalanobis penduga MLE ini adalah tidak mampu mengidentifikasikan pencilan yang terdapat pada masing-masing kelompok sehingga vektor rata-rata yang dihasilkan masih terkontaminasi oleh pencilan. Berbeda dengan penduga MLE, jarak Mahalanobis pada penduga MCD mempunyai vektor rata-rata yang kekar terhadap pencilan sehingga vektor rata-rata yang dihasilkan untuk setiap kelompok sudah terbebas dari pengaruh pencilan. Amatan yang diduga sebagai pencilan oleh masing-masing nilai jarak Mahalanobis pada penduga MLE dan MCD di beri bobot=0 sedangkan amatan yang tidak diduga sebagai pencilan diberi bobot=1. Hasil yang lebih lengkap
mengenai pencilan Lampiran 2.
ini
dapat
dilihat
pada
Vektor Rata-Rata Penduga MCD dan MLE Hasil dari pengelompokkan dengan menggunakan penduga MCD dan MLE menghasilkan nilai vektor rata-rata masingmasing penduga. Gambar 1 dan 2 menampilkan hasil dari selisih vektor rata-rata penduga MCD dan MLE dengan vektor rata-rata awalnya.
Kelompok 1
Kelompok 2
Gambar 1 Grafik Selisih Rata-rata Vektor Rataan MCD dengan Vektor Rata-Rata Awal. Pembangkitan data pada penelitian ini membangkitkan vektor rata-rata kelompok-1 sebesar μ1=(1,2,3) dan vektor rata-rata kelompok2 sebesar μ2=(6,7,8) dengan vektor rata-rata dan pencilan sebesar 1=(21,22,23) 2=(23,21,22). Gambar 1 merupakan hasil dari selisih rata-rata vektor rataan penduga MCD dengan vektor rata-rata awal untuk semua ukuran contoh dari berbagai proporsi pencilan. Hasil tersebut menunjukkan bahwa pada proporsi pencilan pada rentang 0% sampai 20% memiliki selisih hampir mendekati nilai nol, hal ini mengindikasikan bahwa vektor rata-rata penduga MCD memiliki nilai yang hampir sama dengan nilai vektor rata-rata awal. Lampiran 3, 4 dan 5 memberikan hasil yang lebih lengkap mengenai vektor rata rata masing-masing penduga. Jika membandingkan vektor rata-rata penduga MCD dari semua ukuran contoh hasil yang diperoleh tidak jauh berbeda, namun dapat dilihat bahwa semakin besar ukuran contoh maka vektor rataratanya semakin dekat dengan vektor rata-rata awal meskipun hanya terdapat perbedaan yang sedikit dari ukuran contoh yang lainnya. Hal tersebut terjadi karena semakin besar ukuran contoh yang diberikan maka model yang dihasilkan akan semakin tepat dan mendekati pendugaan parameternya (Purwadi).
7
Vektor rata-rata penduga MCD memiliki nilai yang hampir sama dengan vektor rata-rata awal dari masing-masing kelompok karena penduga MCD memiliki sifat kekar terhadap pencilan sehingga mampu mengidentifikasikan pencilan yang terdapat pada masing-masing kelompok. Amatan yang diidentifikasikan sebagai pencilan diberi bobot=0 sedangkan yang tidak teridentifikasikan sebagai pencilan diberi bobot=1. Setelah seluruh amatan sudah terboboti, maka kita dapat membedakan amatan yang merupakan pencilan atau bukan pencilan. Vektor rata-rata penduga MCD untuk kelompok-1 dan kelompok-2 dihasilkan dari nilai rata-rata amatan yang memiliki bobot=1 yang terdapat pada masing-masing kelompok sedangkan vektor rata-rata penduga MLE untuk kelompok-1 dan kelompok-2 dihasilkan dari nilai rata-rata seluruh amatan pada masing-masing kelompok tanpa memisahkan amatan yang mengandung pencilan. 5 4 3 2 1 0 ‐1
Kelompok 1
1
2
Kelompok 2
3
4
5
6
pencilan 0%
pencilan 5%
pencilan 10%
pencilan 15%
pencilan 20%
proporsi pencilan yang diberikan maka nilai vektor rata-rata penduga MLE semakin jauh dari nilai vektor rata-rata awal untuk masing-masing kelompok. Penduga MLE tidak mampu mengidenifikasikan pencilan dengan baik. Hal tersebut dapat dilihat pada Lampiran 2 dimana pada amatan 11, 18, 32, 39 dan 40 penduga MLE tidak mampu mengidentifikasikannya sebagai suatu pencilan. Ketidakmampuan pendeteksian pencilan tersebut diakibatkan oleh jarak Mahalanobis pada penduga MLE yang dibangun berdasarkan nilai vektor rata-rata yang masih terdapat pencilan didalamnya. Matriks Ragam-PeragamPenduga MCD dan MLE Asumsi kehomogenan ragam adalah salah satu asumsi yang harus terpenuhi pada analisis diskriminan linier, karena itu penelitian ini menggunakan matriks ragam-peragam yang sama untuk semua kelompok dan pencilan. Tabel 4 menunjukkan bahwa nilai matriks ragam-peragam yang dihasilkan penduga MCD untuk berbagai proporsi pencilan mendekati dengan nilai ragam peragam yang diberikan pada awal proses simulasi. Hasil matriks ragam-peragam untuk semua ukuran dapat dilihat pada Lampiran 3, 4 dan 5. Tabel 4 Nilai Rata-rata Matriks Ragam-Peragam Penduga MCD dari Semua Ukuran Data. Pencilan 0%
Gambar 2 Grafik Selisih Rata-rata Vektor Rataan MLE dengan Vektor Rata-Rata Awal. Gambar 2 menampilkan hasil dari selisih ratarata vektor rataan penduga MLE dengan vektor rata-rata awalnya. Vektor rata-rata penduga MLE menghasilkan nilai yang sama baiknya dengan penduga MCD pada data yang tidak terkontaminasi oleh pencilan (0%). Hal tersebut dapat dilihat pada selisih vektor rataan penduga MLE pada proporsi pencilan 0% yang mendekati nilai nol. Seiring bertambahnya proporsi pencilan, maka vektor rata-rata yang dihasilkan semakin jauh dari vektor rata-rata awal. Hal ini terlihat dari grafik proporsi pencilan 5%-20% yang makin menjauhi nilai nol. Nilai vektor rata-rata penduga MLE untuk semua ukuran contoh memiliki karakteristik yang sama seperti yang terlihat pada Lampiran 2. Banyaknya ukuran contoh tidak mempengaruhi nilai vektor rata-ratanya tetapi semakin banyak
Matriks Ragam-Peragam MCD 2.20 0.07 0.02 0.07 2.21 0.03 0.02 0.03 2.27
5%
2.37 0.05 0.07
0.05 2.34 0.22
0.07 0.22 2.43
10%
2.53 0.19 0.09
0.19 2.53 0.16
0.09 0.16 2.62
2.63 0.06 0.06
0.06 2.83 0.23
0.06 0.23 2.71
15%
20%
2.71 0.21 0.21 2.01 0.07 0.04
0.07 0.04 2.67
Nilai matriks ragam-peragam penduga MCD untuk semua ukuran contoh memiliki karakteristik yang sama dimana besarnya ukuran contoh pada data tidak mempengaruhi nilai matriks ragam-
8
peragam yang dihasilkan. Masing masing ukuran memiliki matriks ragam-peragam yang hampir mendekati matriks ragam-peragam awal seperti yang terlihat pada Lampiran 3, 4 dan 5 Sama halnya dengan mencari nilai vektor ratarata penduga MCD, matriks ragam-peragam ini didapat melalui perhitungan dari amatan yang hanya diidentifikasikan bukan sebagai pencilan dengan bobot (Bbt)=1. Nilai vektor rata-rata dan matriks ragam-peragam diperoleh melalui proses algoritma FAST-MCD sehingga mendapatkan himpunan dengan determinan matriks ragamperagam terkecil. Vektor rata-rata dan matriks ragam-peragam pada masing-masing penduga digunakan untuk menghitung nilai jarak Mahalanobis. Jarak Mahalanobis ini berfungsi untuk mengidentifikasikan amatan yang termasuk ke dalam pencilan atau bukan pencilan. Pada penduga MCD jarak Mahalanobis dibangun berdasarkan vektor rata-rata dan matriks ragamperagam yang kekar terhadap pencilan sehingga disebut juga dengan jarak Mahalanobis kekar. Sifat inilah yang membuat penduga MCD mampu mengidentifikasi suatu pencilan. Tabel 5 Nilai Rata-rata Matriks Ragam-Peragam Penduga MLE Dari Semua Ukuran Data. Pencilan
Matriks Ragam-Peragam MLE 2.89 0.04 0.005
0.04 3.13 0.03
5%
19.4 15.55 15.7
15.55 17.7 14.8
15.7 14.8 18.05
10%
34.8 29.76 30.1
29.76 31.23 28.33
30.1 28.33 31.5
15%
48.15 41.2 41.95
41.2 41.95 40.9 38.5 38.5 42.3
20%
60.53 54.3 54.63
54.3 53.83 51.96
0%
0.005 0.03 2.91
54.63 51.96 55.43
Tabel 5 memberikan informasi bahwa penduga MLE memiliki kelemahan dalam mengidentifikasikan pencilan yang akan berpengaruh terhadap hasil matriks ragamperagam yang nilainya jauh berbeda dengan nilai yang diberikan pada proses awal simulasi. Seperti yang terlihat dalam matriks ragam-peragam pada
proporsi pencilan 5%, 10%, 15% dan 20%. Semuanya memiliki nilai matriks ragam-peragam yang jauh dari nilai matriks ragam-peragam yang diberikan pada awal proses simulasi. Matriks ragam-peragam yang dihasilkan penduga MLE tidak seperti penduga MCD karena dalam proses perhitungannya masih terdapat amatan yang mengandung pencilan. Besarnya ukuran pada data juga tidak mempengaruhi nilai matriks ragamperagam yang dihasilkan oleh penduga MLE, tetapi semakin besar proporsi pencilan yang diberikan maka nilai ragam dan peragamnya juga akan semakin besar. Skor Diskriminan Penduga MCD dan MLE Amatan yang teridentifikasikan sebagai pencilan oleh penduga MCD merupakan amatan yang di duga terdapat pada kelompok yang tidak tepat. Misalkan pada amatan ke-32, 39 dan 40 Tabel 6, kelompok-1 memiliki vektor rata-rata yang lebih kecil dari kelompok-2. Jika salah satu amatan pada data yang terdapat pada kelompok-2 memiliki nilai peubah penjelas yang jauh lebih besar dari nilai vektor rata-rata kelompok-2 maka jarak Mahalanobis kekar akan mengidentifikasikan amatan tersebut sebagai pencilan tetapi skor diskriminannya tetap mengelompokkan amatan tersebut ke dalam kelompok-2. Pada contoh yang lain pada amatan ke-19 Tabel 6, jika suatu amatan yang terdapat pada kelompok-1 memiliki nilai peubah penjelas yang jauh lebih besar dari nilai vektor rata-rata kelompok-2 maka jarak Mahalanobis kekar akan mengidentifikasikan amatan tersebut sebagai pencilan dan skor diskriminan akan mengelompokkan kembali amatan tersebut menjadi kelompok-2. Tabel 6 Contoh Pengelompokkan Kembali Amatan Pencilan dengan Skor Diskriminan MCD. Data Bangkitan JMK Bbt KA MCD No x1 x2 x3 11 0.1 2.8 -0.1 13.6 0 1 1 18 1.3 2.4 -0.2 12.5 0 1 1 19 21.3 24.6 21.6 915.8 0 1 2 20 18.9 21 24.1 865.5 0 1 2 32 3.8 10.3 12.2 20.6 0 2 2 39 22.3 23 21.1 482.4 0 2 2 40 20.7 19.7 22.4 425.6 0 2 2 Keterangan: JMK = Jarak Mahalanobis Kekar. Bbt = Bobot. KA = Kelompok Awal. Amatan yang digaris bawahi adalah amatan yang salah klasifikasi.
9
Tabel 6 dan 7 adalah tabel yang memberikan informasi tentang pengelompokkan kembali amatan yang mengandung pencilan ke kelompok yang sebenarnya dengan menggunakan skor diskriminan penduga MCD. Tabel ini merupakan contoh kasus pada ukuran contoh data dengan nilai n=40 (kelompok-1=20 dan kelompok-2=20). Dalam proses pembangkitan data, tidak semua data yang dihasilkan sesuai dengan nilai vektor rata-rata awal yang diberikan. Ada amatan yang memiliki nilai peubah penjelas yang berbeda dari vektor rata-rata awal yang diberikan pada masingmasing kelompok. Amatan 11, 18 dan 32 adalah contoh amatan pencilan yang bukan berasal dari pemberian pencilan yang dilakukan oleh peneliti. Amatan tersebut diidentifikasikan sebagai pencilan karena memiliki nilai peubah penjelas yang jauh berbeda dari vektor rata-rata awal masing-masing kelompoknya. Pencilan amatan 11, 18 dan 32 ini kemudian dikelompokkan kembali dengan menggunakan skor diskriminan penduga MCD. Hasil pengelompokkan tersebut ternyata sama dengan kelompok awal (KA), hal tersebut dapat dilihat secara eksplorasi bahwa amatan 11 dan 18 memang memiliki vektor rata-rata yang kecil sehingga dikelompokkan ke dalam kelompok-1, hal ini terjadi karena kelompok-1 memang disimulasikan memiliki vektor rata-rata yang lebih kecil dari kelompok-2, sedangkan amatan 32 yang memiliki vektor rata-rata lebih besar dikelompokkan ke kelompok-2. Amatan 19, 20, 39 dan 40 adalah amatan pencilan yang sengaja peneliti berikan di awal simulasi. Pada Lampiran 1 dapat dilihat bahwa penduga MLE mampu mendeteksi amatan 19 dan 20 sebagai pencilan tetapi tidak mampu mengidentifikasikan amatan 39 dan 40 sebagai pencilan. Berbeda dengan penduga MLE, pada Tabel 6 terlihat bahwa penduga MCD mampu mendeteksi semua pencilan yang diberikan oleh peneliti. Amatan pencilan tersebut kemudian dikelompokkan kembali dengan menggunakan skor diskriminan penduga MCD. Amatan 19 dan 20 berubah kelompok menjadi kelompok-2, hal tersebut dapat dibuktikan secara eksplorasi bahwa vektor rata-rata amatan 19 dan 20 memiliki vektor rata-rata yang besar sehingga diklasifikasikan ke dalam kelompok-2 yang memiliki nilai vektor rata-rata lebih besar dari kelompok-1. Amatan 39 dan 40 tidak mengalami perubahan kelompok karena memang secara eksplorasi amatan tersebut memiliki vektor rata-rata yang besar sehingga dikelompokkan ke kelompok-2. Tabel 7 merupakan sebagian data amatan yang berasal dari Lampiran 2. Tabel ini memberikan informasi tentang pengidentifikasian pencilan dan kesalahan pengklasifikasian oleh penduga MLE.
Amatan yang dapat diidentifikasikan sebagai pencilan pada penduga MLE hanya amatan 19 dan 20 sedangkan pencilan yang terdapat pada data juga ada pada amatan 11, 18, 32, 39 dan 40. Kelemahan dari penduga MLE ini adalah vektor rata-rata dan matriks ragam-peragamnya yang tidak kekar terhadap pencilan. Bandingkan dengan Tabel 6 dimana penduga MCD mampu mengidentifikasikan pencilan dengan lebih optimal. Tabel 7 Contoh Pengelompokkan Kembali Amatan Pencilan dengan Skor Diskriminan MLE. Data Bangkitan JM Bbt KA MLE No x1 x2 x3 19
21.3
24.6
21.6
915.8
0
1
2
20 27 30
18.9 8.01 7.32
21 7.03 7.94
24.1 7.65 5.67
865.5 1.505 3.19
0 1 1
1 2 2
2 1 1
38
7.48
4.86
8.94
2.726
1
2
1
Keterangan: JM = Jarak Mahalanobis Bbt = Bobot KA = Kelompok Awal
Kekurangan lain dari penduga MLE ini adalah adanya kesalahan pengklasifikasian. Amatan 27, 30 dan 38 yang seharusnya masuk ke kelompok-2 tetapi di klasifikasikan oleh penduga MLE ke kelompok-1. Secara eksplorasi kita sudah dapat mengetahui bahwa vektor rata-rata ketiga amatan tersebut mendekati kategori nilai vektor rata-rata kelompok 2. Hal tersebut juga dapat diuji dengan menggunaan rumus skor diskriminan pada penduga MCD. Ukuran contoh yang diberikan pada Tabel 6 dan 7 berlaku secara umum untuk ukuran yang berbeda tetapi semakin banyak ukuran contoh yang dibangkitkan maka peluang terjadinya kesalahn klasifikasi oleh penduga MCD juga semakin besar. Hasil Salah Klasifikasi Penduga MCD dan MLE Tahapan terakhir dari penelitian ini adalah dengan mencari nilai salah klasifikasi pada kedua penduga. Dibawah ini disajikan tabel salah klasifikasi untuk ketiga ukuran dengan berbagai proporsi pencilan yang diberikan. Tabel 8 Nilai Rata-rata Salah Klasifikasi n=20. nilai salah klasifikasi pencilan MLE MCD 0% 0.05% 0% 10% 20.83% 0% 20% 30.35% 0%
10
Tabel 9 Nilai Rata-rata Salah Klasifikasi n=40. nilai salah klasifikasi pencilan MLE MCD 0% 0.33% 0%
Hasil dari ketiga tabel menunjukkan bahwa penduga MLE dan MCD pada data yang tidak mengandung pencilan menghasilkan nilai salah klasifikasi yang hampir sama baiknya dari kedua penduga. Seiring bertambahnya proporsi pencilan penduga MLE menghasilkan nilai salah klasifikasi yang semakin besar sedangkan penduga MCD menghasilkan nilai salah klasifikasi yang cenderung tetap. Semakin besar ukuran contoh yang dibangkitkan maka kemungkinan terjadinya kesalahan klasifikasi oleh penduga MCD semakin dapat terjadi meskipun dalam persentase yang kecil. Tabel 11 akan memberikan penjelasan mengenai hal ini.
jauh dan ada juga yang terletak diantara nilai vektor rata-rata kelompok-1 dan kelompok-2. Amatan 33 adalah contoh amatan kelompok 1 yang diklasifikasikan menjadi kelompok-2 oleh penduga MCD sedangkan amatan 150 adalah amatan kelompok-2 yang diklasifikasikan menjadi kelompok-1. Kedua amatan ini tidak diidentifikasikan sebagai pencilan oleh penduga MCD terlihat dari bobot (Bbt) yang dihasilkan berniali satu. Secara eksplorasi jika melihat masing-masing peubah penjelas kedua amatan tersebut maka nilainya terletak diantara nilai vektor rata-rata awal kedua kelompok. Amatan seperti ini adalah contoh amatan yang menyebabkan kesalahan klasifikasi oleh penduga MCD. Kemungkinan terjadinya amatan tersebut dalam simulasi hanya sedikit, yaitu ketika membangkitkan data dengan ukuran contoh yang besar. Hal tersebut dapat terlihat pada Tabel 10 yang merupakan proses simulasi dengan ukuran contoh yang besar dengan ulangan sebanyak 100 kali. Hasil dari Tabel 10 menunjukkan bahwa semakin besar proporsi pencilan yang diberikan maka kemungkinan terjadinya kesalahan klasifikasi oleh penduga MCD semakin besar meskipun dalam persentase yang relative kecil. Fungsi utama dari penduga MCD adalah mengidentifikasikan pencilan pada data untuk kemudian amatan yang diidentifikasikan sebagai pencilan tersebut di kelompokkan kembali ke dalam kelompok yang sebenarnya dengan menggunakan skor diskrimananya. Skor diskriminan ini dibangun berdasarkan vektor ratarata dan matriks ragam-peragam penduga MCD yang kekar terhadap pencilan. Hal inilah yang tidak terdapat pada penduga MLE sehingga penduga tersebut tidak optimal ketika digunakan pada data yang mengandung pencilan.
Tabel 11 Kesalahan Klasifikasi Penduga MCD.
B. Penerapan Pada Data Riil
5%
10.25%
0%
10%
20.08%
0%
15%
29%
0%
20%
33.08
0%
Tabel 10 Nilai Rata-rata Salah Klasifikasi n=200. nilai salah klasifikasi pencilan MLE MCD 0%
0.67%
0.05%
5% 10%
6.75% 17.01%
0.09% 0.12%
15%
29.75%
0.14%
20%
35.7%
0.23%
Data Bangkitan No
x1
x2
x3
JMK
Bbt
KA
MCD
… 33 … 150
… 2.09 … 3.3
… 6.15 … 3.58
… 5.12 … 5.99
… 8.87 … 8.21
… 1 … 1
… 1 … 2
… 2 … 1
…
…
…
…
…
…
…
…
Tabel 11 diambil dari ukuran contoh besar dengan n=200 (n1=100, n2=100). Dalam pembangkitan data simulasi, semakin besar contoh data yang dibangkitkan maka akan semakin banyak juga berbagai bentuk amatan yang dihasilkan. Ada amatan yang sesuai dengan nilai vektor rata-rata awal, ada yang menyimpang
Eksplorasi data Penelitian ini menggunakan data yang terdiri dari 26 amatan dengan empat peubah bebas. Data tersebut merupakan data tahun 2010 yang bersumber dari Perum Bulog. Penentuan kelompok awal didasari oleh keputusan direksi Perum Bulog tahun 2009 tentang organisasi dan tata kerja Divre Perum Bulog. Keputusan tersebut menghasilkan klasifikasi Divre berdasarkan beban kerja di wilayahnya dalam arti jumlah pengadaan dan penyaluran beras yang harus dilakukannya. Bulog telah membagi Divisi Regional (Divre) menjadi tiga kelompok yaitu Divre dengan tipe A, tipe B dan tipe C. Pembentukkan ketiga kelompok divre ini tidak hanya berdasarkan ketersediaan stok beras yang melebihi, mencukupi atau kurang pada setiap wilayah tetapi juga memperhatikan
11
Uji Kenormalan Ganda Hasil uji kenormalan ganda dengan menggunakan plot kuantil Khi-kuadrat menunjukan bahwa data menyebar normal ganda. Pada Gambar 5 plot kuantil Khi-kuadrat cenderung membentuk garis lurus dan ada lebih dari 50% (61.53%) nilai d i2 ≤ χ p2 , 0 . 05 , sehingga data cenderung menyebar normal ganda (Johnson dan Winchern 1998).
12 10 8 q
besarnya operasional seperti wilayah kerja (coverage area), penyaluran dan daerah khusus. Semakin besar beban operasional suatu Divre maka akan semakin bagus dan dikatagorikan sebagai Divre bertipe A. Dalam penelitian ini peneliti menemukan adanya data pencilan yang terlihat pada Gambar 4. Pencilan yang terdapat pada data riil diduga dapat menyebabkan kesalahan klasifikasi, untuk itu peneliti melakukan analisis diskriminan dengan menggunakan penduga MCD dan MLE yang sudah diterapkan pada simulasi dengan data pencilan yang dibangkitkan. Kelompok awal Divre dapat dilihat pada Lampiran 6. Gambar 3 menunjukan persentase tiap kelompok awal Divre. Persentase Divre A sebesar 19%, Divre B sebesar 39% dan Divre C sebesar 42%.
6 4 2 0 0
Divre B 39%
5
10 dd
15
20
Divre C 42%
Gambar 5 Plot Kuantil Khi-kuadrat.
Divre A 19%
Gambar 3 Persentase Kelompok Awal Divre Pencilan yang terdapat pada data didapat dengan membuat plot antara jarak Mahalanobis dengan urutan amatan yang terdapat pada data. Gambar 4 menunjukkan bahwa pencilan yang terdapat pada data terdapat pada amatan ke 9, 10, 11, 13 dan 21 yaitu masing-masing wilayahnya adalah DKI Jakarta, Jabar, Jateng, Jatim dan Sulsel dengan persentase 19.23%. Penentuan pencilan berdasarkan nilai dari jarak Mahalanobis, amatan yang mempunyai nilai jarak Mahalanobis yang besar dengan batasan d i2 > χ p2 , 0 . 05 , maka amatan tersebut dideteksi sebagai suatu pencilan.
Uji Kesamaan Vektor Rataan dan Uji Kehomogenan Matriks Ragam-peragam Hasil uji kesamaan vektor rataan menunjukan p-value tiap peubah kurang dari α (0.05) sehingga keempat peubah yang digunakan dianggap dapat membedakan ketiga kelompok Divre dengan baik. Hal tersebut dapat dilihat pada Lampiran 7. Uji box’s M pada Tabel 12 menunjukan bahwa matriks ragam-peragam untuk ketiga kelompok berbeda nyata dengan nilai signifikan karena memiliki nilai kurang dari α (0.05). Hal ini menunjukkan bahwa matriks ragam-peragam antara kelompok tidak homogen, karena sifat matriks ragam-peragamnya yang tidak homogen maka digunakan analisis diskriminan kuadaratik dalam proses pengolahannya. Tabel 12 Hasil Uji Kehomogenan Ragam-peragam. Hasil Uji
Matriks
14
Jarak Mahalanobis
12 10 8
F
6 4 2 0 0
5
10
15 Amatan-ke
20
25
Gambar 4 Plot Jarak Mahalanobis dengan Amatan
Box’s M Penduga.
131.876 4.411
db1 db2 Sig.
20 631.270 0.00
Pengidentifikasian Pencilan Penduga MCD dan MLE Hasil pengidentifikasian pencilan dengan penduga MCD dapat dilihat dalam Tabel 13.
12
Tabel 13 Hasil Pengidentifikasian dengan Penduga MCD.
Pencilan
Amatan
JMK
Bbt
KA
MCD
Sumut
77.4185
0
2
1
Sumbar
131.668
0
3
2
Sumsel
26.5578
0
2
1
Kalbar
84.5003
0
3
2
Kinerja penduga MCD pada data simulasi yang telah dilakukan sebelumnya ternyata memberikan hasil yang sama ketika diterapkan pada data riil. Penduga MCD mampu mengidentifikasikan empat wilayah yang merupakan pencilan yaitu Sumut, Sumbar, Sumsel dan Kalbar. Jarak Mahalanobis kekar (JMK) menunjukkan bahwa pada ke empat wilayah tersebut menghasilkan nilai yang lebih besar dari nilai Khi-kuadratnya pada p buah peubah (Jhonson 1998). Hasil yang berbeda ditunjukkan oleh penduga MLE. Hasil tersebut dapat dilihat pada Lampiran 9, dimana tidak ada pembobot yang menghasilkan bobot (Bbt) bernilai=0 karena jarak Mahalanobisnya (JM) lebih kecil dari nilai Khikuadratnya pada p buah peubah sehingga tidak adanya indikasi pencilan yang teridentifikasi. Skor Diskriminan Penduga MCD dan MLE Hasil dari pengelompokkan kembali penduga MCD dan penduga MLE dapat dilihat pada Tabel 14 dan 15. Tabel 14 Pengelompokkan Kembali Amatan Pencilan dengan Skor Diskriminan MCD. Amatan
JMK
Bbt
KA
MCD
Sumut
77.4185
0
2
1
Sumbar
131.668
0
3
2
Sumsel
26.5578
0
2
1
Kalbar
84.5003
0
3
2
Sulut
2.245441
1
2
3
Amatan yang teridentifikasikan sebagai pencilan oleh penduga MCD merupakan amatan yang salah dalam pengelompokkannya. Skor diskriminan penduga MCD berfungsi untuk mengelompokkan kembali amatan yang diidentifikasikan sebagai pencilan tersebut Pengelompokkan kembali suatu amatan dilakukan dengan menghitung nilai masing-masing
kelompoknya. Amatan dikelompokkan ke kelompok yang memiliki nilai yang paling maksimum diantara ketiga kelompok tersebut. Wilayah Sulut pada Tabel 14 bukan merupakan suatu pencilan yang teridentifikasi oleh penduga MCD, tetapi penduga ini merubah kelompok tersebut dari kelompok-2 (Divre B) menjadi kelompok-3 (Divre C). Hal inilah yang menjadi kesalahan pengklasifikasian oleh penduga MCD. Tabel 15 Pengelompokkan Kembali Amatan Pencilan dengan Skor Diskriminan MLE Amatan
JM
Bbt
KA
MLE
Kalsel
5.832614
1
2
3
Sulut
2.263824
1
2
3
Penduga MLE tidak mampu mengidentifikasikan pencilan satu pun dalam perhitungannya. Hasil lengkap pengidentifikasian penduga MLE dapat dilihat pada Lampiran 9. Pembobot yang dihasilkan tidak ada yang bernilai=0 karena jarak Mahalanobisnya yang lebih kecil dari nilai Khi-kuadratnya pada p buah peubah. Wilayah Kalsel dan Sulut dikelompokkan masuk ke kelompok-3 (Divre C) oleh penduga MLE. Hal inilah yang menjadi kesalahan klasifikasi pada penduga MLE karena wilayah Kalsel dan Sulut termasuk ke dalam kelompok-2 (Divre B). Kelompok Akhir Divre Berdasarkan pengelompokkan dengan penduga MLE dan MCD maka didapatkan informasi bahwa pengelompokkan keputusan direksi Perum Bulog memiliki hasil yang hampir sama dengan penduga MLE daripada penduga MCD. Tetapi berdasarkan proses simulasi dibuktikan bahwa penduga MCD mampu mendeteksi pencilan pada data dengan baik. Pada data riil penduga MCD mampu mendeteksi adanya 4 wilayah yang termasuk ke dalam pencilan yaitu Sumut, Sumbar, Sumsel dan Kalbar. Keempat wilayah ini kemudian dikelompokkan kembali dengan menggunakan skor diskriminanya. Hasil akhir pengelompokkan ini sepenuhnya berada dalam kebijakan direksi karena Perum Bulog yang mengetahui keadaan masing masing wilayah dengan sangat baik. Penelitian ini hanya memberikan gambaran bahwa pada data yang mengandung pencilan penduga MCD lebih baik digunakan daripada penduga MLE
13
KESIMPULAN Berdasarkan hasil penelitian dapat ditarik beberapa kesimpulan sebagai berikut: 1. Pada data tanpa pencilan, penduga MCD hampir sama baiknya dengan penduga MLE tetapi semakin besar proporsi pencilan yang diberikan maka kesalahan klasifikasi oleh penduga MLE akan semakin besar sedangkan penduga MCD cendrung tetap. 2. Berdasarkan proses simulasi, semakin besar ukuran contoh yang digunakan dalam proses simulasi maka kemungkinan terjadinya kesalahan klasifikasi oleh penduga MCD akan semakin dapat terjadi meskipun dalam persentase yang kecil. 3. Vektor rata-rata dan matriks ragam peragam yang dihasilkan oleh penduga MCD mampu mengidentifikasikan pencilan pada data dengan lebih baik daripada penduga MLE. 4. Skor diskriminan yang dihasilkan penduga MCD mampu mengelompokkan kembali suatu pencilan ke dalam kelompok yang sebenarnya dibandingkan penduga MLE.
Rousseeuw PJ, Driessen K Van. 1999. A Fast Algorithm for the Minimum Covariance Determinant Estimator. Technometrics. Vol. 41, 212-223. Suryana. 2008. Perbandingan Kinerja Penaksir Kekar MCD dan MWCD dalam Analisis Diskriminan Kuadratik [Tesis]. Surabaya: Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Teknologi Surabaya. Suryani Yani. 2009. Metode Pendugaan Matriks Ragam-Peragam Dalam Analisis Regresi Komponen Utama (RKU) [Skripsi]. Bogor: Fakultas Matematika dan Ilmu Pengetahuan Alam Departemen Statistik, Institut Pertanian Bogor. Todorov V, Filzmoser P. 2007. Robust Statistics for the One-way MANOVA. The views expressed herein are those of the authors and do not necessarily reflect the views of the United Nations Industrial Development Organization.
SARAN Berdasarkan paparan metodologi dan pembahasan penelitian ini, saran yang peneliti 1. Menggunakan peubah penjelas dan kelompok dengan jumlah yang lebih besar 2. Menggunakan nilai ragam pada data simulasi dengan nilai ragam yang mewakili ukuran ragam kecil, sedang dan besar kemudian dibandingkan hasilnya. 3. Menggunakan nilai ragam yang tidak homogen pada proses simulasi sehingga menggunakan diskriminan kuadratik dalam analisisnya. DAFTAR PUSTAKA Arini MW. 2011. Analisis Diskriminan Kuadratik Kekar [Skripsi]. Bogor: Fakultas Matematika dan Ilmu Pengetahuan Alam Departemen Statistik, Institut Pertanian Bogor. Huberty JC. 1934. Applied MANOVA and Discriminant Analysis.-2nd ed Inc. 605 Third Avenue. New York. Johnson RA, Winchern DW. 1998. Applied to Multivariate Analysis Sixth Edition. New York : John willey & Sons. Purwadi. 2008. Kajian Pengaruh Ukuran Contoh (n) Terhadap Pemodelan State Space [Skripsi]. Bogor: Fakultas Matematika dan Ilmu Pengetahuan Alam Departemen Statistik, Institut Pertanian Bogor.
1
LAMPIRAN
15
Lampiran 1. Pembangkitan Ukuran Data Kelompok dan Proporsi Pencilan
Pencilan
0% 5% 10% 15% 20%
Kelompok
n=20
n=40
n=200
(n1=10, n2=10)
(n1=20, n2=20)
(n1=100, n2=100)
n
n*
n
n*
n
n*
1 2 1 2 1 2 1 2 1
10 10 9 9 8
0 0 1 1 2
20 20 19 19 18 18 17 17 16
0 0 1 1 2 2 3 3 4
100 100 95 95 90 90 85 85 80
0 0 5 5 10 10 15 15 20
2
8
2
16
4
80
20
Keterangan : n = Jumlah Amatan n* = Jumlah Amatan Pencilan
16
Lampiran 2. Contoh Analisis Diskriminan linier Dengan Penduga MCD dan MLE n=40 dengan Pencilan 10%. Data Bangkitan JM Bobot KA MLE JMK Bobot KA MCD No x1 x2 x3 1 2 3 4 5 6
1.338887 3.103603 1.020158 3.644424 -0.89356 3.4114
0.778761 5.140607 4.02046 2.119439 1.784769 2.58962
6.069947 1.397612 4.086508 3.374822 5.60966 4.025134
2.6225 3.9585 1.2172 1.0808 3.562 0.4437
1 1 1 1 1 1
1 1 1 1 1 1
1 1 1 1 1 1
2.84236 5.1005 2.36232 0.96955 4.07464 0.86042
1 1 1 1 1 1
1 1 1 1 1 1
1 1 1 1 1 1
7 8
0.134241 4.200101
1.505988 0.851707
2.670425 3.438501
0.4971 2.9904
1 1
1 1
1 1
3.4085 2.82815
1 1
1 1
1 1
9 10 11
3.038386 3.340915 0.108532
3.134883 3.106414 2.836
4.500211 1.722199 -0.19941
0.0704 2.0248 3.5501
1 1 1
1 1 1
1 1 1
1.60112 2.8924 13.6858
1 1 0
1 1 1
1 1 1
12 13 14 15 16 17 18
-0.67349 2.94591 1.419317 1.59481 3.658242 0.672363 1.316955
2.121729 2.81245 2.18364 -1.33763 2.223267 1.341863 2.439088
5.840847 4.0706 2.831772 5.266417 3.321304 5.197728 -0.218
3.5653 0.1586 0.2701 4.8311 1.0588 1.4803 3.1638
1 1 1 1 1 1 1
1 1 1 1 1 1 1
1 1 1 1 1 1 1
4.46641 0.65174 1.03176 5.20794 0.98187 1.40773 12.5212
1 1 1 1 1 1 0
1 1 1 1 1 1 1
1 1 1 1 1 1 1
19
21.34661
24.61603
21.65205
13.405
0
1
2
915.899
0
1
2
20
18.94559
21.03562
24.09794
13.076
0
1
2
865.538
0
1
2
21 22 23 24 25 26 27 28 29 30 31 32
6.060385 6.292092 2.348417 8.063144 3.759557 3.948137 8.014036 6.635117 5.420662 7.322313 4.921224 3.882472
9.852152 7.034349 8.30048 5.141848 7.234505 5.573377 7.028605 5.400341 5.126895 7.942287 8.320042 10.37143
7.768155 11.06956 7.409628 9.740653 9.707012 9.039863 7.645599 8.768931 8.335478 5.673122 8.343295 12.22407
2.3034 1.2155 4.9063 3.2789 2.2153 1.3085 1.5047 1.2075 0.7657 3.1898 1.1626 7.449
1 1 1 1 1 1 1 1 1 1 1 1
2 2 2 2 2 2 2 2 2 2 2 2
2 2 2 2 2 2 1 2 2 1 2 2
2.99254 3.74524 7.47815 3.25696 2.47631 3.05699 1.77592 1.7754 3.27165 5.95158 1.24546 20.6407
1 1 1 1 1 1 1 1 1 1 1 0
2 2 2 2 2 2 2 2 2 2 2 2
2 2 2 2 2 2 2 2 2 2 2 2
33 34 35 36 37 38 39
8.133193 4.874956 6.928873 8.588652 8.443099 7.478787 22.37023
7.705662 8.806823 6.96927 7.268378 10.51916 4.864718 23.04691
9.272483 7.824418 9.397157 10.28524 8.183568 8.939445 21.15179
0.5009 1.8693 0.2871 1.1302 2.1283 2.7262 8.0836
1 1 1 1 1 1 1
2 2 2 2 2 2 2
2 2 2 2 2 1 2
1.83957 2.06035 0.46578 4.26248 6.42643 3.23177 482.495
1 1 1 1 1 1 0
2 2 2 2 2 2 2
2 2 2 2 2 2 2
40
20.78344
19.75075
22.40506
6.7414
1
2
2
425.641
0
2
2
17
Keterangan : JM = Jarak Mahalanobis KA = Kelompok Awal JMK = Jarak Mahalanobis Kekar Amatan yang digaris bawahi adalah amatan yang mengandung pencilan Keterangan Pada Bobot : 1 = Bukan Pencilan 0 = Pencilan
Lampiran 3. Nilai Vektor Rata-rata dan Matriks Ragam-peragam Penduga MLE dan MCD Untuk n=20.
N
20
Pencilan
Kel
0%
1 2
1 10%
2 1
20%
n
Pencilan
0%
2
Kel
1 2 1
20
10%
2 1
20%
2
Matriks Ragam-peragam MCD 1.8 0.32 0.21 2.34 0.54 0.37
0.32 0.21 2.01 0.27 0.27 2.0 0.54 2.30 0.06
2.64 0.46 0.46 2.42 0.15 0.10
0.37 0.06 2.60 0.15 0.10 2.70
Matriks Ragam-peragam MLE 2.60 0.11 0.01
0.11 0.01 3.22 0.15 0.15 2.90
34.6 30.6 31.2 30.6 33.1 29.8 31.2 29.8 33.1 62.3 56.2 56.9 56.2 55.3 54.2 56.9 54.2 58.3
Vektor Rata-rata MCD
Standar Deviasi
[0.96 2.14 2.95]
[0.93 0.61 0.62]
[6.46 7.30 8.10]
[0.26 0.51 0.41]
[0.67 1.94 3.48]
[0.92 0.55 0.82]
[6.46 7.00 8.04]
[0.24 0.56 0.40]
[0.98 1.86 2.54]
[0.88 0.32 0.76]
[6.23 6.85 8.20]
[0.47 0.48 0.31]
Vektor Rata-rata
Standar
MLE
Deviasi
[0.93 1.91 2.92]
[0.72 0.36 0.80]
[6.02 6.91 7.98]
[0.10 0.44 0.41]
[2.73 3.97 5.35]
[0.81 0.45 0.72]
[8.04 8.24 9.42]
[0.20 0.40 0.30]
[4.93 5.83 6.74]
[0.65 0.34 0.65]
[9.57 9.68 10.9]
[0.42 0.42 0.25]
18
Lampiran 4. Nilai Vektor Rata-rata dan Matriks Ragam-peragam Penduga MLE dan MCD Untuk n=40.
40
n
40
Vektor Rata-rata MCD
Standar Deviasi
0.18 0.21 2.18
[1.06 1.74 3.11] [5.92 6.86 8.05]
[0.45 0.63 0.37] [0.27 0.51 0.71]
0.07 1.98 0.43
0.12 0.43 2.18
[0.71 1.66 3.04] [6.16 7.03 8.13]
[0.43 0.64 0.27] [0.34 0.36 0.50]
2.10 0.02 0.07
0.02 2.48 0.49
0.07 0.49 2.42
[0.93 2.01 2.93] [5.97 7.04 7.91]
[0.55 0.42 0.44] [0.40 0.52 0.66]
2.32 0.07 0.11
0.07 2.74 0.53
0.11 0.53 2.49
[0.88 1.96 2.89] [5.96 7.13 7.83]
[0.47 0.63 0.36] [0.26 0.41 0.74]
[1.18 1.84 2.80] [5.92 6.88 7.98]
[0.48 0.49 0.30] [0.27 0.41 0.57]
Matriks Ragam-peragam MCD
Pencilan
Kel
0%
1 2
2.17 0.52 0.18
0.52 1.85 0.21
5%
1 2
1.97 0.07 0.12
10%
1 2
15%
1 2
20%
1 2
Pencilan
Kel
2.57 0.20 0.20 2.12 0.15 0.00
0.15 0.00 2.32
Matriks
Vektor Rata-rata
Standar
Ragam-peragam MLE
MLE
Deviasi
[1.22 1.76 3.19] [6.01 6.91 8.00]
[0.39 0.50 0.42] [0.25 0.22 0.68]
3.11 0.22 0.00
0.22 3.14 0.08
0.00 0.08 2.95
0%
1 2
5%
1 2
19.2 15.7 15.9 15.7 18.1 15.1 15.9 15.1 18.6
[1.89 2.69 4.19] [7.00 7.75 8.74]
[0.42 0.67 0.32] [0.37 0.32 0.47]
10%
1 2
35.1 29.4 30.2 29.4 30.4 28.1 30.2 28.1 31.9
[2.98 3.80 4.91] [7.67 8.44 9.29]
[0.43 0.55 0.29] [0.27 0.33 0.64]
15%
1 2
48.6 41.3 42.7 41.3 40.7 38.7 42.7 38.7 43.2
[4.03 4.79 5.86] [8.43 9.18 9.98]
[0.35 0.57 0.27] [0.28 0.38 0.70]
20%
1 2
61.1 55.2 55.3 55.2 54.7 53.1 55.3 53.1 56.2
[5.21 5.84 6.94] [9.34 9.83 10.8]
[0.35 0.43 0.22] [0.33 0.27 0.55]
19
Lampiran 5. Nilai Vektor Rata-rata dan Matriks Ragam-peragam Penduga MLE dan MCD Untuk n=200.
n
200
n
200
Pencilan
Matriks Ragam-peragam MCD
Kel
2.62 0.03 0.02 0.03 2.76 0.04 0.02 0.04 2.62
Vektor Rata-rata
Standar
MCD
Deviasi
[0.97 2.00 3.04] [5.97 7.07 8.10]
[0.13 0.14 0.20] [0.12 0.06 0.10]
0%
1 2
5%
1 2
2.77 0.03 0.02
0.03 2.70 0.02
0.02 0.02 2.69
[0.94 1.89 3.05] [6.03 6.92 8.08]
[0.16 0.22 0.18] [0.21 0.14 0.15]
10%
1 2
2.82 0.03 0.02
0.03 2.80 0.05
0.02 0.05 2.83
[0.92 1.89 3.03] [6.06 6.92 8.05]
[0.14 0.19 0.16] [0.19 0.17 0.14]
15%
1 2
2.93 0.05 0.01
0.05 2.91 0.06
0.01 0.06 2.93
[0.95 1.93 3.05] [6.00 6.97 7.98]
[0.16 0.20 0.16] [0.17 0.16 0.23]
20%
1 2
0.07 0.03 3.01
[0.97 1.96 3.03] [5.99 6.97 7.99]
[0.14 0.22 0.14] [0.19 0.15 0.24]
Pencilan
2.93 0.02 0.07
Kel
0.02 2.93 0.03
Matriks Ragam-peragam MLE 0.01 3.04 0.03
0.02 0.03 2.89
Vektor Rata-rata
Standar
MLE
Deviasi
[0.99 2.03 3.01] [5.99 7.07 8.09]
[0.13 0.09 0.18] [0.17 0.06 0.08]
0%
1 2
2.97 0.01 0.02
5%
1 2
19.6 15.4 15.5 15.4 17.3 14.5 15.5 14.5 17.5
[1.99 2.92 4.07] [6.84 7.63 8.75]
[0.12 0.22 0.15] [0.20 0.11 0.13]
10%
1 2
34.7 29.3 28.9 29.3 30.2 27.1 28.9 27.1 29.5
[2.97 3.91 5.05] [7.73 8.36 9.42]
[0.11 0.18 0.16] [0.20 0.16 0.12]
15%
1 2
47.7 41.1 41.2 41.1 41.1 38.3 41.2 38.3 41.4
[3.96 4.94 6.05] [8.55 9.04 10.1]
[0.13 0.20 0.12] [0.14 0.13 0.16]
20%
1 2
58.2 51.5 51.7 51.5 51.5 48.6 51.7 48.6 51.8
[4.93 5.97 7.04] [9.40 9.79 10.8]
[0.13 0.22 0.11] [0.16 0.18 0.17]
20
Lampiran 6. Daftar Divre Kelompok Awal
Aceh
Kelompok Awal 2
Sumut
2
Riau
2
Sumbar
3
Jambi
3
Sumsel
2
Bengkulu Lampung D.K.I. Jakarta Jabar Jateng Yogyakarta Jatim
3 2 1 1 1 3 1
Kalbar
3
Kaltim
3
Kalsel
2
Divre
Kalteng
3
Sulut
2
Sulteng
3
Sultra Sulsesl Bali
3 1 3
N.T.B.
2
N.T.T.
2
Maluku
3
Papua
2
Keterangan: 1 = Divre A 2 = Divre B 3 = Divre C
Lampiran 7. Hasil Uji Kesamaan Vektor Rataan Tests of Equality of Group Means Wilks' Lambda
F
df1
df2
Sig.
VAR00001 VAR00002 VAR00003
0.33 0.336 0.363
23.346 22.716 20.175
2 2 2
23 23 23
0 0 0
VAR00004
0.265
31.839
2
23
0
21
Lampiran 8. Analisis diskriminan kuadratik dengan penduga MCD n 1
Divre Aceh
Jarak kekar 0.581316
1
Kelompok awal 2
Kelompok akhir 2
Bobot
2
Jambi
2.94395
1
3
3
3
Kaltim
1.353589
1
3
3
4
Sulut
2.245441
1
2
3
5
Lampung
4.423956
1
2
2
6
Kalteng
1.636784
1
3
3
7 8 9 10 11 12 13
Jabar Jateng Jatim Sulsel D.K.I. Jakarta N.T.B. Bengkulu
3.2 3.2 3.2 3.2 3.2 2.02219 3.964938
1 1 1 1 1 1 1
1 1 1 1 1 2 3
1 1 1 1 1 2 3
14
Yogyakarta
2.25297
1
3
3
15
Maluku
4.445234
1
3
3
16
Bali
5.438625
1
3
3
17
Sultra
5.0727
1
3
3
18
Papua
3.751909
1
2
2
19
Kalsel
4.851385
1
2
2
20 21 22
Riau N.T.T. Sulteng
5.222608 4.901196 4.89121
1 1 1
2 2 3
2 2 3
23
Kalbar
84.50029
0
3
2*
24
Sumsel
26.55776
0
2
1*
25
Sumbar
131.6684
0
3
2*
26
Sumut
77.41853
0
2
1*
Keterangan: (*) pencilan
22
Lampiran 9. Pengelompokan Divre dengan Analisis Diskriminan Penduga MCD dan MLE x1
x2
x3
x4
JM
Bobot
KA
MLE
JMK
Bobot
KA
MCD
Aceh
1627545
38016.6
90058
4675500
0.64
1
2
2
0.58
1
2
2
Sumut
3586861
14172.2
141741
13661600
7.34
1
2
2
77.4
0
2
1
Riau
546550
0
55804
5987200
5.31
1
2
2
5.22
1
2
2
Sumbar
2192288
4668.33
42321
4829500
6.75
1
3
3
132
0
3
2
No
Jambi
658271
350
22631
2810100
2.94
1
3
3
2.94
1
3
3
Sumsel
3274868
89052.4
105536
9312600
6.21
1
2
2
26.6
0
2
1
Bengkulu Lampung D.K.I.Jakarta Jabar Jateng Yogyakarta Jatim
512212 2701699 2059912 11650160 10079212 830545 11375779
2000 60063.9 27715.4 313589 235869 11670.8 419393
19377 125733 118129 475554 491021 34277 523569
1813600 7714000 18697100 40179300 34843600 3233300 36720000
2.41 1.87 3.2 3.2 3.2 1.98 3.2
1 1 1 1 1 1 1
3 2 1 1 1 3 1
3 2 1 1 1 3 1
3.97 4.42 3.2 3.2 3.2 2.25 3.2
1 1 1 1 1 1 1
3 2 1 1 1 3 1
3 2 1 1 1 3 1
Kalbar
1358292
11102.8
58935
4671800
5.57
1
3
3
84.5
0
3
2
Kaltim
580654
5701.43
31930
2869200
0.73
1
3
3
1.35
1
3
3
Kalsel
1944888
5672.11
28235
3349400
5.83
1
2
3
4.85
1
2
2
Kalteng
644781
5651
23518
2194000
1.14
1
3
3
1.64
1
3
3
Sulut
844453
3096.47
31673
3161000
2.26
1
2
3
2.25
1
2
3
Sulteng Sultra Sulsesl Bali N.T.B. N.T.T. Maluku
986126 455200 4638437 846896 1779187 540771 126354
5550.72 14051.5 165555 9742.13 48208.2 4082 3548.62
27051 43020 102798 22852 95078 94141 34101
2493700 2167700 9231500 3457300 4600800 4396800 2228900
2.15 5.79 3.2 6.27 1.25 2.13 4.27
1 1 1 1 1 1 1
3 3 1 3 2 2 3
3 3 1 3 2 2 3
4.89 5.07 3.2 5.44 2.02 4.9 4.45
1 1 1 1 1 1 1
3 3 1 3 2 2 3
3 3 1 3 2 2 3
Papua
138729
20951.1
94252
2697100
3.16
1
2
2
3.75
1
2
2
Keterangan : JM = Jarak Mahalanobis KA = Kelompok Awal JMK = Jarak Mahalanobis Kekar Amatan yang digaris bawahi adalah amatan yang mengandung pencilan dan salah klasifikasi Keterangan Pada Bobot : 1 = Bukan Pencilan 0 = Pencilan
23
Lampiran 10. Makro MINITAB Pengujian Kenormalan Ganda #Memulai makro untuk qq dan peubah x1-xp # macro. qq x.1-x.p #Menentukan konstanta, kolom dan matriks# mconstant i n p t chis mcolumn d x.1-x.p dd pi q ss tt mmatrix s sinv ma mb mc md #Memulai perhitungan pengamatan dari x1 sebanyaka n pengamatan# let n=count(x.1) #Mencari matriks ragam-peragam dari x1 s/d xp dan nilai inversnya# cova x.1-x.p s invert s sinv
#Menentukan dan menghitung banyaknya jarak mahalanobis setiap pengamatan yang lebih kecil dari nilai Khi-kuadratnya# let ss=dd
0.5 note distribusi data multinormal endif if t<=0.5 note distribusi data bukan multinormal endif #Mengakhiri makro# endmacro
#Mencari nilai vektor rata-rata dari x1 s/d xp Lakukan dari data pengamatan satu sampai data pengamatan ke-n (xi - ) i= 1,….n # do i=1:p let x.i=x.i-mean(x.i) enddo do i=1:n copy x.1-x.p ma; use i #Mencari nilai jarak mahalanobis# transpose ma mb multiply ma sinv mc multiply mc mb md copy md tt let t=tt(1) let d(i)=t enddo set pi 1:n end #Menghitung nilai pi dan mengurutkan nilai dd dari kecil ke besar# let pi=(pi-0.5)/n sort d dd invcdf pi q; chis p # Buat scatter-plot
d (i2 ) dengan qi dan
menentukkan nilai Khi-kuadrat ( plot q*dd invcdf 0.5 chis; chis p.
)#
24
Lampiran 11. Makro MINITAB Pendeteksian Pencilan #Memulai makro dengan observasi pencilan dari y1 s/d yp# Macro outlier obs y.1-y.p #Menentukan konstanta, kolom dan matriks# mconstant i n p df mcolumn d x.1-x.p y.1-y.p dd pi f_value tt obs p1 sig_f mmatrix s sinv ma mb mc md #Memulai perhitungan pengamatan dari y1 sebanyaka n pengamatan# let n=count(y.1) #Mencari matriks ragam-peragam dari y1 s/d yp dan nilai inversnya# cova y.1-y.p s invert s sinv #Mencari nilai vektor rata-rata dari y1 s/d yp Lakukan dari data pengamatan satu sampai data ഥ) i= 1,….n # pengamatan ke-n (xi - ࢞ do i=1:p let x.i=y.i-mean(y.i) enddo do i=1:n copy x.1-x.p ma; use i #Mencari nilai jarak mahalanobis# transpose ma mb multiply ma sinv mc multiply mc mb md copy md tt let d(i)=tt(1) enddo #Mencari nilai f_value let f_value=((n-p-1)*n*d)/(p*(n-1)**2-n*p*d) let df=n-p-1 #menentukan nilai derajat bebas# cdf f_value p1; f p df #menghitung nilai sig_f let sig_f=1-p1 print obs d f_value sig_f #Makro berakhir endmacro