KAJIAN ANALISIS GEROMBOL BERBASIS MODEL PADA DATA YANG MENYEBAR NORMAL GANDA
INDAH RATIH ANGGRIYANI
SEKOLAH PASCASARJANA INSTITUT PERTANIAN BOGOR 2011
PERNYATAAN MENGENAI TESIS DAN SUMBER INFORMASI Dengan ini saya menyatakan bahwa tesis Kajian Analisis Gerombol Berbasis pada Data yang Menyebar Normal Ganda, adalah karya saya dengan arahan dari komisi pembimbing dan belum diajukan dalam bentuk apa pun kepada perguruan tinggi mana pun. Sumber informasi yang berasal atau dikutip dari karya yang diterbitkan maupun tidak diterbitkan dari penulis lain telah disebutkan dalam teks dan dicantumkan dalam Daftar Pustaka di bagian akhir tesis ini.
Bogor, Agustus 2011
Indah Ratih Anggriyani G151090021
ABSTRACT INDAH RATIH ANGGRIYANI. Model Based Analysis Cluster Study in Normal Distribution Multivariate Data. Under direction of KUSMAN SADIK, and UTAMI DYAH SAFITRI Cluster analysis is data method classify objects into groups based on similarity or dissimilarity. One of approach is model based clustering. The assumptions used is the data derived from a mixture of two or more distribution probability with certain proportions. The final cluster is determined by BIC. The object of each cluster were obtained by EM algorithm. This study aims to assess the effectiveness of the model based clustering on the data are from multivariate normal distribution. Effectiveness would include the percentage of classification errors produced at a several distance, comparing with the k-means, and their application. If the distance between the center of a large and diverse cluster each different variables, then averaging the resulting classification error rate small. generally model based to cluster is more effective than the method of k-means. The MAP was better than the MLE since it can overcome the singularity problem, the rest same as MLE. Keywords: cluster analysis, mixture model, BIC, EM algorithma, maximum likelihood, conjugate prior, posterior mode
RINGKASAN INDAH RATIH ANGGRIYANI. Kajian Analisis Gerombol Berbasis Model pada Data yang Menyebar Normal Ganda. Dibimbing oleh KUSMAN SADIK dan UTAMI DYAH SAFITRI Analisis gerombol merupakan suatu metode penggerombolan yang bertujuan untuk mengelompokkan objek ke dalam beberapa kelompok sedemikian hingga objek yang berada di dalam kelompok yang sama cenderung mempunyai karakteristik yang lebih homogen dari pada objek yang berada di kelompok yang berbeda. Hal ini dilakukan dengan suatu ukuran jarak seperti jarak euclidean. Pengukuran kemiripan antar objek dengan menggunakan jarak akan sangat sulit dilakukan jika ukuran data yang digunakan sangat besar dan kondisi objek yang ada saling tumpang tindih. Dengan memperhatikan sebaran dari data yang digunakan untuk penggerombolan, Mclachlan dan Basford (1988) memberikan suatu pendekatan terbaru dalam analisis gerombol yaitu penggerombolan berbasis model campuran. Metode ini mengasumsikan bahwa sebaran data yang digunakan adalah sebaran campuran dengan setiap subpopulasi mewakili suatu gerombol yang berbeda. Tujuan dari metode ini adalah untuk mengoptimalkan kemiripan antar objek dengan menggunakan pendekatan model peluang. Tehnik perpindahan objek berdasarkan pada algoritma Expectation Maximization (EM) dan penentuan jumlah gerombol ditentukan berdasarkan nilai Bayes Information Criterion (BIC) terbesar. Penggunaan algoritma EM dalam pendugaan parameternya dikarenakan algoritma tersebut merupakan metode perhitungan iterasi yang sangat cocok untuk pendugaan parameter dari fungsi kemungkinan pada data tidak lengkap seperti yang terdapat pada sebaran campuran. Sama halnya dengan metode penggerombolan lainnya, metode penggerombolan berbasis model dilakukan untuk mengetahui jumlah gerombol maupun anggota tiap gerombol. Dengan demikian, efektifitas dari metode ini dibandingkan dengan metode berdasarkan ukuran jarak adalah suatu hal yang sangat penting untuk diketahui. Tujuan dari penelitian ini yaitu mengkaji efektifitas analisis gerombol berbasis model yang meliputi efektifitas pada beberapa kondisi jarak antar pusat gerombol, perbandingan dengan metode klasik atau k-rataan serta efektifitas analisis penggerombolan berbasis model berdasarkan maximum likelihood (MLE) dan maximum posterior (MAP) pada beberapa contoh penerapan. Perbandingan dengan metode klasik atau k-rataan, keefektifannya dapat dikethaui dengan menghitung persentase rataan tingkat kesalahan klasifikasi yang dihasilkan, sedangkan efektifitas MLE dan MAP dapat diketahui berdasarkan persentase rataan tingkat kesalahan klasifikasi serta nilai BIC yang dihasilkan. Data yang digunakan dalam penelitian ini adalah hasil simulasi dan data dari paket Mclust ver 3.4.8 pada R 2.12.1. Data simulasi yang dibangkitkan merupakan data himpunan campuran normal ganda dengan kondisi titik pusat gerombol, ragam dan tingkat korelasi antar peubah yang beragam.
Hasil simulasi menunjukkan bahwa semakin jauh jarak antar pusat gerombol, jika ragam setiap peubah untuk setiap gerombol kecil maupun berbeda maka tingkat kesalahan klasifikasi yang dihasilkan semakin kecil. Jika kondisi ragam setiap peubah untuk setiap gerombol sama dan berukuran besar, maka nilai korelasi berpengaruh terhadap hasil akhir penggerombolan. Nilai korelasi lebih dari 0,5 ( ) memberikan tingkat kesalahan klasifikasi yang kecil. Jika dilakukan perbandingan dengan metode k-rataan, kedua metode ini memberikan efektifitas yang sama pada kondisi ragam setiap peubah untuk setiap gerombol kecil. Pada kondisi ragam setiap peubah untuk setiap gerombol sama dan besar, krataan menghasilkan efektifitas terbaik pada kondisi nilai korelasi kecil. Kondisi ragam setiap peubah untuk setiap gerombol berbeda, penggerombolan berbasis model menghasilkan efektifitas yang lebih baik dibandingkan dengan metode krataan. Tingkat kesalahan klasifikasi yang dihasilkan berdasarkan metode kemungkinan maksimum dan metode Bayes tidak berbeda jauh. Munculnya singularitas untuk matriks peragam dapat diatasi dengan menggunakan metode Bayes. Kata kunci: analisis gerombol, model campuran, BIC, algoritma EM, maksimum likelihood, konjugasi sebaran awal
© Hak Cipta milik IPB, tahun 2011 Hak Cipta dilindungi Undang-Undang Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan atau menyebutkan sumbernya. Pengutipan hanya untuk kepentingan pendidikan, penelitian, penulisan karya ilmiah, penyusunan laporan, penulisan kritik, atau tinjauan suatu masalah; dan pengutipan tersebut tidak merugikan kepentingan yang wajar IPB Dilarang mengumumkan dan memperbanyak sebagian atau seluruh karya tulis dalam bentuk apa pun tanpa izin IPB
KAJIAN ANALISIS GEROMBOL BERBASIS MODEL PADA DATA YANG MENYEBAR NORMAL GANDA
INDAH RATIH ANGGRIYANI
Tesis Sebagai salah satu syarat untuk memperoleh gelar Magister Sains pada Program Studi Statistika
SEKOLAH PASCASARJANA INSTITUT PERTANIAN BOGOR BOGOR 2011
Penguji Luar Komisi pada Ujian Tesis : Dr. Ir. Erfiani, M.Si
Judul Tesis Nama NIM
: Kajian Analisis Gerombol Berbasis Model pada Data yang Menyebar Normal Ganda : Indah Ratih Anggriyani : G151090021
Disetujui Komisi Pembimbing
Dr. Kusman Sadik, M.Si Ketua
Utami Dyah Syafitri, S.Si, M.Si Anggota
Diketahui , Ketua Program Studi Statistika
Dekan Sekolah Pascasarjana
Dr. Ir. Erfiani, M.Si
Dr. Ir. Dahrul Syah, M.Sc. Agr
Tanggal Ujian : 18 Agustus 2011
Tanggal Lulus :
PRAKATA Alhamdulillah, puji dan syukur penulis panjatkan kepada Allah SWT atas segala rahmat dan karunia-Nya, sehingga karya ilmiah ini berhasil diselesaikan. Tema yang dipilih dalam penelitian ini adalah analisis gerombol, dengan judul “Kajian Analisis Gerombol Berbasis Model pada Data yang Menyebar Normal Ganda ”. Terima kasih penulis ucapkan kepada Bapak Dr. Kusman Sadik, M.Si selaku pembimbing I dan Ibu Utami Dyah Syafitri, S.Si, M.Si selaku pembimbing II, yang telah memberikan bimbingan, kesabaran dan waktunya sehingga penulis bisa menyelesaikan penelitian ini. Terima kasih juga penulis sampaikan kepada Ibu Dr. Ir. Erfiani, M.Si selaku penguji luar komisi pada ujian tesis, dan seluruh staf Program Studi Statistika. Ucapan terimakasih juga penulis sampaikan kepada suami, orang tua dan seluruh keluarga atas do’a dukungan, dan kasih sayangnya yang tiada terputus. Terimakasih kepada Ula Susilawati, S.Si, teman-teman Statistika angkatan 2009 serta keluarga besar Statistika yang tidak dapat penulis sebutkan satu per satu atas diskusi dan motivasi yang diberikan kepada penulis. Semoga Allah SWT membalas segala kebaikan yang telah diberikan kepada penulis, dan semoga karya ilmiah ini bermanfaat.
Bogor, Januari 2011 Indah Ratih Anggriyani
RIWAYAT HIDUP Penulis dilahirkan di Manokwari, pada tanggal 28 Januari 1984 sebagai anak tunggal dari pasangan Bapak Indah Suat dan Ibu Haryani Penulis menyelesaikan Sekolah Dasar pada tahun 1995 di SDN Arfai I Manokwari, kemudian melanjutkan studi di SLTP Negeri 2 Manokwari hingga tahun 1998. Selanjutnya penulis menyelesaikan Sekolah Menengah Umum hingga tahun 2001 di SMU Negeri 2 Manokwari. Pada tahun yang sama, melalui SLSB penulis melanjutkan perkuliahan di Universitas Cenderawasih – Jayapura pada Jurusan Matematika FMIPA. Tahun 2005 penulis menyelesaikan kuliah dan pada tahun 2006 diterima sebagai staf pengajar di Jurusan Matematika dan Statistika, Universitas Negeri Papua – Manokwari. Pada tahun 2009 penulis diterima di Program Studi Statistika Pascasarjana Institut Pertanian Bogor.
DAFTAR ISI Halaman DAFTAR TABEL ........................................................................................... xiii DAFTAR GAMBAR ....................................................................................... xiv DAFTAR LAMPIRAN ................................................................................... xvi PENDAHULUAN Latar Belakang ....................................................................................... Tujuan ....................................................................................................
1 2
TINJAUAN PUSTAKA Gambaran Umum Analisis Gerombol .................................................. 3 Penggerombolan Berbasis Model ........................................................ 4 Algoritma Expextation Maximization (EM) ......................................... 5 Karakteristik Geometrik Model ............................................................ 9 Penentuan Jumlah Gerombol ................................................................ 11 DATA DAN METODE Sumber Data............................................................................................ 14 Metode Penelitian ................................................................................. 15 HASIL DAN PEMBAHASAN Kondisi Jarak Antar Pusat Gerombol Sama ........................................... Kondisi Jarak Antar Pusat Gerombol Dekat ......................................... Kondisi Jarak Antar Pusat Gerombol Sedang ........................................ Kondisi Jarak Antar Pusat Gerombol Jauh ............................................ Data Pohon ............................................................................................ Data Diabetes ........................................................................................
21 25 29 33 36 40
SIMPULAN DAN SARAN Simpulan ................................................................................................ 44 Saran ...................................................................................................... 44 DAFTAR PUSTAKA ...................................................................................... 45 LAMPIRAN ..................................................................................................... 46
DAFTAR TABEL Halaman 1
Matriks peragam untuk model campuran ganda dan interpretasi geometrik ...........................................................................................
12
2
Parameter bebas tiap model
.............................................................
12
3
Kondisi setiap kasus simulasi
.............................................................
15
4
Statistika deskriptif peubah data pohon
.............................................
33
5
Nilai BIC setiap model berdasarkan maksimum likelihood untuk data pohon ..................................................................................................
36
Nilai BIC setiap model berdasarkan maksimum posterior untuk data pohon ..................................................................................................
39
7
Statistika deskriptif peubah data diabetes
..........................................
40
8
Nilai BIC setiap model berdasarkan maksimum likelihood untuk data diabetes ........................................................................................
42
Nilai BIC setiap model berdasarkan maksimum posterior untuk data diabetes ........................................................................................
43
6
9
DAFTAR GAMBAR Halaman 1
Diagram alur penelitian
2
Diagram alur metode penggerombolan berbasis model
3
Diagram alur pembangkitan data dengan R
4
5
6
7
8
9
10
11
12
13
14
15
16
.......................................................................
18
......................
19
........................................
20
Plot skor dua komponen utama hasil klasifikasi pada jarak antar pusat gerombol sama ...................................................................................
22
Persentase rataan tingkat kesalahan klasifikasi pada kondisi jarak sama ....................................................................................................
23
Persentase rataan tingkat kesalahan klasifikasi pada kondisi jarak sama berdasarkan MLE dan MAP .......................................................
23
Persentase rataan tingkat kesalahan klasifikasi pada kondisi jarak sama berdasarkan model based dan k-means ......................................
24
Plot skor dua komponen utama hasil klasifikasi pada jarak antar pusat gerombol dekat ...................................................................................
25
Persentase rataan tingkat kesalahan klasifikasi pada kondisi jarak dekat ...................................................................................................
26
Persentase rataan tingkat kesalahan klasifikasi pada kondisi jarak dekat berdasarkan MLE dan MAP .......................................................
27
Persentase rataan tingkat kesalahan klasifikasi pada kondisi jarak dekat berdasarkan model based dan k-means ......................................
28
Persentase rataan tingkat kesalahan klasifikasi pada kondisi jarak dekat berdasarkan jumlah amatan .....................................................
29
Plot skor dua komponen utama hasil klasifikasi pada jarak antar pusat gerombol sedang ................................................................................
30
Persentase rataan tingkat kesalahan klasifikasi pada kondisi jarak sedang .................................................................................................
31
Persentase rataan tingkat kesalahan klasifikasi pada kondisi jarak sedang berdasarkan MLE dan MAP ....................................................
32
Persentase rataan tingkat kesalahan klasifikasi pada kondisi jarak sedang berdasarkan model based dan k-means ...................................
32
17
Plot skor dua komponen utama hasil klasifikasi pada jarak antar pusat gerombol jauh .....................................................................................
34
Persentase rataan tingkat kesalahan klasifikasi pada kondisi jarak jauh .....................................................................................................
34
Persentase rataan tingkat kesalahan klasifikasi pada kondisi jarak sedang berdasarkan model based dan k-means ...................................
36
20
Plot dua komponen utama data pohon
................................................
37
21
Plot kuantil-kuantil data pohon
..........................................................
37
22
Plot nilai BIC setiap model berdasarkan maksimum likelihood untuk data pohon ..........................................................................................
38
Plot nilai BIC setiap model berdasarkan maksimum posterior untuk data pohon ..........................................................................................
39
24
Plot dua komponen utama data diabetes ...............................................
41
25
Plot kuantil-kuantil data diabetes
.......................................................
41
26
Plot nilai BIC setiap model untuk data diabetes ...................................
42
18
19
23
DAFTAR LAMPIRAN Halaman 1
Plot dua komponen utama pada salah satu ulangan dengan jumlah data tiap gerombol 50 ................................................................................
46
2
Persentase rataan tingkat kesalahan klasifikasi ......................................
49
3
Data pohon ...........................................................................................
53
4
Data Diabetes ........................................................................................
54
5
Sintaks membangkitkan data simulasi ..................................................
56
6
Sintaks Mclust .........................................................................................
63
1
PENDAHULUAN Latar Belakang Analisis gerombol merupakan suatu metode penggerombolan satuan objek pengamatan menjadi beberapa gerombol berdasarkan karakteristik yang dimiliki. Tujuan dari penggerombolan adalah untuk mengelompokkan objek ke dalam beberapa kelompok sedemikian hingga objek yang berada di dalam kelompok yang sama cenderung mempunyai karakteristik yang lebih homogen dibandingkan objek yang berada pada kelompok yang berbeda. Hal ini dilakukan dengan suatu ukuran kemiripan atau ketidakmiripan. Semakin mirip dua objek maka semakin tinggi peluang untuk dikelompokkan dalam suatu gerombol, sebaliknya semakin tidak mirip maka semakin rendah peluang untuk dikelompokkan dalam satu gerombol. Pengukuran kemiripan antar objek menggunakan informasi jarak. Pengukuran kemiripan antar objek dengan menggunakan jarak, akan sangat sulit dilakukan jika ukuran data yang digunakan sangat besar dan kondisi objek yang ada saling tumpang tindih. Dengan memperhatikan sebaran dari data yang digunakan untuk penggerombolan, Mclachlan dan Basford (1988) memberikan suatu pendekatan terbaru dalam analisis gerombol yaitu penggerombolan berbasis model campuran. Tujuan dari metode ini adalah mengoptimalkan kemiripan antar objek dengan menggunakan pendekatan model peluang. Model peluang yang dimaksud adalah menerapkan pengaturan karakteristik yang berbeda–beda pada data yang dimiliki. Asumsi yang digunakan adalah keseluruhan objek merupakan campuran dari sebaran peluang. Masing–masing sebaran mewakili suatu gerombol dengan parameter tertentu. Parameter tersebut dapat diduga melalui algoritma Expectation Maximization (EM), hal ini dikarenakan algoritma EM merupakan metode perhitungan iterasi yang sangat cocok untuk pendugaan parameter dari fungsi kemungkinan pada data tidak lengkap seperti yang terdapat pada sebaran campuran. Penentuan jumlah gerombol ditentukan dengan menggunakan Bayes Information Criterion (BIC). Hasil yang diperoleh pada penggerombolan berdasarkan ukuran jarak antar objek yaitu jumlah gerombol yang terbentuk dan anggota setiap gerombol. Pada
2
penggerombolan berbasis model selain mengetahui jumlah gerombol dan anggota tiap gerombol dapat diketahui kepadatan yang mendasari tiap komponen. Hal ini membuat metode penggerombolan berbasis model cukup berkembang. Beberapa penelitian yang berhubungan dengan penggerombolan berbasis model campuran telah dilakukan. Banfield dan Raftery (1993) menerapkan sebaran normal dan bukan sebaran normal dalam penggerombolan. Kesimpulan yang diberikan dalam penelitian ini yaitu bahwa data outlier dapat diatasi dengan menambahkan proses poisson. Dempster, Laird dan Rubin (1997) membahas tentang metode kemungkinan maksimum untuk data tidak lengkap melalui algoritma EM. Penentuan jumlah gerombol dan anggota tiap gerombol dalam analisis gerombol berbasis model, dilakukan oleh Fraley (1998). Kombinasi antara penggerombolan berhirarki dengan algoritma EM dan faktor Bayes dalam pemilihan model, dilakukan oleh Fraley (2002). Pardede (2002) membandingkan metode berbasis model dengan metode ward dan metode k-rataan dalam analisis gerombol. Pendugaan parameter dengan metode kemungkinan maksimum yang digunakan dalam penelitian itu menyimpulkan bahwa metode berbasis model merupakan metode yang lebih baik dibandingkan metode ward dan metode k-rataan, akan tetapi dalam keadaan bentuk gerombol tertentu terjadi kesalahan penggerombolan. Fraley (2007) melakukan pendekatan bayes dalam pendugaan parameternya guna mengatasi munculnya singularitas untuk beberapa model. Pada penelitian ini akan dilakukan pengkajian analisis gerombol berbasis model campuran pada data yang menyebar normal ganda. Tujuan Tujuan yang ingin dicapai dalam penelitian ini yaitu 1. Mengkaji efektifitas analisis gerombol berbasis model. Kajian yang dimaksud meliputi efektifitas analisis gerombol berbasis model pada beberapa kondisi jarak antar pusat gerombol, 2. Membandingkan dengan metode klasik atau k-rataan serta efektifitas analisis penggerombolan berbasis model berdasarkan metode maximum likelihood (kemungkinan maksimum) dan metode Bayes pada beberapa contoh penerapan.
3
TINJAUAN PUSTAKA Gambaran Umum Analisis Gerombol Analisis gerombol merupakan salah satu metode analisis peubah ganda yang bertujuan untuk mengelompokkan objek kedalam kelompok – kelompok tertentu yang relatif homogen berdasarkan kemiripan atau ketidakmiripan karakteristik– karakteristik yang dimiliki (Hair et al, 1998). Ukuran kemiripan yang digunakan adalah fungsi jarak antara dua objek. Bila antar peubah yang digunakan saling bebas digunakan jarak euclidean
-
korelasi antar peubah digunakan jarak mahalanobis dengan
sedangkan bila terdapat -
-
-
adalah matriks ragam peragam. Secara umum terdapat dua metode
penggerombolan yang menggunakan ukuran jarak, yaitu metode penggerombolan berhirarki dan metode penggerombolan tak berhirarki (Johnson, 1998). a.
Metode berhirarki Metode penggerombolan berhirarki dimulai dengan mengelompokkan dua
atau lebih objek yang memiliki kesamaan terdekat menjadi suatu gerombol baru sehingga jumlah gerombol berkurang satu pada setiap tahap, atau dengan menganggap seluruh objek berasal dari satu gerombol kemudian ketidakmiripan yang paling tinggi dipisah hingga tiap observasi menjadi gerombol sendiri– sendiri. Metode ini digunakan bila jumlah gerombol yang akan dibentuk belum diketahui sebelumnya. b.
Metode tak berhirarki Metode penggerombolan tak berhirarki digunakan bila banyaknya gerombol
yang akan dibentuk sudah diketahui sebelumnya. K-rataan merupakan metode tak berhirarki yang paling banyak digunakan. Penentuan objek kedalam gerombol tertentu pada metode ini berdasarkan rataan terdekat, yang terdiri dari tiga tahap. Tahap pertama mengambil k unit data pertama yang digunakan sebagai k pusat gerombol awal. Tahap kedua, menggabungkan setiap (n-k) data yang merupakan sisa objek ke pusat gerombol terdekat, kemudian dihitung masing-masing pusat (rataan) gerombol baru yang terbentuk dari hasil gabungan. Pada tahap ketiga, pusat gerombol yang terbentuk dijadikan sebuah titik pusat (rataan) gerombol
4
kemudian dilakukan penggabungan kembali dari setiap unit data ke dalam titik pusat terdekat. Ketiga tahap ini dilakukan hingga diperoleh gerombol yang konvergen yaitu adanya titik pusat yang tetap dan tidak ada lagi perubahan anggota di setiap gerombol. Metode penggerombolan tak berhirarki lainnya adalah metode penggerombolan berbasis model campuran. Penggerombolan Berbasis Model Metode penggerombolan berbasis model campuran mengasumsikan bahwa sebaran data yang digunakan adalah sebaran campuran dengan setiap subpopulasi mewakili suatu gerombol yang berbeda, sehingga dalam mendefinisikan setiap gerombol yang terbentuk digunakan distribusi statistik (Fraley,1998). Tujuan dari metode ini adalah untuk mengoptimalkan kemiripan antar objek dengan menggunakan pendekatan model peluang. Pendekatan tersebut dapat memodelkan data yang dimiliki dengan menerapkan pengaturan karakteristik yang berbedabeda dan menentukan jumlah gerombol yang sesuai dengan data seiring proses pemodelan karakteristik dari masing-masing gerombol tersebut. Berbeda dengan k-rataan yang perpindahan objek secara berulang dari satu gerombol ke gerombol lain mulai dari partisi awal berdasarkan jarak metrik, tehnik perpindahan objek pada analisis gerombol berbasis model didasarkan pada algoritma EM. Penentuan banyaknya gerombol dalam metode ini ditentukan dengan menggunakan BIC. Sebaran campuran merupakan campuran dari beberapa sebaran statistik, dimana contoh berasal dari populasi yang tidak sama. Sebaran ini digunakan dalam dua keadaan yaitu struktur campuran dari populasi diketahui dan struktur campuran dari populasi tidak diketahui. Dengan demikian pada keadaan pertama dapat diduga sebaran masing – masing subpopulasi dan proporsinya, sedangkan pada keadaan kedua dapat dilakukan klasifikasi data ke dalam subpopulasi berdasarkan
peluang
akhir
(Mclachlan
dan
Basford
1988).
Misalkan
adalah contoh acak peubah ganda p dari suatu populasi, dimana p menyatakan dimensi data dan n menyatakan banyaknya objek pengamatan yang dianggap berasal dari campuran G sub populasi, dengan fungsi kepekatan campurannya adalah ;
, dimana .
;
adalah fmp atau fkp campuran,
,
5
adalah proporsi subpopulasi ke-
dan
adalah fmp atau fkp subpopulasi.
Fungsi kepekatan campuran (fkp) dari subpopulasi tidak harus memiliki parameter dan sebaran yang sama, namun dalam penelitian ini digunakan fkp subpopulasi yang memiliki sebaran yang sama dan parameter yang berbeda. Dengan demikian fkp campuran untuk beberapa vektor parameter
yang tidak diketahui yaitu: (1)
Dengan asumsi contoh acak kepekatan objek
bebas stokastik dan identik, dengan fungsi
dari gerombol ke-k yaitu
, maka fungsi kepekatan
campuran pada persamaan (1) didefinisikan sebagai: (2) dimana
merupakan peluang suatu pengamatan berada pada komponen ke-k .
Dalam penelitian ini digunakan sebaran normal ganda yang dinotasikan dengan
(
, sehingga jika
merupakan fungsi kepekatan peubah
ganda campuran normal dengan parameter vektor rataan
dan matriks peragam
dapat dinyatakan dalam bentuk
Algoritma EM Dalam analisis gerombol berbasis model, algoritma EM dapat digunakan sebagai tehnik perpindahan objek sehingga dapat memutuskan hasil gerombol. Menurut Dempster (1977), algoritma ini merupakan metode perhitungan iterasi yang sangat cocok untuk pendugaan parameter dari fungsi kemungkinan maksimum pada data tidak lengkap seperti yang terdapat pada sebaran campuran. Pada sebaran campuran dinyatakan bahwa data terdiri dari n pengamatan peubah ganda yang diperoleh dari dan
, dengan
merupakan peubah yang teramati
merupakan peubah yang tidak teramati.
gerombol dimana
memetakan objek ke dalam
yang didefinisikan dengan dan
(3
6
diasumsikan saling bebas dan terdistribusi identik menurut sebaran multinomial dari G kategori dengan peluang
dan fkp dari
dengan
adalah
. Setiap iterasi pada algoritma EM terdiri atas dua tahap yaitu expectation-step (tahap E) dan maximization-step (tahap M). Diketahui bahwa contoh acak
saling bebas dan
yang
menentukan objek dari gerombol mana berasal, maka
dengan
Fungsi kemungkinan yang diperoleh yaitu
Jika digunakan fungsi kepekatan peubah ganda campuran normal, maka fungsi kemungkinannya adalah: -
-
-
-
-
-
Tahap E Pada tahap E merupakan tahap untuk menghitung nilai harapan bersyarat dari loglikelihood. Dengan demikian, diperoleh:
-
-
-
-
-
-
dengan
Tahap M Pada tahap M merupakan tahap untuk memaksimalkan nilai harapan bersyarat dari loglikelihood. Paramater yang diduga yaitu proporsi campuran ( ), rata-rata ( ), dan matrik kovarian (
).
7
-
-
-
-
-
Terdapat dua metode pendugaan parameter yang bisa digunakan dalam tahap ini, yaitu metode kemungkinan maksimum dan metode Bayes. a.
Metode kemungkinan maksimum Pendugaan
parameter
dengan
menggunakan
metode
kemungkinan
maksimum bertujuan untuk mencari nilai fungsi loglikelihood yang paling maksimum (Fraley, 2002). Fungsi kemungkinan maksimum untuk peubah ganda yaitu
normal (n objek) -
-
-
-
-
-
-
(4
-
Pada model campuran dengan G komponen, fungsi kemungkinan maksimum likelihood didefinisikan sebagai:
Jika fkp dari pengamatan
yang diberikan oleh
adalah
, maka
loglikelihood data lengkap adalah: (5) Fraley & Raftery (2002) mengemukakan bahwa penduga parameter yang memaksimalkan
dihitung menggunakan
yang diperoleh pada
tahap E, dengan formula parameter sebagai berikut:
b.
Metode Bayes Pendugaan
parameter
dengan
menggunakan
metode
Bayes
yaitu
menggabungkan informasi yang dikandung dalam sampel dengan informasi lain yang telah tersedia sebelumnya. Asumsi yang digunakan dalam metode ini yaitu setiap parameter itu bervariasi menurut sebaran peluang tertentu yang disebut sebagai sebaran awal (Walpole, 1992). Sebaran peluang tersebut digunakan bersama-sama untuk menghitung sebaran posterior bagi parameter. Berdasarkan Fraley,2007 guna mencari penduga parameter yang dapat memaksimumkan posterior digunakan conjugate prior (konjugasi sebaran awal). Konjugasi sebaran
8
awal yang dimaksud untuk peubah ganda normal yaitu sebaran normal untuk kondisi rata-rata dengan syarat matriks peragam dan sebaran kebalikan wishart untuk kondisi matriks peragam. Dengan demikian fkp sebaran awal merupakan hasil kali dari sebaran normal dengan sebaran kebalikan wishart. Sebaran awal untuk rata-rata adalah sebaran normal (bersyarat pada matriks peragam), didefinisikan sebagai
-
-
(6)
dan sebaran awal matriks peragam yaitu sebaran kebalikan wishart, didefinisikan sebagai . (7)
dan
diasumsikan sama untuk semua komponen, dengan rincian
sebagai berikut: : rata-rata dari data : 0,01 (pemulusan bagian kurva BIC) : p+2 (untuk model spherical dan diagonal) :
(
dan
(untuk model ellipsoidal) adalah matriks peragam.
Fraley (2007) mengemukakan bahwa formula parameter yang digunakan guna memaksimalkan posterior, yang dihitung menggunakan
pada tahap E sebagai
berikut:
Iterasi ini berlangsung hingga diperoleh nilai loglikelihood atau nilai posterior yang konvergen.
9
Algoritma EM membutuhkan inisialisasi nilai awal dalam algoritmanya. Tingkat konvergensi bisa sangat lama apabila tidak digunakan nilai inisialisasi awal yang wajar. Banfiled (1993) menggunakan metode analisis gerombol berhirarki sebagai inisialisasi nilai awal
, kemudian secara iteratif dugaan nilai parameter akan
diperbaharui. Berdasarkan Fraley (2010), penentuan nilai awal
berdasarkan
penggabungan objek dilakukan berdasarkan jarak minimum. Karakteristik Geometrik Model Setiap gerombol yang terbentuk berpusat di
dan matriks peragam
yang dihasilkan akan menentukan karakteristik geometrik yaitu bentuk, volume dan orientasi (Fraley dan Raftery 2002). Pencirian sebaran geometrik (orientasi, bentuk, volume) mungkin akan diperoleh dari berbagai macam bentuk gerombol atau terbatas pada gerombol yang sama. Bentuk komponen matriks peragam terdiri atas tiga macam yaitu spherical, diagonal dan ellipsoidal. Fraley (2007) mengemukakan formula berdasarkan metode pendugaan parameter yang digunakan, yaitu: a.
Metode kemungkinan maksimum 1.
2.
Bentuk spherical (sebanding dengan matriks identitas) -
Spherical sama
-
Spherical berbeda
Bentuk diagonal (sejajar sumbu) -
Diagonal sama
-
Diagonal berbeda
10
3.
b.
Bentuk ellipsoidal -
Diagonal sama
-
Diagonal berbeda
Metode bayes 1.
2.
Bentuk spherical (sebanding dengan matriks identitas) -
Spherical sama
-
Spherical berbeda
Bentuk diagonal (sejajar sumbu) -
Diagonal sama
-
Diagonal berbeda
3 3.
dengan
Bentuk ellipsoidal -
Diagonal sama
-
Diagonal berbeda
-
-
11
Guna mendefinisikan kelas metode penggerombolan berhirarki berdasarkan geometri lintas gerombol, Branfield dan Raftery (1993) menyatakan matriks peragam melalui suku-suku dekomposisi akar ciri untuk komponen
gerombol
model campuran peubah ganda dalam bentuk: (9 dimana adalah matriks vektor ciri adalah akar ciri terbesar dari adalah matriks diagonal dengan elemennya proporsional terhadap akar ciri dari
, yaitu
dimana
Ketiga suku dekomposisi diatas mencirikan karakteristik geometrik dimana mencirikan orientasi dari k gerombol,
mencirikan ukuran dan
mencirikan
bentuk. Ukuran tersebut diartikan sebagai volume dari cluster dalam p peubah yang berisi objek. Pencirian sebaran geometrik (orientasi, bentuk, volume) mungkin akan diperoleh dari berbagai macam bentuk gerombol atau terbatas pada gerombol yang sama. Matriks peragam untuk semua komponen bisa sama atau bervariasi, yang secara umum dapat dilihat pada Tabel 1. Penentuan Jumlah Gerombol Jumlah gerombol terbaik dapat ditentukan dengan memilih model terbaik melalui nilai BIC terbesar. Fraley (1998) menyatakan bahwa pemilihan model terbaik dilakukan dengan membandingkan model parameterisasi matriks peragam yang berbeda dan banyaknya gerombol yang berbeda. Secara umum formulasi yang digunakan adalah sebagai berikut: (10) dimana = loglikelihood yang dimaksimalkan untuk model dan data = jumlah parameter bebas yang diduga dalam model = jumlah observasi dalam data.
12
Tabel 1
Matriks peragam untuk model campuran normal ganda dan interpretasi geometrik
Simbol Mclust EII VII EEI VEI EVI VVI EEE VEE
Bentuk
Prior
Spherical Spherical Diagonal Diagonal Diagonal Diagonal Ellipsoidal
Dipakai untuk
Inverse gamma Inverse gamma Inverse gamma Setiap anggota diagonal
Inverse gamma Setiap anggota diagonal Inverse wishart Inverse gamma Inverse wishart
EVE VVE EEV VEV EVV
Ellipsoidal Ellipsoidal Inverse gamma Setiap anggota diagonal Ellipsoidal Inverse gamma Setiap anggota diagonal Ellipsoidal Ellipsoidal Inverse gamma Inverse wishart VVV Ellipsoidal Inverse wishart Sumber: (Fraley, 2007). Jika pada algoritma EM ingin dihasilkan nilai maksimum posterior yang konvergen, maka
pada persamaan diatas diganti dengan nilai
posterior (Fraley,2007). Dalam perhitungan nilai BIC setiap model dibutuhkan informasi mengenai jumlah parameter bebas yang diduga, yang secara garis besar dapat dilihat pada Tabel 2. Tabel 2
Parameter bebas tiap model
Model
Parameter Bebas
( ( ( ( Sumber: (Celeux,2006)
(
13
Fraley
(2002)
membuat
strategi
metode
berbasis
model
dengan
mengkombinasikan penggerombolan hirarki, algoritma EM dan faktor bayes, dengan langkah–langkah sebagai berikut: 1.
Tentukan banyak gerombol maksimum ( ) dari himpunan model campuran
2.
Lakukan penggerombolan secara hirarki penggabungan, untuk setiap model campuran normal ganda. Hasil gerombol ini ditransformasikan ke dalam peubah indikator, yang kemudian digunakan sebagai nilai awal untuk algoritma EM
3.
Lakukan algoritma EM untuk setiap model dan setiap gerombol
3
,
yang dimulai dengan klasifikasi dari gerombol berhirarki 4.
Hitung nilai BIC untuk kasus satu gerombol pada setiap model dan model campuran, dengan parameter optimal dari algoritma EM untuk gerombol
3
14
DATA DAN METODE Sumber Data Data yang digunakan dalam penelitian ini adalah data hasil simulasi dan data dari paket Mclust ver 3.4.8. Data simulasi dibuat dalam dua jumlah amatan yaitu 50 dan 150. Tujuan dari data simulasi ini adalah untuk mengenalkan model karena data ini dihasilkan berdasarkan kondisi yang diinginkan. Penggunaan jumlah amatan yang berbeda, bertujuan untuk mengetahui efektifitas analisis gerombol berbasis model pada jumlah amatan kecil dan besar. Setiap kasus simulasi dilakukan sebanyak lima kali ulangan, hal ini dikarenakan setiap kasus yang digunakan pemilihannya dilakukan secara acak. Pemilihan jarak antar pusat gerombol dan ragam setiap peubah mengacu pada Pardede (2002). Guna melihat pengaruh tingkat korelasi antara peubah terhadap hasil akhir penggerombolan, dicobakan empat tingkat korelasi yaitu tidak ada korelasi (0), korelasi rendah (0,2), korelasi sedang (0,5) dan korelasi tinggi (0,8). Data simulasi yang dibangkitkan merupakan data himpunan campuran normal ganda, yang dibangkitkan dengan menggunakan fungsi mvnorm pada perangkat lunak program R ver.2.12.1. Kondisi kasus simulasi yang digunakan terbagi dalam empat kondisi jarak antar pusat gerombol yaitu (1) pusat antar gerombol sama, (2) pusat antar gerombol berdekatan, (3) pusat antar gerombol memiliki jarak sedang dan (4) pusat antar gerombol saling terpisah. Secara garis besar kondisi kasus simulasi yang digunakan dalam penelitian ini terangkum pada Tabel 3. Guna mendukung hasil penelitian ini digunakan data sekunder yang berasal dari paket Mclust yang terdiri atas data pohon dan data diabetes. Tujuan digunakannya data pohon yaitu untuk melihat efektifitas analisis gerombol berbasis model pada data berukuran kecil, hal ini dikarenakan pada data pohon masing-masing peubah terdiri dari 31 pengamatan. Berbeda dengan tujuan digunakannya data pohon sebagai contoh penerapan, tujuan digunakannya data diabetes yaitu untuk melihat efektifitas analisis gerombol berbasis model pada data berukuran besar, dikarenakan masing-masing peubah terdiri dari 145 pengamatan.
15
Tabel 3 Kondisi setiap kasus simulasi Jarak
Ragam Kecil
Sama Besar 5 3
Berbeda
3
Dekat d=5,099
9 5
Kecil
Besar 5
5 5
Berbeda
5 3
3
9 5
Korelasi 0 0,2 0,5 0,8 0 0,2 0,5 0,8 0 0,2 0,5 0,8 0 0,2 0,5 0,8 0 0,2 0,5 0,8 0 0,2 0,5 0,8
Kasus Simulasi 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 37 38 39 40
Jarak
Ragam
Sedang d=7,483
Kecil
3 7 3 7 7 3
3
Jauh d=9,899 4 9 4 9 9 3
4
Besar 5 Berbeda
3
9 5
Kecil
Besar 5 Berbeda
3
9 5
Korelasi 0 0,2 0,5 0,8 0 0,2 0,5 0,8 0 0,2 0,5 0,8 0 0,2 0,5 0,8 0 0,2 0,5 0,8 0 0,2 0,5 0,8
Kasus Simulasi 21 22 23 24 25 26 27 28 41 42 43 44 29 30 31 32 33 34 35 36 45 46 47 48
Metode Penelitian Pada data simulasi, prosedur yang digunakan terdiri atas tujuh tahap, yaitu: 1.
Membangkitkan data simulasi dengan menggunakan paket R Tahapan yang dilakukan dalam membangkitkan data simulasi dengan menggunakan paket R adalah sebagai berikut: i.
Menentukan banyak gerombol (G=3), banyak peubah (p=3) dan banyak amatan setiap gerombol (n1=n2=n3=50), dan sebaran setiap gerombol (Gk
ii.
Normal Ganda)
Menentukan parameter sebaran masing-masing gerombol, yaitu vektor rataan
, dan matriks peragam
tersebut diperoleh dengan cara:
. Matriks peragam
16
a.
Menentukan matriks
yang merupakan matriks diagonal
dengan elemen diagonalnya adalah standar deviasi masingmasing peubah, berdimensi 3x3 b.
Menentukan matriks
yang merupakan matriks korelasi antar
peubah, k=1,2,3 c.
Menghitung matriks peragam
iii.
Membangkitkan peubah acak sebanyak
untuk gerombol 1,
iv.
Membangkitkan peubah acak sebanyak
untuk gerombol 2,
v.
Membangkitkan peubah acak sebanyak
untuk gerombol 1,
vi.
Menggabungkan ketiga gerombol tersebut menjadi sebuah kasus simulasi
vii.
Ulangi tahap ii - vi untuk kondisi penggerombolan yang telah ditentukan
Secara garis besar alur pembangkitan data dapat dilihat pada Gambar 1. 2.
Membuat plot dua komponen utama pada setiap kasus simulasi, guna melihat pola data dan mengidentifikasi penggerombolan objek.
3.
Menerapkan
metode
analisis
gerombol
berbasis
model
dengan
menggunakan paket Mclust pada program R. Tahapan yang digunakan dalam penggerombolan berbasis model adalah sebagai berikut: i.
Melakukan
penggerombolan
menggunakan model
berhirarki
gabungan
sehingga diperoleh nilai
G=1,2,..M dimana M merupakan jumlah gerombol maksimum. ii.
Melakukan algoritma EM yang dimulai dengan iterasi saat m=0 Tahap E
dengan untuk
17
Tahap M -
Metode kemungkinan maksimum
Metode Bayes
(
( (
-
(
(
(
(
(
(
(
(
(
tergantung model
tergantung model
Lakukan untuk iterasi (m+1) dan seterusnya, hingga diperoleh nilai maksimum loglikelihood atau masksimum posterior yang konvergen. iii.
Menghitung nilai BIC
iv.
Melakukan tahap i–iii
v.
Membandingkan nilai BIC untuk setiap solusi gerombol yang
untuk banyak gerombol yang berbeda,
terbentuk dan nilai BIC terbesar yang terpilih. 4.
Membandingkan dugaan parameter yang dihasilkan pada tahap 3 dengan parameter yang sebenarnya
5.
Membandingkan hasil klasifikasi tiap amatan yang dihasilkan dengan hasil klasifikasi yang sebenarnya
6.
Menghitung rataan persentase salah pengelompokkan setiap gerombol
7.
Rataan persentase salah pengelompokkan yang terkecil menunjukkan bahwa metode analisis gerombol berbasis model lebih baik.
8.
Lakukan tahap 1-7 untuk jumlah amatan tiap gerombol 150.
Prosedur yang digunakan untuk contoh penerapan terdiri atas empat tahap yaitu: 1. Membuat plot dua komponen utama dari data yang digunakan untuk melihat pola dan mengidentifikasi penggerombolan objek 2. Melakukan uji normal ganda 3. Menerapkan
metode
analisis
gerombol
berbasis
model
dengan
menggunakan paket Mclust pada program R 4. Membandingkan nilai BIC yang dihasilkan oleh metode kemungkinan maksimum (MLE) dan metode Bayes (MAP) Secara garis besar, alur penelitian ini dapat dilihat pada Gambar 2
18
MULAI
Tentukan banyak gerombol (G=3), banyak peubah (p=3), banyak amatan setiap gerombol (n1=n2=n3=50; n1=n2=n3=150), dan sebaran setiap gerombol Tentukan parameter sebaran masing-masing gerombol.
Vektor rataan
Matriks peragam , dengan cara: a. Menentukan matriks (matriks diagonal, dengan elemen diagonal standar deviasi masingmasing peubah) b. Menentukan matriks (matriks korelasi antar peubah) c. Menghitung matriks peragam
d. Bangkitkan peubah acak n1 untuk gerombol 1,
Bangkitkan peubah acak n2 untuk gerombol 2,
Bangkitkan peubah acak n3 untuk gerombol 3,
Menggabungkan ketiga gerombol menjadi sebuah kasus simulasi
SELESAI
Gambar 1 Diagram alur pembangkitan data dengan R
19
MULAI Membangkitkan data simulasi
Jarak antar pusat gerombol sama
Jarak antar pusat gerombol dekat
Jarak antar pusat gerombol sedang
Jarak antar pusat gerombol jauh
Buat plot dua komponen utama
Menerapkan penggerombolan dengan metode berbasis model
Metode kemungkinan maksimum
Menerapkan penggerombolan dengan metode k-rataan
Metode Bayes
Bandingkan dugaan parameter yang dihasilkan dengan yang sebenarnya
Hitung persentase salah penggerombolan
Bandingkan persentase salah penggerombolan, yang dihasilkan dengan k-rataan dengan evaluasi terbaik dari model based
Bandingkan hasil klasifikasi tiap amatan yang dihasilkan dengan yang sebenarnya
S E L E S A I
Hitung persentase salah penggerombolan
Bandingkan persentase salah penggerombolan dari masing-masing metode Bandingkan nilai BIC dari masing-masing metode Gambar 2 Diagram alur penelitian
20
MULAI
Masukkan data hasil simulasi
Hitung penggerombolan berhirarki
Lakukan algoritma EM untuk setiap model matriks peragam dan setiap gerombol
Hitung dan plotkan nilai BIC untuk setiap model matriks peragam
Tentukan model terbaik berdasarkan nilai BIC terbesar
SELESAI
Gambar 3 Diagram alur metode penggerombolan berbasis model
21
HASIL DAN PEMBAHASAN Data yang dibangkitkan terdiri dari 96 kasus data simulasi, dengan setiap kasus data simulasi terdiri dari tiga gerombol. Kasus data simulasi tersebut dibedakan atas jarak antar pusat gerombol, ragam setiap peubah pada setiap gerombol, nilai korelasi, dan banyak data. Berdasarkan plot skor dua komponen utama yang dihasilkan untuk setiap kasus simulasi, dapat diketahui kondisi yang terbentuk dari ketiga gerombol yang dibangkitkan. Terdapat tiga macam kondisi yang terbentuk dari ketiga gerombol yang dibangkitkan, yaitu saling berdekatan, saling berjauhan maupun saling tumpang tindih. Plot skor dua komponen utama untuk n=50 yang dibuat pada salah satu ulangan, secara lengkap dapat dilihat pada Lampiran 1. Guna melihat efektifitas dari metode analisis gerombol berbasis model, maka metode tersebut diterapkan pada setiap kasus simulasi. Semakin kecil rataan tingkat kesalahan klasifikasi yang dihasilkan, maka metode ini semakin efektif dalam menggerombolkan kasus simulasi sesuai dengan gerombol awal. Rataan tingkat kesalahan klasifikasi yang dihasilkan, secara lengkap dapat dilihat pada Lampiran 2. Kondisi Jarak Antar Pusat Gerombol Sama Kondisi jarak antar pusat gerombol sama dapat diartikan bahwa setiap gerombol yang terbentuk memiliki titik pusat gerombol yang sama. Dengan menerapkan metode penggerombolan berbasis model pada kondisi jarak antar pusat gerombol sama, hasil gerombol yang diperoleh dapat diketahui berdasarkan warna yang berbeda pada plot dua komponen utama. Contoh plot dua komponen utama hasil klasifikasi pada tingkat korelasi rendah dan tinggi dengan jumlah amatan tiap gerombol 50, dapat dilihat pada Gambar 4. Pada kondisi titik pusat setiap gerombol dan ragam setiap peubah sama, akan membentuk satu gerombol. Hal ini disebabkan karena ketiga gerombol memiliki parameter yang identik sehingga tidak dapat dipisahkan. Kondisi gerombol yang terbentuk saling tumpang tindih.
10 -5 -10
-4 -6
-2
0
comp2
0
comp2
-2
0 -1
comp2
2
5
1
4
6
2
22
-3
-2
-1
0
1
2
-20
3
-10
0
-10
10
-5
10
4
6
0
comp2
-4
-6
-1.0
-4
-2
-2
0
comp2
0.0 -0.5
comp2
2
2
0.5
4
1.0
5
(e)
(c)
(a)
0 comp1
comp1
comp1
-4
-2
0 comp1
(b)
2
4
-20
-10
0
10
-15
-10
-5
0
comp1
comp1
(d)
(f)
5
10
15
Gambar 4 Plot skor dua komponen utama hasil klasifikasi pada jarak antar pusat gerombol sama (a) ragam kecil korelasi rendah, (b) ragam kecil korelasi tinggi, (c) ragam besar korelasi rendah, (d) ragam besar korelasi tinggi, (e) ragam berbeda korelasi rendah, (f) ragam berbeda korelasi tinggi. Jika ragam setiap peubah berbeda dan titik pusat antar gerombol sama, walaupun kondisi gerombol yang terbentuk saling tumpang tindih akan menghasilkan dua gerombol. Hal ini dikarenakan titik pusat gerombol yang bertumpuk pada satu titik, walaupun ragam setiap peubah untuk setiap gerombol berbeda menyebabkan amatan setiap gerombol menyebar disekitar titik pusat. Hasil klasifikasi gerombol yang telah diperoleh, didukung oleh persentase tingkat kesalahan klasifikasi yang dihasilkan. Jika ragam setiap peubah untuk setiap gerombol sama maka tingkat kesalahan klasifikasi yang dihasilkan lebih dari 60%, sebaliknya jika ragam setiap peubah untuk setiap gerombol berbeda maka tingkat kesalahan klasifikasi yang dihasilkan kurang dari 43%. Persentase tingkat kesalahan klasifikasi yang dimaksud dapat dilihat pada Gambar 5. Ditinjau dari tingkat korelasi antar peubah menunjukkan bahwa pada kondisi ragam setiap peubah sama tidak ada pengaruh tingkat korelasi antar peubah terhadap persentase salah penggerombolan, sedangkan pada kondisi ragam setiap peubah berbeda terjadi penurunan persentase salah penggerombolan pada
23
tingkat korelasi tinggi, walaupun penurunan tersebut hampir tidak ada perbedaan
Rataan tingkat kesalahan klasifikasi (%)
yang berarti.
60 40 20 0 0
0.2
0.5
0.8
Korelasi
Gambar 5 Persentase rataan tingkat kesalahan klasifikasi pada kondisi jarak sama. ragam kecil, ragam besar, ragam berbeda Dengan menggunakan kedua metode pendugaan parameter yang ada pada penggerombolan berbasis
model, hasil
penggerombolan
yang diperoleh
berdasarkan metode kemungkinan maksimum dan metode Bayes menunjukkan tidak adanya perbedaan yang berarti. Hal ini dapat dilihat berdasarkan persentase tingkat kesalahan klasifikasi yang dihasilkan, yang secara lengkap dapat dilihat
Rataan tingkat kesalahan klasifikasi (%)
Rataan tingkat kesalahan klasifikasi (%)
pada Gambar 6. 60 40 20 0
60 40 20 0
0
0.2
0.5
Korelasi
(a)
0.8
0
0.2
0.5
0.8
Korelasi
(b)
Gambar 6 Persentase rataan tingkat kesalahan klasifikasi pada kondisi jarak sama berdasarkan (a) MLE dan (b) MAP. ragam kecil, ragam besar, ragam berbeda Dari kedua metode pendugaan parameter tersebut, akan dipilih metode pendugaan yang menghasilkan penggerombolan terbaik. Hasil penggerombolan terbaik berdasarkan nilai BIC dan tingkat kesalahan klasifikasi yang dihasilkan. Nilai BIC secara lengkap dapat dilihat pada Lampiran 3. Model yang dihasilkan berbedabeda yaitu (1) untuk tingkat korelasi 0 dan 0,2 di berbagai kondisi ragam adalah
24
VII, (2) untuk tingkat korelasi 0,5 dan 0,8 pada kondisi ragam identik adalah VVV serta (3) untuk tingkat korelasi 0,5 dan 0,8 pada kondisi ragam berbeda adalah VEV. Bentuk yang dihasilkan pada model VII adalah bulat sehingga komponen utama yang dihasilkan pararel dengan sumbu kooordinat serta ukuran setiap gerombol berbeda. Model VVV merupakan model terbaik dengan bentuk yang dihasilkan adalah ellipsoidal, serta memiliki karakteristik yang berbeda untuk setiap gerombol. pada model VEV, ukuran setiap gerombol sama dengan bentuk yang dihasilkan adalah ellipsoidal. Tingkat kesalahan klasifikasi terbaik akan dibandingkan dengan hasil klasifikasi yang diperoleh dengan menggunakan metode k-rataan guna melihat keefektifan dari kedua metode penggerombolan
Rataan tingkat kesalahan klasifikasi (%)
Rataan tingkat kesalahan klasifikasi (%)
tersebut. Hasil perbandingan tingkat klasifikasi dapat dilihat pada Gambar 7. 60 40 20 0 0.2
Gambar 7
60 40 20
0.8
0 0.2
0.8
Korelasi
Korelasi
(a)
(b)
Persentase rataan tingkat kesalahan klasifikasi pada kondisi jarak sama berdasarkan (a) model based , (b) k-means. ragam kecil, ragam besar, ragam berbeda
Berdasarkan hasil perbandingan yang diperoleh, pada parameter yang identik yaitu rataan dan nilai peragam setiap gerombol sama, penggerombolan berbasis model maupun penggerombolan berdasarkan k-rataan tidak efektif memisahkan objek sesuai dengan kondisi gerombol awal. Jika kondisi ragam setiap peubah untuk setiap gerombol berbeda, persentase tingkat kesalahan klasifikasi yang dihasilkan berdasarkan penggerombolan berbasis model lebih kecil dibandingkan dengan hasil yang diperoleh berdasarkan metode k-rataan. Dengan demikian, penggerombolan
berbasis
model
lebih
efektif
dibandingkan
dengan
penggerombolan berbasis model atau metode k-rataan. Pola persentase tingkat kesalahan klasifikasi yang dihasilkan dengan jumlah amatan tiap gerombol 50 tidak berbeda jauh dengan objek pengamatan 150. Hal
25
ini berarti bahwa ukuran amatan tiap gerombol yang dicobakan tidak terlalu berpengaruh terhadap hasil penggerombolan pada kondisi ini. Kondisi Jarak Antar Pusat Gerombol Dekat Kondisi jarak antar pusat gerombol dekat dapat diartikan bahwa setiap gerombol yang terbentuk mulai terpisah tetapi masih dalam jarak dekat. Sama halnya dengan kondisi jarak antar pusat gerombol sama, hasil gerombol yang diperoleh metode penggerombolan berbasis model dapat diketahui berdasarkan warna yang berbeda pada plot dua komponen utama. Berikut contoh plot dua komponen utama hasil klasifikasi pada tingkat korelasi rendah dan tinggi dengan
0 -5
-4
-2
0
2
4
-20
-15
-10
-5
0
comp1
comp1
(a)
(c)
5
-10
10
-5
0
5
10
15
comp1
(e)
2
comp2
0
comp2
-2
-6
-2
-4
0
-2
0
comp2
2
4
2
4
6
6
4
8
-4
5
comp2
0
comp2
-10
-2
-5
0
comp2
5
2
10
10
4
15
jumlah amatan tiap gerombol 50.
-2
0
2
4
-20
-10
0
comp1
comp1
(b)
(d)
10
20
-15
-10
-5
0
5
10
15
comp1
(f)
Gambar 8 Plot skor dua komponen utama hasil klasifikasi pada jarak antar pusat gerombol sama (a) ragam kecil korelasi rendah, (b) ragam kecil korelasi tinggi, (c) ragam besar korelasi rendah, (d) ragam besar korelasi tinggi, (e) ragam berbeda korelasi rendah, (f) ragam berbeda korelasi tinggi. Pada kondisi jarak antar setiap gerombol dekat, ragam setiap peubah kecil maupun besar akan menghasilkan tiga gerombol. Hal ini disebabkan karena titik pusat gerombol yang berbeda dan ragam setiap peubah yang kecil, menyebabkan amatan menyebar disekitar titik pusat gerombol sehingga masing-masing
26
gerombol dapat terpisah dengan jelas. Ukuran korelasi antar peubah berpengaruh pada kondisi ini. Pada kondisi jarak antar setiap gerombol dekat dan ragam setiap peubah besar, menghasilkan satu gerombol. Hal ini disebabkan karena ragam setiap peubah besar membuat amatan akan menyebar jauh dari rataan, sehingga jika jarak antar pusat gerombol dekat maka ketiga gerombol akan tumpang tindih. Ukuran korelasi antar peubah tidak berpengaruh pada kondisi ini. Pada kondisi jarak antar setiap gerombol dekat dan ragam setiap peubah berbeda, ukuran korelasi antar peubah berpengaruh terhadap hasil akhir penggerombolan. Korelasi antar peubah rendah dan jarak antar pusat gerombol dekat menyebabkan amatan menyebar dekat dengan rataan dari ketiga gerombol sehingga menghasilkan dua gerombol, sebaliknya pada kondisi korelasi antar peubah tinggi dan jarak antar pusat gerombol dekat menyebabkan amatan menyebar sesuai dengan titik pusat masing-masing gerombol sehingga menghasilkan tiga gerombol. Hasil klasifikasi gerombol yang telah diperoleh, didukung oleh persentase
rataan tingkat kesalahan klasifikasi (%)
tingkat kesalahan klasifikasi yang dihasilkan yang dapat dilihat pada Gambar 9. 60 40 20 0 0
0.2
0.5
0.8
korelasi
Gambar 9 Persentase rataan tingkat kesalahan klasifikasi pada kondisi jarak dekat. ragam kecil, ragam besar, ragam berbeda Jika ragam setiap peubah untuk setiap gerombol kecil maka tingkat kesalahan klasifikasi yang dihasilkan kurang dari 1,1%, sebaliknya jika ragam setiap peubah untuk setiap gerombol besar maka tingkat kesalahan klasifikasi yang dihasilkan lebih dari 60%. Pada kondisi ragam setiap peubah untuk setiap gerombol berbeda maka tingkat kesalahan klasifikasi yang dihasilkan kurang dari 36%. Ditinjau dari tingkat korelasi antar peubah menunjukkan bahwa pada kondisi ragam kecil semakin besar ukuran korelasi, masing-masing dapat terpisah dengan jelas. Pada kondisi ragam setiap peubah besar tidak ada pengaruh tingkat korelasi antar peubah terhadap persentase salah penggerombolan, hal ini
27
dikarenakan kondisi jarak antar pusat gerombol yang dekat. Jika korelasi ragam setiap peubah berbeda maka semakin tinggi ukuran korelasi antar peubah persentase tingkat kesalahan yang dihasilkan semakin kecil. Dengan menggunakan kedua metode pendugaan parameter yang ada pada penggerombolan berbasis model, sama halnya dengan kondisi jarak sama, hasil penggerombolan yang diperoleh berdasarkan metode kemungkinan maksimum dan metode Bayes menunjukkan tidak adanya perbedaan yang berarti. Persentase tingkat kesalahan klasifikasi yang dihasilkan dari kedua metode pendugaan secara
Rataan tingkat kesalahan klasifikasi (%)
Rataan tingkat kesalahan klasifikasi (%)
lengkap dapat dilihat pada Gambar 10. 60 40 20 0 0
0.2
0.5
Korelasi
(a) Gambar 10
0.8
60 40 20 0 0
0.2
0.5
0.8
Korelasi
(b)
Persentase rataan tingkat kesalahan klasifikasi pada kondisi jarak dekat berdasarkan (a) MLE dan (b) MAP. ragam kecil, ragam besar, ragam berbeda
Dari kedua metode pendugaan parameter tersebut, akan dipilih metode pendugaan yang menghasilkan tingkat kesalahan klasifikasi terkecil. Hasil penggerombolan terbaik berdasarkan nilai BIC dan tingkat kesalahan klasifikasi yang dihasilkan. Nilai BIC secara lengkap dapat dilihat pada Lampiran 3. Model yang dihasilkan berbeda-beda untuk setiap kondisi ragam. Pada kondisi ragam kecil jika ukuran korelasi yang digunakan 0 dan 0,2 maka model yang dihasilkan EII, sedangkan untuk korelasi 0,5 dan 0,8 model yang dihasilkan EEE. Pada kondisi ragam besar jika ukuran korelasi yang digunakan 0 dan 0,2 maka model yang dihasilkan VII, sedangkan untuk korelasi 0,5 yaitu EII dan untuk korelasi 0,8 adalah VVV. Pada kondisi ragam berbeda jika ukuran korelasi yang digunakan 0 dan 0,2 maka model yang dihasilkan VII, sedangkan untuk korelasi 0,5 dan 0,8 adalah VEV. Bentuk yang dihasilkan pada model VII adalah bulat sehingga komponen utama yang dihasilkan pararel dengan sumbu kooordinat serta ukuran setiap gerombol
28
berbeda. Bentuk yang dihasilkan pada model EII dan VII adalah bulat sehingga komponen utama yang dihasilkan pararel dengan sumbu kooordinat. Ukuran setiap gerombol pada model EII adalah sama sedangkan pada model VII berbeda. Hal ini dapat dapat dilihat berdasarkan akar ciri yang dihasilkan. Betuk yang dihasilkan pada model EEE, VEV dan VVV adalah ellipsoidal. Bentuk yang dihasilkan pada model EEE dan VEV adalah sama untuk setiap gerombol, sedangkan pada model VEV bentuk setiap gerombol berbeda. Tingkat kesalahan klasifikasi terbaik akan dibandingkan dengan hasil klasifikasi yang diperoleh dengan menggunakan metode k-rataan guna melihat keefektifan dari kedua metode penggerombolan tersebut. Hasil perbandingan tersebut dapat dilihat pada
Rataan tingkat kesalahan klasifikasi (%)
Rataan tingkat kesalahan klasifikasi (%)
Gambar 11. 60 40 20 0 0.2
0.8
60 40 20 0 0.2
0.8
Korelasi
Korelasi
(a)
(b)
Gambar 11 Persentase rataan tingkat kesalahan klasifikasi pada kondisi jarak dekat berdasarkan (a) model based dan (b) k-means. ragam kecil, ragam besar, ragam berbeda. Berdasarkan Gambar 11 dapat diketahui bahwa pada kondisi ragam kecil dan kondisi ragam besar, hasil yang diperoleh dari kedua metode ini adalah sama. Pada kondisi ragam setiap peubah untuk setiap gerombol berbeda, jika ukuran korelasi rendah maka kedua metode ini menghasilkan tingkat kesalahan klasifikasi yang sama, sebaliknya jika ukuran korelasi yang digunakan tinggi maka penggerombolan berbasis model lebih efektif dibandingkan dengan metode krataan. Pola persentase tingkat kesalahan klasifikasi yang dihasilkan pada jumlah amatan tiap gerombol 50 dan objek pengamatan 150, terjadi perbedaan. Perbedaan tersebut terjadi pada kondisi ragam setiap peubah untuk setiap gerombol kecil dan berbeda. Pada kondisi ragam besar, jumlah amatan tidak berpengaruh terhadap
29
tingkat kesalahan klasifikasi yang dihasilkan. Hal ini dikarenakan kondisi jarak antar pusat gerombol yang dekat. Ragam setiap peubah kecil, jarak antar setiap peubah dekat dan jumlah amatan yang besar menyebabkan 50 objek pada kondisi ini tidak dapat diklasifikasikan sesuai dengan klasifikasi sebenarnya karena posisi amatan tiap gerombol yang saling berdekatan. Jika penggerombolan tersebut dilakukan berdasarkan metode pendugaan kemungkinan maksimum, maka kesalahan klasifikasi dapat terjadi. Akan tetapi hal ini dapat diatasi dengan menggunakan
Rataan tingkat kesalahan klasifikasi (%)
rataan tingkat kesalahan klasifikasi (%)
informasi sebaran awal tiap gerombol atau metode Bayes. 60 40 20 0 0
Gambar 12
0.2
0.5
0.8
60 40 20 0 0
0.2
0.5
Korelasi
Korelasi
(a)
(b)
0.8
Persentase rataan tingkat kesalahan klasifikasi pada kondisi jarak dekat berdasarkan (a) jumlah amatan tiap gerombol 50, (b) jumlah amatan tiap gerombol 150. ragam kecil, ragam besar, ragam berbeda.
Persentase tingkat kesalahan klasifikasi yang dihasilkan pada kondisi ragam setiap peubah untuk setiap gerombol berbeda, jarak antar pusat gerombol dekat dan jumlah amatan yang besar, lebih kecil dari yang dihasilkan pada jumlah amatan kecil. Kondisi Jarak Antar Pusat Gerombol Sedang Kondisi jarak antar pusat gerombol sedang dapat diartikan bahwa setiap gerombol yang terbentuk terpisah tetapi masih dalam jarak sedang. Sama halnya dengan kondisi jarak sebelumnya, hasil gerombol yang diperoleh metode penggerombolan berbasis model dapat diketahui berdasarkan warna yang berbeda pada plot dua komponen utama. Berikut contoh plot dua komponen utama hasil klasifikasi pada tingkat korelasi rendah dan tinggi dengan jumlah amatan tiap gerombol 50.
0
comp2
-5 -10
-10
-4
-5
0
comp2
0 -2
comp2
2
5
5
4
10
10
6
30
-6
-4
-2
0
2
4
-20
-10
comp1
0
10
-5
0
comp1
(c)
10
15
(e)
0
comp2
5 comp2
0
2 0
-5
-4
-5
-2
comp2
5
4
(a)
5 comp1
-4
Gambar 13
-2
0
2
4
-20
-10
0
comp1
comp1
(b)
(d)
10
20
-20
-10
0
10
comp1
(f)
Plot skor dua komponen utama hasil klasifikasi pada jarak antar pusat gerombol sedang (a) ragam kecil korelasi rendah, (b) ragam kecil korelasi tinggi, (c) ragam besar korelasi rendah, (d) ragam besar korelasi tinggi, (e) ragam berbeda korelasi rendah, (f) ragam berbeda korelasi tinggi.
Pada kondisi jarak antar setiap gerombol sedang, ragam setiap peubah kecil, besar maupun berbeda akan menghasilkan tiga gerombol. Ukuran korelasi yang digunakan sangat berpengaruh terhadap hasil akhir penggerombolan. Jika ragam setiap peubah untuk setiap gerombol kecil, amatan dapat dipisahkan sesuai dengan gerombol masing-masing. Ukuran korelasi yang tinggi menyebabkan amatan dapat terpisah dengan jelas sesuai dengan gerombolnya. Pada kondisi ragam setiap peubah untuk setiap gerombol besar, jika ukuran korelasi yang digunakan rendah maka akan dihasilkan satu gerombol dikarenakan amatan menyebar dekat dengan pusat gerombol sehingga membuat amatan saling tumpang tindih, sebaliknya jika ukuran korelasi yang digunakan tinggi maka akan dihasilkan tiga gerombol dikarenakan amatan menyebar dekat dengan pusat gerombol masing–masing, sehingga walaupun kondisi yang terbentuk saling tumpang amatan dapat terpisah sesuai dengan gerombolnya. Pada kondisi ragam setiap peubah berbeda, ukuran korelasi tidak berpengaruh terhadap hasil akhir penggerombolan.
31
Hasil klasifikasi yang diperoleh didukung oleh persentase tingkat kesalahan klasifikasi yang dihasilkan. Persentase tingkat kesalahan klasifikasi yang
rataan tingkat kesalahan klasifikasi (%)
dihasilkan dapat dilihat pada Gambar 14. 60 40 20 0 0
0.2
0.5
0.8
korelasi
Gambar 14
Persentase rataan tingkat kesalahan klasifikasi pada kondisi jarak sedang. ragam kecil, ragam besar, ragam berbeda.
Berdasarkan Gambar 14 dapat diketahui bahwa (1) pada kondisi ragam setiap peubah besar, jika tingkat korelasi antar peubah lebih dari 0,5 maka persentase salah penggerombolan yang dihasilkan semakin kecil, (2) pada kondisi ragam setiap peubah kecil, semakin tinggi korelasi antar peubah tidak mempengaruhi persentase kesalahan klasifikasi yang dihasilkan dan (3) pada kondisi ragam setiap peubah untuk setiap gerombol yang berbeda, persentase tingkat kesalahan klasifikasi yang dihasilkan akan meningkat jika korelasi tiap peubah sebesar 0,5. Dengan menggunakan kedua metode pendugaan parameter yang ada pada penggerombolan berbasis
model, hasil
penggerombolan
yang diperoleh
berdasarkan metode kemungkinan maksimum dan metode Bayes menunjukkan adanya perbedaan pada ukuran korelasi tinggi dengan ragam setiap peubah besar. Persentase tingkat kesalahan klasifikasi yang dihasilkan dengan menggunakan metode Bayes lebih kecil dibandingkan dengan hasil dari metode kemungkinan maksimum. Persentase tingkat kesalahan klasifikasi yang dihasilkan dari kedua metode pendugaan secara lengkap dapat dilihat pada Gambar 15. Dari kedua metode pendugaan parameter tersebut, akan dipilih metode pendugaan yang menghasilkan tingkat kesalahan klasifikasi terkecil. Hasil penggerombolan terbaik berdasarkan nilai BIC dan tingkat kesalahan klasifikasi yang dihasilkan. Nilai BIC secara lengkap dapat dilihat pada Lampiran 3. Model yang dihasilkan berbeda-beda untuk setiap kondisi ragam. Pada kondisi ragam kecil jika ukuran korelasi yang digunakan 0; 0,2 dan 0,5 model yang dihasilkan
32
EII, sedangkan untuk korelasi 0,8 model yang dihasilkan EEE. Pada kondisi ragam besar jika ukuran korelasi yang digunakan 0 dan 0,2 maka model yang dihasilkan VII, sedangkan untuk korelasi 0,5 dan 0,8 adalah VVV. Pada kondisi ragam berbeda jika ukuran korelasi yang digunakan 0 dan 0,2 maka model yang
Rataan tingkat kesalahan klasifikasi (%)
rataan tingkat kesalahan klasifikasi (%)
dihasilkan VII, sedangkan untuk korelasi 0,5 dan 0,8 adalah VEV. 60 40 20
60 40 20
0
0 0
Gambar 15
0.2
0.5
0.8
0
0.2
0.5
Korelasi
Korelasi
(a)
(b)
0.8
Persentase rataan tingkat kesalahan klasifikasi pada kondisi jarak sedang berdasarkan (a) MLE dan (b) MAP. ragam kecil, ragam besar, ragam berbeda
Tingkat kesalahan klasifikasi terbaik akan dibandingkan dengan hasil klasifikasi yang diperoleh dengan menggunakan metode k-rataan guna melihat keefektifan dari kedua metode penggerombolan tersebut. Hasil perbandingan tersebut dapat
Rataan tingkat kesalahan klasifikasi (%)
Rataan tingkat kesalahan klasifikasi (%)
dilihat pada Gambar 16. 60 40 20
60 40 20 0
0 0.2
Korelasi
0.2
0.8
(a) Gambar 16.
0.8 Korelasi
(b)
Persentase rataan tingkat kesalahan klasifikasi pada kondisi jarak sedang berdasarkan (a) model based dan (b) k-means. kecil, ragam besar, ragam berbeda
ragam
Berdasarkan Gambar 16 dapat diketahui bahwa kedua metode ini sama-sama efektif dalam memisahkan gerombol jika kondisi ragam setiap peubah untuk setiap
gerombol
kecil.
Pada
kondisi
ragam
setiap
peubah
berbeda,
33
penggerombolan berbasis model lebih efektif dibandingkan dengan k-rataan. Kondisi ragam setiap peubah besar dan tingkat korelasi antar peubah rendah menyebabkan k-rataan menghasilkan tingkat kesalahan klasifikasi yang kecil dibandingkan dengan penggerombolan berbasis model, sebaliknya pada tingkat korelasi tinggi persentase tingkat kesalahan klasifikasi yang dihasilkan oleh metode penggerombolan berbasis model lebih kecil dibandingkan dengan krataan. Jumlah amatan pada kondisi ini tidak berpengaruh terhadap persentase tingkat kesalahan klasifikasi yang dihasilkan. Kondisi Jarak Antar Pusat Gerombol Jauh Kondisi jarak antar pusat gerombol jauh dapat diartikan bahwa setiap gerombol yang terbentuk terpisah dengan jarak antar pusat gerombol jauh. Hasil gerombol yang diperoleh metode penggerombolan berbasis model pada kondisi ini dapat diketahui berdasarkan warna yang berbeda pada plot dua komponen utama. Contoh plot dua komponen utama hasil klasifikasi pada tingkat korelasi rendah dan tinggi dengan jumlah amatan tiap gerombol 50, dapat dilihat pada Gambar 17. Hasil klasifikasi yang diperoleh pada kondisi jarak antar pusat gerombol jauh sama halnya dengan hasil klasifikasi yang diperoleh pada kondisi jarak antar pusat gerombol sedang. Dengan demikian semakin jauh jarak antar pusat gerombol maka: (a) pada kondisi ragam kecil akan menghasilkan tiga gerombol yang terpisah dengan jelas; (b) pada kondisi ragam besar, ukuran korelasi berpengaruh terhadap hasil akhir penggerombolan, dan (c) kondisi ragam setiap peubah untuk setiap gerombol berbeda akan menghasilkan tiga gerombol.
10
0
comp2
-10
-15
-6
-10
-4
-5
-5
0
comp2
5
5
4 2 0 -2
comp2
10
6
15
15
34
-6
-4
-2
0
2
4
-10
-5
0
5
10
-5
0
5
comp1
comp1
comp1
(a)
(c)
(e)
10
comp2 -5
-10
-6
-4
-5
0
0
comp2
0 -2
comp2
5
5
2
4
10
10
-8
-6
-4
Gambar 17
-2
0
2
4
-20
6
-10
0
10
comp1
comp1
(b)
(d)
-10
20
0
10
20
comp1
(f)
Plot skor dua komponen utama hasil klasifikasi pada jarak antar pusat gerombol jauh (a) ragam kecil korelasi rendah, (b) ragam kecil korelasi tinggi, (c) ragam besar korelasi rendah, (d) ragam besar korelasi tinggi, (e) ragam berbeda korelasi rendah, (f) ragam berbeda korelasi tinggi.
Persentase tingkat kesalahan penggerombolan yang dihasilkan pada kondisi-
rataan tingkat kesalahan klasifikasi (%)
kondisi ini, dapat dilihat pada Gambar 18. 60 40 20 0 0
0.2
0.5
0.8
korelasi
Gambar 18
Persentase rataan tingkat kesalahan klasifikasi pada kondisi jarak jauh. ragam kecil, ragam besar, ragam berbeda
Jika ragam setiap peubah kecil maka tingkat kesalahan klasifikasi yang dihasilkan sebesar 0%. Pada kondisi ragam setiap peubah besar, jika korelasi antar peubah kurang dari 0,5 maka tingkat kesalahan klasifikasi yang dihasilkan lebih dari 60%,
35
sebaliknya jika korelasi antar peubah lebih dari 0,5 maka tingkat kesalahan klasifikasi yang dihasilkan kurang dari 11%. Jika kondisi ragam setiap peubah berbeda maka tingkat kesalahan klasifikasi yang dihasilkan kurang dari 9%. Semakin besar ukuran korelasi antar peubah maka tingkat kesalahan klasifikasi yang semakin kecil. Sama halnya dengan kondisi-kondisi jarak antar pusat gerombol yang lain, sebelum dilakukan perbandingan antara metode penggerombolan berbasis model dengan metode k-rataan, terlebih dahulu akan dibandingkan hasil yang diperoleh dari kedua metode pendugaan parameter yang ada pada penggerombolan berbasis model. Dari kedua metode pendugaan parameter tersebut, akan dipilih metode pendugaan yang menghasilkan tingkat kesalahan klasifikasi terkecil. Hasil penggerombolan terbaik berdasarkan nilai BIC dan tingkat kesalahan klasifikasi yang dihasilkan. Nilai BIC secara lengkap dapat dilihat pada Lampiran 3. Model yang dihasilkan berbeda-beda untuk setiap kondisi ragam. Pada kondisi ragam kecil jika ukuran korelasi yang digunakan 0 dan 0,2 model yang dihasilkan EII, sedangkan untuk korelasi 0,5 dan 0,8 model yang dihasilkan EEE. Pada kondisi ragam besar jika ukuran korelasi yang digunakan 0; 0,2 dan 0,5 maka model yang dihasilkan VII, sedangkan untuk korelasi 0,8 adalah EEE. Pada kondisi ragam berbeda jika ukuran korelasi yang digunakan 0 dan 0,2 maka model yang dihasilkan VII, sedangkan untuk korelasi 0,5 dan 0,8 adalah VEV. Tingkat kesalahan klasifikasi terbaik akan dibandingkan dengan hasil klasifikasi yang diperoleh dengan menggunakan metode k-rataan guna melihat keefektifan dari kedua metode penggerombolan tersebut. Hasil penggerombolan yang diperoleh dari kedua metode ini, yang dapat dilihat pada Gambar 19. Pada kondisi ragam setiap peubah untuk setiap gerombol kecil dan berbeda, maka persentase tingkat kesalahan klasifikasi yang diperoleh berdasarkan penggerombolan berbasis model lebih kecil dibandingkan dengan metode krataan. Sama halnya dengan jarak antar pusat gerombol sedang, pada kondisi ragam setiap peubah besar dan tingkat korelasi antar peubah rendah menyebabkan k-rataan menghasilkan tingkat kesalahan klasifikasi yang kecil dibandingkan dengan penggerombolan berbasis model.
Rataan tingkat kesalahan klasifikasi (%)
Rataan tingkat kesalahan klasifikasi (%)
36
60 40 20 0 0.2
0.8
60 40 20 0 0.2
Korelasi
(a). berdasarkan berbasis model Gambar 19
Korelasi
0.8
(b). berdasarkan k-rataan
Persentase rataan tingkat kesalahan klasifikasi pada kondisi jarak jauh berdasarkan (a) berbasis model dan (b) k-rataan. ragam kecil, ragam besar, ragam berbeda
Pada tingkat korelasi tinggi, persentase tingkat kesalahan klasifikasi yang dihasilkan oleh metode penggerombolan berbasis model lebih kecil dibandingkan dengan k-rataan. Jumlah amatan pada kondisi ini tidak berpengaruh terhadap persentase tingkat kesalahan klasifikasi yang dihasilkan. Data Pohon Data pohon merupakan dari paket Mclust yang sering digunakan untuk mengilustrasikan masalah pengklasifikasian. Tujuan digunakannya data ini adalah untuk melihat efektifitas analisis gerombol berbasis model pada data berukuran kecil. Data ini terdiri dari tiga jenis ukuran peubah yaitu keliling (girth), tinggi (height) dan volume. Masing-masing peubah terdiri dari 31 pengamatan. Data dari masing-masing peubah secara lengkap dapat dilihat pada Lampiran 4. Sebelum menerapkan metode analisis gerombol berbasis model terlebih dahulu diberikan gambaran umum berupa deskriptif dari ketiga peubah yang diamati. Tabel 4 Statistik deskriptif peubah data pohon Peubah Keliling Tinggi Volume
Rata-rata 13,248 76,000 30,171
Simpangan Baku 3,138 6.372 16.438
Dari Tabel 4 tampak bahwa peubah yang memiliki nilai rata-rata terbesar adalah peubah tinggi dan untuk simpangan baku terbesar dimiliki oleh peubah volume.
37
Guna mengetahui jumlah gerombol yang terbentuk terlebih dahulu dibuat plot dua komponen utama, yang dapat dilihat pada Gambar 20. Dapat diketahui bahwa
-10
-5
0
comp2
5
10
pola yang dibentuk tidak jelas penggerombolannya.
-50
-40
-30
-20
-10
0
10
20
comp1
Gambar 20
Plot dua komponen utama data pohon
Sebelum dilakukan penggerombolan berbasis model, terlebih dahulu dilakukan uji normal ganda yang dilakukan dengan plot kuantil. Jika plot kuantil yang dihasilkan membentuk garis lurus, maka data yang digunakan menyebar normal
khi^2
ganda. 12 10 8 6 4 2 0 0
2
4
6
8
10
12
di^2
Gambar 21
Plot kuantil-kuantil data pohon
Plot kuantil yang dihasilkan membentuk garis lurus, dengan demikian data pohon yang digunakan menyebar normal ganda. Hasil penggerombolan yang diperoleh berdasarkan metode kemungkinan maksimum maupun metode Bayes akan dibahas satu persatu. Berdasarkan metode kemungkinan maksimum, proporsi dari 69 dan
masing gerombol secara berturut-turut yaitu yang
dihasilkan 7 347
79 7
untuk 5
35 dan
masing-masing 739
74 63
masing-
73. Vektor rataan gerombol
adalah
46 . Penentuan
jumlah gerombol dapat diperoleh berdasarkan nilai BIC terbesar untuk setiap
38
model, dapat dilihat pada Tabel 5. Nilai BIC terbesar yaitu -535,7, berada pada model VVV dengan jumlah gerombol yang diberikan sebanyak dua gerombol. Tabel 5
Nilai BIC setiap model berdasarkan metode kemungkinan maksimum, untuk data pohon
1 2 3 4 5 6 7 8 9
VII -709.081 -656.507 -648.228 -640.554 -645.461 -642.691 -646.387 NA NA EEE -549.712 -560.167 -549.896 -545.428 -558.309 -564.724 -582.649 -569.544 -578.737
EEI -640.773 -603.356 -597.186 -592.995 -598.867 -598.686 -608.365 -558.405 -552.782 EEV -549.712 -537.117 -577.466 -539.118 -567.218 -569.531 -582.115 -573.798 -593.921
VEI -640.773 -606.25 -633.727 -574.019 -586.299 -598.385 -602.899 NA NA VEV -549.712 -566.086 -565.628 -544.337 -556.593 -546.949 -565.621 NA NA
EVI -640.773 -605.329 -599.946 -595.687 -596.389 -615.321 -621.217 NA NA VVV -549.712 -535.7 -563.808 -544.829 -541.224 NA NA NA NA
-650
BIC
-600
-550
1 2 3 4 5 6 7 8 9
EII -709.081 -653.078 -643.276 -642.419 -651.101 -655.688 -668.654 -607.308 -614.48 VVI -640.773 -607.348 -622.661 -562.445 -581.406 -616.211 -625.898 NA NA
-700
EII VII EEI VEI EVI 2
4
6
VVI EEE EEV VEV VVV 8
number of components
Gambar 22
Plot nilai BIC setiap model untuk data pohon, berdasarkan metode kemungkinan maksimum
Model terbaik yang dihasilkan adalah VVV dengan karaketrikstik dari matrik peragamnya yaitu
. Model tersebut memiliki matriks diagonal dan akar
ciri setiap gerombol yang berbeda, sehingga bentuk dan volume setiap gerombol akan berbeda. Bentuk yang dihasilkan untuk setiap gerombol adalah ellipsoidal.
39
Tabel 6
Nilai BIC setiap model berdasarkan metode Bayes, untuk data pohon
1 2 3 4 5 6 7 8 9
VII -709.479 -660.547 -650.827 -642.955 -648.322 -645.927 -649.094 -626.675 -637.455 EEE -552.792 -564.202 -572.075 -549.212 -573.419 -574.505 -589.897 -575.71 -586.766
EEI -641.994 -606.087 -601.267 -598.991 -607.955 -608.191 -618.776 -584.708 -593.404 EEV -552.792 -569.389 -547.127 -570.049 -583.706 -611.141 -619.75 -639.836 -651.928
VEI -641.994 -613.923 -617.539 -620.877 -635.56 -645.581 -653.505 -640.922 -655.711 VEV -552.7922 -566.4791 -569.366 -579.3045 -589.9286 -620.5968 -642.1821 NA NA
EVI -641.994 -612.447 -616.381 -620.181 -636.156 -655.293 -676.155 -679.801 -701.376 VVV -552.792 -554.377 -589.982 -584.534 -608.326 -634.22 -669.784 -688.234 -728.049
EII VII EEI VEI EVI
-700
BIC
-650
-600
-550
1 2 3 4 5 6 7 8 9
EII -709.479 -653.904 -644.49 -644.066 -653.373 -664.148 -672.333 -608.889 -616.144 VVI -641.994 -613.695 -653.631 -620.637 -644.018 -656.465 -669.429 -666.534 -684.792
2
4
6
VVI EEE EEV VEV VVV 8
number of components
Gambar 23
Plot nilai BIC setiap model untuk data pohon, berdasarkan Metode Bayes
Berdasarkan metode Bayes, jumlah gerombol yang dihasilkan berbeda dengan jumlah
gerombol
yang
dihasilkan
menggunakan
metode
kemungkinan
maksimum. Jumlah gerombol yang dihasilkan sebanyak tiga gerombol. Proporsi dari masing-masing gerombol secara berturut-turut yaitu 3
9;
6
dan
59. Vektor rataan yang dihasilkan untuk masing-masing gerombol adalah 83 6
8 467
6 46
;
378
73 74
9 84
5 37
78 99
38 96
. Pada tabel 6 dapat dilihat nilai BIC untuk setiap
dan
40
model. Model terbaik yang dihasilkan adalah EEV dengan nilai BIC -547,127. Karakteristik matriks peragam berdasarkan model EEV yaitu
. Model
tersebut memiliki matriks diagonal dan akar ciri setiap gerombol yang sama, sehingga bentuk dan volume setiap gerombol adalah sama. Bentuk yang dihasilkan untuk setiap gerombol adalah ellipsoidal. Data Diabetes Data diabetes merupakan contoh data dari paket mclust yang sering digunakan dalam buku teks statistic analisis peubah ganda untuk masalah pengklasifikasian. Data ini terdiri dari tiga jenis ukuran peubah yaitu glucoce, insulin dan sspg, yang masing-masing peubah terdiri dari 145 pengamatan. Setiap peubah secara klinikal diklasifikasikan atas tiga jenis yaitu normal (NO), chemical diabetes (CD) dan overt diabetes (OD). Data dari masing-masing peubah secara lengkap dapat dilihat pada Lampiran 5. Sebelum menerapkan metode analisis gerombol berbasis model, terlebih dahulu diberikan gambaran umum berupa deskriptif dari ketiga peubah yang diamati terangkum pada Tabel 7. Tabel 7 Statistik deskriptif peubah-peubah data diabetes Jenis normal
Peubah Rata-rata Simpangan Baku glucoce 91.184 8.228 insulin 349.974 36.871 sspg 172.645 68.854 chemical glucoce 99.306 9.489 insulin 482.556 93.018 sspg 288,000 157.832 overt glucoce 217.667 76.563 insulin 1043.758 309.395 sspg 106,000 93.425 Diketahui bahwa rataan dan simpangan baku untuk jenis overt lebih besar dibandingkan dengan jenis normal dan chemical. Sebagai petunjuk awal penggerombolan digunakan plot dua komponen utama yang disajikan pada Gambar 24. Dapat diketahui bahwa pola gerombol yang dibentuk adalah saling tumpang tindih.
-100
0
100
comp2
300
500
41
-1000
-500
0
500
comp1
Gambar 24
Plot dua komponen utama data diabetes
Uji normal ganda yang dilakukan dengan plot kuantil pada data diabetes, dapat dilihat pada Gambar 25. Plot kuantil yang dihasilkan membentuk garis lurus, dengan demikian data diabetes yang digunakan menyebar normal ganda. 30
khi^2
25 20 15 10 5 0 0
5
10
15
20
25
30
di^2
Gambar 25
Plot kuantil data diabetes
Berdasarkan metode kemungkinan maksimum, jumlah gerombol yang dihasilkan sebanyak tiga gerombol. Proporsi dan vector rataan masing-masing gerombol secara
berturut-turut
9 4 94 4
358 8 8 4 369
yaitu
56 ;
66 56 ;
5 98
3
dan
5 7 4
3
3
789
5serta dan
98 335 . Jika dibandingkan dengan hasil klasifikasi
sebenarnya, maka tingkat kesalahan klasifikasi yang diperoleh sebesar 9,6% dengan 14 objek terjadi kesalahan penggerombolan. Nilai BIC yang diperoleh untuk setiap model dapat dilihat pada Tabel 8.
42
Tabel 8
1 2 3 4 5 6 7 8 9 1 2 3 4 5 6 7 8 9
Nilai BIC setiap model berdasarkan metode kemungkinan maksimum, untuk data diabetes
EII -5863.923 -5449.518 -5412.588 -5236.008 -5181.608 -5162.164 -5128.736 -5135.787 -5150.374 VVI -5530.129 -4988.322 -4827.818 -4813.002 -4833.589 -4810.558 NA NA NA
VII -5863.923 -5327.719 -5206.399 -5208.512 -5202.555 -5135.069 -5129.460 -5135.053 -5112.616 EEE -5136.446 -5010.994 -4976.853 -4865.864 -4882.812 -4835.226 -4805.518 -4820.155 -4840.039
EEI -5530.129 -5169.399 -4998.446 -4937.627 -4915.486 -4885.752 -4857.097 -4858.904 -4878.786 EEV -5136.446 -4918.500 -4917.567 -4887.406 -4908.030 -4844.584 -4910.155 -4858.974 -4930.535
VEI -5530.129 -5019.350 -4899.759 -4835.856 -4841.773 NA NA NA NA VEV -5136.446 -4834.727 -4809.225 -4823.882 -4842.077 -4826.457 -4852.182 -4870.633 -4887.206
EVI -5530.129 -5015.884 -5000.661 -4865.767 -4838.587 -4848.623 -4849.023 -4873.450 -4865.166 VVV -5136.446 -4825.027 -4760.091 -4802.420 NA NA NA NA NA
Model terbaik yang dihasilkan adalah VVV dengan karaketrikstik dari matrik . Model tersebut memiliki matriks diagonal dan
peragamnya yaitu
akar ciri setiap gerombol yang berbeda, sehingga bentuk dan volume setiap gerombol akan berbeda. Bentuk yang dihasilkan untuk setiap gerombol adalah
4
6
number of components
(a) Gambar 26
8
-5400
BIC
2
EII VII EEI VEI EVI
-5800
-5400
EII VVI VII EEE EEIEEV VEIVEV EVIVVV
-5800
BIC
-5000
-5000
ellipsoidal. Nilai BIC yang dihasilkan sebesar -4760.091.
2
4
6
VVI EEE EEV VEV VVV 8
number of components
(b)
Plot nilai BIC setiap model untuk data diabetes, berdasarkan (a) Metode kemungkinan maksimum dan (b) metode Bayes
43
Tabel 9
Nilai BIC setiap model berdasarkan metode Bayes, untuk data diabetes
EII VII EEI VEI EVI 1 -5864.01 -5864.01 -5530.42 -5530.42 -5530.42 2 -5449.71 -5327.99 -5171.65 -5060.60 -5043.23 3 -5412.89 -5207.21 -5118.89 -4965.81 -5041.02 4 -5236.34 -5210.36 -4943.68 -4907.88 -5067.50 5 -5182.07 -5142.30 -4923.01 -4904.72 -4966.65 6 -5162.73 -5137.98 -4895.44 -4921.34 -4957.74 7 -5129.28 -5134.75 -4882.22 -4919.60 -4964.75 8 -5136.46 -5121.83 -4873.56 -4926.98 -4990.02 9 -5089.83 -5104.47 -4892.15 -4948.47 -5017.90 VVI EEE EEV VEV VVV 1 -5530.42 -5137.24 -5137.24 -5137.24 -5137.24 2 -5049.63 -5011.89 -4919.17 -4843.48 -4832.13 3 -4908.36 -4978.18 -4864.54 -4820.15 -4770.78 4 -4926.79 -4866.93 -4833.05 -4833.69 -4811.51 5 -4894.06 -4884.24 -4828.55 -4849.41 -4830.70 6 -4901.77 -4850.36 -4879.14 -4847.68 -4857.00 7 -4913.12 -4863.81 -4905.79 -4879.65 -4896.15 8 -4953.72 -4882.56 -4931.29 -4916.08 -4934.09 9 -4983.97 -4902.68 -4960.91 NA -4970.10 Jumlah gerombol yang dihasilkan yaitu tiga gerombol. Jika dibandingkan dengan klasifikasi sebenarnya, tingkat kesalahan klasifikasi yang dihasilkan sebesar 10,34% dengan 15 objek terjadi kesalahan penggerombolan. Nilai BIC yang diperoleh untuk setiap model dapat dilihat pada Tabel 9. Proporsi dan vektor 574;
rataan masing-masing gerombol secara berturut-turut yaitu dan
3
5 366
5
78
9 7
serta 3 7 877
dan
33
36 65 5
9
5 66
;
95 8 3 .
Model terbaik yang dihasilkan adalah VVV dengan karaketrikstik dari matrik peragamnya yaitu
. Model tersebut memiliki matriks diagonal dan akar
ciri setiap gerombol yang berbeda, sehingga bentuk dan volume setiap gerombol akan berbeda. Bentuk yang dihasilkan untuk setiap gerombol adalah ellipsoidal. Nilai BIC yang dihasilkan sebesar -4770.78
44
SIMPULAN DAN SARAN Simpulan Kesimpulan yang diperoleh berdasarkan penelitian ini yaitu semakin jauh jauh jarak antar pusat gerombol, jika ragam setiap peubah untuk setiap gerombol kecil maupun berbeda maka tingkat kesalahan klasifikasi yang dihasilkan semakin kecil. Jika kondisi ragam setiap peubah untuk setiap gerombol sama dan berukuran besar, maka nilai korelasi berpengaruh terhadap hasil akhir penggerombolan.
Nilai korelasi lebih dari 0,5 (
5) memberikan tingkat
kesalahan klasifikasi yang kecil. Dengan membandingkan tingkat kesalahan klasifikasi yang dihasilkan oleh analisis gerombol berbasis model dengan yang dihasilkan oleh metode k-rataan, kedua metode ini memberikan efektifitas yang sama pada kondisi ragam setiap peubah untuk setiap gerombol kecil. Berbeda dengan efektifitas penggerombolan berbasis model pada kondisi ragam setiap peubah untuk setiap gerombol sama dan besar, k-rataan menghasilkan efektifitas terbaik pada kondisi nilai korelasi kecil. Pada kondisi ragam setiap peubah untuk setiap gerombol, penggerombolan berbasis model menghasilkan efektifitas yang lebih baik dibandingkan dengan metode k-rataan . Tingkat kesalahan klasifikasi yang dihasilkan berdasarkan metode kemungkinan maksimum dan metode Bayes tidak berbeda jauh. Munculnya singularitas untuk matriks peragam dapat diatasi dengan menggunakan metode Bayes. Saran Kesimpulan ini berlaku untuk peubah-peubah yang memiliki sebaran campuran normal dan tanpa ada data pencilan. Diperlukan penelitian selanjutnya untuk sebaran campuran yang tidak normal dan ditemukannya pencilan.
DAFTAR PUSTAKA Banfield, J.D. and Raftery, A.E. 1993. Model-Based Gaussian and Non Gaussian Clustering. Journal Biometric 49; 803-821 Dempster AP, Laird NM, Rubin D. 1997. Maximum Likelihood from Incomplete Data via the EM Algorithm. Journal of the Royal Statistical Society B39:1-38 Celeux, G. & Govaert, G. 2006. Gaussian Parsimonious Clustering Methods. INRIA. Perancis Fraley, C. & Raftery A.E. 1998. How Many Cluster? Which Clustering Method?Answer via Model-Based Cluster Analysis. The Computer Journal 41; 578-588 Fraley, C. & Raftery A.E. 2002. Model-based clustering, discriminant analysis, and density estimation. Journal of the American Statistical Association 458; 611– 626 Fraley, C. & Raftery A.E. 2007. Bayesian Regularization for Normal Mixture Estimation and Model-Based Clustering. Journal of Classification 24:155-181 Fraley, C & Raftery A.E. 2010. Package mclust, Model Based Clustering/Normal Mixture Modeling. Washington. Johnson, R.A & Wichern, D.W. 1998. Applied multiavariate statistical analysis, 4th edition. New Jersey: Prentice-Hall Kass, R.E. & Raftery, A.E. 1995. Bayes factor. Journal of the American Statistical Association 1995; 90, 430; 773 – 795 Mclachlan, G.J. & Basford, K.E. 1988. Mixture Models: Inferrence and applications to clustering. New York: Marcel Dekker Pardede,T. 2002. Perbandingan Metode Berbasis Model (Model-Based) dengan Metode Ward dan Metode K-rataan dalam Analsis Gerombol [Tesis]. Bogor: Program Pascasarjana, Institut Pertanian Bogor. Venables,W.N & Smith, D.M. 2010. An Introduction to R. Walpole, R. 1992. Pengantar Statistika. Jakarta: PT. Gramedia Pustaka Utama
46
Lampiran 1. Plot dua komponen utama pada salah satu ulangan dengan jumlah data tiap gerombol 50
Kondisi Jarak Antar Pusat Gerombol Sama
comp2
0.0
0
comp2
0
comp2
-1.0
-2
-2
-2
-1
-0.5
-1
0 -1
comp2
1
0.5
1
1
2
1.0
2
2
Ragam setiap peubah untuk setiap gerombol kecil, dengan tingkat korelasi 0; 0,2; 0,5; 0,8
-2
-1
0
1
2
-4
-3
-2
-1
comp1
0
1
2
3
-3
-2
-1
0
comp1
1
2
3
-4
4
-2
0
2
comp1
comp1
-10
-5
0
5
10
0 -2
comp2
0
comp2
-4
-15
-10
-5
comp1
0
5
10
-6
-10
-10
-10
-5
-5
0
comp2
0 -5
comp2
5
5
2
5
10
10
4
10
Ragam setiap peubah untuk setiap gerombol besar, dengan tingkat korelasi 0; 0,2; 0,5; 0,8
-15
15
-10
-5
0
5
10
15
-10
0
comp1
comp1
10
20
30
comp1
4 0
comp2
4 2
-10
-15
-10
-5
0
5
10
-15
-10
-5
comp1
0
5
-4
-10
-4
-5
-2
-2
-5
0
comp2
0
comp2
5 0
comp2
2
6
5
10
8
Ragam setiap peubah untuk setiap gerombol berbeda, dengan tingkat korelasi 0; 0,2; 0,5; 0,8
-15
10
-10
-5
0
5
10
-15
15
-10
-5
0
5
10
15
comp1
comp1
comp1
Kondisi Jarak Antar Pusat Gerombol Dekat
1
2
-4
-2
-2
-1
0
comp2
2 0
comp2
0
comp2
-2
0 -2
-3
-4
comp2
2
2
3
4
4
4
4
Ragam setiap peubah untuk setiap gerombol kecil, dengan tingkat korelasi 0; 0,2; 0,5; 0,8
-4
-2
0 comp1
2
4
-4
-2
0 comp1
2
4
-4
-2
0 comp1
2
-3
-2
-1
0 comp1
1
2
3
47
0
comp2
0
comp2
-5
0
comp2
-5
0 -15
-5
-15
-10
-10
-10
-5
comp2
5
5
5
5
10
10
10
15
Ragam setiap peubah untuk setiap gerombol besar, dengan tingkat korelasi 0; 0,2; 0,5; 0,8
-15
-10
-5
0
5
-15
10
-10
-5
0
5
10
15
-15
-10
-5
0
comp1
comp1
5
10
-20
15
-10
0
10
20
comp1
comp1
8 -2 -4
-5
-10
-5
0
2
comp2
comp2
0
0
-5
comp2
comp2
5
0
4
5
6
10
5
10
Ragam setiap peubah untuk setiap gerombol berbeda, dengan tingkat korelasi 0; 0,2; 0,5; 0,8
-5
0
5
-10
10
-5
0
5
10
15
-15
-10
-5
0
comp1
comp1
5
10
-20
15
-10
0
10
20
comp1
comp1
Kondisi Jarak Antar Pusat Gerombol Sedang
-4
-2
0
2
4
6
-4
-2
0
2
-2
-6
4
0
comp2
0
comp2
-6
comp1
-4
-6
-4
-4
-2
-2
0
comp2
0 -2 -4
comp2
2
2
2
2
4
4
4
4
6
6
Ragam setiap peubah untuk setiap gerombol kecil, dengan tingkat korelasi 0; 0,2; 0,5; 0,8
-4
-2
0
2
4
-4
-2
comp1
comp1
0
2
4
comp1
10
-15
-10
-5
0
5
10
-10
15
-5
0
5
10
-5 -10 -10
15
0
10
20
-20
-10
comp1
comp1
comp1
0
comp2
5 0
comp2
-10
-10
-5
-5
0
comp2
5 0 -10
-5
comp2
5
5
10
10
15
10
Ragam setiap peubah untuk setiap gerombol besar, dengan tingkat korelasi 0; 0,2; 0,5; 0,8
0
10
20
comp1
0
0
-5
2
comp2
5 comp2
comp2
0 -5
-5
0
5 comp1
10
15
-10
-5
0
5 comp1
10
-4
-10
-5
-2
-10 -15
comp2
0
4
5
6
10
5
10
8
Ragam setiap peubah untuk setiap gerombol berbeda, dengan tingkat korelasi 0; 0,2; 0,5; 0,8
-20
-15
-10
-5
0
comp1
5
10
15
-20
-10
0 comp1
10
20
48
Kondisi Jarak Antar Pusat Gerombol Jauh
2
4
0 -6
-6
-6
-5
-4
-4
-4
-2
comp2
0
comp2
-2
0
comp2
-2
0
comp2
2
2
4
5
6
4
Ragam setiap peubah untuk setiap gerombol kecil, dengan tingkat korelasi 0; 0,2; 0,5; 0,8
-8
-6
-4
-2
0
2
4
-6
6
-4
-2
0
2
4
-6
6
-4
-2
0
2
4
-4
6
-2
0
comp1
comp1
comp1
2
4
6
comp1
10
10
-15
-10
-5
0
5
10
-15
15
0
comp2
0
comp2
-5
-10 -15
-15
-15
-10
-10
-5
-5
0
comp2
0 -5
comp2
5
5
5
5
10
10
15
Ragam setiap peubah untuk setiap gerombol besar, dengan tingkat korelasi 0; 0,2; 0,5; 0,8
-10
-5
0
5
10
15
-20
-10
0
comp1
comp1
-20
10
-10
0
10
20
comp1
comp1
5 comp2
-5
0
0
comp2
0
comp2
0
-5
0
5 comp1
10
15
-5
-10
-5
-5 -10
comp2
5
5
5
10
10
10
10
Ragam setiap peubah untuk setiap gerombol berbeda, dengan tingkat korelasi 0; 0,2; 0,5; 0,8
-5
0
5 comp1
10
15
-15
-10
-5
0 comp1
5
10
15
-15
-10
-5
0 comp1
5
10
49
Lampiran 2. Persentase rataan tingkat kesalahan klasifikasi
Kondisi Jarak Antar Pusat Gerombol Sama Jarak
Ragam Kecil
Sama Besar 5 3
Berbeda
3
9 5
Korelasi 0 0,2 0,5 0,8 0 0,2 0,5 0,8 0 0,2 0,5 0,8
Kasus Simulasi 1 2 3 4 5 6 7 8 9 10 11 12
n=50 MLE MAP 66.7 66.7 66.9 67.2 66.7 66.7 66.7 66.7 66.7 66.7 66.7 66.7 67.1 67.1 66.7 66.7 39.7 39.3 43.2 43.2 42.5 43.6 38.7 40.8
n=150 MLE MAP 66.7 66.7 66.4 66.4 66.5 66.5 66.7 66.7 66.7 66.7 66.5 66.7 66.7 66.7 66.7 66.7 41.0 40.9 41.2 42.0 40.3 40.6 41.4 41.7
n=50 MLE MAP 1.1 1.1 0.3 0.3 0.0 0.0 0.0 0.0 66.7 66.7 66.7 66.7 67.9 67.9 66.7 66.7 21.7 22.4 35.6 35.3 34.5 35.1 22.5 16.9
n=150 MLE MAP 0.9 0.9 0.4 0.4 26.7 0.0 26.7 0.0 66.7 66.7 66.7 66.7 66.7 66.7 66.7 66.7 26.4 26.5 16.1 17.1 17.2 17.4 4.9 4.8
Kondisi Jarak Antar Pusat Gerombol Dekat Jarak
Ragam
Dekat d=5,099
Kecil
5
Besar 5
5 5
Berbeda
3 3
9 5
Korelasi 0 0,2 0,5 0,8 0 0,2 0,5 0,8 0 0,2 0,5 0,8
Kasus Simulasi 13 14 15 16 17 18 19 20 37 38 39 40
50
Kondisi Jarak Antar Pusat Gerombol Sedang Jarak
Ragam
Sedang d=7,483
Kecil
3 7 3 7 7 3
3
Besar 5 Berbeda
3
9 5
Korelasi 0 0,2 0,5 0,8 0 0,2 0,5 0,8 0 0,2 0,5 0,8
Kasus Simulasi 21 22 23 24 25 26 27 28 41 42 43 44
n=50 MLE MAP 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 66.7 66.7 66.7 66.7 66.7 66.0 43.7 9.7 9.9 8.5 13.7 15.1 28.1 32.8 1.2 1.7
n=150 MLE MAP 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 66.7 66.7 66.7 66.7 66.7 66.7 8.4 8.4 11.9 11.8 9.2 9.2 6.0 6.1 1.1 1.0
n=50 MLE MAP 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 66,7 66,7 66,7 66,7 57,3 57,3 11,6 11,6 8.8 7.5 5.1 4.9 5.9 4.7 0.1 0.1
n=150 MLE MAP 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 42,7 50,5 66,7 66,7 30,6 30,6 2 2 6.4 6.5 5.9 6.0 2.5 2.6 0.1 0.1
Kondisi Jarak Antar Pusat Gerombol Jauh Jarak
Ragam
Jauh d=9,899
Kecil
4 9 4 9 9 3
4
Besar 5 Berbeda
3
9 5
Korelasi 0 0,2 0,5 0,8 0 0,2 0,5 0,8 0 0,2 0,5 0,8
Kasus Simulasi 29 30 31 32 33 34 35 36 45 46 47 48
51
Lampiran 3. Nilai BIC Kondisi Jarak Antar Pusat Gerombol Sama Jarak
Ragam Kecil
Sama Besar 5 3
Berbeda
3
9 5
Korelasi 0 0,2 0,5 0,8 0 0,2 0,5 0,8 0 0,2 0,5 0,8
Kasus Simulasi 1 2 3 4 5 6 7 8 9 10 11 12
n=50 n=150 MLE MAP MLE MAP -1288.01 -1288.08 -3846.54 -3846.57 -1287.26 -1287.25 -3823.52 -3823.56 -1209.23 -1209.85 -3564.75 -3565.04 -973.698 -974.312 -2858.57 -2858.84 -2736.51 -2736.58 -8192.02 -8192.05 -2736.51 -2736.58 -8167.54 -8167.59 -2696.49 -2697.23 -8027.33 -8027.6 -2422.19 -2422.81 -7204.06 -7204.32 -2292.99 -2294.85 -6824.44 -6825.34 -2284.6 -2292.4 -6802.3 -6802.58 -2222.64 -2226.51 -6550.02 -6550.97 -1992.9 -1991.38 -5841.68 -5842.61
Kondisi Jarak Antar Pusat Gerombol Dekat Jarak
Ragam
Dekat d=5,099
Kecil
5
Besar 5
5 5
Berbeda
3 3
9 5
Korelasi 0 0,2 0,5 0,8 0 0,2 0,5 0,8 0 0,2 0,5 0,8
Kasus Simulasi 13 14 15 16 17 18 19 20 37 38 39 40
n=50 n=150 MLE MAP MLE MAP -1650.49 -1650.06 -4858.08 -4858.18 -1655.96 -1656.97 -4854.42 -4854.73 -1578.88 -1579.44 -4602.41 -4602.66 -1343.3 -1343.63 -3896.2 -3896.34 -2786.67 -2786.74 -8340.59 -8340.62 -2786.67 -2786.74 -8340.59 -8340.62 -2745.19 -2745.76 -8180.08 -8180.34 -2612.27 -2612.88 -7768.59 -7768.86 -2359.88 -2355.72 -6962.11 -6962.54 -2365.99 -2368.27 -7005.44 -7006.01 -2328.35 -2333.02 -6837.79 -6838.75 -2163.89 -2167.74 -6267.12 -6268.9
52
Kondisi Jarak Antar Pusat Gerombol Sedang Jarak
Ragam
Sedang d=7,483
Kecil
3 7 3 7 7 3
3
Besar 5 Berbeda
3
9 5
Korelasi 0 0,2 0,5 0,8 0 0,2 0,5 0,8 0 0,2 0,5 0,8
Kasus Simulasi 21 22 23 24 25 26 27 28 41 42 43 44
n=50 n=150 MLE MAP MLE MAP -1657.71 -1657.92 -4883.44 -4883.52 -1657.71 -1657.92 -4883.44 -4883.52 -1657.72 -1657.92 -4865.29 -4865.5 -1578.83 -1579.18 -4602.8 -4602.95 -2838.35 -2838.42 -8493.87 -8495.5 -2838.35 -2838.42 -8493.87 -8495.5 -2826.75 -2827.16 -8415.17 -8415.44 -2731.85 -2730.18 -8047.85 -8048.31 -2401.41 -2399.49 -7085.98 -7086.24 -2407.18 -2410.06 -7122.5 -7122.51 -2390.93 -2393.85 -6954.86 -6956.31 -2185.54 -2194.55 -6357.96 -6362.18
Kondisi Jarak Antar Pusat Gerombol Jauh Jarak
Ragam
Jauh d=9,899
Kecil
4 9 4 9 9 3
4
Besar 5 Berbeda
3
9 5
Korelasi 0 0,2 0,5 0,8 0 0,2 0,5 0,8 0 0,2 0,5 0,8
Kasus Simulasi 29 30 31 32 33 34 35 36 45 46 47 48
n=50 n=150 MLE MAP MLE MAP -1657.71 -1657.91 -1657.71 -1657.91 -1657.71 -1657.91 -1657.71 -1657.91 -1578.86 -1579.34 -1578.86 -1579.34 -1344.18 -1348.05 -1344.18 -1348.05 -2901.98 -2902.06 -2901.98 -2902.06 -2901.98 -2902.06 -2901.98 -2902.06 -2901.98 -2902.06 -2901.98 -2902.06 -2769.84 -2769.09 -2769.84 -2769.09 -2429.09 -2430.17 -2429.09 -2430.17 -2441.94 -2445.56 -2441.94 -2445.56 -2405.92 -2408.95 -2405.92 -2408.95 -2197.93 -2212.95 -2197.93 -2212.95
53
Lampiran 4. Data pohon
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31
Girth 8.3 8.6 8.8 10.5 10.7 10.8 11 11 11.1 11.2 11.3 11.4 11.4 11.7 12 12.9 12.9 13.3 13.7 13.8 14 14.2 14.5 16 16.3 17.3 17.5 17.9 18 18 20.6
Height 70 65 63 72 81 83 66 75 80 75 79 76 76 69 75 74 85 86 71 64 78 80 74 72 77 81 82 80 80 80 87
Volume 10.3 10.3 10.2 16.4 18.8 19.7 15.6 18.2 22.6 19.9 24.2 21 21.4 21.3 19.1 22.2 33.8 27.4 25.7 24.9 34.5 31.7 36.3 38.3 42.6 55.4 55.7 58.3 51.5 51 77
54
Lampiran 5. Data Diabetes
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42
Class Normal Normal Normal Normal Normal Normal Normal Normal Normal Normal Normal Normal Normal Normal Normal Normal Normal Normal normal normal normal normal normal normal normal normal normal normal normal normal normal normal normal normal normal normal normal normal normal normal normal normal
glucose insulin 80 356 97 289 105 319 90 356 90 323 86 381 100 350 85 301 97 379 97 296 91 353 87 306 78 290 90 371 86 312 80 393 90 364 99 359 85 296 90 345 90 378 88 304 95 347 90 327 92 386 74 365 98 365 100 352 86 325 98 321 70 360 99 336 75 352 90 353 85 373 99 376 100 367 78 335 106 396 98 277 102 378 90 360
sspg 124 117 143 199 240 157 221 186 142 131 221 178 136 200 208 202 152 185 116 123 136 134 184 192 279 228 145 172 179 222 134 143 169 263 174 134 182 241 128 222 165 282
43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84
class glucose insulin normal 94 291 normal 80 269 normal 93 318 normal 86 328 normal 85 334 normal 96 356 normal 88 291 normal 87 360 normal 94 313 normal 93 306 normal 86 319 normal 86 349 normal 96 332 normal 86 323 normal 89 323 normal 83 351 chemical 98 478 normal 100 398 normal 110 426 chemical 88 439 chemical 100 429 normal 80 333 chemical 89 472 chemical 91 436 normal 96 418 normal 95 391 normal 82 390 normal 84 416 chemical 90 413 normal 100 385 normal 86 393 normal 93 376 normal 107 403 normal 112 414 chemical 94 426 normal 93 364 normal 93 391 normal 90 356 normal 99 398 normal 93 393 chemical 85 425 normal 89 318
sspg 94 121 73 106 118 112 157 292 200 220 144 109 151 158 73 81 151 122 117 208 201 131 162 148 130 137 375 146 344 192 115 195 267 281 213 156 221 199 76 490 143 73
55
85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128
class glucose insulin chemical 96 465 chemical 111 558 chemical 107 503 chemical 114 540 chemical 101 469 chemical 108 486 chemical 112 568 chemical 105 527 chemical 103 537 chemical 99 466 chemical 102 599 chemical 110 477 chemical 102 472 chemical 96 456 chemical 95 517 chemical 112 503 chemical 110 522 chemical 92 476 chemical 104 472 chemical 75 45 chemical 92 442 chemical 92 541 chemical 92 580 chemical 93 472 chemical 112 562 chemical 88 423 chemical 114 643 chemical 103 533 overt 300 1468 overt 303 1487 overt 125 714 overt 280 1470 overt 216 1113 overt 190 972 overt 151 854 overt 303 1364 overt 173 832 overt 203 967 overt 195 920 overt 140 613 overt 151 857 overt 275 1373 overt 260 1133 overt 149 849
sspg 237 748 320 188 607 297 232 480 622 287 266 124 297 326 564 408 325 433 180 392 109 313 132 285 139 212 155 120 28 23 232 54 81 87 76 42 102 138 160 131 145 45 118 159
129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145
class overt overt overt overt overt overt overt overt overt overt overt overt overt overt overt overt overt
glucose insulin 233 1183 146 847 124 538 213 1001 330 1520 123 557 130 670 120 636 138 741 188 958 339 1354 265 1263 353 1428 180 923 213 1025 328 1246 346 1568
sspg 73 103 460 42 13 130 44 314 219 100 10 83 41 77 29 124 15
56
Lampiran 6. Sintaks membangkitkan data multivariate normal
library(MASS) #untuk membangkitkan data
#Untuk ragam s1=s2= s3=25
MVN
s3<-c(25,25,25) Dset3<-diag(sqrt(s3)) sigma3n
n=50 #jumlah sample yang dibangkitkan #Untuk korelasi = 0
korelasin<matrix(c(1,0,0,0,1,0,0,0,1),3,3) #Untuk korelasi rendah
korelasir<matrix(c(1,0.2,0.2,0.2,1,0.2,0.2,0.2,1),3 ,3)
#Untuk jarak antar dua pusat gerombol sama #Untuk korelasi sedang
korelasis<-matrix(c(1,0.5,0.5, 0.5,1,0.5,0.5,0.5,1),3,3) #Untuk korelasi tinggi
korelasit<-matrix(c(1,0.8,0.8, 0.8,1,0.8,0.8,0.8,1),3,3) #Untuk ragam s1=s2=s3=1
s1<-c(1,1,1) Dset1<-diag(sqrt(s1)) sigma1n
s2<-c(9,9,9) Dset2<-diag(sqrt(s2)) sigma2n
miu1<- c(1,2,3) miu2<- c(1,2,3) miu3<- c(1,2,3) #Untuk jarak antar dua pusat gerombol berbeda,dekat (d=5,099)
miu1d<- c(1,2,5) miu2d<- c(2,5,1) miu3d<- c(5,1,2) #Untuk jarak antar dua pusat gerombol berbeda,sedang (d=7,483)
miu1s<- c(1,3,7) miu2s<- c(3,7,1) miu3s<- c(7,1,3) #Untuk jarak antar dua pusat gerombol berbeda,besar (d=9,899)
miu1j<- c(1,4,9) miu2j<- c(4,9,1) miu3j<- c(9,1,4) gerombol1n1<mvrnorm(n,miu1,sigma1n, tol = 1e6,empirical=TRUE) gerombol2n1<mvrnorm(n,miu2,sigma1n, tol = 1e6,empirical=TRUE) gerombol3n1<mvrnorm(n,miu3,sigma1n, tol = 1e6,empirical=TRUE) kasus1
57
gerombol1r1<mvrnorm(n,miu1,sigma1r, tol = 1e6,empirical=TRUE) gerombol2r1<mvrnorm(n,miu2,sigma1r, tol = 1e6,empirical=TRUE) gerombol3r1<mvrnorm(n,miu3,sigma1r, tol = 1e6,empirical=TRUE) kasus2
gerombol1r3<mvrnorm(n,miu1,sigma3r, tol = 1e6,empirical=TRUE) gerombol2r3<mvrnorm(n,miu2,sigma3r, tol = 1e6,empirical=TRUE) gerombol3r3<mvrnorm(n,miu3,sigma3r, tol = 1e6,empirical=TRUE) kasus6
gerombol1s1<mvrnorm(n,miu1,sigma1s, tol = 1e6,empirical=TRUE) gerombol2s1<mvrnorm(n,miu2,sigma1s, tol = 1e6,empirical=TRUE) gerombol3s1<mvrnorm(n,miu3,sigma1s, tol = 1e6,empirical=TRUE) kasus3
gerombol1s3<mvrnorm(n,miu1,sigma3s, tol = 1e6,empirical=TRUE) gerombol2s3<mvrnorm(n,miu2,sigma3s, tol = 1e6,empirical=TRUE) gerombol3s3<mvrnorm(n,miu3,sigma3s, tol = 1e6,empirical=TRUE) kasus7
gerombol1t1<mvrnorm(n,miu1,sigma1t, tol = 1e6,empirical=TRUE) gerombol2t1<mvrnorm(n,miu2,sigma1t, tol = 1e6,empirical=TRUE) gerombol3t1<mvrnorm(n,miu3,sigma1t, tol = 1e6,empirical=TRUE) kasus4<- rbind (gerombol1t1,gerombol2t1,gerombol3t 1)
gerombol1t3<mvrnorm(n,miu1,sigma3t, tol = 1e6,empirical=TRUE) gerombol2t3<mvrnorm(n,miu2,sigma3t, tol = 1e6,empirical=TRUE) gerombol3t3<mvrnorm(n,miu3,sigma3t, tol = 1e6,empirical=TRUE) kasus8<- rbind (gerombol1t3,gerombol2t3,gerombol3t 3)
gerombol1n3<mvrnorm(n,miu1,sigma3n, tol = 1e6,empirical=TRUE) gerombol2n3<mvrnorm(n,miu2,sigma3n, tol = 1e6,empirical=TRUE) gerombol3n3<mvrnorm(n,miu3,sigma3n, tol = 1e6,empirical=TRUE) kasus5
gerombol1n1<mvrnorm(n,miu1,sigma1n, tol = 1e6,empirical=TRUE) gerombol2n2<mvrnorm(n,miu2,sigma2n, tol = 1e6,empirical=TRUE) gerombol3n3<mvrnorm(n,miu3,sigma3n, tol = 1e6,empirical=TRUE) kasus9
58
gerombol1r1<mvrnorm(n,miu1,sigma1r, tol = 1e6,empirical=TRUE) gerombol2r2<mvrnorm(n,miu2,sigma2r, tol = 1e6,empirical=TRUE) gerombol3r3<mvrnorm(n,miu3,sigma3r, tol = 1e6,empirical=TRUE) kasus10
gerombol1dr1<mvrnorm(n,miu1d,sigma1r, tol = 1e6,empirical=TRUE) gerombol2dr1<mvrnorm(n,miu2d,sigma1r, tol = 1e6,empirical=TRUE) gerombol3dr1<mvrnorm(n,miu3d,sigma1r, tol = 1e6,empirical=TRUE) kasus14
gerombol1s1<mvrnorm(n,miu1,sigma1s, tol = 1e6,empirical=TRUE) gerombol2s2<mvrnorm(n,miu2,sigma2s, tol = 1e6,empirical=TRUE) gerombol3s3<mvrnorm(n,miu3,sigma3s, tol = 1e6,empirical=TRUE) kasus11
gerombol1ds1<mvrnorm(n,miu1d,sigma1s, tol = 1e6,empirical=TRUE) gerombol2ds1<mvrnorm(n,miu2d,sigma1s, tol = 1e6,empirical=TRUE) gerombol3ds1<mvrnorm(n,miu3d,sigma1s, tol = 1e6,empirical=TRUE) kasus15
gerombol1t1<mvrnorm(n,miu1,sigma1t, tol = 1e6,empirical=TRUE) gerombol2t2<mvrnorm(n,miu2,sigma2t, tol = 1e6,empirical=TRUE) gerombol3t3<mvrnorm(n,miu3,sigma3t, tol = 1e6,empirical=TRUE) kasus12
gerombol1dt1<mvrnorm(n,miu1d,sigma1t, tol = 1e6,empirical=TRUE) gerombol2dt1<mvrnorm(n,miu2d,sigma1t, tol = 1e6,empirical=TRUE) gerombol3dt1<mvrnorm(n,miu3d,sigma1t, tol = 1e6,empirical=TRUE) kasus16
gerombol1dn1<mvrnorm(n,miu1d,sigma1n, tol = 1e6,empirical=TRUE) gerombol2dn1<mvrnorm(n,miu2d,sigma1n, tol = 1e6,empirical=TRUE) gerombol3dn1<mvrnorm(n,miu3d,sigma1n, tol = 1e6,empirical=TRUE) kasus13
gerombol1dn3<mvrnorm(n,miu1d,sigma3n, tol = 1e6,empirical=TRUE) gerombol2dn3<mvrnorm(n,miu2d,sigma3n, tol = 1e6,empirical=TRUE) gerombol3dn3<mvrnorm(n,miu3d,sigma3n, tol = 1e6,empirical=TRUE) kasus17
59
gerombol1dr3<mvrnorm(n,miu1d,sigma3r, tol = 1e6,empirical=TRUE) gerombol2dr3<mvrnorm(n,miu2d,sigma3r, tol = 1e6,empirical=TRUE) gerombol3dr3<mvrnorm(n,miu3d,sigma3r, tol = 1e6,empirical=TRUE) kasus18
gerombol1sr1<mvrnorm(n,miu1s,sigma1r, tol = 1e6,empirical=TRUE) gerombol2sr1<mvrnorm(n,miu2s,sigma1r, tol = 1e6,empirical=TRUE) gerombol3sr1<mvrnorm(n,miu3s,sigma1r, tol = 1e6,empirical=TRUE) kasus22
gerombol1ds3<mvrnorm(n,miu1d,sigma3s, tol = 1e6,empirical=TRUE) gerombol2ds3<mvrnorm(n,miu2d,sigma3s, tol = 1e6,empirical=TRUE) gerombol3ds3<mvrnorm(n,miu3d,sigma3s, tol = 1e6,empirical=TRUE) kasus19
gerombol1ss1<mvrnorm(n,miu1s,sigma1s, tol = 1e6,empirical=TRUE) gerombol2ss1<mvrnorm(n,miu2s,sigma1s, tol = 1e6,empirical=TRUE) gerombol3ss1<mvrnorm(n,miu3s,sigma1s, tol = 1e6,empirical=TRUE) kasus23
gerombol1dt3<mvrnorm(n,miu1d,sigma3t, tol = 1e6,empirical=TRUE) gerombol2dt3<mvrnorm(n,miu2d,sigma3t, tol = 1e6,empirical=TRUE) gerombol3dt3<mvrnorm(n,miu3d,sigma3t, tol = 1e6,empirical=TRUE) kasus20
gerombol1st1<mvrnorm(n,miu1s,sigma1t, tol = 1e6,empirical=TRUE) gerombol2st1<mvrnorm(n,miu2s,sigma1t, tol = 1e6,empirical=TRUE) gerombol3st1<mvrnorm(n,miu3s,sigma1t, tol = 1e6,empirical=TRUE) kasus24
gerombol1sn1<mvrnorm(n,miu1s,sigma1n, tol = 1e6,empirical=TRUE) gerombol2sn1<mvrnorm(n,miu2s,sigma1n, tol = 1e6,empirical=TRUE) gerombol3sn1<mvrnorm(n,miu3s,sigma1n, tol = 1e6,empirical=TRUE) kasus21
gerombol1sn3<mvrnorm(n,miu1s,sigma3n, tol = 1e6,empirical=TRUE) gerombol2sn3<mvrnorm(n,miu2s,sigma3n, tol = 1e6,empirical=TRUE) gerombol3sn3<mvrnorm(n,miu3s,sigma3n, tol = 1e6,empirical=TRUE) kasus25
60
gerombol1sr3<mvrnorm(n,miu1s,sigma3r, tol = 1e6,empirical=TRUE) gerombol2sr3<mvrnorm(n,miu2s,sigma3r, tol = 1e6,empirical=TRUE) gerombol3sr3<mvrnorm(n,miu3s,sigma3r, tol = 1e6,empirical=TRUE) kasus26
gerombol1jr1<mvrnorm(n,miu1j,sigma1r, tol = 1e6,empirical=TRUE) gerombol2jr1<mvrnorm(n,miu2j,sigma1r, tol = 1e6,empirical=TRUE) gerombol3jr1<mvrnorm(n,miu3j,sigma1r, tol = 1e6,empirical=TRUE) kasus30
gerombol1ss3<mvrnorm(n,miu1s,sigma3s, tol = 1e6,empirical=TRUE) gerombol2ss3<mvrnorm(n,miu2s,sigma3s, tol = 1e6,empirical=TRUE) gerombol3ss3<mvrnorm(n,miu3s,sigma3s, tol = 1e6,empirical=TRUE) kasus27
gerombol1js1<mvrnorm(n,miu1j,sigma1s, tol = 1e6,empirical=TRUE) gerombol2js1<mvrnorm(n,miu2j,sigma1s, tol = 1e6,empirical=TRUE) gerombol3js1<mvrnorm(n,miu3j,sigma1s, tol = 1e6,empirical=TRUE) kasus31
gerombol1st3<mvrnorm(n,miu1s,sigma3t, tol = 1e6,empirical=TRUE) gerombol2st3<mvrnorm(n,miu2s,sigma3t, tol = 1e6,empirical=TRUE) gerombol3st3<mvrnorm(n,miu3s,sigma3t, tol = 1e6,empirical=TRUE) kasus28
gerombol1jt1<mvrnorm(n,miu1j,sigma1t, tol = 1e6,empirical=TRUE) gerombol2jt1<mvrnorm(n,miu2j,sigma1t, tol = 1e6,empirical=TRUE) gerombol3jt1<mvrnorm(n,miu3j,sigma1t, tol = 1e6,empirical=TRUE) kasus32
gerombol1jn1<mvrnorm(n,miu1j,sigma1n, tol = 1e6,empirical=TRUE) gerombol2jn1<mvrnorm(n,miu2j,sigma1n, tol = 1e6,empirical=TRUE) gerombol3jn1<mvrnorm(n,miu3j,sigma1n, tol = 1e6,empirical=TRUE) kasus29
gerombol1jn3<mvrnorm(n,miu1j,sigma3n, tol = 1e6,empirical=TRUE) gerombol2jn3<mvrnorm(n,miu2j,sigma3n, tol = 1e6,empirical=TRUE) gerombol3jn3<mvrnorm(n,miu3j,sigma3n, tol = 1e6,empirical=TRUE) kasus33
61
gerombol1jr3<mvrnorm(n,miu1j,sigma3r, tol = 1e6,empirical=TRUE) gerombol2jr3<mvrnorm(n,miu2j,sigma3r, tol = 1e6,empirical=TRUE) gerombol3jr3<mvrnorm(n,miu3j,sigma3r, tol = 1e6,empirical=TRUE) kasus34
gerombol1dr1<mvrnorm(n,miu1d,sigma1r, tol = 1e6,empirical=TRUE) gerombol2dr2<mvrnorm(n,miu2d,sigma2r, tol = 1e6,empirical=TRUE) gerombol3dr3<mvrnorm(n,miu3d,sigma3r, tol = 1e6,empirical=TRUE) kasus38
gerombol1js3<mvrnorm(n,miu1j,sigma3s, tol = 1e6,empirical=TRUE) gerombol2js3<mvrnorm(n,miu2j,sigma3s, tol = 1e6,empirical=TRUE) gerombol3js3<mvrnorm(n,miu3j,sigma3s, tol = 1e6,empirical=TRUE) kasus35
gerombol1ds1<mvrnorm(n,miu1d,sigma1s, tol = 1e6,empirical=TRUE) gerombol2ds2<mvrnorm(n,miu2d,sigma2s, tol = 1e6,empirical=TRUE) gerombol3ds3<mvrnorm(n,miu3d,sigma3s, tol = 1e6,empirical=TRUE) kasus39
gerombol1jt3<mvrnorm(n,miu1j,sigma3t, tol = 1e6,empirical=TRUE) gerombol2jt3<mvrnorm(n,miu2j,sigma3t, tol = 1e6,empirical=TRUE) gerombol3jt3<mvrnorm(n,miu3j,sigma3t, tol = 1e6,empirical=TRUE) kasus36
gerombol1dt1<mvrnorm(n,miu1d,sigma1t, tol = 1e6,empirical=TRUE) gerombol2dt2<mvrnorm(n,miu2d,sigma2t, tol = 1e6,empirical=TRUE) gerombol3dt3<mvrnorm(n,miu3d,sigma3t, tol = 1e6,empirical=TRUE) kasus40
gerombol1dn1<mvrnorm(n,miu1d,sigma1n, tol = 1e6,empirical=TRUE) gerombol2dn2<mvrnorm(n,miu2d,sigma2n, tol = 1e6,empirical=TRUE) gerombol3dn3<mvrnorm(n,miu3d,sigma3n, tol = 1e6,empirical=TRUE) kasus37
gerombol1sn1<mvrnorm(n,miu1s,sigma1n, tol = 1e6,empirical=TRUE) gerombol2sn2<mvrnorm(n,miu2s,sigma2n, tol = 1e6,empirical=TRUE) gerombol3sn3<mvrnorm(n,miu3s,sigma3n, tol = 1e6,empirical=TRUE) kasus41
62
gerombol1sr1<mvrnorm(n,miu1s,sigma1r, tol = 1e6,empirical=TRUE) gerombol2sr2<mvrnorm(n,miu2s,sigma2r, tol = 1e6,empirical=TRUE) gerombol3sr3<mvrnorm(n,miu3s,sigma3r, tol = 1e6,empirical=TRUE) kasus42
gerombol1jr1<mvrnorm(n,miu1j,sigma1r, tol = 1e6,empirical=TRUE) gerombol2jr2<mvrnorm(n,miu2j,sigma2r, tol = 1e6,empirical=TRUE) gerombol3jr3<mvrnorm(n,miu3j,sigma3r, tol = 1e6,empirical=TRUE) kasus46
gerombol1ss1<mvrnorm(n,miu1s,sigma1s, tol = 1e6,empirical=TRUE) gerombol2ss2<mvrnorm(n,miu2s,sigma2s, tol = 1e6,empirical=TRUE) gerombol3ss3<mvrnorm(n,miu3s,sigma3s, tol = 1e6,empirical=TRUE) kasus43
gerombol1js1<mvrnorm(n,miu1j,sigma1s, tol = 1e6,empirical=TRUE) gerombol2js2<mvrnorm(n,miu2j,sigma2s, tol = 1e6,empirical=TRUE) gerombol3js3<mvrnorm(n,miu3j,sigma3s, tol = 1e6,empirical=TRUE) kasus47
gerombol1st1<mvrnorm(n,miu1s,sigma1t, tol = 1e6,empirical=TRUE) gerombol2st2<mvrnorm(n,miu2s,sigma2t, tol = 1e6,empirical=TRUE) gerombol3st3<mvrnorm(n,miu3s,sigma3t, tol = 1e6,empirical=TRUE) kasus44
gerombol1jt1<mvrnorm(n,miu1j,sigma1t, tol = 1e6,empirical=TRUE) gerombol2jt2<mvrnorm(n,miu2j,sigma2t, tol = 1e6,empirical=TRUE) gerombol3jt3<mvrnorm(n,miu3j,sigma3t, tol = 1e6,empirical=TRUE) kasus48
gerombol1jn1<mvrnorm(n,miu1j,sigma1n, tol = 1e6,empirical=TRUE) gerombol2jn2<mvrnorm(n,miu2j,sigma2n, tol = 1e6,empirical=TRUE) gerombol3jn3<mvrnorm(n,miu3j,sigma3n, tol = 1e6,empirical=TRUE) kasus45
63
Lampiran 7. Sintaks Mclust
library (mclust) kasus1mclust<-Mclust(kasus1) kasus2mclust<-Mclust(kasus2) . . . kasus2mclust<-Mclust(kasus48)
#untuk plot hasil klasifikasi c<-kasus1mclust$classification kasus1p<-princomp(kasus1) comp1<- kasus1p$scores[,1] comp2<- kasus1p$scores[,2] comp3<- kasus1p$scores[,3] plot(comp1,comp2,col=c) . . . c<-kasus48mclust$classification kasus48p<-princomp(kasus48) comp1<- kasus48p$scores[,1] comp2<- kasus48p$scores[,2] comp3<- kasus48p$scores[,3] plot(comp1,comp2,col=c)
#untuk BIC Kasus1BIC<-mclustBIC(kasus1) Kasus2BIC<-mclustBIC(kasus2) . . Kasus48BIC<-mclust(kasus48) #untuk parameter kasus1mclust$parameters kasus2mclust$parameters . . . Kasus48mclust$parameters
library (mclust) kasus1mclust<Mclust(kasus1,priorControl=functionN (“ ” . . Kasus48mclust<Mclust(kasus48,priorControl=function (“ ”
#untuk plot hasil klasifikasi c<-kasus1mclust$classification kasus1p<-princomp(kasus1) comp1<- kasus1p$scores[,1] comp2<- kasus1p$scores[,2] comp3<- kasus1p$scores[,3] plot(comp1,comp2,col=c) . . . c<-kasus48mclust$classification kasus48p<-princomp(kasus48) comp1<- kasus48p$scores[,1] comp2<- kasus48p$scores[,2] comp3<- kasus48p$scores[,3] plot(comp1,comp2,col=c)
#untuk BIC Kasus1BIC<-mclustBIC(kasus1) . . Kasus48BIC<-mclust(kasus48) #untuk parameter kasus1mclust$parameters . . . Kasus48mclust$parameters
LAMPIRAN