0 adalah akar ciri yang berpadanan dengan vektor ciri 1, atau R, dan panjang 2, …, p dari matriks dari setiap vektor itu masing masing adalah 1, atau i’ i = 1 untuk i = 1, 2, …, p. Maka, KU1 = 1’X, dengan var(KU1) = 1 KU2 = 2’X, dengan var(KU2) = 2 …, KUp = p’X, dengan var(KUp) = p berturut-turut adalah komponen utama pertama, kedua, …, ke-p dari X. Ada tiga metode dalam penentuan banyaknya KU, yaitu: 1. Berdasarkan kumulatif proporsi keragaman total yang mampu dijelaskan. 2. Pemilihan komponen utama didasarkan pada ragam komponen utama, yang tidak lain adalah akar ciri. 3. Penggunaan grafik yang disebut scree plot
2
Analisis Gerombol Analisis gerombol merupakan salah satu analisis peubah ganda yang tujuan utamanya adalah mengelompokkan objek berdasarkan kemiripan atau ketidakmiripan karakteristikkarakteristiknya sehingga setiap objek yang terdapat di dalam suatu gerombol memiliki kesamaan yang tinggi sesuai dengan kriteria pemilihan yang ditentukan (Hair et al. 1995). Menurut Johnson & Winchern (1998) ada dua jenis penggerombolan data yang sering digunakan yaitu penggerombolan berhirarki dan penggerombolan tak berhirarki. 1. Metode Hirarki Metode penggerombolan hirarki digunakan jika banyaknya gerombol yang akan dibentuk belum diketahui sebelumnya. Metode ini efektif digunakan untuk ukuran data kecil. Tipe dasar dalam metode ini adalah aglomerasi dan pemecahan. Dalam metode aglomerasi tiap observasi pada mulanya dianggap sebagai gerombol tersendiri sehingga terdapat gerombol sebanyak jumlah observasi. Kemudian dua gerombol yang terdekat kesamaannya digabung menjadi suatu gerombol baru, sehingga jumlah gerombol berkurang satu pada tiap tahap. Sebaliknya pada metode pemecahan dimulai dari satu gerombol besar yang mengandung seluruh observasi, selanjutnya observasi-observasi yang paling tidak sama dipisah dan dibentuk gerombol-gerombol yang lebih kecil. Proses ini dilakukan hingga tiap observasi menjadi gerombol sendiri-sendiri. 2. Metode Tidak Berhirarki Metode penggerombolan tidak berhirarki digunakan jika banyaknya gerombol yang akan dibentuk sudah diketahui sebelumnya. Metode tidak berhirarki mampu meminimalkan rata-rata jarak setiap data ke gerombolnya. Karakteristik dari algoritma tidak berhirarki salah satunya adalah sangat sensitif dalam penentuan titik pusat gerombol awal karena secara titik pusat awal ini ditetapkan secara acak. Pada saat pembangkitan awal titik pusat yang acak tersebut mendekati solusi akhir pusat gerombol, metode tidak berhirarki mempunyai kemungkinan yang tinggi untuk menemukan titik pusat gerombol yang tepat. Sebaliknya, jika titik pusat awal tersebut jauh dari solusi akhir pusat gerombol, maka besar kemungkinan hal ini akan menyebabkan penggerombolan yang tidak tepat. Akibatnya metode ini tidak menjamin hasil penggerombolan yang unik.
Penggerombolan K-means K-means merupakan salah satu metode penggerombolan data tidak berhirarki yang berusaha mempartisi data yang ada ke dalam satu atau lebih gerombol. Adapun tujuan dari penggerombolan data ini adalah untuk meminimalkan fungsi objektif yang pada umumnya berusaha meminimalkan keragaman di dalam suatu gerombol dan memaksimalkan keragaman antar gerombol (Hair et al. 1995). Untuk menghitung centroid gerombol ke-i, pada peubah ke-j, cij, digunakan rumus sebagai berikut:
dengan adalah nilai pengamatan objek ke-k untuk peubah ke-j. Sedangkan Ni adalah jumlah data yang menjadi anggota gerombol ke-i (Agusta 2007). Har-Peled & Kushal (2007) menyatakan, misalkan S sebagai sekumpulan objek, dalam suatu fungsi jarak tertentu. Ide dasar dari k-means yaitu menemukan titik pusat (rataan) , dimana S dapat dipartisi ke-k gerombol C1, C2,..., Ck dengan menempatkan setiap objek dalam S ke centroid terdekat Ci. Jumlah kuadrat jarak yang diminimalkan yaitu:
Perhitungan jarak atau tingkat kemiripan dalam analisis gerombol salah satunya menggunakan konsep jarak Euclid, dimana untuk dua unit pengamatan yang mempunyai vektor x dan y dengan dimensi p peubah, jarak Euclidnya adalah:
Jarak Euclid dapat digunakan jika tidak ada korelasi antar peubah yang diamati. Jika terjadi korelasi antar peubah maka perlu dilakukan analisis komponen utama terlebih dahulu. Penggerombolan K-medoid K-medoid merupakan salah satu teknik penggerombolan yang mirip dengan k-means. Namun perbedaan mendasarnya adalah pada k-medoid data/objek dipilih sebagai pusat gerombol (medoid). Salah satu algoritma yang sering digunakan dalam k-medoid yaitu Partitioning Around Medoids (PAM). Karena metode ini
3
menggunakan data yang berada di tengah gerombol, maka metode ini lebih kekar terhadap pencilan dibandingkan dengan metode k-means (Kaufman & Rousseuw 1990). Anggap S sebagai sekumpulan objek, dalam fungsi jarak Euclid. Ide dasar dari k-medoid yaitu menemukan k objek sebagai medoid, yang meminimumkan total jarak dari setiap objek ke medoidnya (Har-Peled & Kushal 2007). Medoid dapat diartikan sebagai sebuah objek dari sebuah gerombol yang mempunyai rata-rata jarak terkecil ke objek lainnya, dengan kata lain yaitu objek yang terletak ditengah-tengah gugus data. Kaufman & Rousseuw (1990) menyatakan bahwa, misalkan nXp adalah gugus data yang mempunyai n objek dan p peubah. Jarak antara objek ke-i, xi, dan objek ke-j, xj, dinotasikan dengan . Dalam pemilihan suatu objek sebagai objek yang representatif dalam suatu gerombol (medoid awal), yi didefinisikan sebagai variabel biner 0 dan 1, dimana jika dan hanya jika objek i dipilih sebagai medoid awal. Penempatan setiap objek j ke salah satu medoid awal dapat dituliskan sebagai , dimana didefinisikan sebagai variabel biner 0 dan 1, bernilai 1 jika dan hanya jika objek j ditempatkan ke gerombol dimana objek i sebagai medoid awal. Vinod (1969) dalam Kaufman & Rousseeuw (1990) pertama kali menemukan model optimasi dalam k-medoid yang dapat dituliskan sebagai berikut: (1)
bahwa jarak antara objek j dan medoid awal didefinisikan sebagai:
Karena semua objek harus ditempatkan ke medoid terdekat, total jarak didefinisikan sebagai:
dimana fungsi tersebut merupakan fungsi objektif yang harus diminimalkan dalam metode ini.
DATA DAN METODE Data Data yang digunakan dalam penelitian ini yaitu data contoh dan data simulasi. Data contoh diperoleh dari database University of California, Irvinea (ftp://ftp.ics.uci.edu/pub/m achine-learning-databases/iris/). Data tersebut merupakan data hasil 150 pengukuran peubah karakteristik tanaman bunga iris (50 objek untuk setiap tiga varietas, yaitu Setosa, Versicolor, dan Virginica). Dimana tiga jenis varietas bunga iris tersebut dianggap sebagai gerombol pada penelitian ini. Peubah karakteristik tanaman bunga iris yang digunakan sebagai berikut: X1 = Panjang sepal/daun kelopak (cm) X2 = Lebar sepal/daun kelopak (cm) X3 = Panjang petal/daun mahkota (cm) X4 = Lebar petal/daun mahkota (cm) Data simulasi merupakan data hasil bangkitan bilangan acak normal ganda yang akan digunakan sebagai gugus data pencilan.
Dimana: (2) i , j = 1,2,..., n
(3)
k = jumlah gerombol
(4) (5)
Persamaan (2) menyatakan bahwa setiap objek j harus di tempatkan ke hanya satu medoid awal. Persamaan (2) dan (5) berimplikasi bahwa untuk suatu j, akan bernilai 1 atau 0. Persamaan (4) menyatakan bahwa hanya ada k objek yang akan dipilih sebagai medoid. Gerombol akan terbentuk dengan menempatkan setiap objek ke medoid awal yang terdekat. Persamaan (2) berimplikasi
Metode Tahap-tahap yang dilakukan dalam persiapan data adalah: 1. Memastikan tidak ada pencilan pada data contoh dengan menghitung jarak kuadrat Mahalanobis (Di2) untuk tiap pengamatan di setiap gerombol. Nilai Di2 kemudian dibandingkan dengan (α=0.01). Jika Di2 > , maka xi atau pengamatan ke-i dianggap sebagai pencilan. dimana µ merupakan vektor nilai tengah X, dan merupakan matriks kovarian dari X.
4
2.
Menyiapkan gugus data pencilan dengan membangkitkan peubah acak normal ganda dengan parameter µ yang diekstrimkan dari data contoh dan dengan matriks ragam-peragam yang sama dengan data contoh. Proses penyiapan gugus data pencilan: 2.1 Hitung statistik rataan dan matriks ragam-peragam S dari data contoh untuk setiap gerombol, sehingga didapat 1, 2, 3, S1,S2,S3. 2.2 Ekstrimkan nilai 1, 2, 3 dengan cara meningkatkan nilai tersebut sebesar 70%, atau
2.3 Nilai rataan yang baru ( ) digunakan sebagai parameter untuk pembangkitan data normal ganda . Parameter diduga dari nilai S yang didapat pada langkah 1. 2.4 Bangkitkan masing-masing 50 bilangan acak normal ganda sehingga didapat matriks Y1, Y2, Y3. 2.5 Gabungkan Y1, Y2, Y3 sehingga didapat matriks 150Y4 yang digunakan sebagai gugus data pencilan. 3. Menyiapkan gugus data baru yang merupakan gabungan dari data contoh yang sebagian datanya (γn) diganti dengan objek pada gugus data pencilan. Proporsi pencilan yang diberikan (γ) yaitu sebesar 0% (tanpa pencilan), 5%, 10%, dan 15%. 4. Melakukan identifikasi pencilan pada gugus data yang telah dibentuk pada langkah 3 untuk memastikan proporsi pencilan yang diberikan. Langkah-langkah yang dilakukan dalam analisis data adalah: 1. Memeriksa kebebasan antar peubah dengan menggunakan korelasi Pearson. Koefisien korelasi Pearson dihitung dengan persamaan sebagai berikut:
dengan hipotesis nolnya adalah antar peubah saling bebas. Statistik ujinya dihitung dengan persamaan berikut:
hipotesis nol ditolak jika t lebih besar dari t tabel pada taraf nyata 5% dengan derajat bebas n-2 (Aunuddin 2005). 2. Melakukan analisis komponen utama jika pada langkah 1 hipotesis nol ditolak. 3. Menggerombolkan data baik tanpa pencilan maupun dengan pencilan menggunakan metode k-means dengan tahapan: 3.1 Menentukan pusat gerombol awal secara acak. 3.2 Menghitung jarak setiap objek dengan pusat gerombol dengan menggunakan jarak Euclid. 3.3 Alokasikan tiap objek ke suatu gerombol yang memiliki jarak terdekat dengan pusat gerombolnya. 3.4 Hitung kembali pusat gerombol yang terbentuk dengan merata-ratakan pusat gerombolnya. 3.5 Ulangi dari langkah 3.2 sampai tidak ada perpindahan objek antar gerombol. 4. Menggerombolkan data baik tanpa pencilan maupun dengan pencilan menggunakan metode k-medoid dengan tahapan: 4.1 Inisialisasi, yaitu menentukan k objek sebagai medoid. 4.2 Alokasikan tiap objek ke suatu gerombol yang memiliki jarak terdekat dengan medoid gerombol tersebut. 4.3 Mencari objek lain yang lebih baik sebagai medoid (yang memiliki jarak rataan terkecil ke semua objek) dengan membandingkan semua pasangan objek medoid dan nonmedoid. 4.4 Ulangi langkah 2 dan 3 sampai tidak ada perubahan pada medoid. 5. Membandingkan hasil penggerombolan k-means dan k-medoid pada langkah 3 dan 4. 6. Menghitung tingkat salah klasifikasi pada metode k-means dan k-medoid pada berbagai kondisi proporsi pencilan. 7. Melakukan tahap persiapan dan analisis data hingga rataan nilai tingkat salah klasifikasi cukup konsisten.
HASIL DAN PEMBAHASAN Karakteristik Data Data contoh merupakan data pengamatan empat peubah karakteristik tanaman bunga iris dengan deskripsi tiap peubah ditunjukkan
5
Tabel 1 Deskripsi tiap peubah karakteristik tanaman bunga iris Peubah
Rataan
Standar Deviasi
X1
5.843
0.828
X2
3.057
0.436
X3
3.758
1.765
X4
1.199
0.762
Besarnya korelasi antar peubah dapat dilihat pada Tabel 2. Tabel 2 menunjukkan bahwa hampir pada semua peubah saling berkorelasi dan signifikan pada taraf nyata 5% kecuali pada peubah X1 (panjang sepal) dan X2 (lebar sepal). Hubungan antara panjang sepal (X1) dan panjang petal (X3) bernilai positif dan mempunyai nilai korelasi yang besar (0.872) sehingga peningkatan panjang sepal menyebabkan peningkatan panjang petal dan sebaliknya, begitu pula dengan peubah panjang petal (X3) dan lebar petal (X4). Lebar sepal (X2) memiliki korelasi negatif yang siginifikan pada taraf 5% terhadap panjang petal (X3) dan lebar petal (X4) yang masing-masing bernilai -0.428 dan -0.366. Korelasi antara peubah-peubah tersebut tidak besar namun cukup kuat dibuktikan dengan nilai-p yang signifikan pada taraf 5%.
komponen utama yang mempunyai karakteristik paling mirip dengan karakteristik data asli maka digunakan seluruh komponen utama. Pembentukan dan Identifikasi Pencilan Pengujian keberadaan pencilan pada data dengan menggunakan uji Chi-Square membutuhkan asumsi kenormalan data. Kenormalan data dapat dilihat dengan cara membuat plot Quantil antara nilai jarak kuadrat mahalanobis terurut dengan nilai Chi-Square dari (Johnson & Winchern 1998). Plot Quantil Chi-Square untuk gerombol 1 pada Gambar 1 menunjukkan pola yang mengikuti garis lurus atau linear sehingga data tersebut dapat dikatakan menyebar normal ganda. Hal yang sama juga ditunjukkan oleh plot Quantil Chi-Square untuk gerombol 2 pada Gambar 2 dan plot Quantil Chi-Square untuk gerombol 3 pada Gambar 3. 16 14 12 10
di2
pada Tabel 1. Sedangkan untuk deskripsi setiap gerombol awal pada data contoh dapat dilihat pada Lampiran 1.
8 6 4 2
Tabel 2 Korelasi antar peubah karakteristik tanaman bunga iris
X2 X3 X4
r nilai-p r nilai-p r nilai-p r nilai-p
X2
1 0.000 -0.428 0.000 -0.366 0.000
X3
0
X4
5
10
15
χ2p((j-1/2)/n)
Gambar 1 Plot Quantil Chi-Square gerombol 1 data karakteristik tanaman bunga iris 1 0.000 0.963 0.000
14
1 0.000
Jarak Euclid mensyaratkan tidak adanya korelasi antar peubah pada data, oleh karena itu dilakukan proses transformasi komponen utama untuk mendapatkan nilai antar peubah yang saling bebas. Pada penelitian ini dipilih matriks ragam-peragam sebagai matriks masukan untuk mendapatkan skor komponen utama. Pemilihan matriks ragam-peragam ini didasarkan pada satuan awal data contoh yang sama (cm). Untuk mendapatkan skor
12 10
di2
X1
X1 1 0.000 -0.118 0.152 0.872 0.000 0.818 0.000
0
8 6 4 2 0 0
5
10
χ2p((j-1/2)/n)
15
Gambar 2 Plot Quantil Chi-Square gerombol 2 data karakteristik tanaman bunga iris
6
ini dilakukan untuk memastikan apakah data yang diberikan benar-benar sebagai data pencilan. Dari 5 kali ulangan pembentukan gugus data baru, hasil perhitungan jarak Mahalanobis untuk setiap gerombol menunjukkan bahwa semua pencilan yang diberikan teridentifikasi sebagai pencilan oleh jarak Mahalanobis, baik pada proporsi pencilan 5%, 10% maupun 15%.
16 14 12
di2
10 8 6 4 2
0 0
5
χ2
10
15
p((j-1/2)/n)
Gambar 3 Plot Quantil Chi-Square gerombol 3 data karakteristik tanaman bunga iris Ketiga plot Quantil menunjukkan data menyebar normal ganda, karena itu proses identifikasi pencilan data contoh dapat dilakukan dengan jarak Mahalanobis. Suatu pengamatan disebut pencilan apabila jarak Mahalanobis terhadap nilai tengah melebihi titik kritis . Hasil perhitungan jarak Mahalanobis menunjukkan bahwa tidak ada pencilan pada data contoh. Hal tersebut dikarenakan semua pengamatan memiliki jarak Mahalanobis tidak melebihi 13.277. Jika asumsi kenormalan data tidak terpenuhi, maka alternatif pengujian keberadaan pencilan dapat menggunakan boxplot dari nilai jarak kuadrat Mahalanobis. Data contoh yang digunakan merupakan data yang tidak mengandung pencilan. Oleh karena itu diperlukan data pencilan untuk proses simulasi. Data pencilan dibangkitkan dengan meningkatkan vektor rataan sebesar 70% dari vektor rataan awal data contoh untuk setiap gerombol. Sedangkan untuk matriks ragam-peragam disamakan dengan matriks ragam-peragam tiap gerombol awal data contoh. Tabel
3
Vektor rataan baru pembangkitan gugus pencilan µ1
µ2
µ3
X1
8.510
10.091
11.199
X2
5.827
4.709
5.056
X3
2.485
7.242
9.438
X4
0.418
2.254
3.444
untuk data
Proses awal sebelum dilakukan penggerombolan k-means dan k-medoid adalah pengidentifikasian jumlah pencilan pada berbagai kondisi proporsi pencilan. Hal
Perbandingan Hasil Penggerombolan K-means dan K-medoid Proses penggerombolan dilakukan pada skor komponen utama yang didapat dari hasil transformasi komponen utama pada data asli dan data asli yang telah diberikan proporsi pencilan tertentu. Pembentukan gugus data baru yang mengandung pencilan dilakukan hingga rata-rata hasil tingkat salah klasifikasi baik pada hasil penggerombolan k-means dan k-medoid menunjukkan hasil yang cukup konsisten. Lampiran 2 menunjukkan nilai tingkat salah klasifikasi dari 5 kali ulangan yang meliputi pembangkitan data, penggantian γn data asli dengan data pencilan hingga menggerombolkan data skor utama dari data yang telah diberi pencilan. Untuk menghitung salah klasifikasi pada penggerombolan data dengan proporsi pencilan 0%, hasil penggerombolannya dibandingkan dengan penggerombolan awal data yang telah diketahui. Sedangkan untuk menghitung nilai salah klasifikasi dari data yang sudah diberikan pencilan (proporsi pencilan 5%, 10% dan 15%), hasil penggerombolannya dibandingkan dengan hasil penggerombolan pada proporsi pencilan 0% dan bukan pada penggerombolan data awal yang telah diketahui. Hal ini disebabkan data awal tersebut sudah memiliki nilai salah klasifikasi sendiri, sehingga jika diberi pencilan dapat dilihat bagaimana kemampuan atau kekekaran dari dua metode tersebut. Hasil Penggerombolan Data Asli (Tanpa Pencilan) Dari hasil penggerombolan k-means yang terbentuk dapat dilihat bahwa gerombol 1 (bunga jenis iris Setosa) memiliki jarak gerombol yang terpisah dari gerombol 2 dan 3 (bunga jenis iris Versicolor dan Virginica), sedangkan untuk gerombol 2 dan 3 memiliki jarak gerombol yang dekat satu sama lain. Hal ini dapat dilihat dari hasil plot dua skor komponen utama yang menjelaskan 89.75% keragaman pada data baik pada metode k-means maupun k-medoid. Gambar 4
7
menunjukkan plot penggerombolan data asli dengan metode k-means, sedangkan Gambar 5 menunjukkan plot penggerombolan data asli dengan metode k-medoid.
Gambar 4 Plot gerombol k-means
Gambar 5 Plot gerombol k-medoid
Pada gerombol 1 tidak terjadi salah klasifikasi ke gerombol lain baik pada k-means maupun k-medoid, hal ini diakibatkan gerombol 1 memiliki jarak yang terpisah cukup jauh dengan 2 gerombol lainnya. Lain halnya dengan gerombol 2 dan 3 yang masih terdapat salah klasifikasi karena jarak gerombol yang cukup berdekatan. Dari hasil nilai tingkat salah klasifikasi, k-means memiliki tingkat salah klasifikasi sebesar 16.67%, sedangkan hasil penggerombolan k-medoid memiliki tingkat salah klasifikasi sebesar 15.33%. Pada kondisi ini, hasil penggerombolan k-medoid sedikit lebih baik dibandingkan dengan k-means.
Hasil Penggerombolan Data dengan Pencilan Pada kondisi proporsi pencilan 5%, hasil penggerombolan k-medoid menunjukkan perbedaan yang signifikan dibandingkan dengan hasil penggerombolan pada k-means. Tingkat salah klasifikasi dari rata-rata 5 kali ulangan pada k-means mencapai 34.40%, sedangkan pada k-medoid tingkat salah klasifikasinya hanya sebesar 10.40%. Pada kondisi ini hanya ada delapan pencilan yang dimasukkan ke dalam data awal, sehingga k-medoid masih bisa mengakomodir keberadaan pencilan ini, walaupun pencilan yang diberikan untuk gerombol 2 teridentifikasi sebagai anggota gerombol 3. Hal ini juga ditunjukkan oleh plot gerombol pada Lampiran 4. Pada kondisi proporsi pencilan 10% dan 15% tidak menunjukkan perbedaan yang signifikan baik pada hasil penggerombolan dengan k-means maupun dengan k-medoid. Pada proporsi pencilan 10%, rata-rata hasil tingkat salah klasifikasi k-means sebesar 34.00% sedangkan untuk k-medoid sebesar 33.73%. Pada proporsi pencilan 15% rata-rata hasil tingkat salah klasifikasi k-means sebesar 32.00% dan k-medoid sebesar 32.93%. Pencilan yang diberikan pada kondisi ini membentuk sebuah gerombol tersendiri, yang juga berdampak pada anggota gerombol 3 yang teridentifikasi sebagai gerombol 2, sehingga penggerombolannya menjadi gerombol 1 (bunga jenis iris Setosa), gerombol 2 (bunga jenis iris Versicolor, dan Virginica), serta gerombol pencilan yang diberikan untuk gerombol 2 dan 3. Hal ini dapat dilihat pada Lampiran 5 dan 6. Tabel 4
Rata-rata tingkat salah klasifikasi pada hasil penggerombolan k-means dan k-medoid
Proporsi Pencilan
k-means
k-medoid
0%
16.67%
15.33%
5%
34.40%
10.40%
10%
34.00%
33.73%
15%
32.00%
32.93%
Lampiran 7 menunjukkan koordinat nilai centroid dan medoid pada kedua metode untuk berbagai kondisi pencilan. Perbedaan yang terlihat jelas pada koordinat pusat gerombol kedua metode yaitu pada gerombol 3 saat kondisi proporsi pencilan 5%. Nilai koordinat centroid terlihat cukup besar dibandingkan dengan koordinat objek medoid
8
gerombol 3, karena pada gerombol 3 k-means memberikan hasil penggerombolan yang beranggotakan hanya data pencilan, sedangkan pada k-medoid, gerombol 3 mirip pada gerombol 3 data asli. Dari hasil tingkat salah klasifikasi perbedaan yang signifikan hanya terdapat pada kondisi proporsi pencilan 5%. Pada kasus data ini dimungkinkan adanya suatu batas toleransi dimana k-medoid dapat menangani pencilan, yaitu sampai pada proporsi pencilan 5%. Semakin banyak pencilan yang diberikan maka perpindahan objek antar gerombol semakin sulit dihindari, sehingga nilai tingkat salah klasifikasi pun semakin besar. Hal ini juga tergantung dari karakteristik data yang akan digerombolkan. Semakin dekat jarak antar gerombol maka akan semakin sensitif terhadap keberadaan pencilan dan menyebabkan banyaknya perpindahan objek antar gerombol, begitu pula sebaliknya. Pada kondisi proporsi pencilan 10% dan 15% tidak terdapat perbedaan yang signifikan, karena baik pada k-means maupun k-medoid, pencilan yang diberikan membentuk gerombol tersendiri. Hal ini juga disebabkan pada proses pembentukan pencilan, dimana gugus data pencilan dibentuk berdasarkan sebaran normal ganda. Sehingga kecenderungan pencilanpencilan tersebut untuk menggerombol sulit dihindari.
SIMPULAN DAN SARAN Simpulan Penggerombolan k-medoid menunjukkan hasil yang lebih baik dibandingkan dengan hasil penggerombolan k-means, terutama dalam kondisi proporsi pencilan 5%. Dimana pada taraf ini dimungkinkan sebagai batas toleransi keberadaan pencilan untuk k-medoid. Untuk kondisi proporsi pencilan 10% dan 15% hasil penggerombolan k-means dan k-medoid tidak menunjukkan perbedaan yang signifikan. Hal ini didukung dari pergerakan nilai centroid dan medoid pada kondisi 5% yang cukup berbeda pada gerombol 3. Sedangkan pada kondisi proporsi pencilan 10% dan 15%, koordinat centroid dan medoid tidak terlihat jauh berbeda. Saran Diharapkan pada penelitian selanjutnya dapat mengkaji mengenai proses pembentukan pencilan serta melakukan kontrol secara komputasi terhadap penggantian data asli dengan data pencilan,
dimana data asli yang diganti dan data pencilan pengganti yaitu data yang memiliki nilai jarak Mahalanobis maksimum. Dengan cara tersebut diharapkan hasil penggerombolan pada k-medoid akan lebih baik untuk berbagai kondisi pencilan.
DAFTAR PUSTAKA Agusta Y. 2007. K-means: Penerapan, Permasalahan dan Metode Terkait. Jurnal Sistem dan Informatika. 3(1):47-60. Aunuddin. 1989. Analisis Data. Bogor: IPB Press. _____. 2005. Statistika : Rancangan dan Analisis Data. Bogor : IPB Press. Barnett V, Lewis T. 1994. Outliers in Statistical Data 3rd Edition. New York : John Wiley Hair JF Jr, Anderson RE, Tatham RL, Black WC. 1995. Multivariate Data Analysis 4th Edition. New Jersey : Prentice Hall Har-Peled S, Kushal A. 2007. Smaller Coresets for k-Median and k-Means Clustering. Discrete & Computational Geometry. 37: 3-19. Johnson RA, Winchern DW. 1998. Applied Multivariate Statistical Analisys 4th Edition. London : Prentice-Hall. Kaufman L, Rousseeuw PJ. 1990. Finding Groups in Data: An Introduction to Gerombol Analysis. New York : John Wiley.
LAMPIRAN
10
Lampiran 1 Deskripsi tiap gerombol peubah karakteristik tanaman bunga iris
X1
Gerombol 1 X2 X3
X4
X1
Gerombol 2 X2 X3
X4
X1
Gerombol 3 X2 X3
X4
rataan
5.006
3.428
1.462
0.246
5.936
2.770
4.260
1.326
6.588
2.974
5.552
2.026
st.dev
0.3525
0.3791
0.1737
0.1054
0.5162
0.3138
0.4699
0.1978
0.6359
0.3225
0.5519
0.2747
0.1242
0.0992
0.0164
0.0103
0.2664
0.0852
0.1829
0.0558
0.4043
0.0938
0.3033
0.0491
0.0992
0.1437
0.0117
0.0093
0.0852
0.0985
0.0827
0.0412
0.0938
0.1040
0.0714
0.0476
0.0164
0.0117
0.0302
0.0061
0.1829
0.0827
0.2208
0.0731
0.3033
0.0714
0.3046
0.0488
0.0103
0.0093
0.0061
0.0111
0.0558
0.0412
0.0731
0.0391
0.0491
0.0476
0.0488
0.0754
ragamperagam
Lampiran 2 Nilai tingkat salah klasifikasi penggerombolan data pada berbagai kondisi pencilan k-means k-medoid Salah Klasifikasi (SK) SK Rataan SK SK Rataan SK 0% pencilan 16.67% 16.67% 15.33% 15.33% k=1 32.67% 32.67% 9.33% 9.33% k=2 35.33% 34.00% 9.33% 9.33% 5% pencilan k=3 35.33% 34.44% 11.33% 10.00% k=4 34.67% 34.50% 10.67% 10.17% k=5 34.00% 34.40% 11.33% 10.40% k=1 31.33% 31.33% 36.00% 36.00% k=2 34.00% 32.67% 34.00% 35.00% 10% pencilan k=3 37.33% 34.22% 36.00% 35.33% k=4 32.67% 33.83% 32.67% 34.67% k=5 34.67% 34.00% 30.00% 33.73% k=1 25.33% 25.33% 34.00% 34.00% k=2 35.33% 30.33% 33.33% 33.67% 15% pencilan k=3 32.67% 31.11% 36.00% 34.44% k=4 29.33% 30.67% 32.00% 33.83% k=5 37.33% 32.00% 29.33% 32.93%
11
Lampiran 3 Skript pembangkitan data dengan software Matlab function [Y]=mnorm(mu,sigma,n) %fungsi ini membentuk matriks data yang terdiri dari p variabel dengan mu %dan sigma tertentu %Input: %mu = vektor berukuran 1xp %sigma = matriks ragam peragam berukuran pxp %n = banyaknya pengamatan %p = banyaknya variabel %Output: %Y = matriks data m=size (sigma); p=m(1); for i=1:n Z(i,:)normrnd(0,1,[1 p]); %Z matriks berukuran nxp end a=chol(sigma); %sigma=a'a M=mu(ones(n,1),:); Yt=M'+a'*Z'; Y=Yt'; function [Youtl]=gab(mu1,mu2,mu3,sigma1,sigma2,sigma3) %fungsi ini untuk menggabungkan matriks X dengan parameter berbeda untuk %setiap gerombol menjadi satu matriks baru %Input: %mu1,mu2,mu3 = nilai tengah untuk gerombol 1,2,3 %sigma1,sigma2,sigma3 = matriks ragam peragam untuk gerombol 1,2,3 %Output: %Xoutl = matriks gabungan data pencilan n=50; x1=mvn(mu1,sigma1,n); x2=mvn(mu2,sigma2,n); x3=mvn(mu3,sigma3,n); Youtl=[x1;x2;x3]; function [Xnew]=new(X,Youtl,a) %fungsi ini membentuk matriks gabungan dari matriks data awal (X) dan %matriks pencilan (Youtl) dimana baris ke p pada X diganti dengan baris %ke p pada Youtl %Input: %X = matriks data awal %Youtl = matriks data pencilan %a = besarnya proporsi pencilan yang ingin diganti %Output %Xnew = matriks gabungan sx=size(X); n=sx(1); m=ceil((a/100)*n); Xnew=X; for i=1:m rp=randperm(n); p=rp(1); Xnew(p,:)= Youtl(p,:); end b=cb(Xnew,X); if b<m s=m-b; for k=1:s
12
rp=randperm(n); p=rp(1); if Xnew(p,:)== Youtl(p,:) k=k-1; else Xnew(p,:)= Youtl(p,:); end end end b=cb(Xnew,X) if b>m s=m-b; for k=1:s rp=randperm(n); p=rp(1); if Xnew(p,:)== Youtl(p,:) Xnew(p,:)=X(p,:); end end end
function b=cb(X,Youtl) %fungsi ini menghitung jumlah baris pada matriks X dan Youtl yang %berbeda yang diganti pada proses penggantian data dengan data pencilan %Input: %X, Youtl = matriks data yang dibandingkan %Output %b = jumlah baris yang berbeda sx=size(X); rx=sx(1); b=0; for i=1:rx if X(i,:)== Youtl(i,:) b=b+0; else b=b+1; end end
13
Lampiran 4 Plot gerombol dua skor komponen utama pada proporsi pencilan 5% (Iterasi 1)
5
1
4 3
2 6
7
8
5
Z2
2 1 0
3
4
-1 -2 -2
-1
0
1
2 Z1
3
4
5
6
7
Plot posisi 5% pencilan pada data
Plot gerombol k-means
Plot gerombol k-medoid
14
Lampiran 5 Plot gerombol dua skor komponen utama pada proporsi pencilan 10% (Iterasi 1)
4
3 14 2
5
3 7
Z2
2
15
6 10 12 11
8
13
14
9
1 0 -1 -2 -2
-1
0
1
2 Z1
3
4
5
6
7
Plot posisi 10% pencilan pada data
Plot gerombol k-means
Plot gerombol k-medoid
15
Lampiran 6 Plot gerombol dua skor komponen utama pada proporsi pencilan 15% (Iterasi 1)
4 5 2 36 4
3
7
1
Z2
2
10 11 14 17 12 8 1315
1
9 18 2123
16
22 20
19
0
-1
-2 -3
-2
-1
0
1
2
3
4
5
6
Z1
Plot posisi 15% pencilan pada data
Plot gerombol k-means
Plot gerombol k-medoid
16
Lampiran 7 Nilai centroid dan medoid pada k-means dan k-medoid pada berbagai kondisi proporsi pencilan (Iterasi 1) k-means
Proporsi Pencilan V1 5%
10%
15%
V2
V3
k-medoid V3
V4
Gerombol 1
-1.813
0.771
0.009
V4 0.015
V1 -1.836
V2 0.755
-0.037
-0.018
medoid 8
Gerombol 2
0.610
-0.643
0.023
-0.008
-0.222
-0.822
-0.010
-0.097
95
Gerombol 3
4.020
2.760
-0.323
0.006
1.335
-0.385
0.132
0.166
140
Gerombol 1
-1.605
0.976
0.016
0.011
-1.845
0.679
-0.016
-0.032
8
Gerombol 2
0.438
-0.719
0.011
-0.004
0.396
-0.852
0.074
0.109
127
Gerombol 3
4.087
1.588
-0.175
-0.018
3.618
1.782
-0.103
0.039
59
Gerombol 1
-1.489
1.025
0.017
0.010
-1.779
0.785
0.002
0.008
1
Gerombol 2
3.649
0.885
-0.125
-0.001
3.017
0.959
-0.320
-0.074
100
Gerombol 3
0.191
-0.779
0.014
-0.006
0.152
-0.885
0.077
0.099
127