PERBANDINGAN PENGGEROMBOLAN K-MEANS DAN K-MEDOID PADA DATA YANG MENGANDUNG PENCILAN YANNE FLOWRENSIA

PERBANDINGAN PENGGEROMBOLAN K-MEANS DAN K-MEDOID PADA DATA YANG MENGANDUNG PENCILAN

YANNE FLOWRENSIA

DEPARTEMEN STATISTIKA FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2010

RINGKASAN YANNE FLOWRENSIA. Perbandingan Penggerombolan K-means dan K-medoid pada Data yang Mengandung Pencilan. Dibimbing oleh I MADE SUMERTAJAYA dan LA ODE ABDUL RAHMAN. Analisis gerombol merupakan salah satu metode peubah ganda yang tujuan utamanya adalah mengelompokkan objek berdasarkan kemiripan atau ketidakmiripan karakteristik-karakteristiknya, sehingga objek yang terletak dalam satu gerombol memiliki kemiripan sifat yang lebih besar dibandingkan dengan objek pengamatan yang terletak pada gerombol lain. K-means merupakan salah satu metode penggerombolan tak berhirarki yang paling banyak digunakan, namun karena menggunakan rataan sebagai centroidnya, metode ini lebih sensitif terhadap keberadaan pencilan pada data. Sehingga berkembanglah metode baru, k-medoid, dengan berbasis median sebagai pusat gerombolnya. Penelitian ini bertujuan untuk membandingkan hasil analisis gerombol metode k-means dengan k-medoid baik pada saat data mengandung pencilan maupun tidak. Metode k-medoid diharapkan lebih kekar terhadap pencilan dibandingkan dengan k-means, sehingga dapat memberikan hasil gerombol yang lebih akurat dengan nilai tingkat salah klasifikasi yang lebih kecil. Hasil penggerombolan menunjukkan bahwa metode k-medoid mempunyai nilai rataan tingkat salah klasifikasi yang lebih rendah dan signifikan pada kondisi proporsi pencilan 5%, sedangkan pada kondisi proporsi pencilan 10% dan 15% hasil nilai rataan salah klasifikasinya tidak berbeda signifikan dengan metode k-means. Kata kunci : Pencilan, Analisis Gerombol, k-means, k-medoid

PERBANDINGAN PENGGEROMBOLAN K-MEANS DAN K-MEDOID PADA DATA YANG MENGANDUNG PENCILAN

YANNE FLOWRENSIA

Skripsi sebagai salah satu syarat untuk memperoleh gelar Sarjana Statistika pada Departemen Statistika

DEPARTEMEN STATISTIKA FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2010

Judul

: Perbandingan Penggerombolan K-means dan K-medoid pada Data yang ciMengandung Pencilan Nama : Yanne Flowrensia NRP : G14060259

Menyetujui :

Pembimbing I,

Pembimbing II,

Dr. Ir. I Made Sumertajaya, M.Si NIP : 196807021994021001

La Ode Abdul Rahman, S.Si, M.Si

Mengetahui : Ketua Departemen Statistika Fakultas Matematika dan Ilmu Pengetahuan Alam Institut Pertanian Bogor

Dr. Ir. Hari Wijayanto, M.Si NIP : 196504211990021001

Tanggal Lulus :

KATA PENGANTAR Puji syukur penulis panjatkan kehadirat Allah SWT atas segala berkah dan rahmat-Nya sehingga penulis dapat menyelesaikan karya ilmiah ini. Karya ilmiah ini berjudul ”Perbandingan Penggerombolan K-means dan K-medoid pada Data yang Mengandung Pencilan”. Karya ilmiah ini penulis susun sebagai salah satu syarat untuk mendapatkan gelar Sarjana Statistika pada Departemen Statistika, Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor. Penulis menyampaikan terimakasih kepada Bapak Dr. Ir. I Made Sumertajaya, M.Si dan Bapak La Ode Abdul Rahman, S.Si, M.Si selaku dosen pembimbing yang telah memberikan bimbingan, masukan dan arahan selama penulisan karya ilmiah ini. Terimakasih juga kepada Ibu Dr. Ir. Anik Djuraidah, MS selaku dosen moderator seminar serta Bapak Ir. Bunawan Sunarlim, MS selaku dosen penguji yang telah memberikan banyak saran dan masukannya kepada penulis. Disamping itu, penulis juga mengucapkan terimakasih kepada seluruh dosen dan staf pengajar Departemen Statistika yang telah memberikan ilmu dan wawasan selama penulis menuntut ilmu di Departemen Statistika serta seluruh staf Departemen Statistika yang telah banyak membantu penulis. Ungkapan terimakasih juga disampaikan kepada kedua orang tua dan seluruh keluarga yang telah memberikan doa, kasih sayang serta dorongan yang tulus baik moril maupun materil. Penulis sangat menghargai kritik dan saran untuk perbaikan karya ilmiah ini. Semoga karya ilmiah ini dapat bermanfaat bagi semua pihak yang membutuhkan.

Bogor, November 2010

Yanne Flowrensia

RIWAYAT HIDUP Penulis dilahirkan di Bukit Tinggi pada tanggal 28 Juli 1988. Penulis merupakan anak tunggal dari pasangan Bapak Deswarto dan Ibu Yumarni. Tahun 2000 penulis lulus dari SD N 3 Pasar Kemis Tangerang, kemudian melanjutkan studi di SLTP N 1 Pasar Kemis Tangerang hingga tahun 2003. Selanjutnya, penulis menyelesaikan pendidikannya di SMA N 2 Tangerang dan lulus pada tahun 2006. Pada tahun yang sama penulis lulus seleksi masuk Institut Pertanian Bogor melalui jalur USMI (Undangan Seleksi Masuk IPB). Setelah satu tahun menjalani perkuliahan di TPB (Tingkat Persiapan Bersama), pada tahun 2007 penulis diterima sebagai mahasiswa Departemen Statistika, FMIPA IPB dengan mayor Statistika dan minor Ilmu Konsumen. Selama mengikuti perkuliahan, penulis berkesempatan menjadi Asisten Dosen Mata Kuliah Metode Statistika pada tahun ajaran 2008/2009, serta Mata Kuliah Analisis Regresi I pada tahun ajaran 2009/2010. Penulis juga aktif dalam berbagai kegiatan kepanitiaan seperti Statistika Ria 2008, Welcome Ceremony Statistics (WCS) 2008 dan 2009, serta Pesta Sains 2008 dan 2009. Pada Februari – April 2010, penulis melaksanakan kegiatan praktik lapang di Perusahaan Media Televisi Indonesia (Metro TV), Jakarta Barat.

DAFTAR ISI Halaman DAFTAR GAMBAR ........................................................................................................... vii DAFTAR TABEL ............................................................................................................... vii DAFTAR LAMPIRAN ........................................................................................................ vii PENDAHULUAN ............................................................................................................... Latar Belakang ............................................................................................................... Tujuan ............................................................................................................................

1 1 1

TINJAUAN PUSTAKA ....................................................................................................... Pencilan ......................................................................................................................... Analisis Komponen Utama ............................................................................................. Analisis Gerombol .......................................................................................................... Penggerombolan K-means .............................................................................................. Penggerombolan K-medoid ..............................................................................................

1 1 1 2 2 2

DATA DAN METODE ....................................................................................................... Data ............................................................................................................................... Metode ...........................................................................................................................

3 3 3

HASIL DAN PEMBAHASAN ............................................................................................ Karakteristik Data ........................................................................................................... Pembentukan dan Identifikasi Pencilan ............................................................................. Perbandingan Hasil Penggerombolan K-means dan K-medoid ......................................... Hasil Penggerombolan Data Asli (Tanpa Pencilan) .................................................. Hasil Penggerombolan Data yang Mengandung Pencilan ..........................................

4 4 5 6 6 7

SIMPULAN DAN SARAN .................................................................................................

8

DAFTAR PUSTAKA ..........................................................................................................

8

LAMPIRAN ........................................................................................................................

9

vii

DAFTAR GAMBAR 1 2 3 4 5

Halaman Plot Quantil Chi-Square gerombol 1 data karakteristik tanaman bunga iris ...................... 5 Plot Quantil Chi-Square gerombol 2 data karakteristik tanaman bunga iris ...................... 5 Plot Quantil Chi-Square gerombol 3 data karakteristik tanaman bunga iris ...................... 6 Plot gerombol k-means .................................................................................................... 7 Plot gerombol k-medoid ................................................................................................... 7

DAFTAR TABEL 1 2 3 4

Halaman Deskripsi tiap peubah karakteristik tanaman bunga iris...................................................... 5 Korelasi antar peubah karakteristik tanaman bunga iris .................................................... 5 Vektor rataan baru untuk pembangkitan gugus data pencilan .......................................... 6 Rata-rata tingkat salah klasifikasi pada penggerombolan k-means dan k-medoid .............. 7

DAFTAR LAMPIRAN Halaman 1 Deskripsi tiap gerombol peubah karakteristik tanaman bunga iris .................................... 10 2 Nilai tingkat salah klasifikasi penggerombolan data pada berbagai kondisi pencilan ......... 10 3 Skript pembangkitan data dengan software Matlab ........................................................... 11 4 Plot gerombol dua skor komponen utama pada proporsi pencilan 5% (Iterasi 1) ............... 13 5 Plot gerombol dua skor komponen utama pada proporsi pencilan 10% (Iterasi 1) .............. 14 6 Plot gerombol dua skor komponen utama pada proporsi pencilan 15% (Iterasi 1) .............. 15 7 Nilai centroid dan medoid pada k-means dan k-medoid pada berbagai kondisi proporsi pencilan (Iterasi 1)............................................................................................................ 16

1

PENDAHULUAN Latar Belakang Analisis gerombol merupakan salah satu alat analisis statistika yang cukup penting dan telah banyak diterapkan pada berbagai bidang. Pada bidang sosial analisis gerombol dapat mengklasifikasikan manusia berdasarkan perilaku dan kesukaan mereka, pada bidang marketing, sering digunakan sebagai alat untuk segmentasi pasar, pada bidang geografi dapat mengelompokkan wilayah/region berdasarkan kriteria tertentu, dan kegunaankegunaan pada bidang lainnya. Dalam metode penggerombolan dikenal dua pendekatan, yaitu metode hirarki dan metode tidak berhirarki. Salah satu metode penggerombolan tidak berhirarki yang umum digunakan dalam analisis gerombol ialah metode k-means. Dalam penggerombolan, keberadaan pencilan pada data sangat diperhatikan, karena pencilan tersebut akan mempengaruhi hasil penggerombolan. Metode k-means akan lebih sensitif terhadap data yang mengandung pencilan karena menggunakan rataan sebagai centroidnya (Kaufmann & Rousseeuw 1990). Oleh karena itu kajian mengenai metode penggerombolan yang kekar tehadap pencilan mutlak diperlukan, karena keberadaan pencilan dalam data terkadang tidak dapat dihindarkan. Salah satu statistik yang cukup kekar terhadap pencilan yaitu median, sehingga berkembang metode alternatif yang dapat menggerombolkan data yang mengandung pencilan yaitu k-medoid. K-medoid merupakan salah satu metode dari penggerombolan tak berhirarki yang menggunakan median sebagai pusat gerombolnya. Tujuan Penelitian ini bertujuan untuk membandingkan hasil analisis k-means dan k-medoid pada penggerombolan data baik pada saat data mengandung pencilan maupun tidak.

TINJAUAN PUSTAKA Pencilan Pencilan ialah data yang tidak mengikuti pola umum model dan secara kasar yaitu yang sisaannya (error) berjarak tiga simpangan baku atau lebih jauh lagi dari ratarata sisaannya. Pencilan merupakan suatu keganjilan dan menandakan suatu titik data

yang sama sekali tidak tipikal dibandingkan data lainnya (Aunuddin 1989). Pencilan menurut Johnson & Winchern (1998) yaitu suatu pengamatan pada rangkaian data yang terlihat tidak konsisten terhadap sisaan dari data tersebut. Pada analisis gerombol keberadaan pencilan dapat menyebabkan gerombol yang terbentuk menjadi tidak representatif (Barnett & Lewis 1994). Analisis Komponen Utama Analisis komponen utama (AKU) merupakan pendekatan statistika untuk mereduksi gugus peubah asal berdimensi p menjadi gugus peubah baru (komponen utama) berdimensi q dimana q
0 adalah akar ciri yang berpadanan dengan vektor ciri 1, atau R, dan panjang 2, …, p dari matriks dari setiap vektor itu masing masing adalah 1, atau i’ i = 1 untuk i = 1, 2, …, p. Maka, KU1 = 1’X, dengan var(KU1) = 1 KU2 = 2’X, dengan var(KU2) = 2 …, KUp = p’X, dengan var(KUp) = p berturut-turut adalah komponen utama pertama, kedua, …, ke-p dari X. Ada tiga metode dalam penentuan banyaknya KU, yaitu: 1. Berdasarkan kumulatif proporsi keragaman total yang mampu dijelaskan. 2. Pemilihan komponen utama didasarkan pada ragam komponen utama, yang tidak lain adalah akar ciri. 3. Penggunaan grafik yang disebut scree plot

2

Analisis Gerombol Analisis gerombol merupakan salah satu analisis peubah ganda yang tujuan utamanya adalah mengelompokkan objek berdasarkan kemiripan atau ketidakmiripan karakteristikkarakteristiknya sehingga setiap objek yang terdapat di dalam suatu gerombol memiliki kesamaan yang tinggi sesuai dengan kriteria pemilihan yang ditentukan (Hair et al. 1995). Menurut Johnson & Winchern (1998) ada dua jenis penggerombolan data yang sering digunakan yaitu penggerombolan berhirarki dan penggerombolan tak berhirarki. 1. Metode Hirarki Metode penggerombolan hirarki digunakan jika banyaknya gerombol yang akan dibentuk belum diketahui sebelumnya. Metode ini efektif digunakan untuk ukuran data kecil. Tipe dasar dalam metode ini adalah aglomerasi dan pemecahan. Dalam metode aglomerasi tiap observasi pada mulanya dianggap sebagai gerombol tersendiri sehingga terdapat gerombol sebanyak jumlah observasi. Kemudian dua gerombol yang terdekat kesamaannya digabung menjadi suatu gerombol baru, sehingga jumlah gerombol berkurang satu pada tiap tahap. Sebaliknya pada metode pemecahan dimulai dari satu gerombol besar yang mengandung seluruh observasi, selanjutnya observasi-observasi yang paling tidak sama dipisah dan dibentuk gerombol-gerombol yang lebih kecil. Proses ini dilakukan hingga tiap observasi menjadi gerombol sendiri-sendiri. 2. Metode Tidak Berhirarki Metode penggerombolan tidak berhirarki digunakan jika banyaknya gerombol yang akan dibentuk sudah diketahui sebelumnya. Metode tidak berhirarki mampu meminimalkan rata-rata jarak setiap data ke gerombolnya. Karakteristik dari algoritma tidak berhirarki salah satunya adalah sangat sensitif dalam penentuan titik pusat gerombol awal karena secara titik pusat awal ini ditetapkan secara acak. Pada saat pembangkitan awal titik pusat yang acak tersebut mendekati solusi akhir pusat gerombol, metode tidak berhirarki mempunyai kemungkinan yang tinggi untuk menemukan titik pusat gerombol yang tepat. Sebaliknya, jika titik pusat awal tersebut jauh dari solusi akhir pusat gerombol, maka besar kemungkinan hal ini akan menyebabkan penggerombolan yang tidak tepat. Akibatnya metode ini tidak menjamin hasil penggerombolan yang unik.

Penggerombolan K-means K-means merupakan salah satu metode penggerombolan data tidak berhirarki yang berusaha mempartisi data yang ada ke dalam satu atau lebih gerombol. Adapun tujuan dari penggerombolan data ini adalah untuk meminimalkan fungsi objektif yang pada umumnya berusaha meminimalkan keragaman di dalam suatu gerombol dan memaksimalkan keragaman antar gerombol (Hair et al. 1995). Untuk menghitung centroid gerombol ke-i, pada peubah ke-j, cij, digunakan rumus sebagai berikut:

dengan adalah nilai pengamatan objek ke-k untuk peubah ke-j. Sedangkan Ni adalah jumlah data yang menjadi anggota gerombol ke-i (Agusta 2007). Har-Peled & Kushal (2007) menyatakan, misalkan S sebagai sekumpulan objek, dalam suatu fungsi jarak tertentu. Ide dasar dari k-means yaitu menemukan titik pusat (rataan) , dimana S dapat dipartisi ke-k gerombol C1, C2,..., Ck dengan menempatkan setiap objek dalam S ke centroid terdekat Ci. Jumlah kuadrat jarak yang diminimalkan yaitu:

Perhitungan jarak atau tingkat kemiripan dalam analisis gerombol salah satunya menggunakan konsep jarak Euclid, dimana untuk dua unit pengamatan yang mempunyai vektor x dan y dengan dimensi p peubah, jarak Euclidnya adalah:

Jarak Euclid dapat digunakan jika tidak ada korelasi antar peubah yang diamati. Jika terjadi korelasi antar peubah maka perlu dilakukan analisis komponen utama terlebih dahulu. Penggerombolan K-medoid K-medoid merupakan salah satu teknik penggerombolan yang mirip dengan k-means. Namun perbedaan mendasarnya adalah pada k-medoid data/objek dipilih sebagai pusat gerombol (medoid). Salah satu algoritma yang sering digunakan dalam k-medoid yaitu Partitioning Around Medoids (PAM). Karena metode ini

3

menggunakan data yang berada di tengah gerombol, maka metode ini lebih kekar terhadap pencilan dibandingkan dengan metode k-means (Kaufman & Rousseuw 1990). Anggap S sebagai sekumpulan objek, dalam fungsi jarak Euclid. Ide dasar dari k-medoid yaitu menemukan k objek sebagai medoid, yang meminimumkan total jarak dari setiap objek ke medoidnya (Har-Peled & Kushal 2007). Medoid dapat diartikan sebagai sebuah objek dari sebuah gerombol yang mempunyai rata-rata jarak terkecil ke objek lainnya, dengan kata lain yaitu objek yang terletak ditengah-tengah gugus data. Kaufman & Rousseuw (1990) menyatakan bahwa, misalkan nXp adalah gugus data yang mempunyai n objek dan p peubah. Jarak antara objek ke-i, xi, dan objek ke-j, xj, dinotasikan dengan . Dalam pemilihan suatu objek sebagai objek yang representatif dalam suatu gerombol (medoid awal), yi didefinisikan sebagai variabel biner 0 dan 1, dimana jika dan hanya jika objek i dipilih sebagai medoid awal. Penempatan setiap objek j ke salah satu medoid awal dapat dituliskan sebagai , dimana didefinisikan sebagai variabel biner 0 dan 1, bernilai 1 jika dan hanya jika objek j ditempatkan ke gerombol dimana objek i sebagai medoid awal. Vinod (1969) dalam Kaufman & Rousseeuw (1990) pertama kali menemukan model optimasi dalam k-medoid yang dapat dituliskan sebagai berikut: (1)

bahwa jarak antara objek j dan medoid awal didefinisikan sebagai:

Karena semua objek harus ditempatkan ke medoid terdekat, total jarak didefinisikan sebagai:

dimana fungsi tersebut merupakan fungsi objektif yang harus diminimalkan dalam metode ini.

DATA DAN METODE Data Data yang digunakan dalam penelitian ini yaitu data contoh dan data simulasi. Data contoh diperoleh dari database University of California, Irvinea (ftp://ftp.ics.uci.edu/pub/m achine-learning-databases/iris/). Data tersebut merupakan data hasil 150 pengukuran peubah karakteristik tanaman bunga iris (50 objek untuk setiap tiga varietas, yaitu Setosa, Versicolor, dan Virginica). Dimana tiga jenis varietas bunga iris tersebut dianggap sebagai gerombol pada penelitian ini. Peubah karakteristik tanaman bunga iris yang digunakan sebagai berikut: X1 = Panjang sepal/daun kelopak (cm) X2 = Lebar sepal/daun kelopak (cm) X3 = Panjang petal/daun mahkota (cm) X4 = Lebar petal/daun mahkota (cm) Data simulasi merupakan data hasil bangkitan bilangan acak normal ganda yang akan digunakan sebagai gugus data pencilan.

Dimana: (2) i , j = 1,2,..., n

(3)

k = jumlah gerombol

(4) (5)

Persamaan (2) menyatakan bahwa setiap objek j harus di tempatkan ke hanya satu medoid awal. Persamaan (2) dan (5) berimplikasi bahwa untuk suatu j, akan bernilai 1 atau 0. Persamaan (4) menyatakan bahwa hanya ada k objek yang akan dipilih sebagai medoid. Gerombol akan terbentuk dengan menempatkan setiap objek ke medoid awal yang terdekat. Persamaan (2) berimplikasi

Metode Tahap-tahap yang dilakukan dalam persiapan data adalah: 1. Memastikan tidak ada pencilan pada data contoh dengan menghitung jarak kuadrat Mahalanobis (Di2) untuk tiap pengamatan di setiap gerombol. Nilai Di2 kemudian dibandingkan dengan (α=0.01). Jika Di2 > , maka xi atau pengamatan ke-i dianggap sebagai pencilan. dimana µ merupakan vektor nilai tengah X, dan merupakan matriks kovarian dari X.

4

2.

Menyiapkan gugus data pencilan dengan membangkitkan peubah acak normal ganda dengan parameter µ yang diekstrimkan dari data contoh dan dengan matriks ragam-peragam yang sama dengan data contoh. Proses penyiapan gugus data pencilan: 2.1 Hitung statistik rataan dan matriks ragam-peragam S dari data contoh untuk setiap gerombol, sehingga didapat 1, 2, 3, S1,S2,S3. 2.2 Ekstrimkan nilai 1, 2, 3 dengan cara meningkatkan nilai tersebut sebesar 70%, atau

2.3 Nilai rataan yang baru ( ) digunakan sebagai parameter untuk pembangkitan data normal ganda . Parameter diduga dari nilai S yang didapat pada langkah 1. 2.4 Bangkitkan masing-masing 50 bilangan acak normal ganda sehingga didapat matriks Y1, Y2, Y3. 2.5 Gabungkan Y1, Y2, Y3 sehingga didapat matriks 150Y4 yang digunakan sebagai gugus data pencilan. 3. Menyiapkan gugus data baru yang merupakan gabungan dari data contoh yang sebagian datanya (γn) diganti dengan objek pada gugus data pencilan. Proporsi pencilan yang diberikan (γ) yaitu sebesar 0% (tanpa pencilan), 5%, 10%, dan 15%. 4. Melakukan identifikasi pencilan pada gugus data yang telah dibentuk pada langkah 3 untuk memastikan proporsi pencilan yang diberikan. Langkah-langkah yang dilakukan dalam analisis data adalah: 1. Memeriksa kebebasan antar peubah dengan menggunakan korelasi Pearson. Koefisien korelasi Pearson dihitung dengan persamaan sebagai berikut:

dengan hipotesis nolnya adalah antar peubah saling bebas. Statistik ujinya dihitung dengan persamaan berikut:

hipotesis nol ditolak jika t lebih besar dari t tabel pada taraf nyata 5% dengan derajat bebas n-2 (Aunuddin 2005). 2. Melakukan analisis komponen utama jika pada langkah 1 hipotesis nol ditolak. 3. Menggerombolkan data baik tanpa pencilan maupun dengan pencilan menggunakan metode k-means dengan tahapan: 3.1 Menentukan pusat gerombol awal secara acak. 3.2 Menghitung jarak setiap objek dengan pusat gerombol dengan menggunakan jarak Euclid. 3.3 Alokasikan tiap objek ke suatu gerombol yang memiliki jarak terdekat dengan pusat gerombolnya. 3.4 Hitung kembali pusat gerombol yang terbentuk dengan merata-ratakan pusat gerombolnya. 3.5 Ulangi dari langkah 3.2 sampai tidak ada perpindahan objek antar gerombol. 4. Menggerombolkan data baik tanpa pencilan maupun dengan pencilan menggunakan metode k-medoid dengan tahapan: 4.1 Inisialisasi, yaitu menentukan k objek sebagai medoid. 4.2 Alokasikan tiap objek ke suatu gerombol yang memiliki jarak terdekat dengan medoid gerombol tersebut. 4.3 Mencari objek lain yang lebih baik sebagai medoid (yang memiliki jarak rataan terkecil ke semua objek) dengan membandingkan semua pasangan objek medoid dan nonmedoid. 4.4 Ulangi langkah 2 dan 3 sampai tidak ada perubahan pada medoid. 5. Membandingkan hasil penggerombolan k-means dan k-medoid pada langkah 3 dan 4. 6. Menghitung tingkat salah klasifikasi pada metode k-means dan k-medoid pada berbagai kondisi proporsi pencilan. 7. Melakukan tahap persiapan dan analisis data hingga rataan nilai tingkat salah klasifikasi cukup konsisten.

HASIL DAN PEMBAHASAN Karakteristik Data Data contoh merupakan data pengamatan empat peubah karakteristik tanaman bunga iris dengan deskripsi tiap peubah ditunjukkan

5

Tabel 1 Deskripsi tiap peubah karakteristik tanaman bunga iris Peubah

Rataan

Standar Deviasi

X1

5.843

0.828

X2

3.057

0.436

X3

3.758

1.765

X4

1.199

0.762

Besarnya korelasi antar peubah dapat dilihat pada Tabel 2. Tabel 2 menunjukkan bahwa hampir pada semua peubah saling berkorelasi dan signifikan pada taraf nyata 5% kecuali pada peubah X1 (panjang sepal) dan X2 (lebar sepal). Hubungan antara panjang sepal (X1) dan panjang petal (X3) bernilai positif dan mempunyai nilai korelasi yang besar (0.872) sehingga peningkatan panjang sepal menyebabkan peningkatan panjang petal dan sebaliknya, begitu pula dengan peubah panjang petal (X3) dan lebar petal (X4). Lebar sepal (X2) memiliki korelasi negatif yang siginifikan pada taraf 5% terhadap panjang petal (X3) dan lebar petal (X4) yang masing-masing bernilai -0.428 dan -0.366. Korelasi antara peubah-peubah tersebut tidak besar namun cukup kuat dibuktikan dengan nilai-p yang signifikan pada taraf 5%.

komponen utama yang mempunyai karakteristik paling mirip dengan karakteristik data asli maka digunakan seluruh komponen utama. Pembentukan dan Identifikasi Pencilan Pengujian keberadaan pencilan pada data dengan menggunakan uji Chi-Square membutuhkan asumsi kenormalan data. Kenormalan data dapat dilihat dengan cara membuat plot Quantil antara nilai jarak kuadrat mahalanobis terurut dengan nilai Chi-Square dari (Johnson & Winchern 1998). Plot Quantil Chi-Square untuk gerombol 1 pada Gambar 1 menunjukkan pola yang mengikuti garis lurus atau linear sehingga data tersebut dapat dikatakan menyebar normal ganda. Hal yang sama juga ditunjukkan oleh plot Quantil Chi-Square untuk gerombol 2 pada Gambar 2 dan plot Quantil Chi-Square untuk gerombol 3 pada Gambar 3. 16 14 12 10

di2

pada Tabel 1. Sedangkan untuk deskripsi setiap gerombol awal pada data contoh dapat dilihat pada Lampiran 1.

8 6 4 2

Tabel 2 Korelasi antar peubah karakteristik tanaman bunga iris

X2 X3 X4

r nilai-p r nilai-p r nilai-p r nilai-p

X2

1 0.000 -0.428 0.000 -0.366 0.000

X3

0

X4

5

10

15

χ2p((j-1/2)/n)

Gambar 1 Plot Quantil Chi-Square gerombol 1 data karakteristik tanaman bunga iris 1 0.000 0.963 0.000

14

1 0.000

Jarak Euclid mensyaratkan tidak adanya korelasi antar peubah pada data, oleh karena itu dilakukan proses transformasi komponen utama untuk mendapatkan nilai antar peubah yang saling bebas. Pada penelitian ini dipilih matriks ragam-peragam sebagai matriks masukan untuk mendapatkan skor komponen utama. Pemilihan matriks ragam-peragam ini didasarkan pada satuan awal data contoh yang sama (cm). Untuk mendapatkan skor

12 10

di2

X1

X1 1 0.000 -0.118 0.152 0.872 0.000 0.818 0.000

0

8 6 4 2 0 0

5

10

χ2p((j-1/2)/n)

15

Gambar 2 Plot Quantil Chi-Square gerombol 2 data karakteristik tanaman bunga iris

6

ini dilakukan untuk memastikan apakah data yang diberikan benar-benar sebagai data pencilan. Dari 5 kali ulangan pembentukan gugus data baru, hasil perhitungan jarak Mahalanobis untuk setiap gerombol menunjukkan bahwa semua pencilan yang diberikan teridentifikasi sebagai pencilan oleh jarak Mahalanobis, baik pada proporsi pencilan 5%, 10% maupun 15%.

16 14 12

di2

10 8 6 4 2

0 0

5

χ2

10

15

p((j-1/2)/n)

Gambar 3 Plot Quantil Chi-Square gerombol 3 data karakteristik tanaman bunga iris Ketiga plot Quantil menunjukkan data menyebar normal ganda, karena itu proses identifikasi pencilan data contoh dapat dilakukan dengan jarak Mahalanobis. Suatu pengamatan disebut pencilan apabila jarak Mahalanobis terhadap nilai tengah melebihi titik kritis . Hasil perhitungan jarak Mahalanobis menunjukkan bahwa tidak ada pencilan pada data contoh. Hal tersebut dikarenakan semua pengamatan memiliki jarak Mahalanobis tidak melebihi 13.277. Jika asumsi kenormalan data tidak terpenuhi, maka alternatif pengujian keberadaan pencilan dapat menggunakan boxplot dari nilai jarak kuadrat Mahalanobis. Data contoh yang digunakan merupakan data yang tidak mengandung pencilan. Oleh karena itu diperlukan data pencilan untuk proses simulasi. Data pencilan dibangkitkan dengan meningkatkan vektor rataan sebesar 70% dari vektor rataan awal data contoh untuk setiap gerombol. Sedangkan untuk matriks ragam-peragam disamakan dengan matriks ragam-peragam tiap gerombol awal data contoh. Tabel

3

Vektor rataan baru pembangkitan gugus pencilan µ1

µ2

µ3

X1

8.510

10.091

11.199

X2

5.827

4.709

5.056

X3

2.485

7.242

9.438

X4

0.418

2.254

3.444

untuk data

Proses awal sebelum dilakukan penggerombolan k-means dan k-medoid adalah pengidentifikasian jumlah pencilan pada berbagai kondisi proporsi pencilan. Hal

Perbandingan Hasil Penggerombolan K-means dan K-medoid Proses penggerombolan dilakukan pada skor komponen utama yang didapat dari hasil transformasi komponen utama pada data asli dan data asli yang telah diberikan proporsi pencilan tertentu. Pembentukan gugus data baru yang mengandung pencilan dilakukan hingga rata-rata hasil tingkat salah klasifikasi baik pada hasil penggerombolan k-means dan k-medoid menunjukkan hasil yang cukup konsisten. Lampiran 2 menunjukkan nilai tingkat salah klasifikasi dari 5 kali ulangan yang meliputi pembangkitan data, penggantian γn data asli dengan data pencilan hingga menggerombolkan data skor utama dari data yang telah diberi pencilan. Untuk menghitung salah klasifikasi pada penggerombolan data dengan proporsi pencilan 0%, hasil penggerombolannya dibandingkan dengan penggerombolan awal data yang telah diketahui. Sedangkan untuk menghitung nilai salah klasifikasi dari data yang sudah diberikan pencilan (proporsi pencilan 5%, 10% dan 15%), hasil penggerombolannya dibandingkan dengan hasil penggerombolan pada proporsi pencilan 0% dan bukan pada penggerombolan data awal yang telah diketahui. Hal ini disebabkan data awal tersebut sudah memiliki nilai salah klasifikasi sendiri, sehingga jika diberi pencilan dapat dilihat bagaimana kemampuan atau kekekaran dari dua metode tersebut. Hasil Penggerombolan Data Asli (Tanpa Pencilan) Dari hasil penggerombolan k-means yang terbentuk dapat dilihat bahwa gerombol 1 (bunga jenis iris Setosa) memiliki jarak gerombol yang terpisah dari gerombol 2 dan 3 (bunga jenis iris Versicolor dan Virginica), sedangkan untuk gerombol 2 dan 3 memiliki jarak gerombol yang dekat satu sama lain. Hal ini dapat dilihat dari hasil plot dua skor komponen utama yang menjelaskan 89.75% keragaman pada data baik pada metode k-means maupun k-medoid. Gambar 4

7

menunjukkan plot penggerombolan data asli dengan metode k-means, sedangkan Gambar 5 menunjukkan plot penggerombolan data asli dengan metode k-medoid.

Gambar 4 Plot gerombol k-means

Gambar 5 Plot gerombol k-medoid

Pada gerombol 1 tidak terjadi salah klasifikasi ke gerombol lain baik pada k-means maupun k-medoid, hal ini diakibatkan gerombol 1 memiliki jarak yang terpisah cukup jauh dengan 2 gerombol lainnya. Lain halnya dengan gerombol 2 dan 3 yang masih terdapat salah klasifikasi karena jarak gerombol yang cukup berdekatan. Dari hasil nilai tingkat salah klasifikasi, k-means memiliki tingkat salah klasifikasi sebesar 16.67%, sedangkan hasil penggerombolan k-medoid memiliki tingkat salah klasifikasi sebesar 15.33%. Pada kondisi ini, hasil penggerombolan k-medoid sedikit lebih baik dibandingkan dengan k-means.

Hasil Penggerombolan Data dengan Pencilan Pada kondisi proporsi pencilan 5%, hasil penggerombolan k-medoid menunjukkan perbedaan yang signifikan dibandingkan dengan hasil penggerombolan pada k-means. Tingkat salah klasifikasi dari rata-rata 5 kali ulangan pada k-means mencapai 34.40%, sedangkan pada k-medoid tingkat salah klasifikasinya hanya sebesar 10.40%. Pada kondisi ini hanya ada delapan pencilan yang dimasukkan ke dalam data awal, sehingga k-medoid masih bisa mengakomodir keberadaan pencilan ini, walaupun pencilan yang diberikan untuk gerombol 2 teridentifikasi sebagai anggota gerombol 3. Hal ini juga ditunjukkan oleh plot gerombol pada Lampiran 4. Pada kondisi proporsi pencilan 10% dan 15% tidak menunjukkan perbedaan yang signifikan baik pada hasil penggerombolan dengan k-means maupun dengan k-medoid. Pada proporsi pencilan 10%, rata-rata hasil tingkat salah klasifikasi k-means sebesar 34.00% sedangkan untuk k-medoid sebesar 33.73%. Pada proporsi pencilan 15% rata-rata hasil tingkat salah klasifikasi k-means sebesar 32.00% dan k-medoid sebesar 32.93%. Pencilan yang diberikan pada kondisi ini membentuk sebuah gerombol tersendiri, yang juga berdampak pada anggota gerombol 3 yang teridentifikasi sebagai gerombol 2, sehingga penggerombolannya menjadi gerombol 1 (bunga jenis iris Setosa), gerombol 2 (bunga jenis iris Versicolor, dan Virginica), serta gerombol pencilan yang diberikan untuk gerombol 2 dan 3. Hal ini dapat dilihat pada Lampiran 5 dan 6. Tabel 4

Rata-rata tingkat salah klasifikasi pada hasil penggerombolan k-means dan k-medoid

Proporsi Pencilan

k-means

k-medoid

0%

16.67%

15.33%

5%

34.40%

10.40%

10%

34.00%

33.73%

15%

32.00%

32.93%

Lampiran 7 menunjukkan koordinat nilai centroid dan medoid pada kedua metode untuk berbagai kondisi pencilan. Perbedaan yang terlihat jelas pada koordinat pusat gerombol kedua metode yaitu pada gerombol 3 saat kondisi proporsi pencilan 5%. Nilai koordinat centroid terlihat cukup besar dibandingkan dengan koordinat objek medoid

8

gerombol 3, karena pada gerombol 3 k-means memberikan hasil penggerombolan yang beranggotakan hanya data pencilan, sedangkan pada k-medoid, gerombol 3 mirip pada gerombol 3 data asli. Dari hasil tingkat salah klasifikasi perbedaan yang signifikan hanya terdapat pada kondisi proporsi pencilan 5%. Pada kasus data ini dimungkinkan adanya suatu batas toleransi dimana k-medoid dapat menangani pencilan, yaitu sampai pada proporsi pencilan 5%. Semakin banyak pencilan yang diberikan maka perpindahan objek antar gerombol semakin sulit dihindari, sehingga nilai tingkat salah klasifikasi pun semakin besar. Hal ini juga tergantung dari karakteristik data yang akan digerombolkan. Semakin dekat jarak antar gerombol maka akan semakin sensitif terhadap keberadaan pencilan dan menyebabkan banyaknya perpindahan objek antar gerombol, begitu pula sebaliknya. Pada kondisi proporsi pencilan 10% dan 15% tidak terdapat perbedaan yang signifikan, karena baik pada k-means maupun k-medoid, pencilan yang diberikan membentuk gerombol tersendiri. Hal ini juga disebabkan pada proses pembentukan pencilan, dimana gugus data pencilan dibentuk berdasarkan sebaran normal ganda. Sehingga kecenderungan pencilanpencilan tersebut untuk menggerombol sulit dihindari.

SIMPULAN DAN SARAN Simpulan Penggerombolan k-medoid menunjukkan hasil yang lebih baik dibandingkan dengan hasil penggerombolan k-means, terutama dalam kondisi proporsi pencilan 5%. Dimana pada taraf ini dimungkinkan sebagai batas toleransi keberadaan pencilan untuk k-medoid. Untuk kondisi proporsi pencilan 10% dan 15% hasil penggerombolan k-means dan k-medoid tidak menunjukkan perbedaan yang signifikan. Hal ini didukung dari pergerakan nilai centroid dan medoid pada kondisi 5% yang cukup berbeda pada gerombol 3. Sedangkan pada kondisi proporsi pencilan 10% dan 15%, koordinat centroid dan medoid tidak terlihat jauh berbeda. Saran Diharapkan pada penelitian selanjutnya dapat mengkaji mengenai proses pembentukan pencilan serta melakukan kontrol secara komputasi terhadap penggantian data asli dengan data pencilan,

dimana data asli yang diganti dan data pencilan pengganti yaitu data yang memiliki nilai jarak Mahalanobis maksimum. Dengan cara tersebut diharapkan hasil penggerombolan pada k-medoid akan lebih baik untuk berbagai kondisi pencilan.

DAFTAR PUSTAKA Agusta Y. 2007. K-means: Penerapan, Permasalahan dan Metode Terkait. Jurnal Sistem dan Informatika. 3(1):47-60. Aunuddin. 1989. Analisis Data. Bogor: IPB Press. _____. 2005. Statistika : Rancangan dan Analisis Data. Bogor : IPB Press. Barnett V, Lewis T. 1994. Outliers in Statistical Data 3rd Edition. New York : John Wiley Hair JF Jr, Anderson RE, Tatham RL, Black WC. 1995. Multivariate Data Analysis 4th Edition. New Jersey : Prentice Hall Har-Peled S, Kushal A. 2007. Smaller Coresets for k-Median and k-Means Clustering. Discrete & Computational Geometry. 37: 3-19. Johnson RA, Winchern DW. 1998. Applied Multivariate Statistical Analisys 4th Edition. London : Prentice-Hall. Kaufman L, Rousseeuw PJ. 1990. Finding Groups in Data: An Introduction to Gerombol Analysis. New York : John Wiley.

LAMPIRAN

10

Lampiran 1 Deskripsi tiap gerombol peubah karakteristik tanaman bunga iris

X1

Gerombol 1 X2 X3

X4

X1

Gerombol 2 X2 X3

X4

X1

Gerombol 3 X2 X3

X4

rataan

5.006

3.428

1.462

0.246

5.936

2.770

4.260

1.326

6.588

2.974

5.552

2.026

st.dev

0.3525

0.3791

0.1737

0.1054

0.5162

0.3138

0.4699

0.1978

0.6359

0.3225

0.5519

0.2747

0.1242

0.0992

0.0164

0.0103

0.2664

0.0852

0.1829

0.0558

0.4043

0.0938

0.3033

0.0491

0.0992

0.1437

0.0117

0.0093

0.0852

0.0985

0.0827

0.0412

0.0938

0.1040

0.0714

0.0476

0.0164

0.0117

0.0302

0.0061

0.1829

0.0827

0.2208

0.0731

0.3033

0.0714

0.3046

0.0488

0.0103

0.0093

0.0061

0.0111

0.0558

0.0412

0.0731

0.0391

0.0491

0.0476

0.0488

0.0754

ragamperagam

Lampiran 2 Nilai tingkat salah klasifikasi penggerombolan data pada berbagai kondisi pencilan k-means k-medoid Salah Klasifikasi (SK) SK Rataan SK SK Rataan SK 0% pencilan 16.67% 16.67% 15.33% 15.33% k=1 32.67% 32.67% 9.33% 9.33% k=2 35.33% 34.00% 9.33% 9.33% 5% pencilan k=3 35.33% 34.44% 11.33% 10.00% k=4 34.67% 34.50% 10.67% 10.17% k=5 34.00% 34.40% 11.33% 10.40% k=1 31.33% 31.33% 36.00% 36.00% k=2 34.00% 32.67% 34.00% 35.00% 10% pencilan k=3 37.33% 34.22% 36.00% 35.33% k=4 32.67% 33.83% 32.67% 34.67% k=5 34.67% 34.00% 30.00% 33.73% k=1 25.33% 25.33% 34.00% 34.00% k=2 35.33% 30.33% 33.33% 33.67% 15% pencilan k=3 32.67% 31.11% 36.00% 34.44% k=4 29.33% 30.67% 32.00% 33.83% k=5 37.33% 32.00% 29.33% 32.93%

11

Lampiran 3 Skript pembangkitan data dengan software Matlab function [Y]=mnorm(mu,sigma,n) %fungsi ini membentuk matriks data yang terdiri dari p variabel dengan mu %dan sigma tertentu %Input: %mu = vektor berukuran 1xp %sigma = matriks ragam peragam berukuran pxp %n = banyaknya pengamatan %p = banyaknya variabel %Output: %Y = matriks data m=size (sigma); p=m(1); for i=1:n Z(i,:)normrnd(0,1,[1 p]); %Z matriks berukuran nxp end a=chol(sigma); %sigma=a'a M=mu(ones(n,1),:); Yt=M'+a'*Z'; Y=Yt'; function [Youtl]=gab(mu1,mu2,mu3,sigma1,sigma2,sigma3) %fungsi ini untuk menggabungkan matriks X dengan parameter berbeda untuk %setiap gerombol menjadi satu matriks baru %Input: %mu1,mu2,mu3 = nilai tengah untuk gerombol 1,2,3 %sigma1,sigma2,sigma3 = matriks ragam peragam untuk gerombol 1,2,3 %Output: %Xoutl = matriks gabungan data pencilan n=50; x1=mvn(mu1,sigma1,n); x2=mvn(mu2,sigma2,n); x3=mvn(mu3,sigma3,n); Youtl=[x1;x2;x3]; function [Xnew]=new(X,Youtl,a) %fungsi ini membentuk matriks gabungan dari matriks data awal (X) dan %matriks pencilan (Youtl) dimana baris ke p pada X diganti dengan baris %ke p pada Youtl %Input: %X = matriks data awal %Youtl = matriks data pencilan %a = besarnya proporsi pencilan yang ingin diganti %Output %Xnew = matriks gabungan sx=size(X); n=sx(1); m=ceil((a/100)*n); Xnew=X; for i=1:m rp=randperm(n); p=rp(1); Xnew(p,:)= Youtl(p,:); end b=cb(Xnew,X); if b<m s=m-b; for k=1:s

12

rp=randperm(n); p=rp(1); if Xnew(p,:)== Youtl(p,:) k=k-1; else Xnew(p,:)= Youtl(p,:); end end end b=cb(Xnew,X) if b>m s=m-b; for k=1:s rp=randperm(n); p=rp(1); if Xnew(p,:)== Youtl(p,:) Xnew(p,:)=X(p,:); end end end

function b=cb(X,Youtl) %fungsi ini menghitung jumlah baris pada matriks X dan Youtl yang %berbeda yang diganti pada proses penggantian data dengan data pencilan %Input: %X, Youtl = matriks data yang dibandingkan %Output %b = jumlah baris yang berbeda sx=size(X); rx=sx(1); b=0; for i=1:rx if X(i,:)== Youtl(i,:) b=b+0; else b=b+1; end end

13

Lampiran 4 Plot gerombol dua skor komponen utama pada proporsi pencilan 5% (Iterasi 1)

5

1

4 3

2 6

7

8

5

Z2

2 1 0

3

4

-1 -2 -2

-1

0

1

2 Z1

3

4

5

6

7

Plot posisi 5% pencilan pada data

Plot gerombol k-means

Plot gerombol k-medoid

14


4

3 14 2

5

3 7

Z2

2

15

6 10 12 11

8

13

14

9

1 0 -1 -2 -2

-1

0

1

2 Z1

3

4

5

6

7




15


4 5 2 36 4

3

7

1

Z2

2

10 11 14 17 12 8 1315

1

9 18 2123

16

22 20

19

0

-1

-2 -3

-2

-1

0

1

2

3

4

5

6

Z1




16

Lampiran 7 Nilai centroid dan medoid pada k-means dan k-medoid pada berbagai kondisi proporsi pencilan (Iterasi 1) k-means

Proporsi Pencilan V1 5%

10%

15%

V2

V3

k-medoid V3

V4

Gerombol 1

-1.813

0.771

0.009

V4 0.015

V1 -1.836

V2 0.755

-0.037

-0.018

medoid 8

Gerombol 2

0.610

-0.643

0.023

-0.008

-0.222

-0.822

-0.010

-0.097

95

Gerombol 3

4.020

2.760

-0.323

0.006

1.335

-0.385

0.132

0.166

140

Gerombol 1

-1.605

0.976

0.016

0.011

-1.845

0.679

-0.016

-0.032

8

Gerombol 2

0.438

-0.719

0.011

-0.004

0.396

-0.852

0.074

0.109

127

Gerombol 3

4.087

1.588

-0.175

-0.018

3.618

1.782

-0.103

0.039

59

Gerombol 1

-1.489

1.025

0.017

0.010

-1.779

0.785

0.002

0.008

1

Gerombol 2

3.649

0.885

-0.125

-0.001

3.017

0.959

-0.320

-0.074

100

Gerombol 3

0.191

-0.779

0.014

-0.006

0.152

-0.885

0.077

0.099

127

PERBANDINGAN PENGGEROMBOLAN K-MEANS DAN K-MEDOID PADA DATA YANG MENGANDUNG PENCILAN YANNE FLOWRENSIA

Recommend Documents