METODE CLUSTERING DATA BINER Naniek Widyastuti Jurusan Teknik Infromatika, Fakultas Teknologi Industri, IST AKPRIND Yogyakarta
ABSTRAK Analisis cluster adalah metode pengelompokan data/obyek ke dalam cluster sehingga dalam setiap cluster akan berisi data yang semirip mungkin. Dalam clustering diusahakan untuk menempatkan obyek yang mirip dalam satu cluster dan membuat jarak antar cluster sejauh mungkin. Dalam penelitian ini dibicarakan dua buah kasus yaitu kasus pertama pengelompokan jenis bahasa dengan melihat kesamaan huruf pertama menggunakan jarak frekuensi dan kasus kedua pengelompokan jenis kendaraan menggunakan jarak Hamming dan metode pengclusteran yang digunakan adalah metode agglomerative single linkage. Kemudian pada dua kasus tersebut dihitung jarak antar cluster dengan metode single linkage, complete linkage dan average linkage, dan hasilnya berdasarkan dendrogram dibagi pengelompokannya. Khusus pada data kasus kedua dalam hal data berbentuk kontinu dengan menggunakan jarak Euclide, jarak antar cluster dihitung dengan metode single linkage, complete linkage dan average linkage, dan hasilnya berdasarkan dendrogram dibagi pengelompokannya. Dari hasil pengclusteran kemudian dilihat perbandingan antar data biner/diskrit dengan data kontinu. Berdasarkan dendrogram dari metode single linkage. metode complete linkage, dan metode average linkage untuk pengelompokan 11 bahasa (kasus pertama), dibagi menjadi 3 kelompok. Berdasarkan dendrogram dari metode single linkage. metode complete linkage, dan metode average linkage, untuk pengelompokan jenis kendaraan (kasus kedua) dibagi menjadi 3 kelompok. Sedang pada pengelompokan jenis kendaraan dengan data asli yang bersifat kontinu berdasarkan dendrogram dengan menggunakan metode single linkage menghasilkan 4 kelompok, dengan metode average linkage menghasilkan 4 kelompok, dan dengan complete linkage menghasilkan 3 kelompok.
Kata kunci: jarak frekuensi, jarak Hamming, agglomerative single linkage, complete linkage dan average linkage
Pendahuluan Cluster adalah kumpulan obyek-obyek yang mempunyai kesamaan dalam cluster (within) dan ketidaksamaan diantara cluster ( between ). Analisis cluster adalah metode untuk mengelompokkan obyek dalam beberapa kelas berdasarkan kesamaan atau ketidaksamaan ciri yang muncul dari obyek-obyek tersebut ( Hardle dan Simar, 2003, Johnson dan Wichren, 2002 ). Saat ini cukup banyak dikembangkan metode dan algoritma clustering antara lain metode hierarkhi yang mencakup agglomerative dan divisive algorithm; partisioning method mencakup relocation algorithm, probabilistic clustering, k-medoid dan k-means method; serta metoda-metoda yang berbasis neural network. Clustering diterapkan secara luas dalam bidang analisis pasar modal, segmentasi pasar dalam dunia bisnis dan juga pengenalan pola. Mengingat luasnya penerapan dan banyaknya metode untuk clustering, beberapa penulis telah membandingkan kinerja dari beberapa metode tersebut, misalnya Hamzah (2005) untuk dokumen berbahasa Indonesia, Uyun (2006) untuk data saham. Di dalam clustering ukuran kemiripan yang digunakan adalah ukuran jarak. Untuk variabel kontinu ukuran jarak yang sering digunakan adalah jarak Euclidean, Widyastuti (2007) telah menggunakan jarak Mahalanobis untuk data dengan sebaran yang signifikan. Persoalan khusus dalam clustering yang belum banyak dibicarakan adalah persoalan clustering dengan data diskrit biner yang memerlukan ukuran kesamaan khusus. Penelitian ini akan memperluas metode clustering dengan penyajian data diskrit biner. Perumusan Masalah Usaha utama untuk membentuk cluster adalah pembangunan ukuran kesamaan. Walaupun banyak unsur subyektifitas yang terkait, namun secara umum pembentukan ukuran harus
328
memperhatikan bentuk variabel seperti kontinu dan diskrit. Untuk variabel kontinu telah dikenal beberapa bentuk jarak, misalnya Euclidean, Manhattan, Minskowski, dan Mahalanobis. Bila unsur atau item tidak dapat disajikan dalam pengukuran dimensi-p yang berarti pasangan item sering dibandingkan dengan basis ada atau tidak adanya karakteristik tertentu. Item-item sejenis mempunyai karakteristik bersamaan yang lebih banyak dibandingkan item tidak sejenis. Ada atau tidak adanya karakteristik secara matematis dapat digambarkan dengan memperkenalkan variabel biner, yaitu memberikan nilai 1 bila ada karakteristik yang muncul dan 0 bila karakteristik tidak muncul. Selanjutnya dari matriks pengamatan yang muncul didefinisikan jarak yang sesuai, dalam penelitian ini digunakan dua jarak yaitu jarak frekuensi dan jarak Hamming. Agar pembahasan nantinya tidak meluas, pada tahap awal dalam penelitian ini akan digunakan metode hierarkhi dengan menggunakan algoritma agglomerative sebagai berikut: 1. Mulai dengan N cluster, masing-masing dengan satu obyek dan N x N matriks jarak. 2. Dari matriks jarak diatas, cari pasangan cluster terdekat (paling mirip). Misalkan jarak antara cluster ‘paling dekat’ U dan V adalah d u v. 3. Gabungkan cluster U dan V. Cluster baru terbentuk diberi nama (UV). Perbarui matriks jarak dengan : a. menghilangkan baris dan kolom yang bersesuaian dengan cluster U dan V. b. Menambahkan baris dan kolom yang memberikan jarak antara cluster (UV) dan cluster tersisa. 4. Ulangi langkah 2 dan 3 sebanyak N-1 kali. 5. Hasilnya digambarkan dalam dendrogram Tinjauan Pustaka Menurut Hardle dan Simar (2003) cluster berkenaan dengan obyek-obyek yang memiliki kemiripan. Dalam pemasaran internasional, negara-negara yang memiliki kemiripan dimasukkan dalam satu cluster, seperti APEC, kelompok G7 dan sebagainya. Selanjutnya tujuan dari analisis cluster adalah mengelompokkan beberapa objek/data menjadi beberapa kelompok, dimana setiap data akan menjadi anggota dari suatu cluster jika memiliki derajat kesamaan yang tinggi dan mempunyai derajat ketidaksamaan dengan cluster yang lain. Sedang menurut Hairs et.al (2006) tujuan analisa cluster adalah menempatkan sekumpulan obyek ke dalam dua atau lebih kelompok berdasarkan kesamaan obyek atas dasar suatu karakteristik, misalnya jarak atau korelasi antar obyek. Menurut Sucahyo (2003) dalam perkembangannya analisis cluster dapat digunakan sebagai model data mining untuk menembak target pasar, menyelidiki pola beli pelanggan dan analisis crossmarket. Titik awal analisis cluster adalah matriks data dengan n obyek dari p variabel. Kesamaan diantara obyek-obyek digambarkan melalui matriks D( n xn ) sebagai berikut:
⎡ d11 ⎢d ⎢ 21 D= ⎢ . ⎢ ⎢ . ⎢⎣ d n1
d12 d 22
. .
. .
d n2
.
.
d 1n ⎤ d 2 n ⎥⎥ .⎥ ⎥ ⎥ d nn ⎥⎦
Bentuk observasi memainkan peran penting dalam pemilihan bentuk kesamaan atau ungsi jarak. Untuk observasi kontinu telah dikenal beberapa jenis jarak seperti Euclidean, Manhattan, Minskowski, dan Mahalanobis. Dalam penelitian ini akan digunakan observasi diskrit dan menggunakan jarak frekuensi dan jarak Hamming. Metode clustering yang dipakai adalah agglomerative bukan partisioning method sesuai yang disarankan oleh Eric (2007). Tujuan Penelitian Penelitian ini bertujuan : 1. Menggunakan algoritma agglomerative dengan jarak frekuensi dan jarak Hamming. 2. Menghitung jarak antar cluster dengan metode single linkage, complete linkage dan average linkage. 3. Hasilnya digambarkan dalam bentuk dendrogram untuk memudahkan pembentukan kelompok/cluster. 4. Mengimplementasikannya pada program MATLAB 6.5.1 untuk data jenis bahasa dan jenis kendaraan. 329
Metode Penelitian Penelitian ini akan dilakukan sebagai berikut: 1. Tahap studi literature dan pemahaman masalah. Pada tahap ini ditempuh dengan mengumpulkan literature, baik berupa artikel dari Jurnal, majalah atau buku teks yang berhubungan dengan permasalahan clustering dan algoritmanya 2. Pembuatan Program. 3. Setelah diketahui algoritma agglomerative dengan jarak frekuensi dan jarak Hamming, kemudian dibuat programnya dengan MATLAB 6.5.1. 4. Hasil dan pembahasan dari dua buah kasus yaitu pengelompokan jenis bahasa dan pengelompokan jenis kendaraan. 5. Penulisan laporan. HASIL DAN PEMBAHASAN Prosedur analisis cluster dimulai dengan matriks observasi berukuran n x p dengan n jumlah observasi dan p jumlah variabel pengamatan. Berdasarkan matriks pengamatan tersebut dicari ukuran kesamaan melalui beberapa ukuran jarak misalnya Euclidean, Mahalanobis untuk data-data kontinu dan jarak Hamming serta jarak frekuensi untuk pengamatan biner. Penelitian ini membahas dua kasus dengan item atau obyek penelitian tidak dapat disajikan dalam bentuk pengukuran kontinu. Data Diskrit Kasus Pertama Dari sebelas bahasa di Eropa yaitu Inggris, Norwegia, Denmark, Belanda, Jerman, Perancis, Spanyol, Italia, Polandia, Hungaria, dan Firlandia, akan dicari kemiripannya. Membandingkan semua kata adalah kemustahilan untuk dilaksanakan. Salah satu kemungkinan untuk membandingkan bahasa adalah membandingkan arti numerik yaitu bilangan 1, 2, 3, 4, 5, 6, 7, 8, dan 9 yang mempunyai nilai universal. Bilangan 1, 2, 3, 4, 5, 6, 7, 8, dan 9 dalam sebelas bahasa adalah sebagai berikut Tabel 5.1. Bilangan dalam sebelas bahasa 1 2 3 4 5 Inggris Norwegia Denmark Belanda Jerman One En en Een ein Two To To Twee Zwei three Tre Tre Drie Drei Four Fire Fire Vier Vier Five Fem Fem Vijf Funf Six Seks Seks Zes Sechs Seven Sju Syv Zeven Sieben Eight Atte Otte Acht Acht Nine Ni Ni Negen Neun Ten Ti Ti tien Zehn
6 Perancis Un Deux Trois Quatre Cinq Six Sept Huit Neuf dix
7 Spanyol uno Dos Tres Cuatro Cinco Seix Siete Ocho Nueve Diez
8 Italia Uno Due Tre Quattro Cinque Sei Sette Otto Nove dieci
9 Polandia jeden Dwa Trzy Cztery Piec Szesc Siedem Osiem Dziewiec Dziesiec
10 Hungaria Egy Ketto Harom Negy Ot Hat Het Nyolc Kilenc tiz
11 Firlandia Yksi Kaksi Kolme Neua Viisi Kuusi Seitseman Kahdeksan yhdeksan Kymmenen
Dua bilangan disebut sejenis bila dua bilangan tersebut mempunyai huruf pertama yang sama. Selanjutnya kesamaan huruf pertama untuk keseluruhan bilangan dalam sebelas bahasa dinyatakan dengan matriks berikut: X= 10 8 8 3 4 4 4 4 3 1 1 8 10 9 5 6 4 4 4 3 2 1 8 9 10 4 5 4 5 5 4 2 1 3 5 4 10 5 1 1 1 0 2 1 4 6 5 5 10 3 3 3 2 1 1 4 4 4 1 3 10 8 9 5 0 1 4 4 5 1 3 8 10 9 7 0 1 4 4 5 1 3 9 9 10 6 0 1 3 3 4 0 2 5 7 6 10 0 1 1 2 2 2 1 0 0 0 0 10 2 1 1 1 1 1 1 1 1 1 2 10 330
1. Metode single linkage. Berdasarkan data pertama pada metode single linkage dengan program MATLAB menghasilkan sebagai berikut: Jarak antar cluster adalah sebagai berikut: 151.0022 153.0017 154.0017 155.0017 156.0017 157.0017 158.0017 159.0017 160.0017 161.0017
Gambar 5.1. Hasil Pengclusteran dengan Metode single linkage (data kasus I) Dari dendrogram diatas terlihat bahwa pengelompokan menjadi 3 kelompok yaitu {6, 7, 8}; {1, 2, 3}; {4, 11, 9, 5, 10} atau {Perancis, Spanyol, Italia}; {Inggris, Norwegia, Denmark}; {Belanda, Firlandia, Polandia, Jerman, Hungaria} 2. Metode complete linkage Dengan data yang sama pada metode single linkage dan menggunakan metode complete linkage dengan program MATLAB menghasilkan sebagai berikut: Jarak antar cluster adalah sebagai berikut: 100.0035 102.0010 103.0010 104.0010 105.0010 106.0010 107.0010 108.0010 109.0010
331
110.0010
Gambar 5.2. Hasil Pengclusteran dengan metode complete linkage (data kasus I) Dari dendrogram diatas terlihat bahwa pengelompokan menjadi 3 kelompok yaitu {6, 7, 8, 5}; {1, 2, 3, 9}; {4, 11,10} atau {Perancis, Spanyol, Italia, Jerman}; {Inggris, Norwegia, Denmark, Polandia}; {Belanda, Firlandia, Hungaria}; 3. Metode average linkage Dengan data yang sama pada metode single linkage dan menggunakan metode average linkage dengan program MATLAB menghasilkan sebagai berikut: Jarak antar cluster adalah sebagai berikut: 100.0029 102.0009 103.0009 104.0009 105.0009 106.0009 107.0009 108.0009 109.0009 110.0009
Gambar 5.3. Hasil Pengclusteran dengan metode average linkage(data kasus I) 332
Dari dendrogram diatas terlihat bahwa pengelompokan menjadi 3 kelompok yaitu {6, 7, 8, 5, 9}; {1, 2, 3}; {4, 11,10} atau {Perancis, Spanyol, Italia, Jerman, Polandia}; {Inggris, Norwegia, Denmark}; {Belanda, Firlandia, Hungaria}. Kasus Kedua. Data penilaian rata-rata 24 jenis kendaraan pada 40 orang, dengan jelajah penilaian dari 1 ( sangat baik ) sampai 6 ( sangat jelek ). Variabel-variabelnya adalah sebagai berikut: X1= A ( Economy) X2 = B ( Service ) X3 = C ( Non-depreciation of value ) X4 = D ( Price, Mark 1 for very cheap cars ) X5 = E ( design ) X6 = F ( Sporty car ) X7 = G ( Safety ) X8 = H ( Easy handling ) Tabel 5.2. Data penilaian rata-rata dari 24 jenis kendaraan No 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Jenis kendaraan Audi BMW Citroen Ferrari Fiat Ford Hyundai Jaguar Lada Mazda Mercedes Mitsubishi Nissan Opel C Opel V Peugeot Renault Rover Toyota Volvo
21 22 23 24
Trabant VW G VW P Wartburg
A
B
C
D
E
F
G
H
3.9 4.8 3.0 5.3 2.1 2.3 2.5 4.6 3.2 2.6 4.1 3.2 2.6 2.2 3.1 2.9 2.7 3.9 2.5 3.8
2.8 1.6 3.8 2.9 3.9 3.1 3.4 2.4 3.9 3.3 1.7 2.9 3.3 2.4 2.6 3.5 3.3 2.8 2.9 2.3
2.2 1.9 3.8 2.2 4.0 3.4 3.2 1.6 4.3 3.7 1.8 3.2 3.9 3.0 2.3 3.6 3.4 2.6 3.4 1.9
4.20 5.00 2.70 5.90 2.10 2.60 2.20 5.50 2.00 2.80 4.60 3.50 2.10 2.60 3.60 2.80 3.00 4.00 3.00 4.20
3.00 2.00 4.00 1.70 4.50 3.20 3.30 1.30 4.30 3.70 2.40 3.10 3.50 3.20 2.80 3.20 3.10 2.60 3.20 3.10
3.10 2.50 4.40 1.10 4.40 3.30 3.30 1.60 4.50 3.00 3.20 3.10 3.90 4.0 2.9 3.8 3.4 3.0 3.1 3.6
2.40 1.60 4.00 3.30 4.40 3.60 3.30 2.80 4.70 3.70 1.40 2.90 3.80 2.90 2.40 3.20 3.00 3.20 3.20 1.60
2.80 2.80 2.60 4.30 2.20 2.80 2.40 3.60 2.90 3.10 2.40 2.60 2.40 2.40 2.40 2.60 2.70 3.00 2.80 2.40
3.6 2.4 3.1 3.7
4.7 2.1 2.2 4.7
5.5 2.0 2.1 5.5
1.50 2.6 3.2 1.7
4.10 3.2 3.5 4.8
5.8 3.1 3.5 5.2
5.90 3.10 2.8 5.5
3.10 1.60 1.8 4.0
(diambil dari Hardle, W, dan Simar, L, 2003) Pandang variabel biner ( Hardle and Simar halaman 305) yang didefinisikan sebagai
⎧1 bilaxik > xk yanglain ⎩0
Yik = ⎨
Hasil transformasi dari data diatas memberikan matriks observasi sebagai berikut: a= 01101001 01101000 10000000 01101100 10010001 11011001 10110001 01101110 10010001 10010101 01101111 333
11101111 10010001 11111011 11101111 10011011 10011011 01101111 11011111 01101011 00010001 11111111 11110011 00010000 Untuk jarak diperkenalkan jarak Hamming sebagai berikut Jarak Hamming antara dua string dengan panjang sama adalah jumlah posisi dengan simbol yang bersesuaian berbeda. Sebagai contoh jarak Hamming antara 1011101 dan 1001001 adalah 2 dan 2173896 dan 2233796 adalah 3 antara ’tones’ dan ’roses’ adalah 3. 1. Metode single linkage. Berdasarkan data yang telah ditransformasikan kedalam bentuk 0 dan 1 maka hasil proses clusterisasi dari 24 jenis kendaraan dengan program MATLAB adalah sebagai berikut: Jarak antar cluster adalah sebagai berikut: 100.0009 102.0002 103.0002 104.0002 105.0002 106.0002 107.0002 108.0002 109.0002 110.0002 111.0002 112.0002 113.0002 114.0002 115.0002 116.0002 117.0002 118.0002 119.0002 120.0002 121.0002 122.0002 123.0002
334
Gambar 5.4. Hasil Pengclusteran dengan metode single linkage(data kasus II) Dari dendrogram diatas terlihat bahwa pengelompokan menjadi 3 kelompok yaitu {13, 9, 7, 10, 21, 24}; {1, 2, 4, 8, 11, 18, 12, 15, 20, 22, 14, 19, 23}; {3, 6, 16, 17} atau { Nissan, Lada, Hyundai, Mazda, Trabant, Watburg}; {Audi, BMW, Ferrari, Jaguar, Mercedes, Rover, Mitsubishi, Opel V, Volvo, VW G, Opel C, Toyota, VW P}; {Citroen, Ford, Peugeot, Renault}. 2. Metode complete linkage Dengan data yang sama pada metode single linkage dan menggunakan metode complete linkage dengan program MATLAB menghasilkan sebagai berikut Jarak antar cluster adalah sebagai berikut: 100.0021 102.0005 103.0005 104.0005 105.0005 106.0005 107.0005 108.0005 109.0005 110.0005 111.0005 112.0005 113.0005 114.0005 115.0005 116.0005 117.0005 118.0005 119.0005 120.0005 121.0005 122.0005 123.0005
335
Gambar 5.5. Hasil Pengclusteran dengan metode complete linkage(data kasus II) Dari dendrogram diatas terlihat bahwa pengelompokan menjadi 3 kelompok yaitu {5, 9, 13, 7, 10, 3, 21, 24}; {1, 2, 20, 4, 8, 11, 18, 12, 15}; {6, 16, 17, 19, 14, 22, 23} atau {Fiat, Lada, Nissan, Hyundai, Mazda, Citroen, Trabant, Wartburg}; {Audi, BMW, Volvo, Ferrari, Jaguar, Mercedes, Rover, Mitsubishi, Opel V}; {Ford, Peugeot, Renault, Toyota, Opel C, VW G, VW P}
3. Metode average linkage Dengan data yang sama pada metode single linkage dan menggunakan metode average linkage dengan program MATLAB menghasilkan sebagai berikut Jarak antar cluster adalah sebagai berikut: 100.0015 102.0004 103.0004 104.0004 105.0004 106.0004 107.0004 108.0004 109.0004 110.0004 111.0004 112.0004 113.0004 114.0004 115.0004 116.0004 117.0004 118.0004 119.0004 120.0004 121.0004 122.0004 123.0004
336
Gambar 5.6. Hasil Pengclusteran dengan metode average linkage(data kasus II) Dari dendrogram diatas terlihat bahwa pengelompokan menjadi 3 kelompok yaitu {5, 13, 9, 7, 10, 21, 24, 3}; {6, 16, 17, 14, 22, 19, 23 }; {1, 2, 20, 4. 8, 11, 18, 12, 15} atau {Fiat, Nissan, Lada, Hyundai, Mazda, Trabant, Wartburg, Citroen}; {Ford, Peugeot, Renault, Opel C, VW G, Toyota, VW P}; {Audi, BMW, Volvo, Ferrari, Jaguar, Mercedes, Rover, Mitsubishi, Opel V}. Data Kontinu Pada data sebelumnya adalah dengan data yang bersifat diskrit, selanjutnya akan dilihat pengclusterannya jika data bersifat kontinu. Dari Data kasus pertama dan kasus kedua yang bersifat kontinu adalah Data kasus kedua dengan data asli. Untuk data kontinu juga dilihat pengelompokan menggunakan metode single, complete dan average linkage. Kasus kedua. Data asli pada kasus kedua adalah: Tabel 5.3. Data asli Kasus Kedua No 1. 2. 3. 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Jenis kendaraan Audi BMW Citroen Ferrari Fiat Ford Hyundai Jaguar Lada Mazda Mercedes Mitsubishi Nissan Opel C Opel V Peugeot Renault Rover Toyota Volvo
21 22 23 24
Trabant VW G VW P Wartburg
A
B
C
D
E
F
G
H
3.9 4.8 3.0 5.3 2.1 2.3 2.5 4.6 3.2 2.6 4.1 3.2 2.6 2.2 3.1 2.9 2.7 3.9 2.5 3.8
2.8 1.6 3.8 2.9 3.9 3.1 3.4 2.4 3.9 3.3 1.7 2.9 3.3 2.4 2.6 3.5 3.3 2.8 2.9 2.3
2.2 1.9 3.8 2.2 4.0 3.4 3.2 1.6 4.3 3.7 1.8 3.2 3.9 3.0 2.3 3.6 3.4 2.6 3.4 1.9
4.20 5.00 2.70 5.90 2.10 2.60 2.20 5.50 2.00 2.80 4.60 3.50 2.10 2.60 3.60 2.80 3.00 4.00 3.00 4.20
3.00 2.00 4.00 1.70 4.50 3.20 3.30 1.30 4.30 3.70 2.40 3.10 3.50 3.20 2.80 3.20 3.10 2.60 3.20 3.10
3.10 2.50 4.40 1.10 4.40 3.30 3.30 1.60 4.50 3.00 3.20 3.10 3.90 4.0 2.9 3.8 3.4 3.0 3.1 3.6
2.40 1.60 4.00 3.30 4.40 3.60 3.30 2.80 4.70 3.70 1.40 2.90 3.80 2.90 2.40 3.20 3.00 3.20 3.20 1.60
2.80 2.80 2.60 4.30 2.20 2.80 2.40 3.60 2.90 3.10 2.40 2.60 2.40 2.40 2.40 2.60 2.70 3.00 2.80 2.40
3.6 2.4 3.1 3.7
4.7 2.1 2.2 4.7
5.5 2.0 2.1 5.5
1.50 2.6 3.2 1.7
4.10 3.2 3.5 4.8
5.8 3.1 3.5 5.2
5.90 3.10 2.8 5.5
3.10 1.60 1.8 4.0
( data diambil dari Hardle, W, dan Simar, L, 2003) Dengan program MATLAB data tersebut dapat ditulis sebagai berikut: 337
a=[3.9 2.8 2.2 4.2 3. 3.1 2.4 2.8; 4.8 1.6 1.9 5.0 2.0 2.5 1.6 2.8; 3.0 3.8 3.8 2.7 4.0 4.40 4.0 2.6; 5.3 2.9 2.2 5.9 1.7 1.1 3.3 4.3; 2.1 3.9 4.0 2.1 4.5 4.4 4.4 2.2; 2.3 3.1 3.4 2.6 3.2 3.3 3.6 2.8; 2.5 3.4 3.2 2.2 3.3 3.3 3.3 2.4; 4.6 2.4 1.6 5.5 1.3 1.6 2.8 3.6; 3.2 3.9 4.3 2.0 4.3 4.5 4.7 2.9; 2.6 3.3 3.7 2.8 3.7 3.0 3.7 3.1; 4.1 1.7 1.8 4.6 2.4 3.2 1.4 2.4; 3.2 2.9 3.2 3.5 3.1 3.1 2.9 2.6; 2.6 3.3 3.9 2.1 3.5 3.9 3.8 2.4; 2.2 2.4 3.0 2.6 3.2 4.0 2.9 2.4; 3.1 2.6 2.3 3.6 2.8 2.9 2.4 2.4; 2.9 3.5 3.6 2.8 3.2 3.8 3.2 2.6; 2.7 3.3 3.4 3.0 3.1 3.4 3.0 2.7; 3.9 2.8 2.6 4.0 2.6 3.0 3.2 3.0; 2.5 2.9 3.4 3.0 3.2 3.1 3.2 2.8; 3.8 2.3 1.9 4.2 3.1 3.6 1.6 2.4; 3.6 4.7 5.5 1.5 4.1 5.8 5.9 3.1; 2.4 2.1 2.0 2.6 3.2 3.1 3.1 1.6; 3.1 2.2 2.1 3.2 3.5 3.5 2.8 1.8; 3.7 4.7 5.5 1.7 4.8 5.2 5.5 4.0];
1. Metode single linkage. Berdasarkan data asli Kasus Kedua pada metode single linkage dengan program MATLAB menghasilkan sebagai berikut: Jarak antar cluster adalah sebagai berikut: 100.0010 102.0004 103.0004 104.0004 105.0004 106.0004 107.0004 108.0004 109.0004 110.0004 111.0004 112.0004 113.0004 114.0004 115.0004 116.0004 117.0004 118.0004 119.0004 120.0004 121.0004 122.0004 123.0004
338
Gambar 5.7. Hasil Pengclusteran dengan metode single linkage(data kasus II asli) Dari dendrogram diatas terlihat bahwa pengelompokan menjadi 4 kelompok yaitu {17, 19, 16, 6, 7, 10, 12, 13}; {1, 18, 15, 3, 11, 20, 9, 2, 14, 22, 23}; {4,8} ; {21, 24} atau {Renault, Toyota, Peugeot, Ford, Hyundai, Mazda, Mitsubishi, Nissan}; {Audi, Rover, Opel V, Citroen, Mercedes, Volvo, Lada, BMW. Opel C, VW G, VW P}; {Ferrari, Jaguar}; {Trabant, Wartburg}
2. Metode average linkage. Dengan data yang sama pada metode single linkage dan menggunakan metode average linkage dengan program MATLAB menghasilkan sebagai berikut Jarak antar cluster adalah sebagai berikut: 100.0011 102.0005 103.0005 104.0005 105.0005 106.0005 107.0005 108.0005 109.0005 110.0005 111.0005 112.0005 113.0005 114.0005 115.0005 116.0005 117.0005 118.0005 119.0005 120.0005 121.0005 122.0005 123.0005
339
Gambar 5.8. Hasil Pengclusteran dengan metode average linkage(data kasus II asli) Dari dendrogram diatas terlihat bahwa pengelompokan menjadi 4 kelompok yaitu {17, 19, 6, 16, 7, 10, 14, 3, 13, 5,9}; {1, 18, 12, 15, 22, 23, 2, 11, 20}; {4, 8}; {21, 24} atau { Renault, Toyota, Ford, Peugeot, Hyundai, Mazda, Opel C, Citroen, Nissan, Fiat, Lada}; {Audi, Rover, Mitsubishi, Opel V, VW G, VW P, BMW, Mercedes, Volvo}; {Ferrari, Jaguar}; {Trabant, Wartburg} 3. Metode complete linkage. Dengan data yang sama pada metode single linkage dan menggunakan metode complete linkage dengan program MATLAB menghasilkan sebagai berikut Jarak antar cluster adalah sebagai berikut: 100.0017 102.0006 103.0006 104.0006 105.0006 106.0006 107.0006 108.0006 109.0006 110.0006 111.0006 112.0006 113.0006 114.0006 115.0006 116.0006 117.0006 118.0006 119.0006 120.0006 121.0006 122.0006 123.0006
340