Bab 2 Tinjauan Pustaka 2.1
Penelitian Terdahulu Adapun penelitian terdahulu yang berkaitan dalam
penelitian ini berjudul “Penentuan Wilayah Usaha Pertambangan Menggunakan Metode Fuzzy K-Mean Clustering Berbasis Sistem Informasi Geografi”. Pada penelitian ini, metode Fuzzy K-Mean Clustering
diterapkan
pada
penentuan
wilayah
usaha
pertambangan di Kabuapten Trenggalek, Jawa Timur. Hasil dari penerapan metode tersebut adalah segmentasi wilayah usaha pertambangan yang dapat menggambarkan karakteristik bahan galian
pada
setiap
kelompoknya,
sehingga
selain
dapat
mempermudah penetapan rencana umum tata ruang daerah dalam pengalokasian wilayah usaha pertambangan bahan galian, hasil segmentasi ini juga dapat mempermudah peminat dan pelaku usaha tambang dalam memilih wilayah kegiatan usaha tambang yang prospek di Kabupaten Trenggalek, Jawa Timur (Suryana, 2010). Penelitian yang berjudul “Sistem Market Basket Untuk Menentukan
Tata
Letak
Produk
Pada
Suatu
Swalayan
Menggunakan Algoritma K-Means Clustering” juga merupakan salah satu penilitian yang berkaitan dengan penilitian ini. Market basket analysis adalah salah satu teknik data mining yang dapat menemukan pola yang berupa produk-produk yang sering dibeli bersamaan dalam sebuah transaksi. Dalam penelitian tersebut,
5
6
dijelaskan
bagaimana
menggunakan
market
Algoritma
basket
K-Means
analysis
clustering
dengan
berdasarkan
kebiasaan konsumen berbelanja untuk menghasilkan suatu model tata letak produk. Algoritma K-Means clustering digunakan untuk membagi data ke dalam cluster sehingga data yang memiliki karakteristik yang sama dikelompokkan ke dalam satu cluster yang sama dan data yang mempunyai karakteristik berberda dikelompokkan ke dalam cluster lain. Hasil dari penelitian tersebut adalah sebuah model tata letak produk yang dapat digunakan oleh pihak manajemen swalayan (Sebayang, 2012). Penelitian lain yang berkaitan dalam penelitian ini berjudul “Implementasi Metode Heatmap 2-D Untuk Visualisasi Data Terdistribusi”. Penelitian ini membuat aplikasi sebagai alat bantu untuk menampilkan data terdistribusi dalam bentuk visual sehingga lebih menarik dan mudah dibaca. Adapun aplikasi ini dibuat dengan tujuan mempermudah pengguna dalam mencari data dalam basis data XML serta mudah dalam mengambil kesimpulan dan atau keputusan manajerial (Lisana dan Praman, 2013). Mengacu pada penelitian terdahulu, maka akan dilakukan penelitian
yang
berjudul
Perancangan
dan
Implementasi
Clustering Data Menggunakan Algoritma K-Means Berbasis Heatmap. Dalam penelitian ini, data yang akan dikelompokkan
7
adalah potensi bahan tambang di Provinsi Papua Barat kemudian disajikan dalam sebuah aplikasi web menggunakan Heat Map. 2.2
Clustering Clustering merupakan salah satu teknik dalam data
mining. Clustering membagi objek ke dalam kelompok atau cluster tertentu, sehingga objek dalam suatu cluster memiliki kemiripan dengan objek lain dalam cluster yang sama dan berbeda dengan objek pada cluster yang lain. Kemiripan objek umumnya didefinisikan berdasarkan jarak kedekatan antar objek yang ditentukan melalui fungsi jarak (Han dkk, 2011).
Gambar 2.1 Clustering Dalam Ruang Dua Dimensi. (a) Inisialisasi Data;(b) Data dalam tiga cluster; (c) Data dalam empat cluster (Kantardzic, 2011)
Pada Gambar 2.1 terdapat sembilan objek yang akan dikelompokkan. Gambar 2.1(b) menggambarkan kesembilan objek tersebut dikelompokkan menjadi tiga cluster, objek yang saling berdekatan dikelompokkan dalam satu cluster yang sama.
8
Sedangkan pada Gambar 2.1(c), terlihat kesembilan objek yang ada dikelompokkan menjadi empat cluster. Clustering telah diterapkan pada beberapa bidang seperti berikut ini (Zaiane, 2007): 1.
Bidang Pemasaran Dalam bidang pemasaran, algoritma clustering digunakan
untuk membantu menemukan perbedaan kelompok pelanggan dan kemudian mengembangkan program pemasaran yang ditargetkan. 2.
Bidang Biologi Algoritma clustering ini digunakan dalam bidang biologi
untuk menemukan gen-gen yang memiliki fungsi yang serupa untuk digolongkan menjadi suatu cluster tertentu. 3.
Bidang Land Use Algoritma clustering ini digunakan dalam bidang land use
untuk mengidentifikasi bidang tanah yang sama yang digunakan dalam pengamatan bumi. 4.
Bidang Asuransi Algoritma clustering ini digunakan dalam bidang asuransi
untuk mengidentifikasi kelompok pemegang polis asuransi motor dengan rata-rata klaim biaya yang tinggi. 5.
Bidang Perencanaan Tata Kota Algoritma
clustering
ini
digunakan
dalam
bidang
perencanaan tata kota untuk mengidentifikasi kelompok dari rumah ke rumah sesuai jenis, nilai dan geografis lokasi.
9
Secara umum metode clustering dapat dibagi menjadi beberapa kategori, antara lain metode parsial dan metode hirarki (Han dkk, 2011). 1.
Metode Parsial Metode parsial adalah metode clustering yang sederhana
dan merupakan konsep dasar dari analisis cluster. Metode parsial mengorganisir sejumlah data tertentu ke dalam kelompok yang lebih spesifik atau cluster. Jumlah cluster yang diberikan merupakan parameter dalam untuk memulai metode parsial. Secara formal, pemberian sejumlah data (D) dari n objek dan jumlah cluster (K) untuk melakukan proses clustering. Sebuah algortima partisi mengorganisir objek ke dalam partisi K dengan K ≤ n, sehingga setiap partisi mewakili sebuah cluster. Cluster
dibentuk
untuk
mengoptimalkan
sebuah
tujuan
pembagian kriteria, seperti fungsi perbedaan berdasarkan jarak, sehingga objek dalam satu cluster mirip dengan objek lain dalam cluster tersebut, dan berbeda dengan objek di cluster lain. Algoritma yang sering digunakan dalam metode parsial ini adalah algoritma K-Medoids dan K-Means. 2.
Metode Hirarki Metode hirarki dalam clustering mengelompokkan objek
data ke dalam sebuah hirarki atau pohon cluster. Menampilkan objek data dalam bentuk sebuah hirarki berguna untuk penyimpulan atau peringkasan serta penyajian data. Sebagai contoh, seorang manajer sumber daya manusia di perusahaan X
10
dapat mengatur karyawannya ke dalam kelompok besar seperti eksekutif, manajer dan staf. Selain itu, pengelompokkan tersebut dapat dilanjutkan menjadi sub kelompok yang lebih kecil. Misalnya untuk kelompok umum untuk semua staf dapat dibagi menjadi sub kelompok pegawai senior, pegawai dan pegawai yang masih dalam masa percobaan. Setelah melakukan pengelompokkan,
maka
sebuah
hirarki
dapat
terbentuk.
Berdasarkan hirarki tersebut, proses penarikan kesimpulan atau klasifikasi data dapat dilakukan dengan mudah. 2.3
Euclidean Distance Euclidean distance adalah metrika yang sering digunakan
untuk menghitung kesamaan dua vektor. Euclidean distance menghitung akar dari kuadrat perbedaan dua vektor. Rumus Euclidean distance adalah sebagai berikut (Putra, 2010) : √∑(
)
Gambar 2.2 Rumus Euclidean Distance (Putra, 2010)
dengan : = distance = 1, 2, 3, ……,
p
= 1, 2, 3, ……,
p
= merepresentasikan nilai atribut = dimensi data = objek data
11
Berikut ini adalah contoh penggunaan rumus Euclidean distance : Terdapat dua vektor A dan B, vektor A = [0, 3, 4, 5] dan vector B = [7, 6, 3, -1]. Euclidean distance dari vector A dan B adalah : )
√( √( √(
) )
( (
(
) )
)
( )
(
(
) )
( (
(
) ))
( )
√ √
Semakin besar jarak antara dua vektor, maka tingkat kesamaan atau kemiripannya kecil. Sebaliknya, semakin kecil jarak
antara
dua
vektor,
maka
tingkat
kesamaan
atau
kemiripannya besar. 2.4
Algoritma K-Means Algoritma
pengelompokan
K-Means data
yang
merupakan sering
salah
satu
digunakan.
teknik
K-Means
mengelompokkan objek yang mirip dalam cluster yang sama. Gambaran umum dari algoritma tersebut adalah sebagai berikut (Aggarwal & Reddy, 2013) : 1. Menentukan nilai K atau jumlah cluster yang diinginkan serta menentukan centroid atau pusat cluster. Centroid
12
ditentukan secara acak dari objek data yang ada sesuai dengan nilai K, jika nilai K adalah dua maka centroid yang ditentukan juga dua. 2. Membagi setiap objek ke dalam cluster yang paling mirip. Cluster yang paling mirip adalah cluster dengan centroid terdekat. Perhitungan kedekatan antara objek dengan centroid dapat dilakukan menggunakan fungsi jarak, seperti Euclidean Distance. 3. Menghitung ulang K cluster dengan rata-rata dari semua objek yang diberikan untuk tiap cluster. 4. Ulangi langkah kedua dan ketiga sampai tidak ada lagi objek yang berpindah cluster. 2.5
Heatmap Heatmap digunakan untuk menggambarkan distribusi dan
kepadatan titik pada peta. Heatmap memudahkan viewer untuk memahami distribusi dan intensitas relatif titik data pada peta. Distribusi data pada Heatmap diwakilkan menggunakan warna (Google, 2014).