BAB II TINJAUAN PUSTAKA
2.1 Konsep Clustering dalam Data Mining Konsep dasar data mining adalah menemukan informasi tersembunyi dalam sebuah basis data dan merupakan bagian dari Knowledge Discovery in Databased (KDD) untuk menemukan informasi dan pola yang berguna dalam data (Durham, 2003). Data mining mencari informasi baru, berharga dan berguna dalam sekumpulan data dengan melibatkan komputer dan manusia serta bersifat iteratif baik melalui proses yang otomatis ataupun manual. Secara umum sifat data mining adalah: a. Predictive: menghasilkan model berdasarkan sekumpulan data yang dapat digunakan untuk memperkirakan nilai data yang lain. Metode yang termasuk dalam prediktif data mining adalah: - Klasifikasi: pembagian data ke dalam beberapa kelompok yang telah ditentukan sebelumnya. - Regresi: memetakan data ke suatu prediction variable. - Time Series Analisys: pengamatan perubahan nilai atribut dari waktu ke waktu. b. Descriptive: mengidentifikasi pola atau hubungan dalam data untuk menghasilakn informasi baru. Metode yang termasuk dalam Descriptive Data Mining adalah: - Clustering: identifikasi kategori untuk mendeskripsikan data. - Association Rules: pemetaan data ke dalam subset dengan deskripsi sederhana. - Sequence Discovery: identifikasi pola sekuensial dalam data. Clustering membagi data menjadi kelompok-kelompok atau cluster berdasarkan suatu kemiripan atribut-atribut diantara data tersebut (Durham, 2003). Karakteristik tiap cluster tidak ditentukan sebelumnya, melainkan tercermin dari kemiripan data yang terkelompok di dalamnya. Oleh sebab itu hasil clustering seringkali perlu diinterprestasikan oleh pihak-pihak yang benar-benar mengerti
Universitas Sumatera Utara
mengenai karakter domain data tersebut. Selain digunakan sebagai metode yang independen dalam data mining, clustering juga digunakan dalam pra-pemrosesan data sebelum data diolah dengan metode data mining yang lain untuk meingkatkan pamahaman terhadap domain data. Karakteristik terpenting dari hasil clustering yang baik adalah suatu instance data dalam suatu cluster lebih โmiripโ dengan instance lain di dalam clustering tersebut daripada dengan instance di luar dari clustering itu. Ukuran kemiripan (similarity measure) tersebut bisa bermacam-macam dan mempengaruhi perhitungan dalam menentukan anggota suatu cluster. Jadi tipe data yang akan di-cluster (kuantitatif atau kualitatis) juga menentukan ukuran apa yang tepat digunakan dalam suatu algoritma. Selain kemiripan antar data dalam suatu cluster, clustering juga dapat dilakukan berdasarkan jarak antar data atau cluster yang satu dengan yang lain. Ukuran jarak (distance atau dissimilarity measure) yang merupakan kebalikan dari ukuran kemiripan ini juga banyak ragamnya dan penggunaannya juga tergantung pada tipe data yang akan di-cluster. Kedua ukuran ini bersifat simetris, dimana jika A dikatakan mirip dengan B maka dapat disimpulkan bahwa B mirip dengan A. Ada beberapa macam rumus perhitungan jarak antara cluster. Untuk tipe data numerik, sebuah data det X beranggotakan X1 ะ X, i = 1, ..., n, tiap item direpresentasekan sebagai vektor X1 = {Xi1, Xi2, Xim} dengan m sebagai jumlah dimensi dari item. Rumus-rumus yang biasa digunakan sebagai ukuran jarak antara Xi dan Xj untuk data numerik ini antara lain: a. Euclidean Distance ๐๐
2
๏ฟฝ๏ฟฝ๏ฟฝ๐ฅ๐ฅ๐๐๐๐ โ ๐ฅ๐ฅ๐๐๐๐ ๏ฟฝ ๏ฟฝ ๐๐=1
1 2
(1)
Ukuran ini sering digunakan dalam clustering karena sederhana. Ukuran ini memiliki masalah jika skala nilai atribut yang satu sangat besar dibandingkan nilai atribut lainnya. Oleh sebab itu, nilai-nilai atribut sering dinormalisasi. b. City Block Distance atau Manhatta Distance ๐๐
๏ฟฝ๏ฟฝ๐ฅ๐ฅ๐๐๐๐ โ ๐ฅ๐ฅ๐๐๐๐ ๏ฟฝ ๐๐=1
(2)
Universitas Sumatera Utara
Jika tiap item digambarkan sebagai sebuah titik dalam grid, ukuran jarak ini merupakan banyak sisi harus dilewati suatu titik untuk mencapai titik yang lain seperti halnya dalam sebuah peta jalan. c. Minkwoski Metric ๐๐
๐๐
๏ฟฝ๏ฟฝ๏ฟฝ๐ฅ๐ฅ๐๐๐๐ โ ๐ฅ๐ฅ๐๐๐๐ ๏ฟฝ ๏ฟฝ ๐๐=1
1 ๐๐
(3)
Ukuran ini merupakan bentuk umum dari Euclidean Distance dan Manhatta Distance. Euclidean Distance adalah kasus dimana nilai p = 2 sedangkan Manhatta Distance merupakan bentuk Minkwoski dengan p = 1. Dengan demikian, lebih
banyak nilai numerik yang dapat ditempatkan pada jarak terjauh di antara 2 vektor. Seperti pada Euclidean Distance dan juga Manhattan Distance, ukuran ini memiliki masalah jika salah satu atribut dalam vektor memiliki rentang yang lebih besar dibanding atribut-atribut lainnya. d. Cosine โ Corelation (ukuran kemiripan dari model Euclidean n-dimensi)
โ๐๐ ๐๐ =1 ๏ฟฝ๐ฅ๐ฅ๐๐๐๐ . ๐ฅ๐ฅ๐๐๐๐ ๏ฟฝ
2 ๏ฟฝโ๐๐ ๐๐ =0 ๐ฅ๐ฅ๐๐๐๐
โ ๐ฅ๐ฅ๐๐๐๐2
(4)
Ukuran ini bagus digunakan pada data dengan tingkat kemiripan tinggi walaupun sering pula digunakan bersama pendekatan lain untuk membatasi dimensi dari permasalahan. Dalam mendefenisikan ukuran jarak antara cluster yang digunkan beberapa algoritma untuk menentukan cluster mana yang terdekat, perlu dijelaskan mengenai atribut-atribut yang menjadi referensi dari suatu cluster. Untuk suatu cluster Km berisi N item {Xm1, Xm2, ..., Xnm}: - Centroid: suatu besaran yang dihitung dari rata-rata nilai dari setiap item dari suatu cluster menurut rumus: โ๐๐๐๐=1 |๐ฅ๐ฅ๐๐๐๐ | ๐ถ๐ถ๐๐ = ๐๐
- Medoid: item yang letaknya paling tengah.
(5)
Metode-metode untuk mencari jarak antara cluster: - Single Link: jarak terkecil antara suatu elemen dalam suatu cluster dengan elemen lain di cluster yang berbeda.
Universitas Sumatera Utara
- Comple Link: jarak rata-rata antar satu elemen dalam suatu cluster dengan elemen lain di cluster yang berbeda. - Average: jarak rata-rata antar satu elemen dalam suatu cluster dengan elemen lain di cluster yang berbeda. - Centoid: jarak antara centroid dari tiap cluster dengan centoid cluster lainnya. - Medoid: jarak antara medoid dari tiap cluster denga medoid cluster lainnya.
2.2 Algoritma Clustering Secara umum pembagian algoritma clustering dapat digambarkan sebagai berikut: Clustering
Hierarchical
Agglomerative
Clustering Large Data
Partitional
Divisive
Gambar 2.1 Kategori Algoritma Clustering Hierarchical clustering menentukan sendiri jumlah cluster yang dihasilkan. Hasil dari metode ini adalah suatu struktur data berbentuk pohon yang disebut dendogram dimana data dikelompokkan secara bertingkat dari yang paling bawah dimana tiap intance data merupakan satu cluster sendiri, hingga tingkat paling atas dinamakan keseluruhan data membentuk satu cluster besar berisi cluster-cluster seperti gambar 2.2
Universitas Sumatera Utara
1 2 3 A
B
C
D
E
4
Gambar 2.2 Dendogram Divisive hierarchical clustering mengelompokkan data dari kelompok yang terbesar hingga ke kelompok yang terkecil, yaitu masing-masing instance dari kelompok data tersebut. Sebaliknya, agglomerative hierarchical clustering mulai mengelompokkan data dari kelompok yang terkecil hingga kelompok yang terbesar. Beberapa algoritma yang menggunakan metode ini adalah: Robust Clustering Using Links (ROCK), Chameleon, Cobweb, Shared Nearest Neighbor (SNN). Partitional clustering yang mengelompokkan data ke dalam k cluster dimana k adalah banyaknya cluster dari input user. Kategori ini biasanya memerlukan pengetahuan yang cukup mendalam tentang data dan proses bisnis yang memanfaatkannya unuk mendapatkan kisaran nilai input yang sesuai. Beberapa algoritma yang masuk dalam kategori diantara lain : K-Means, Fuzzy C-Means, Clustering Large Aplications (CLARA), Expectation Maximation (EM), Bond Energy Algorithm (BEA), algoritma Genetika, Jaringan Saraf Tiruan. Clustering Large Data, dibutuhkan untuk melakukan clustering pada data yang volumenya sangat besar sehingga tidak cukup ditampung dalam memori komputer pada suatu waktu. Biasanya untuk mengatasi masalah besarnya volume data, dicari teknik-teknik untuk meminimalkan berapa kali algoritma harus membaca seluruh data. Beberapa algoritma yang masuk dalam kategori ini antara lain: Balance Iteratif Reducing and clustering using hierarchies (BIRCH), Density Based Spatial Clustering of Application With Noise (DCSCAN), Clustering Categorical Data Using Summaries (CACTUS).
Universitas Sumatera Utara
2.3 Algoritma C-Means Pada proses clustering sacara klasik (misalnya pada Clustering K-Means), pembentukan partisi dilakukan sedemikian rupa sehingga setiap obyek berada tepat pada satu partisi, karena sebenarnya obyek tersebut terletak di antara 2 atau lebih partisi yang lain. Pada logika algoritma, metode yang dapat digunkana untuk melakukan pengelompokan sejumlah data dikenal dengan nama algoritma clustering. Algoritma Clustering lebih alami jika dibandingkan dengan clustering secara klasik. Suatu algoritma clustering dikatakan sebagai algoritma clustering jika algoritma tersebut menggunakan parameter strategis adaptasi secara soct competitive. Sebagian besar algoritma clustering didasarkan atas optimasi fungsi obyektif atau modifikasi dari fungsi obyektif tersebut (Kusumadewi. S, Hartati. S. 2006) . Salah satu teknik algoritma clustering adalah Algoritma C-Means. Algoritma CMeans adalah suatu teknik clustering data yang keberadaan tiap-tiap data dalam suatu cluster ditentukan oleh nilai/derajat keanggotaan tertentu. Teknik ini pertama kali diperkenalkan Jim Bezdek pada tahun 1981 (Kusumadewi. S, Hartati. S. 2006). Berbeda dengan teknik clustering secara klasik (dimana suatu obyek hanya akan menjadi anggota dari beberapa cluster. Batas-batas cluster dalam Algoritma C-Means adalah lunak (soft). Kosep dasar Algoritma C-Means, pertama kali adalah menentukan pusat cluster yang menandai lokasi rata-rata untuk tiap-tiap cluster. Pada kondisi awal, pusat cluster ini masih belum akurat. Tiap-tiap data memiliki derajat keanggotaan untuk tiap-tiap cluster. Dengan cara memperbaiki pusat cluster dan nilai keanggotaan tiap-tiap data secara berulang, maka akan terlihat bahwa pusat cluster akan bergerak menuju lokasi yang tepat. Perulangan ini didasarkan pada minimasi fungsi obyektif. Fungsi obyektif yang digunakan pada Algoritma C-Means adalah (Kusrini, 2006): ๐๐
๐ฝ๐ฝ๐ค๐ค (๐๐, ๐๐; ๐๐) = ๏ฟฝ
dengan w ะ [1,
๐๐ =1
๐๐
๏ฟฝ
๐๐=1
],
๐๐
๐๐๐๐๐๐ = ๐๐ (๐ฅ๐ฅ๐๐ โ ๐ฃ๐ฃ๐๐ ) = ๏ฟฝ๏ฟฝ
๐๐ =1
(๐๐๐๐๐๐ )๐ค๐ค (๐๐๐๐๐๐ )2 1 2
๏ฟฝ๐ฅ๐ฅ๐๐๐๐ โ ๐ฃ๐ฃ๐๐๐๐ ๏ฟฝ๏ฟฝ
(6)
(7)
Universitas Sumatera Utara
x adalah data yang akan di clustering: ๐ฅ๐ฅ11 ๐ฅ๐ฅ = ๏ฟฝ โฎ ๐ฅ๐ฅ๐๐1
โฏ โฆ โฏ
๐ฅ๐ฅ1๐๐ โฎ ๏ฟฝ ๐ฅ๐ฅ๐๐๐๐
(8)
dan v adalah matriks pusat cluster : ๐ฃ๐ฃ11 ๐ฅ๐ฅ = ๏ฟฝ โฎ ๐ฃ๐ฃ๐๐ 1
โฏ ๐ฃ๐ฃ1๐๐ โฆ โฎ ๏ฟฝ โฏ ๐ฃ๐ฃ๐๐๐๐
(9)
nilai Jw terkecil adalah yang terbaik, sehingga: Jw* (U*, V*; X) = min J (U, V, X) Jika dik > 0,
(10)
, k; w > 1 dan X setidaknya memiliki m elemen, maka (U,V) ะ Mfm x
Rmp dapat meminimasi Jw hanya jika:
๐๐๐๐๐๐ = dan
โ1 2 ๐ค๐ค โ1 ๐๐ ๏ฟฝโ๐๐ =1 ๏ฟฝ๐๐๐๐๐๐ โ ๐๐๐๐๐๐ ๏ฟฝ ๏ฟฝ โ1 2 ๐ค๐ค โ1 ๐๐ โ๐๐ ๐๐ =1 ๏ฟฝโ๐๐ =1๏ฟฝ๐๐๐๐๐๐ โ ๐๐๐๐๐๐ ๏ฟฝ ๏ฟฝ
; 1 โค ๐๐ โค ๐๐; 1 โค ๐๐ โค ๐๐
โ๐๐๐๐=1 ๏ฟฝ(๐๐๐๐๐๐ )๐ค๐ค โ ๐๐๐๐๐๐ ๏ฟฝ ๐๐๐๐๐๐ = ; 1 โค ๐๐ โค ๐๐; 1 โค ๐๐ โค ๐๐ โ๐๐๐๐=1(๐๐๐๐๐๐ )๐ค๐ค
(11)
(12)
Algoritma C-Means diberikan sebagai berikut (Kusumadewi, et al, 2006): 1. Menentukan data yang akan di clustering X, berupa matriks berukuran n x m (n = jumlah sampel data, m = atribut setiap data), Xij = data sampel ke-i (i = 1,2, ... , n), atribut ke-j (j = 1,2,..., mm). 2. Menentukan: - Jumlah cluster
=c
- Pangkat
=w
- Maksimal interaksi
= Maxlter
- Error terkecil yang diharapkan
=
- Fungsi objektif awal
= Po = 0
- Interasi awal
=t=1
Universitas Sumatera Utara
3. Membangkitkan bilangan random ยตik i=1,2,3, ..., n: k=1,2,3,.., c: sebagai elemenelemen matriks partisi awal U. Menghitung jumlah setiap kolom: ๐๐
๐๐๐๐ = ๏ฟฝ ๐๐๐๐๐๐
(13)
๐๐
Dengan j=1,2,..,n Menghitung: 4. Menghitung pusat cluster ke-k: Vkj, dengan k=1,2,...c: dan j=1,2,...m โ๐๐๐๐=1๏ฟฝ(๐๐๐๐๐๐ )๐ค๐ค . ๐๐๐๐๐๐ ๏ฟฝ ๐๐๐๐๐๐ = โ๐๐๐๐=1(๐๐๐๐๐๐ )๐ค๐ค
(14)
5. Menghitung fungsi objektif pada interasi ke-t: ๐๐
๐๐
๐๐
2
๐๐๐ก๐ก = ๏ฟฝ ๏ฟฝ ๏ฟฝ๏ฟฝ๏ฟฝ๏ฟฝ๐๐๐๐๐๐ โ๐๐๐๐๐๐ ๏ฟฝ ๏ฟฝ (๐๐๐๐๐๐ )๐ค๐ค ๏ฟฝ ๐๐=1 ๐๐=1
๐๐ =1
(15)
6. Menghitung perubahan matriks partisi:
๐๐๐๐๐๐ =
๏ฟฝโ๐๐ ๐๐ =1 ๏ฟฝ๐๐๐๐๐๐
โ1 2 ๐ค๐ค โ1
โ ๐๐๐๐๐๐ ๏ฟฝ ๏ฟฝ
(16)
โ1 2 โ๐๐๐๐ =1 ๏ฟฝโ๐๐๐๐=1 ๏ฟฝ๐๐๐๐๐๐ โ ๐๐๐๐๐๐ ๏ฟฝ ๏ฟฝ๐ค๐ค โ1
Dengan : i = 1,2,..., n: dan k = 1,2,,...,c 7. Memeriksa kondisi berhenti: -
Jika: (|Pt โ Pt - 1| < ฮพ) atau (t > Max) maka berhenti
-
Jika tidak: t = t + 1, mengulang langkah ke-4
2.4 Cluster Analysis (Variance) Digunakan untuk mengukur nilai hasil penyebaran data-data hasil clustering ada dua macam (Ridho Barakbah, 2009), yaitu: 1. Variance within cluster: Tipe varian ini mengacu pada jarak antar anggota pada cluster yang sama. 2. Variance between cluster : Tipe varian ini mengacu pada jarak antar cluster.
Universitas Sumatera Utara
Ada dua ketentuan apabila
menentukan cluster
ideal
menggunakan cara
perbandiangan Variance within Cluster Vw) dan Variance between Cluster (Vb) yaitu sebagai berikut: a.
Berdasarkan nilai minimum ๐๐ =
Keterangan:
๐๐๐๐ ๐๐๐ต๐ต
(17)
V = nilai variance Vw = nilai variance between cluster VB = nilai variance between cluster Cluster yang disebut ideal adalah cluster yang memiliki nilai variance yang paling kecil. b.
Berdasarkan nilai maksimum ๐๐ =
Keterangan:
๐๐๐ต๐ต ๐๐๐๐
(18)
V = nilai variance Vw = nilai variance within cluster VB = nilai variance between cluster Cluster yang disebut ideal adalah cluster yang memiliki variance yang paling besar. Sebelum mencari nilai variance (V), perlu dicari nilai variance within cluster (Vw) dan nilai variance between cluster (VB) (Ali, Modul ajar cluster analysis). a.
Variance within Cluster (Vw) ๐๐๐๐ =
๐๐ 1 ๏ฟฝ (๐๐๐๐ โ 1). ๐๐๐๐2 ๐๐ โ ๐๐ ๐๐=1
(19)
Universitas Sumatera Utara
Keterangan: N = jumlah semua data k = jumlah cluster ni = jumlah data pada cluster ke-i Vi2 = variance pada cluster ke-i Sebelum menghitung variance within perlu menghitung nilai Vi2. Keterangan: ๐๐๐ถ๐ถ2 =
๐ถ๐ถ 1 2 ๏ฟฝ ๏ฟฝ๐๐๐๐ โ ๐๐ฬ
๐๐ ๏ฟฝ ๐๐๐ถ๐ถ โ 1 ๐๐=1
Vc2 = variance pada cluster c
(20)
c = 1...k, dimana k = jumlah cluster nc = jumlah data pada cluster c di = data ke-i pada suatu cluster dl = rata-rata dari data pada suatu cluster b.
Variance between Cluster (VB)
Keterangan:
๐๐๐ต๐ต =
๐๐ 1 2 ๏ฟฝ ๐๐๐๐ ๏ฟฝ๐๐ฬ
๐๐ โ ๐๐ฬ
๏ฟฝ ๐๐ โ 1 ๐๐=1
(21)
d = rata-rata dari di
2.5
Riset-riset Terkait
Dalam melakukan penelitian, penulis menggunakan beberapa riset terkait yang dijadikan yang membuat penelitian berjalan lancar. Adapun riset-riset terkait tersebut adalah:
Universitas Sumatera Utara
Tabel 2.3 Riset Terkait No
Judul Riset
Nama Peneliti
Algoritma/
Dan Tahun
Metode yang
Hasil Penelitian
digunakan 1
Penentuan jurusan
Bahar, 2011 sekolah
menengah
Algoritma
Penentun
C-Means
Sekolah Menengah Atas
atas
dengan
jurusan
algoritma
di
C-
dengan algoritma
Means memiliki tingkat
fuzzy C-Means
akurasi yang lebih tinggi dibanding metode
dengan penentuan
jurusan secara manual. 2
Implementasi
Ri Handayani, et Algoritma
Algoritma
al. 2011
Clustering ISMC
ISMC FCM
dan FCM
Bahwa algoritma FSMC dan lebih
mampu
menghasilkan yang
cluster homogen
dibanding ISMC 3
4
Studi
Tentang Sukim, 2011
C-Means
Metode C-Means lebih
Metode C-Means
halus dalam mempartisi
Cluster dan Fuzzy
cluster. Hal ini karena
C-Means Cluster
tiap
Serta Aplikasinya
dengan
Pada
keanggotaan ke pusat
Kasus
objek
dilengkapi derajat
Pengelompokkan
cluster yang terbentuk,
Desa/ Kelurahan
tapi
Berdasarkan
algoritma
Status
terhadap
Ketertinggalan
cluster tidak linier
Penggunaan Indeks
Lailil
Algoritma
Fuzzy
C-Means
time
C-Means banyaknya
C-Means dan Metode Fuzzy C-Means
Validitas Muflikhah, 2011 K-Means
Pada
running
lebih baik dari pada fuzzy dikarenakan
K-Means adana
Universitas Sumatera Utara
Clustering Untuk
penyimpangan
Pengklasteran
pengklasteran
Dokumen
metode K-Means. Agar supaya
pada dengan
pengklasteran
dokumen optimal, telah diaplikasikan
indeks
validitas. 5
Deteksi
Kepala Dwi
Puspita C-Means dan Segmentasi
Janin
Pada Handayani
K-Means
Gambar
USG Tjandrasa, 2011
menggunakan
metode
FCM dengan Informasi
Menggunakan
spesial
Fuzzy
mengurangi noise pada
C-Means
mampu
dengan Informasi
gambar
Spesial
janin dibanding dengan
dan
USG
kepala
Iterative
menggunakan metode K-
Randomized
Means
Hough Transform (IRHT) 6
2.6
Implementasi
Beni
Ilham Single
Kelebihan
Metode
Single Priyambodo, et Linkage
manual
Linkage
Untuk al. 2011
kekurangan
metode yaitu
Menentukan
pembentukan
cluster
Kinerja
dibanding
dengan
Agent
Pada Call Center
metode Single Linkage
Berbasis Asterisk
dilihat dari perhitungan
For JAVA
variance.
Perbedaan Dengan Riset Yang Lain
Dalam penelitian ini menggunakan Algoritma C-Means dan Cluster Analysis (Variance) dengan berbagai data yang akan diolah dan juga menggunakan alat bantu berupa software Visual Basic sehingga dapat langsung diterapkan untuk penyelesaian masalah tingkat akurasi yang rendah.
Universitas Sumatera Utara
2.7
Kontribusi Riset Dalam penelitian ini digunakan dua Algoritma C-Means dan Cluster Analysis
(Variance) yang saling mengisi yang diharapkan dari penelitian ini dapat menentukan berapa sesungguhnya cluster yang ideal yang terbentuk dari range data yang akan di clustering.
Universitas Sumatera Utara