BAB II LANDASAN TEORI
II.1
Sistem Pendukung Keputusan
II.1.1 Definisi Sistem Pendukung Keputusan Berdasarkan Efraim Turban dkk, Sistem Pendukung Keputusan (SPK) / Decision Support System (DSS) adalah sebuah sistem yang dibangun untuk mendukung pengambil keputusan manajerial mengambil keputusan. SPK dibangun dengan tujuan untuk membantu para pengambil keputusan untuk mengembangkan kapabilitasnya tetapi tidak untuk mengganti proses pengambilan keputusannya. Definisi lain dari SPK adalah sekumpulan prosedur berbasis model yang digunakan untuk memproses data dan mengambil keputusan untuk membantu manager dalam pembuatan keputusan. II.1.2 Komponen Sistem Pendukung Keputusan Berdasarkan Efraim Turban dkk, sebuah aplikasi sistem pendukung keputusan dapat disusun dari sub sistem-sub sistem berikut : 1. Sub Sistem Manajemen Data (Data Management Subsystem) Sub sistem ini termasuk sebuah basis data yang berisi data yang relevan dan dikelola oleh perangkat lunak yang disebut sebagai Database Management System (DBMS). 2. Sub Sistem Manajemen Model (Model Management Subsystem) Sub sistem ini biasanya berupa paket perangkat lunak yang berisi modelmodel financial, statistik, manajemen ilmu pengetahuan, atau model kuantitatif lain yang menyediakan kemampuan analitik sistem dan manajemen perangkat lunak yang sesuai. 3. Sub Sistem Antarmuka Pengguna (User Interface Subsystem) Sistem ini digunakan sebagai alat komunikasi antara pengguna dengan SPK. Dengan sub sistem inilah para pengguna dapat mengendalikan semua proses pembuatan keputusan.
6
7
4. Sub
Sistem
Manajemen
berbasis
Pengetahuan
(Knowledge-based
Management Subsystem) Sub sistem ini merupakan sub sistem opsional yang berperan menyediakan kecerdasan untuk mendukung para pembuat keputusan. Sub sistem ini dapat berinterkoneksi dengan tempat penyimpanan ilmu pengetahuan organisasi (basis pengetahuan organisasi). Hubungan antar sub sistem-sub sistem tersebut dapat dilihat pada Gambar II.1 di bawah ini. Sistem berbasis Komputer Lain
Data External/Internal
Manajemen Data
Manajemen Model
Jaringan Komputer
Model External
Basis Pengetahuan
Antarmuka Pengguna
Basis Pengetahuan Organisasi
User/Pengguna
Gambar II.1 Hubungan antar sub sistem dalam SPK
II.2
Data Mining Data Mining adalah sebuah istilah yang digunakan untuk menjelaskan
penemuan pengetahuan (knowledge discovery) dalam basis data. Data mining adalah sebuah proses yang menggunakan teknik-teknik statistik, matematis, kecerdasan buatan dan machine-learning untuk mengambil dan mengidentifikasi informasi yang berguna dan pengetahuan dari sebuah basis data yang besar.
8
Data mining dapat menjadi suatu langkah yang dilakukan untuk pengambilan keputusan. Dalam sistem
pengambilan keputusan, data mining
dapat dikategorikan dalam sub sistem manajemen model. Hal tersebut dapat dilihat berdasarkan pada Gambar II.2.
Gambar II.2. Proses Data Mining dalam Pengambilan Keputusan Data mining dapat mempercepat analisis dengan memfokuskan perhatian terhadap variable-variable yang paling penting. Dengan kemampuan sistem komputer yang semakin
cepat, sekarang banyak organisasi-organisasi untuk
memulai menerapkan aplikasi data mining. Setiap aplikasi data mining biasanya didukung dengan sekumpulan algoritma sebagai untuk mengambil relasi dalam data. Pendekatan pengambilan keputusan dibedakan berdasarkan kelas masalah yang akan dipecahkan. Adapun kelas-kelas masalah tersebut adalah Classification, Clustering,
Association,
Sequencing,
Regression,
Forecasting,
Teknik
lain(metode-metode kecerdasan buatan yang didalamnya termasuk reasoning, fuzzy logic, dan algoritma genetic). Aplikasi-aplikasi data mining telah banyak digunakan. Diantara contoh penggunaan data mining adalah pada bidang pemasaran, perbankan, retail dan penjualan, manufaktur dan produksi, perdagangan saham, asuransi, pemerintahan dan pertahanan, transportasi, kesehatan, penyiaran dan kepolisian.
9
II.3
Analisis Clustering
II.3.1 Definisi Analisis Clustering Berdasarkan Joseph F. Hair dkk, analisis clustering adalah sekumpulan teknik pengolahan data multivariate yang mempunyai tujuan utama untuk mengelompokan obyek-obyek berdasarkan pada karakteristik yang dimilikinya. Analisis clustering mengklasifikasikan obyek-obyek (seperti responden, produk, atau entitas lain) sehingga setiap obyek yang mempunyai kemiripan satu dengan lainnya berada dalam satu cluster dengan memperhatikan kriteria pemilihan yang telah ditetapkan sebelumnya. Cluster obyek yang dihasilkan harus dapat memperlihatkan tingkat homogenitas internal yang tinggi dalam suatu cluster, dan tingkat heterogenitas yang tinggi antar cluster. Sehingga jika suatu klasifikasi berhasil, maka obyek-obyek yang ada dalam suatu cluster akan berdekatan dan
Variable 2
Variable 2
obyek yang ada dalam cluster lain akan terpisah jauh.
Variable 1
Variable 1
(b) Obyek setelah dicluster
(a) Obyek belum dicluster
Gambar II.3 Ilustrasi obyek sebelum dan sesudah dicluster Analisis clustering merupakan sebuah teknik pengolahan data multivariate yang bersifat unsupervised. Analisis clustering dapat diterapkan dalam banyak bidang, sebagai contoh adalah seperti di bawah ini. 1. Pemasaran/Marketing.
Digunakan
untuk
customer dengan mempunyai sifat yang mirip.
mencari
kelompok-kelompok
10
2. Biologi. Digunakan untuk memembuat klasifikasi binatang atau tumbuhan berdasarkan fitur-fiturnya. 3. Perpustakaan.
Digunakan
untuk
penentuan
urutan
penyimpanan/pengelompokkan buku 4. Asuransi. Digunakan untuk mengidentifikasi kelompok-kelompok pemegang polis asuransi yang mempunyai nilai klaim yang besar atau pun untuk mengidentifikasi penipuan. 5. Perencanaan kota. Digunakan untuk mengidentifikasi kelompok-kelompok rumah berdasarkan tipe rumah, nilai rumah, dan lokasi geografisnya. 6. Penelitian Gempa Bumi. Clustering digunakan untuk mengobservasi pusat gempa bumi untuk mengidentifikasi zona-zona yang berbahaya. 7. World Wide Web (WWW). Clustering digunakan untuk klasifikasi dokumen.
II.3.2 Tujuan Analisis Clustering Tujuan utama analisis cluster adalah untuk mempartisi sekumpulan obyekobyek menjadi dua atau lebih kelompok berdasarkan kemiripan dari obyek tersebut terhadap karakteristik yang telah ditentukan. Berdasarkan Joseph F. Hair dkk, setelah suatu cluster ditemukan maka pengguna akan dapat mempunyai keuntungan-keuntungan diantaranya adalah: a. Pendeskripsian Taksonomi Analisis cluster dapat digunakan untuk maksud penelitian atau untuk pembentukan formasi taksonomi (klasifikasi obyek). Kemampuan analisis cluster dalam mempartisi telah banyak digunakan dalam banyak aplikasi misalnya dalam bidang biologi seperti pembuatan sebuah taksonomi biologi untuk klasifikasi berbagai kelompok binatang. Bidang pemasaran juga banyak menggunakan analisis cluster untuk tujuan misalnya membuat segmentasi pasar, memahami perilaku pembeli, mengenali peluang produk baru. b. Penyederhanaan Data Cluster-cluster yang didapat dengan proses clustering dapat dipandang sebagai bentuk sederhana dari keseluruhan obyek penelitian. Analisis cluster dapat digunakan untuk mengkompresi data. Sebagai contoh, jika penelitian yang
11
kita lakukan memiliki obyek penelitian yang banyak maka akan sangat sulit dan lama untuk memprosesnya jika penelitian dilakukan terhadap tiap obyek penelitian tersebut. Oleh karena itu maka solusi yang dapat diambil untuk mengatasi hal tersebut adalah dengan mengelompokkan obyek-obyek tersebut ke dalam cluster-cluster, sehingga penelitian dapat dilakukan terhadap cluster yang terbentuk. c. Pengidentifikasian Hubungan/Relationship Dengan cluster-cluster yang telah ditemukan dan berdasarkan struktur dari data yang direpresentasikan dalam cluster, para peneliti mendapatkan hubungan antar observasi yang mungkin tidak mungkin didapatkan dengan observasi tiap individu/obyek.
II.3.3 Klasifikasi Teknik Clustering Berdasarkan teknik-teknik clustering yang umum digunakan, teknik-teknik clustering
terdiri dari dua yaitu teknik clustering hierarki dan non-hierarki.
Berdasarkan Prof. J. Suprapto, M.A, APU, klasifikasi teknik-teknik clustering adalah tampak pada Gambar II.4. Single Linkage Complete Linkage
Agglomerative
Average Linkage
Devisive
Variance Linkage
Threshold Sekuensial
Centroid Linkage
Hierarki
Teknik Clustering
Non-Hierarki
Threshold Parallel Optimizing Procedure
Gambar II.4 Klasifikasi teknik-teknik clustering
12
II.3.3.1
Teknik Clustering Hierarki
Teknik clustering hierarki adalah suatu teknik clustering yang melibatkan pengkombinasian obyek terhadap cluster-cluster. Ada dua metode yang dapat dilakukan yaitu metode agglomerative dan metode divisive. Hasil dari metodemetode tersebut akan menghasilkan sebuah hierarki atau struktur pohon (dendrogram) yang menggambarkan cluster-cluster yang terbentuk. Kedua metode tersebut akan menghasilkan cluster sebanyak N-1 dimana N adalah banyaknya obyek-obyek yang diteliti. Hasil clustering dengan proses hierarki biasanya ditampilkan dalam bentuk dendrogram atau diagram scatter. Gambar II.5 di bawah ini adalah sebuah contoh proses clustering dan proses pembentukan diagram scatter dan dendrogramnya.
3 1
1
2
2
3
4
5
(a) Sebelum diclusterkan
1
2
2
3
4
3 1
1
2
2
3
4
4
Diagram Scatter
5
3 1
5
5
(b) Cluster 1 & 2 digabung
Dendrogram
Dendrogram
Diagram Scatter
4
4
Diagram Scatter
5
Dendrogram
Dendrogram
Diagram Scatter
4
5
(c) Cluster 4 & 5 digabung
5
3 1
1
2
2
3
4
5
(d) Cluster 1-2 & 3 digabung
Dendrogram
Diagram Scatter
4
5
3 1
1
2
2
3
4
5
(e) Cluster 1-2-3 & 4-5 digabung
Gambar II.5 Contoh clustering dan pembentukan diagram scatter dan dendrogram
13
II.3.3.1.1 Single linkage (keterhubungan tunggal) Metode single linkage adalah metode yang aturan kemiripan antar clusternya dilihat berdasarkan terhadap jarak sebuah obyek yang ada dalam sebuah cluster terhadap obyek lain dalam cluster lain yang mempunyai jarak paling dekat. Metode single linkage dapat juga disebut sebagai minimum distance clustering.
Gambar II.6 Pengukuran jarak menggunakan single linkage
II.3.3.1.2 Complete linkage (keterhubungan lengkap) Metode complete linkage adalah metode yang aturan kemiripan antar cluster didasarkan kepada jarak maksimal antara sebuah obyek di suatu cluster dengan obyek lain di cluster lain yang mempunyai jarak paling jauh. Metode complete linkage juga disebut maximum distance clustering.
Gambar II.7 Pengukuran jarak dengan complete linkage
II.3.3.1.3 Average linkage (keterhubungan rata-rata) Metode average linkage adalah metode yang aturan kemiripan antar cluster didasarkan kepada jarak rata-rata semua obyek di suatu cluster dengan semua obyek lain di cluster lain.
Gambar II.8 Pengukuran jarak dengan average linkage
14
II.3.3.1.4 Centroid linkage Metode centroid linkage adalah metode penentuan kemiripan 2 buah cluster yang ditentukan dengan mengukur jarak antar centroid cluster 2 buah cluster. Langkah yang dilakukan dalam metode ini adalah dengan menghitung titik pusat cluster berdasarkan obyek-obyek cluster tersebut. Centroid
Gambar II.9 Pengukuran jarak dengan centroid linkage
II.3.3.1.5 Variance linkage Metode variance linkage yang umum digunakan adalah menggunakan prosedur Ward (Wardβs Procedure). Pengukuran jarak ketetanggaan antar cluster dengan metode ini adalah demgan mencari nilai variance dari sebuah cluster dan dibandingkan dengan nilai variance dari cluster lain.
II.3.3.2 Teknik Clustering Non-Hierarki Teknik clustering non-hierarki adalah suatu teknik clustering yang melakukan proses clustering dengan cara menentukan terlebih dahulu banyaknya cluster yang diinginkan. Kemudian dari banyaknya cluster yang diinginkan tersebut, dibuatlah suatu cluster awal (cluster seed) yang dihasilkan dengan cara tertentu atau acak. Setiap obyek akan diukur jaraknya terhadap cluster-cluster awal tersebut. Teknik analisis cluster non-hierarki sering disebut pula dengan nama clustering K-mean. Metode yang banyak digunakan dalam analisis menggunakan
15
cara non-hierarki adalah Sequential Threshold Clustering, Parallel Threshold Clustering, Optimizing Procedure Clustering. Dalam clustering non-hierarki, data dibagi menjadi k group atau partisi yang setiap group tersebut merepresentasikan sebuah cluster. Hal inilah yang membedakan dengan teknik clustering hierarki, dimana dalam teknik clustering non-hierarki, banyak cluster yang diinginkan harus sudah diketahui sebelum proses clustering dilakukan. Adapun dasar dari proses teknik clustering nonhierarki adalah sebagai berikut : 1. Tentukan k titik pusat cluster (centroid) awal atau bibit., dimana k adalah banyaknya cluster yang diinginkan. 2. Tempatkan setiap obyek uji ke suatu cluster yang memiliki jarak terdekat dengan titik pusatnya. 3. Tempatkan ulang atau relokasi setiap obyek uji ke salah satu dari k cluster sesuai dengan aturan pemberhentian proses yang telah ditentukan. 4. Proses selesai jika tidak ada relokasi pada obyek uji atau jika relokasi telah memenuhi criteria yang telah ditentukan dalam aturan pemberhentian proses. Jika masih ada relokasi obyek uji atau belum sesuai criteria aturan pemberhentian proses, maka proses dilakukan dengan mengulang langkah dari langkah ke-2. Umumnya
algoritma-algoritma
clustering
non-hierarki
dibedakan
berdasarkan cara pandang algoritma tersebut terhadap : 1. Metode yang digunakan untuk menentukan centroid awal cluster 2. Aturan yang digunakan untuk penempatan ulang obyek uji. Metode yang dapat digunakan untuk menentukan centroid awal cluster diantaranya adalah : 1. Memilih sebanyak k obyek uji yang memiliki variable data yang lengkap (nonmissing data) sebagai centroid awal cluster, atau 2. Memilih sebuah obyek uji yang memiliki data lengkap sebagai centroid cluster pertama, kemudian untuk menentukan centroid ke-2 dilakukan dengan cara mencari centroid yang sedemikian rupa sehingga mempunyai jarak yang
16
berjauhan dengan centroid cluster pertama, begitu juga dengan pemilihan centroid ke-3 dilakukan dengan cara memilih centroid yang berjauhan dengan centroid sebelumnya. Hal yang sama dilakukan untuk centroid cluter selanjutnya. 3. Secara acak memilih sebanyak k obyek uji yang memiliki data yang lengkap sebagai centroid cluster awal. 4. Memperbaiki centroid awal cluster menggunakan aturan tertentu sedemikian rupa sehingga jarak antar centroid akan mempunyai jarak yang saling berjauhan. 5. Menggunakan proses heuristic untuk mengidentifikasi pusat-pusat cluster sedemikian rupa sehingga mempunyai jarak yang berjauhan 6. Cluster awal ditentukan oleh peneliti
Algoritma-algoritma non-hierarki juga dibedakan dengan cara algoritma tersebut memandang prosedur yang digunakan dalam menempatkan obyek uji ke suatu cluster. Beberapa algritma clustering jika dilihat dari aturan-aturan penempatan obyek uji terhadap cluster, dapat dibagi menjadi 3 algoritma yaitu : 1. Algoritma clustering dengan metode Sequential Threshold 2. Algoritma clustering dengan metode Parallel Threshold 3. Algoritma clustering dengan metode Optimizing Procedure
II.3.3.2.1 Clustering dengan metode Sequential Threshold Clustering Proses clustering dengan menggunakan metode sequential threshold clustering dimulai dengan memilih sebuah cluster seed dan kemudian menggabungkan setiap obyek yang ada dalam jarak yang telah ditentukan sebelumnya. Cluster tersebut akan disebut sebagai cluster pertama. Setelah cluster pertama terbentuk, maka cluster seed ke-dua digunakan dan kemudian obyekobyek yang mempunyai jarak terdekat akan digabungkan. Jika telah selesai, maka cluster berikutnya akan dibentuk dengan cara yang sama.
17
Metode ini disebut dengan sequential threshold clustering karena proses clustering dilakukan berurutan dari cluster pertama, kedua, ketiga dan berikutnya. Metode ini tidak memperbolehkan suatu obyek pindah ke cluster lain.
II.3.3.2.2 Clustering dengan metode Parallel Threshold Clustering Proses clustering dengan menggunakan metode parallel threshold clustering dimulai dengan memilih cluster seed-cluster seed yang akan dijadikan patokan pembuatan cluster. Setiap obyek akan diukur terhadap cluster seed tersebut. Sebuah obyek akan masuk ke suatu cluster jika mempunyai nilai jarak terhadap suatu cluster seed lebih dekat daripada cluster seed yang lain. Langkah ini mengakibatkan penentuan cluster tidak berurutan. Metode ini tidak memperbolehkan suatu obyek yang sudah menjadi anggota suatu cluster berpindah ke cluster lain.
II.3.3.2.3 Clustering dengan metode Optimizing Procedure Clustering Proses clustering dengan menggunakan metode ini mirip dengan sequential threshold atau parallel threshold clustering, perbedaannya adalah diperbolehkannya suatu obyek berpindah dari suatu cluster ke cluster lain. Ini terjadi ketika jarak ke suatu cluster ternyata lebih dekat daripada jarak obyek tersebut ke cluster yang sekarang. Proses optimalisasi dilakukan dengen menghitung ulang setiap obyek terhadap semua centroid cluster yang ada. Jika obyek tersebut mempunyai jarak yang lebih kecil terhadap suatu centroid cluster lain daripada centroid cluster sekarang, maka obyek tersebut direlokasi ke cluster terdekat tersebut. Optimalisasi cluster dapat dilakukan dengan langkah-langkah berikut : 1. Pilih sebuah obyek uji 2. Lakukan perbandingan jarak obyek uji dengan centroid cluster sekarang dengan jarak obyek uji dengan centroid cluster lain.
18
3. Jika jarak obyek uji ke centroid cluster lain lebih kecil daripada jarak obyek uji ke centroid sekarang, maka obyek uji direlokasi ke cluster terdekat. 4. Ulangi langkah 1 sampai 3 untuk semua obyek uji. 5. Ulangi langkah 1 sampai 4 jika masih terjadi relokasi. Langkah ini akan berhenti ketika tidak terjadi relokasi obyek uji ke cluster lain.
II.3.4 Langkah-Langkah Proses Analisis Clustering Langkah-langkah yang dilakukan untuk proses analisis clustering dapat dilihat pada gambar II.10 di bawah ini. Merumuskan Masalah
Memilih Metode Pengukuran Jarak/Similaritas
Memilih Prosedur Clustering
Menentukan Banyaknya Cluster
Menginterpretasikan dan Memprofile Cluster
Menguji Keandalan dan Validitas Cluster
Gambar II.10 Langkah-langkah proses analisis clustering
II.3.4.1 Merumuskan Masalah Hal yang paling penting di dalam perumusan masalah analisis cluster adalah pemilihan variabel-variabel yang akan dipergunakan untuk pengclusteran (pembentukkan cluster). Memasukkan satu atau dua variabel yang tidak relevan dengan masalah clustering akan mengurangi kualitas hasil clustering.
19
Pada dasarnya variable-variabel yang akan dipilih harus menguraikan kemiripan (similaritas) antar obyek, yang memang benar-benar relevan dengan masalah yang dihadapi. Variabel harus dipilih berdasarkan penelitian sebelumnya, teori atau suatu pertimbangan berkenaan dengan hipotesis yang akan diuji.
II.3.4.2 Memilih Metode Pengukuran Jarak/Similaritas Karena tujuan clustering adalah untuk mengelompokkan obyek yang mirip ke dalam suatu cluster yang sama, maka beberapa ukuran diperlukan untuk menguji seberapa mirip atau berbeda obyek-obyek tersebut. Pendekatan yang paling biasa ialah mengukur kemiripan dinyatakan dalam jarak antar pasangan obyek. Obyek dengan jarak yang lebih pendek antar mereka akan lebih mirip satu sama lain dibandingkan dengan pasangan dengan jarak yang lebih panjang. Ada beberapa metode untuk mengukur jarak antar dua obyek. P2
P2
a
b c
P1
P1
π
(π1π β π2π )2
πππππ π1, π2 = π=1
(a) Pengukuran Jarak Euclidean
π
πππππ π1, π2 =
(| π1π β π2π |) π=1
(b) Pengukuran Jarak Manhattan
Gambar II.11 Perbandingan Pengukuran Jarak Euclidean dan Manhattan Ukuran kemiripan yang paling biasa dipakai adalah euclidean distance (jarak euclidean) atau nilai kuadratnya. Jarak euclidean adalah akar dari jumlah kuadrat perbedaan/deviasi di dalam nilai untuk setiap variabel. Gambar II.11 bagian (a) menggambarkan bagaimana jarak antara P1 dan P2 dihitung. Ada juga ukuran jarak lainnya yaitu jarak city-block atau jarak manhattan, yaitu jarak antara dua obyek merupakan jumlah perbedaan mutlak di dalam nilai untuk setiap variabel. Gambar II.11 bagian (b) menjelaskan perhitungan jarak menggunakan
20
perhitungan jarak manhattan. Ada berbagai cara untuk menghitung jarak antar dua titik dengan menggunakan teknik jarak Manhattan, bisa menggunakan jalur a, b atau c.
II.3.4.3 Memilih Prosedur Clustering Langkah selanjutnya dalam proses clustering adalah memilih prosedur clustering. Prosedur clustering yang bisa dipilih boleh menggunakan teknik hierarki atau teknik non-hierarki. Prosedur clustering yang dapat digunakan bisa dilihat di Gambar II.4.
II.3.4.4 Menentukan Banyaknya Cluster Isu utama dalam analisis cluster adalah menentukan berapa banyak cluster yang ingin dibentuk. Sebenarnya tidak ada aturan yang baku untuk menentukan berapa banyaknya cluster. Namun demikian ada beberapa petunjuk yang dapat digunakan yaitu : 1. Pertimbangan teoritis, konseptual, dan praktis mungkin bisa disarankan untuk menentukan berapa banyaknya cluster yang sebenarnya. 2. Di dalam clustering hierarki, jarak di mana cluster digabung bisa dipergunakan sebagai kriteria. 3. Di dalam clustering non-hierarki, rasio jumlah varian dalam cluster dengan jumlah varian antar cluster dapat diplotkan terhadap banyaknya cluster. 4. Besarnya relatif cluster seharusnya berguna/bermanfaat.
II.3.4.5 Menginterpretasi dan Memprofile Cluster Menginterpretasi dan memprofile cluster meliputi pengkajian mengenai centroid-centroid yaitu rata-rata nilai obyek yang terdapat dalam cluster pada setiap variabel. Nilai centroid memungkinkan kita untuk menguraikan setiap cluster dengan cara memberikan suatu nama atau label.
21
II.3.4.6 Menguji Keandalan dan Validitas Cluster Beberapa pertimbangan perlu diberikan dalam analisis cluster, jangan sampai ada pemecahan clustering diterima tanpa beberapa penilaian atau pengujian tentang keandalan dan validitas clusternya. Ada beberapa prosedur yang dapat dilakukan untuk menguji tingkat validitas proses clustering, yaitu : 1. Lakukan analisis cluster pada data yang sama dengan menggunakan metode pengukuran jarak yang berbeda. 2. Menggunakan metode clustering yang berbeda dan bandingkan hasilnya. 3. Pecah atau bagi data secara acak menjadi dua bagian. Lakukan analisis cluster secara terpisah terhadap kedua bagian tersebut. Hilangkan beberapa variabel secara acak. Lakukan clustering yang didasarkan pada sisa variabel. Bandingkan hasilnya dengan hasil clustering yang didasarkan pada data asli yang masih utuh. 4. Di dalam clustering non-hierarki, pemecahan mungkin tergantung pada urutan obyek dalam seluruh data. Lakukan banyak proses clustering dengan menggunakan urutan obyek yang berbeda sampai pemecahan menjadi stabil.