BAB II KAJIAN PUSTAKA
Sumber-sumber yang digunakan dalam pembuatan tugas akhir, baik yang diambil dari buku, internet, maupun jurnal diuraikan secara terperinci pada Bab Tinjuan Pustaka. Konsep dan definisi dari data mining serta hubungannya dengan customer relationship management melalui atribut recency, frequency dan monetary, penjelasan Metode K-Means dan Particle Swarm Optimization dijelaskan pula pada Bab ini.
2.1
State of the Art Penelitian mengenai data mining yang berhubungan dengan proses
segmentasi pelanggan telah beberepa kali dilakukan. Penelitian segmentasi pelanggan menggunakan Metode Fuzzy C-Means dan Fuzzy Subtractive serta Model Fuzzy Recency Frequency Monetary (RFM) pada perusahaan retail diteliti oleh Yohana Nugraheni. Pada penelitian tersebut diungkapkan bahwa kekurangan dari Algoritma Fuzzy Subratctive, yaitu tidak dapat membentuk cluster yang tergolong dalam label superstar dan golden customer, sehingga dapat dikatakan Algoritma Fuzzy Subtractive Clustering kurang mendukung proses data mining pada perusahaan retail untuk mendapatkan konsumen potensial (Yohana Nugrahaeni 2011, h. 123). Penelitian sejenis juga dilakukan oleh Ni Putu Putri Yuliari dengan Metode Fuzzy C-Means dan Fuzzy RFM untuk segmentasi pelanggan pada perusahaan furniture. Pada penelitian tersebut diungkapkan bahwa Metode Fuzzy C-Means dapat menghasilkan cluster yang tergolong superstar dengan kombinasi Fuzzy RFM. (Putri Yuliari 2015, h. 107). Metode lain yang dapat digunakan untuk melakukan segmentasi pelanggan adalah Metode Density Based Spatial Clustering of Application with Noise (DBSCAN). Penelitian segmentasi pelanggan menggunakan Metode DBSCAN
6
7
pada perusahaan perhotelan dilakukan oleh Ni Made Anindya Santika Devi. Pada penelitian tersebut diungkapkan bahwa Metode DBSCAN yang digabungkan dengan Model RFM telah dapat menghasilkan proses segmentasi dengan cukup baik, dapat dilihat dari beragam kelas pelanggan yang dihasilkan (Anindya Santika Devi 2015, h. 114). Hasil serupa juga diperoleh melalui penelitian yang dilakukan oleh Luh Putu Dian Shavitri Handayani mengenai segmentasi pelanggan pada perusahaan retail dengan Metode ART 2 dan Model RFM. Algoritma ART 2 yang digabungkan dengan model RFM telah dapat melakukan proses segmentasi dengan cukup baik dapat dilihat dari beragam kelas pelanggan yang dihasilkan (Dian Shavitri Handayani 2012, h. 107). Segmentasi pelanggan pada pelanggan industri telekomunikasi dengan memanfaatkan Metode K-Means dan RFM diteliti oleh Arumawadu, Rathanyaka dan Illangarathne. Pada penelitian tersebut didapat kekurangan dari Metode KMeans dalam menentukan titik pusat cluster sehingga proses clustering menjadi lebih lambat (Arumawadu, Rathnayaka & Illangarathne, 2015, Vol. 3, hh. 63-71). Penelitian mengenai metode kombinasi yang sesuai untuk mengoptimasi Metode K-Means dilakukan oleh Chiu dan kawan-kawan. Metode Particle Swarm Optimization (PSO) diuji coba untuk mengoptimasi Metode K-Means. Pada hasil dari penelitian tersebut dinyatakan bahwa gabungan Metode K-Means dan PSO dapat menghasilkan cluster yang lebih akurat dan efisien (Chiu et al. 2011, vol. 36, hh. 4558-4565). Kinerja PSO dalam mengoptimalkan Metode K-Means juga diteliti oleh G. Komarasamy dan Amitabh Wahi. Dibuktikan pada penelitian tesebut bahwa kelemahan PSO yang cenderung bekerja secara lambat dalam proses menentukan nilai global optimum dapat diimbangi oleh Metode K-Means yang bekerja secara cepat dalam menentukan nilai optimum. Kombinasi kedua algoritma tersebut dapat melengkapi kekurangan satu sama lain terbukti dengan hasil clustering yang lebih baik telah dihasilkan dibandingkan dengan hasil clustering Metode K-Means standar. Nilai titik cluster dapat ditemukan secara otomatis dengan menggunakan
8
nilai optimal number dari setiap cluster (Komarasamy & Wahi 2011, vol 1, hh. 206208). Penelitian mengenai Konsep CRM (Customer Relationship Management) dilakukan oleh Injazz J. Chen dan Karen Popovich. Pada penelitian tersebut diuraikan konsep CRM yang merupakan kombinasi antar manusia, proses dan teknologi. Konsep CRM dapat digunakan untuk memahami karakteristik pelanggan suatu perusahaan melalui pendekatan yang terintegrasi untuk memanajemen hubungan dengan pelanggan (Chen & Popovich 2003, vol. 9, hh. 672-688). Berikut ini adalah daftar penelitian mengenai data mining yang berkaitan dengan segmentasi pelanggan disajikan dalam Tabel 2.1
Tabel 2.1 Daftar State of the Art
No. 1.
2.
3.
4.
5.
6.
Penelitian Yohana Nugrahaeni (2011)
Metode Fuzzy C-Means dan Fuzzy Subtractive
Deskripsi Metode Fuzzy C-Means dan Fuzzy Subtractive digunakan untuk segmentasi pelanggan pada perusahaan retail Ni Putu Yuliari Fuzzy C-Means Segmentasi pelanggan pada (2015) dan Fuzzy RFM perusahaan furniture dilakukan dengan Metode Fuzzy C-Means dan Fuzzy Recency Frequency Monetary (Fuzzy RFM) Ni Made DBSCAN dan Penelitian segmentasi pelanggan Anindya Santika Model RFM dilakukan dengan Metode Devi (2015) DBSCAN pada perusahaan perhotelan Luh Putu Dian ART 2 dan Segmentasi pelanggan pada Shavitri Model RFM perusahaan retail dengan Metode Handayani ART 2 dan Model RFM (2012) Arumawadu, K-Means Proses segmentasi pelanggan Rathanyaka & pada industry telekomunikasi Illangarathne dengan Metode K-Means dan (2015) RFM. Chiu et all (2009) K-Means dan Menguji metode PSO untuk PSO dikombinasikan dengan K-Means.
9
No. 6.
7.
Penelitian G. Komarasamy dan Amitabh Wahi (2011) Injazz J. Chen dan Karen Popovich (2003)
Metode K-Means PSO
Deskripsi dan Menguji kinerja PSO dalam mengoptimalkan Metode KMeans Customer Menguraikan konsep CRM untuk Relationship data mining Management
State of the art diatas menguraikan bahwa belum ada penelitian mengenai segmentasi pelanggan dengan Metode K-Means dan PSO serta Model RFM yang digunakan untuk melakukan segmentasi pelanggan pada perusahaan distributor produk farmasi yang mengambil studi kasus di PT. X. State of the art dari judul tugas akhir ini dapat divisualisasikan pada diagram fishbone yang ditunjukkan Gambar 2.1
Gambar 2.1 Diagram Fishbone
Pada Gambar 2.1, dapat dijelaskan bahwa judul tugas akhir ini mengambil konsep data mining terutama pada metode clustering data mining, sedangkan platform yang digunakan berbasis desktop. Tools yang digunakan adalah MATLAB dengan DBMS yang dipilih adalah SQL Server. Jenis metode clustering yang dipilih adalah Metode K-Means, dikombinasikan dengan salah satu jenis swarm intelligence yaitu Particle Swarm Optimization. Segmentasi pelanggan yang pernah dilakukan antara lain di bidang penjualan pakaian, pulsa, retail dan hotel, sedangkan segmentasi yang akan dilakukan adalah pada perusahaan distributor di bidang
10
produk farmasi. Metode validasi cluster yang akan digunakan adalah Metode Davies-bouldin Index dan Silhouette Index. Diagram fishbone menghasilkan kesimpulan bahwa penelitian mengenai segmentasi pelanggan menggunakan Metode K-Means dan Particle Swarm Optimization belum pernah dilakukan pada perusahaan distributor di bidang produk farmasi.
2.2
Data Mining Data dalam skala besar yang diekstrasi untuk mendapat pengetahuan dan
informasi yang berguna disebut dengan data mining. Data Mining digunakan untuk menyelesaikan masalah dengan melakukan analisis pada data dalam jumlah besar. (Han and Kamber, 2006). Menurut Sumanthi dan Sivanandam (2006, hh. 1-20), penerapan data mining dapat dilakukan di berbagai bidang industri meliputi bidang keuangan, pelayanan kesehatan, manufaktur, transportasi dan lain sebagainya, juga telah menggunakan data mining untuk mengambil manfaat dari analisis historikal data. Istilah data mining dan knowledge discovery in databases (KDD) sering kali digunakan secara bergantian untuk menjelaskan proses penggalian informasi tersembunyi dalam suatu basis data yang besar. Salah satu tahapan dalam keseluruhan proses KDD adalah data mining. Proses KDD secara garis besar dapat dijelaskan sebagai berikut (Fayyad et al, 1996).
Gambar 2.2 Proses KDD Sumber: Fayyad et al, 1996, h.5
11
Gambar 2.2 mengambarkan tahapan KDD. Tahap ini merupakan bagian dari proses KDD yang disebut interpretation. Tahap ini mencakup proses data selection yaitu pemilihan data dari sekumpulan data operasional perlu dilakukan sebelum tahap penggalian informasi dalam KDD dimulai. Proses cleaning yaitu proses cleaning pada data yang menjadi fokus KDD. Proses transformation yaitu transformasi pada data yang telah dipilih, sehingga data tersebut sesuai proses data mining. Proses data mining yaitu proses mencari pola atau informasi menarik dalam data terpilih menggunakan teknik atau metode tertentu. Terakhir, proses interpretation yaitu pola informasi yang dihasilkan dari proses data mining perlu ditampilkan dalam bentuk yang mudah dimengerti oleh pihak yang berkepentingan.
2.3
Hubungan Data Mining dalam Kerangka Kerja CRM CRM adalah strategi untuk membentuk, menata dan memperkuat loyalitas
pelanggan. Kombinasi CRM dan data mining banyak digunakan perusahaanperusahaan untuk mengidentifikasi pelanggan potensial dengan menggunakan segmentasi pelanggan (Tsiptsis & Charianopoulus, 2009). Data mining dapat digunakan untuk menganalisis pelanggan potensial, teknik data mining yang sering digunakan untuk menganalisi pelanggan adalah clustering dan aturan asosiasi. Inti dari kombinasi antara data mining dalam kerangka kerja CRM adalah memanfaatkan data yang telah dimiliki suatu perusahaan agar berguna bagi masa depan perusahaan itu sendiri. Kombinasi ini dapat memperolah gambaran atas kebutuhan, selera dan pelayanan yang diinginkan oleh pelanggan (Ziafat, 2014, Vol. 4, h. 72). Implementasi data mining dalam kerangka CRM harus mengikuti skema Cross Industry Standard Process for Data Mining (CRIPS-DM) yang dapat dilihat pada Gambar 2.3.
12
Gambar 2.3 Skema CRIPS-DM Sumber: Ziafat, 2014, h.73
Tahapan dari skema CRIPS-DM antara lain sebagai berikut: 1.
Business Understanding, sebuah projek data mining harus memahami proses bisnis secara subjektif, agar dapat mendefinisikan dan merencanakan projek yang akan dikembangkan.
2.
Data Understanding, fase ini melibatkan data yang dibutuhkan untuk mengembangkan projek. Fase ini meliputi pengumpulan data dan analisis data untuk menemukan masalah potensial.
3.
Data Preparation, fase ini mengidentifikasi data ke dalam model data mining. Fase ini meliputi integrasi data, transformasi format data ke bentuk yang dibutuhkan oleh projek serta proses cleaning data.
4.
Modelling, pada fase ini, analis harus memilih model yang sesuai proses bisnis, dimana data akan diubah ke dalam bentuk model yang diinginkan dengan menggunakan algoritma untuk mencapai hasil terbaik.
5.
Evaluation, model yang telah dihasilkan kemudian dievaluasi agar sesuai dengan bisnis proses perusahaan.
6.
Deployment, merupakan proses final dimana model yang dihasilkan dapat diterapkan pada proses bisnis perusahaan.
13
2.4
Model RFM Menurut Shajahan (2004, hh. 61-62) Model Recency, Frequency dan
Monetary adalah sebuah pemodelan bisnis yang dapat diaplikasikan di berbagai situasi yang dapat mengambarkan berbagai tindakan atau prilaku pelanggan dengan melakukan survei tertentu. Pelanggan yang melakukan transaksi pada perusahaan tersebut dapat dihitung komponen recency (R) dan frequentcy (F) serta jumlah transaksi terhadap produk tertantu melalui komponen monetary (M). Menurut Hughes (1994), model RFM dapat diuraikan sebagai berikut: 1.
Recency Recency merepresentasikan jarak diantara transaksi terbaru dengan transaksi sebelumnya. Makin kecil jarak transaksi nilai recency akan semakin besar.
2.
Frequency Frequency merepresentasikan jumlah transaksi yang dilakukan dalam periode tertentu. Semakin banyak frekuensi yang ada maka nilai frequency akan semakin besar.
3.
Monetary Monetary merepresentasikan jumlah uang yang telah ditransaksikan pada periode tertentu. Semakin besar jumlah transaksi jumlah monetary akan semakin besar. Implementasikannya recency, frequency dan monetary secara bersama-
sama dapat berdampak pada perusahaan untuk mendapatkan indikator dari ketertarikan pelanggan terhadap produk perusahaan tersebut. Asumsi umum dari proses tersebut adalah sebagai berikut: 1.
Pelanggan yang baru saja bertransaksi, akan lebih senang bertransaksi kembali dibanding pelanggan yang sudah lama tidak melakukan transaksi.
2.
Pelanggan yang bertransaksi secara rutin akan lebih senang bertransaksi daripada pelanggan yang baru saja melakukan satu atau dua transaksi.
3.
Pelanggan yang paling banyak bertransaksi secara total akan lebih senang melakukan transaksi. Menurut Zumstein (2007, h. 40), metode RFM dapat digunakan untuk
mendeskripsikan atribut recency, frequency, dan monetary dengan variabel
14
linguistik. Sebagai contoh, atribut recency dideskripsikan dengan bahasa natural long ago (lama) dan very recent (baru saja). Atribut frequency dideskripsikan dengan bahasa natural rare (jarang) dan frequent (sering). Atribut monetary dideskripsikan dengan bahasa natural low value (rendah) dan high value (tinggi). Menurut Tsiptsis dan Chorianopoulos (2009, hh. 344-345) terdapat enam pembagian pelanggan para perusahaan retail berdasarkan nilai RFM yang didefinisian secara lebih spesifik pada Tabel 2.2.
Tabel 2.2 Klasifikasi Customer
Kelas Pelanggan Superstar
Golden Customer Typical Customer Occational Customer Everyday Shopper
-
Dormant Customer
-
Deskripsi Kelas Pelanggan Customer dengan tingkat loyalitas paling tinggi. Nilai (value) yang paling tinggi. Frekuensi yang paling tinggi. Melakukan transaksi terbesar. Nilai (value) terbesar kedua. Frekuensi tinggi. Melakukan transaksi standar rata-rata. Memiliki nilai (value) dan frekuendi standar rata-rata. Melakukan transaksi standar rata-rata. Memiliki frekuendi terendah setelah dormant Memiliki recency rendah (memiliki waktu yang lama dengan rentang waktu terakhir pembelian) Melakukan transaksi dalam jumlah besar (large basket) Memiliki peningkatan dalam transaksi Melakukan transaksi dalam jumlah kecil (small basket) Memiliki nilai dengan skala menengah (medium) hingga rendah (low) Memiliki frekuensi dan nilai (value) terendah Memiliki waktu yang lama ketika masa terakhir pembelian (recency terendah)
Sumber: Tsiptsis dan Chorianopoulos 2009, hh. 344-345
15
2.5
Normalisasi Data Proses clustering dapat terdiri dari berbagai interval nilai yang
menyebabkan perbedaan jarak antar satu nilai dengan nilai lainnya, diperlukannya proses normaslisasi agar data memiliki nilai rata-rata 0 atau zero mean (Putra, Darma 2010, h.310). Suatu data atau fitur dapat dinormalisasi dengan rumus berikut. πΜ =
πβπΜ
ππ₯
........................................................................................................... (2.1)
Nilai πΜ dinyatakan sebagai data atau fitur X yang telah ternormalisasi , πΜ
dinyatakan sebagai rata-rata dari X, dan π menyatakan nilai standar deviasi dari X. Sebagai contoh, misalkan vektor data X = (2,3,5,10,15) maka πΜ
= 7, π = 5.43, sehingga vektor X yang telah ternormalisasi adalah sebagai berikut. πΜ = (β0.92, β0.73, β0.37, 0.55, 1.47) Setelah dinormalisasi, pada data dapat dilakukan proses scalling agar nilai data berada pada suatu interval tertentu. Proses scalling berfungsi agar suatu fitur memiliki batas atas S dan batas bawah R dapat diperoleh dengan rumus berikut. πβπ πππ πΜ = π max β π πππ β (π β π
) + π
...................................................................... (2.2)
Data yang telah ternormalisasi di atas diskalakan dengan batas S = 1 dan batas bawah R = 0 maka: πΜ =
π β (β0.92) β (1 β 0) + 0 1.47 β (β0.92)
πΜ =
(β0.92 + 0.92, β0.72 + 0.92, β0.37 + 0.92, 0.55 + 0.92, 1.47 + 0.92) β1 1.47 β (β0.92)
πΜ =
(0, 0.2, 0.55, 1.47, 2.39) = (0, 0.8, 0.23, 0.62, 1) 2.39 Dari hasil di atas terlihat nilai fitur data berada dalam interval [0,1].
16
2.6
Metode Clustering Proses dari pengelompokan objek fisik atau abstrak ke dalam kelas yang
memiliki kemiripan disebut dengan proses clustering, sedangkan cluster adalah koleksi data yang memiliki kemiripan satu sama lain dengan objek yang berada pada cluster yang sama dan memiliki perbedaan dengan objek yang berada pada cluster yang lain (Han, Kamber & Pei 2007, h. 108). Menurut Kantardzic (2011, h. 250), analisis cluster didasari oleh pengelompokan secara natural, secara pengukuran atau melihat dari segi kesamaan dan perbedaan objek tersebut. Metode K-Means merupakan salah satu jenis metode clustering yang digunakan untuk melakukan pengelompokkan.
2.7
Metode K-Means Metode clustering yang digunakan dalam tugas akhir ini adalah Metode K-
Means. Metode K-Means melakukan pencarian pusat dan batas cluster melalui proses perulangan (iterative). Kedekatan atau kemiripan (similarity) suatu objek dengan objek lain atau dengan pusat cluster dihitung dengan menggunakan perhitungan jarak. Algoritma ini pertama kali diusulkan oleh MacQueen (1967, hh. 281-297) dengan tujuan untuk dapat membagi data point dalam dimensi kedalam sejumlah cluster, dimana proses clustering dilakukan dengan meminimalkan jarak sum squares antara data dengan masing-masing pusat cluster (centroid-based). Algoritma K-Means dalam penerapannya memerlukan tiga parameter yang seluruhnya ditentukan pengguna yaitu jumlah cluster k, inisialisasi pusat cluster, dan jarak sistem. Tahapan awal, Algoritma K-Means adalah memilih secara acak k buah objek sebagai centroid dalam data, kemudian jarak objek dan centroid dihitung menggunakan Metode Euclidean Distance. Algoritma K-Means secara iterative meningkatkan variasi nilai dalam tiap cluster dimana obyek selanjutnya ditempatkan dalam kelompok yang terdekat, dihitung dari titik tengah cluster. Titik tengah baru ditentukan bila semua data telah ditempatkan dalam cluster terdekat. Proses penentuan titik tengah dan penempatan data dalam cluster diulangi sampai nilai titik tengah dari semua cluster yang terbentuk tidak berubah lagi (Han, Kamber & Pei 2006, hh. 402-404).
17
Menurut Darma Putra (2010, h. 340), langkah-langkah Algoritma K-Means dijelaskan secara lebih rinci dalam uraian berikut: 1.
Inisialisasi K pusat cluster adalah z1(1), z2(2), β¦, zk(1). Pusat-pusat cluster ini biasanya dipilih secara acak dari sekumpulan data yang akan dikelompokkan.
2.
Pada iterasi ke-k sampel data {x} di antara K domain cluster, dengan menggunakan hubungan sebagai berikut: 2
π₯ β ππ (π) jika βπ₯ β π§π (π)β < βπ₯ β π§π (π)β ........................................... (2.3) Untuk semua I = 1, 2, β¦K,
Iβ j
, dengan Sj(k) menyatakan himpunan sampel
dengan pusat cluster adalah zj (k). 3.
Hasil pada langkah 2, hitung pusat-pusat cluster baru zj (k+1), j = 1, 2, .., K, sehingga jumlah seluruh jarak dari semua titik dalam Sj(k) ke pusat cluster yang baru minimal, dengan kata lain, pusat cluster baru zj (k+1) dihitung sehingga unjuk kerja indeks: 2
ππ = βπ₯β(πΎ)βπ₯ β π§π (π + 1)β , j = 1,2, β¦. K ........................................... (2.4) zj (k+1)
yang
meminimalkan
persamaan
di
atas
adalah
dengan
menyederhanakan nilai rata-rata dari sampel pada Sj(k), maka dari itu, pusat cluster baru ditunjuk oleh: 1
π§π (π + 1) = π βπ₯βππ (π) π, j = 1,2,β¦,K .................................................. (2.5) π
Dengan Nj menyatakan jumlah sampel dalam Sj(k). 4.
Bila zj (k+1) = zj (k) untuk j = 1, 2, β¦, K, maka algoritma telah konvergen dan proses berakhir. Bila tidak maka kembali ke langkah 2. Contoh perhitungan dari MetodeK-Means adalah sebagai berikut. Tabel 2.3
merupakan data sumber yang akan digunakan dalam perhitungan. Tabel 2.3 Data Sumber
Objek ke -n Kordinat X 1 1 2 2 3 4 4 5
Kordinat Y 1 1 3 4
18
Tahapan perhitungan adalah sebagai berikut. 1.
Banyak cluster yang digunakan adalah dua, jadi k = 2. Banyaknya cluster lebih kecil dari jumlah data atau k < n.
2.
Tentukan titik pusat (centroid) setiap cluster. Centroid awal ditentukan secara acak dapat dilihat pada Tabel. 2.4
Tabel 2.4 Titik Pusat Iterasi ke-1
Titik Pusat ke-n C1 C2
Kordinat X 1 2
Kordinat Y 1 1
Iterasi selanjutnya tidak menghitung centroid secara acak. Titik pusat ditentukan dengan mencari nilai rata-rata data pada setiap cluster. Jika titik pusat yang didapat berbeda dengan titik pusat sebelumnya maka iterasi tetap dilakukan hingga mendapat titik pusat yang sama dengan iterasi sebelumnya. 3.
Menghitung jarak data dengan titik pusat dapat dilakukan dengan tiga cara, yaitu Euclidean Distance, Manhattan / City Block, Minkowski. Perhitungan jarak yang dapat dilakukan pada Metode K-Means adalah dengan menggunakan Rumus Euclidean Distance. 2
π = (π₯π, ππ ) = ββππ=1(π₯π β ππ ) ...................................................................... (2.6) d = jarak j = banyaknya data c = centroid x = data Jarak data dengan titik pusat cluster pertama adalah sebagai berikut. π(π₯1 , π1 ) = β(π1 β π1π )2 + (π1 β π1π )2 = β(1 β 1)2 + (1 β 1)2 = 0 π(π₯2 , π1 ) = β(π2 β π1π )2 + (π2 β π1π )2 = β(2 β 1)2 + (1 β 1)2 = 1 π(π₯3 , π1 ) = β(π3 β π1π )2 + (π2 β π1π )2 = β(4 β 1)2 + (3 β 1)2 = 3.605551 π(π₯4 , π1 ) = β(π4 β π1π )2 + (π3 β π1π )2 = β(5 β 1)2 + (4 β 1)2 = 5 Jarak data dengan titk pusat cluster kedua adalah sebagai berikut.
19
π(π₯1 , π2 ) = β(π1 β π2π )2 + (π1 β π2π )2 = β(1 β 2)2 + (1 β 1)2 = 1 π(π₯2 , π2 ) = β(π2 β π2π )2 + (π2 β π2π )2 = β(2 β 2)2 + (1 β 1)2 = 0 π(π₯3 , π2 ) = β(π3 β π2π )2 + (π2 β π2π )2 = β(4 β 2)2 + (3 β 1)2 = 2.828427 π(π₯4 , π2 ) = β(π4 β π2π )2 + (π3 β π2π )2 = β(5 β 2)2 + (4 β 1)2 = 4.242641 Seterusnya, hitung jarak pada setiap baris data. Hasil perhitungan dapat dilihat pada Tabel 2.5. Tabel 2.5 Hasil Perhitungan Jarak
Objek ke X 1 1 2 2 3 4 4 5 4.
Y
dc1 1 1 3 4
dc2
0 1 3.605551 5
1 0 2.828427 4.242641
c1
c2 Ok Ok Ok Ok
Kembali lagi ke tahap kedua hingga menemukan titik pusat cluster yang sama seperti sebelumnya.
2.8
Metode Particle Swarm Optimization Menurut Talukder (2011, hh. 10-11), Metode Particle Swarm Optimization
(PSO) merupakan algoritma yang memiliki sifat pencarian dengan melibatkan banyak pelaku didalamnya. Pelaku dapat berupa populasi partikel yang merepresentasikan solusi potensial di dalam setiap populasi. Semua partikel melewati ruang pencarian multidimensional yang disesuaikan dengan posisi berdasarkan experience dan tetangga yang dimilikinya. π₯ππ‘ menunjuk vektor dari partikel i di ruang pencarian multidimensional pada tahapan waktu t, lalu posisi setiap partikel diperbaharui di ruang pencarian. Semua partikel diinisiasi secara acak, kemudian dievaluasi untuk dikomputasi nilai kecocokannya dengan mencari Personal Best atau nilai terbaik dari setiap partikel dan Global Best nilai terbaik dari keseluruhan populasi. Perulangan dilakukan untuk menemukan solusi optimal. Kecepatan partikel pertama diperbaharui melalui nilai Personal atau Global Best, dan posisi setiap
20
partikel diperbaharui dengan kecepatan yang berlaku. Perulangan berhenti dengan aturan yang ditetapkan di awal. 2.8.1
Personal Best dan Global Best Particle Swarm Optimization Personal Best adalah posisi terbaik setiap individu partikel yang didapat
melalui iterasi perubahan kecepatan gerak partikel. Sebaliknya Global Best adalah posisi terbaik yang ditemukan dari nilai Personal Best partikel secara keseluruhan (Talukder 2011, hh. 11-13). Metode ini menggunakan topologi bintang, seperti Gambar 2.4
Gambar 2.4 Topologi Bintang Sumber: Talukder 2011, h. 11
Topologi ini memungkinkan partikel untuk medapatkan informasi secara keseluruhan mengenai keseluruhan partikel. Setiap partikel individu π β [1, β¦ , π] dimana n > 1 memiliki posisi terbaru di dalam area pencarian xi dan kecepatan terbaru vi serta posisi Personal Best Pbest,i. Posisi Personal Best Pbest,i berkorespondensi dengan posisi di area pencarian dimana partikel i memiliki nilai terkecil yang dipengaruhi oleh fungsi objektif f. Keadaan dimana posisi menghasilkan nilai terkecil diantara posisi Personal Best lainnya maka disebut dengan Global Best yang dinotasikan sebagai Gbest. Posisi Personal Best berikutnya dihitung dengan rumus berikut:
21
π‘+1 π‘+1 ππππ π‘,π ππ π(πππ‘+1 ) > ππππ π‘,π π‘+1 ππππ π‘,π = { π‘+1 π‘+1 ............................................................ (2.8) ππ ππ π(πππ‘+1 ) β€ ππππ π‘,π
Dimana f :Rn β R adalah fungsi fitness. Posisi Global Best pada tahap waktu t dihitung dengan: π‘+1 πΊπππ π‘ = min{ππππ π‘,π } , ππππππ π β [1, β¦ , π] πππ π > 1 ................................ (2.9)
Untuk menghitung kecepatan partikel pada Global Best digunakan rumus berikut: π‘+1 π‘ π‘+1 π‘ π£ππ = π£ππ + π1 ππππ‘ [ππππ π‘,π β πππ‘+1 ] + π2 π2π [πΊπππ π‘ β πππ‘ ] .............................. (2.10)
2.8.3
Contoh Perhitungan Particle Swarm Optimization Menurut Budi Santosa (2011) contoh perhitungan dengan menggunakan
Metode Particle Swarm Optimization (PSO) adalah sebagai berikut. Misal terdapat persoalan optimasi dengan satu variabel. π(π₯) = (100 β π₯)2 ππππππ 60 β€ π β€ 120 1.
Tentukan jumlah partikel N = 4 Tentukan populasi awal secara random, misalkan didapat π₯1 (0) = 80, π₯2 (0) = 90, π₯3 (0) = 110, π₯4 = 75.
2.
Evaluasi nilai fungsi tujuan untuk setiap partikel π₯π (0) untuk j = 1,2,3,4. Dan nyatakan dengan π1 = π(80) = 400, π2 = π(90) = 100, π3 = π(110) = 100, π4 = π(75) = 625,
22
3.
Tentukan kecepatan awal π£1 (0) = π£2 (0) = π£3 (0) = π£4 (0) = 0. Tentukan iterasi i = 1.
4.
Temukan ππππ π‘,1 = 80, ππππ π‘,2 = 90, ππππ π‘,3 = 110, ππππ π‘,4 = 75, πΊπππ π‘ = 90. Hitung π£(π) dengan π1 = π2 = 1. Misalkan nilai random yang didapat, π1 = 0,4, π2 = 0,5 dengan rumus ππ (π) = ππ (π β 1) + π1 π1 [ππππ π‘.π β π₯π (π β 1)] + π2 π2 [πΊπππ π‘.π β π₯π (π β 1)] diperoleh: π₯1 (1) = 80 + 5 = 85 π₯2 (1) = 90 + 0 = 90 π₯3 (1) = 110 β 10 = 100 π₯4 (1) = 75 + 7.5 = 82.5
5.
Evaluasi nilai fungsi tujuan sekarang pada partikel π₯π (1), π1 (1) = π(85) = 225, π2 (1) = π(90) = 100, π3 (1) = π(100) = 0 π4 (1) = π(82.5) = 306.25 Sedangkan pada iterasi sebelumnya kita dapatkan π1 (1) = π(80) = 400, π2 (1) = π(90) = 100, π3 (1) = π(110) = 100, π4 (1) = π(75) = 625, Nilai dari f dari iterasi sebelumnya tidak ada yang lebih baik sehingga Pbest untuk masing-masing partikel sama dengan nilai x. Gbest =100.
6.
Cek apakah solusi x sudah konvergen, dimana nilai x saling dekat. Jika tidak, tingkatkan ke iterasi berikutnya i = 2. Lanjutkan ke langkah 4.
7.
ππππ π‘,1 = 85, ππππ π‘,2 = 90, ππππ π‘,3 = 100, ππππ π‘,4 = 75, πΊπππ π‘ = 100. kecepatan baru dengan π1= 0.3 dan π2 = 0.6. π£1 (2) = 5 + 0.3(85 β 85) + 0.6(100 β 85) = 14 π£2 (2) = 0 + 0.3(90 β 90) + 0.6(100 β 90) = 6 π£3 (2) = β10 + 0.3(100 β 100) + 0.6(100 β 100) = β10 π£4 (2) = 7.5 + 0.3(82.5 β 82.5) + 0.6(100 β 82.5) = 18
Hitung
23
Sedangkan untuk nilai x adalah π₯1 (2) = 85 + 14 = 99 π₯1 (2) = 90 + 6 = 96 π₯1 (2) = 100 β 10 = 90 π₯1 (2) = 82.5 + 18 = 100.5 8.
Evaluasi nilai fungsi tujuan sekarang pada partikel π₯π (2), π1 (2) = π(99) = 1, π2 (2) = π(96) = 16, π3 (2) = π(90) = 100, π4 (2) = π(100.5) = 0.25, Jika dibandingkan dengan nilai f dari iterasi sebelumnya, ada nilai yang lebih baik dari nilai f sekarang yaitu π3 (1) = 0, sehingga ππππ π‘ untuk partikel 3 sama dengan 100, dan πΊπππ π‘ dicari dari min{1,16,0,0.25} = 0 yang dicapai pada π₯3 (1) = 100. Sehingga untuk iterasi berikutnya ππππ π‘ = (99,96,100,100.5) dan πΊπππ π‘ = 100.
9.
Cek apakah solusi sudah konvergen, dimana nilai x saling dekat. Jika tidak konvergen, set i = 3, masuk ke iterasi berikutnya. Lanjutkan ke langkah berikutnya dengan menghitung kecepatan v dan ulangi langkah-langkah selanjutnya sampai mencapai konvergen.
2.9
Validasi Cluster Cluster yang dihasilkan terbentuk dari parameter-parameter yang
diinputkan. Pembentukan jumlah cluster dapat divalidasi dengan menggunakan metode validasi cluster untuk mengetahui input terbaik dalam pembentukan cluster, Metode validasi cluster yang digunakan antara lain Metode Davies-bouldin Index dan Silhouette Index. 2.9.1
Validasi Cluster dengan Davies-bouldin Index Menurut Bouldin dan Davies (1979, h.224) Metode Davies-boulding Index
dapat digunakan untuk menghitung jumlah ideal cluster, berdasarkan nilai rata-rata rasio cluster scatter untuk semua cluster dan jarak diantara dua cluster. Davies-
24
bouldin Index didapatkan berdasarkan kemiripan dari cluster (Rij) yang merupakan ukuran dipersi cluster (si) dan ketidakmiripan (dij). Nilai Rij ditentukan dengan menggunakan cara berikut π
ππ =
π π + π π πππ
................................................................................................... (2.12) 1
πππ = π(π£π + π£π ), π π = |π | βπ₯βππ π(π₯, π£π ) ...................................................... (2.13) π
Sedangkan rumus dari Metode Davies-bouldin Index didefinisikan sebagai berikut: 1
ππ π·π΅ = π βπ=1 π
π, ............................................................................................ (2.14) π
π
π= πππ₯, π = 1 β¦ ππ, π β π ............................................................................ (2.15) (π
ππ ), π = 1 β¦ ππ .......................................................................................... (2.16)
2.9.2
Validasi Cluster dengan Silhouette Index Menurut Rousseeuw, Peter J (1987) setiap cluster dapat direpresentasikan
kedalam sebuah silhouette. Metode Silhouette dapat menunjukkan cluster terbaik untuk setiap objeknya. Rata-rata silhouette dapat digunakan untuk menunjukkan validasi cluster dan jumlah optimal pembentukan cluter. Proses validasi cluster dengan menggunakan Metode Silhouette adalah sebagai berikut. 1.
Setiap objek i, dihitung rata-rata jarak dari objek i dengan seluruh objek yang berada dalam satu cluster sehingga didapat nilai rata-rata a(i).
2.
Setiap objek i dihitung rata-rata jarak dari objek i dengan objek yang berada di cluster lainnya. Nilai terkecil dari semua rata-rata jarak kemudian digunakan. Nilai tersebut merupakan nilai dari b(i).
3.
Semua variabel kemudian dihitung silhouette coefisien dengan persamaan berikut. π(π)βπ(π)
π (π) = max{π(π),π(π)} ................................................................................ (2.17)
25
2.10
Profil Perusahaan PT. X PT. X dikenal secara nasional telah berdiri semejak Tahun 1973. Pada awal
mulanya perusahaan tersebut terdiri dari empat kantor cabang. Fokus perusahaan adalah terlibat dalam distribusi bahan baku farmasi dan barang jadi, sekarang ini PT. X merupakan salah satu distributor farmasi yang masuk peringkat sepuluh besar distributor farmasi terbaik di Indonesia dengan jumlah cabang tersebar diseluruh Indonesia sebanyak 31 cabang.