SEGMENTASI PELANGGAN PERUSAHAAN PERHOTELAN MENGGUNAKAN METODE CLUSTERING DBSCAN DAN MODEL RFM
TUGAS AKHIR
Diajukan Guna Memenuhi Sebagian Persyaratan Dalam Rangka Menyelesaikan Pendidikan Sarjana Strata Satu (S1) Program Studi Teknologi Informasi
NI MADE ANINDYA SANTIKA DEVI NIM. 1104505107
JURUSAN TEKNOLOGI INFORMASI FAKULTAS TEKNIK UNIVERSITAS UDAYANA 2015
PERNYATAAN
Dengan ini saya menyatakan bahwa dalam Tugas Akhir ini tidak terdapat karya yang pernah diajukan untuk memperoleh gelar kesarjanaan di suatu perguruan tinggi, dan sepanjang pengetahuan saya juga tidak terdapat karya atau pendapat yang pernah ditulis atau diterbitkan oleh orang lain, kecuali yang secara tertulis diacu dalam naskah ini dan disebutkan dalam daftar pustaka.
Denpasar, Juli 2015
Ni Made Anindya Santika Devi
iii
KEMENTERIAN PENDIDIKAN DAN KEBUDAYAAN LTNIVERSITAS UDAYANA FAKULTAS TEKNIK JURUSAN TEKNOLOGI INFORMASI GedungTeknologilnformasi, Kampus Bukit Jimbaran Telepon: +62 361 7853533email:,
-
Bali
BERITA ACARA TUGAS AKIIIR JUDUL
JURUSAN
SEGMENTASI PELANGGAN PERUSAHAAN PERHOTELAN MENGGTINAKAN METODE DBSCAN DAN MODEL RFM NI MADE ANINDYA SANTIKA DEVI i 104505 107 TEKNOLOGI INFORMASI
FAKULTAS TANGGAL UJIAN
TEKNIK 03 JULI2015
NAMA NIM
Telah dipertahankan di hadapan Dewan Penguji dan diterima sebagai bagian persyaratan yang diperlukan untuk memperoleh gelar Sarjana Teknologi Informasi pada Program Studi Teknologi Informasi, Fakultas Teknik, Universitas Udayana dengan nilai A. DEWAN PENGUJI
?
Ketua,
Prof. Dr. I Ketut Gede Darma Putra. S.Kom.. M.T NIDN. 0424047406 Sekretaris,
Penguji II,
LMade5ukirsa. S.T. NrDN.0024107505
Ni Made Ika Marini Mandenni. ST.. M.Kom
A
NIDN.0017038007 Penguji III,
M
Ni Kadek Avu Wirdiani- S.T.- M.T. NIDN.0827038102
KATA PENGANTAR
Puji dan syukur penulis panjatkan kehadapan Ida Sang Hyang Widhi Wasa/Tuhan Yang Maha Esa, karena atas Asung Kerta Wara Nugraha-Nya, akhirnya penulis dapat menyelesaikan tugas akhir dengan judul “Segmentasi Pelanggan Menggunakan Metode DBSCAN dan Model RFM”. Penulis mendapatkan banyak bimbingan dari berbagai pihak. Ucapan terima kasih penulis sampaikan kepada: 1.
Bapak Prof. Ir. Ngakan Putu Gede Suardana, M.T., Ph.D. selaku Dekan Fakultas Teknik Universitas Udayana.
2.
Bapak Dr. Eng. I Putu Agung Bayupati, ST., MT, selaku Ketua Jurusan Teknologi Informasi Universitas Udayana.
3.
Bapak Prof. Dr. I Ketut Gede Darma Putra, S.Kom., M.T., selaku dosen pembimbing I yang telah banyak memberikan bimbingan dan masukan dalam penyusunan tugas akhir ini.
4.
Bapak I Made Sukarsa, S.T., M.T., selaku dosen pembimbing II yang telah banyak memberikan petunjuk dan bimbingan selama penyusunan tugas akhir ini.
5.
Bapak Ir. Antonius Ibi Weking, MT, selaku dosen pembimbing akademik, yang telah memberikan bimbingan selama menempuh bimbingan di Jurusan Teknologi Informasi Fakultas Teknik Universitas Udayana.
6.
Kedua orang tua dan keluarga yang telah memberikan dukungan dan motivasi dalam pembuatan tugas akhir ini.
7.
Teman-teman seperjuangan dan segenap civitas di Jurusan Teknologi Informasi Universitas Udayana yang telah memberikan sumbangan ide, pemikiran dan dukungan dalam penyusunan tugas akhir ini.
Denpasar, Juli 2015
Penulis vi
ABSTRAK
Kondisi persaingan perusahaan perhotelan yang sangat kompetitif di Bali membuat perusahaan menyadari betapa sentralnya peran pelanggan sehingga banyak perusahaan yang mempertahankan pasarnya melalui program pengembangan segmentasi pelanggan. Segmentasi pelanggan merupakan salah satu penerapan proses clustering pada Data Mining. Segmentasi pelanggan membagi pelanggan ke dalam kelas-kelas tertentu untuk membantu sebuah perusahaan mengenali pelanggan potensialnya. Penelitian ini membahas segmentasi pelanggan dengan menggunakan teknik clustering dan pengukuran jarak Euclidean Distance. Metode clustering yang digunakan adalah Metode Density Based Spatial Clustering of Application with Noise (DBSCAN). Proses clustering dilakukan berdasarkan nilai yang didapat dari hasil transformasi atribut menjadi nilai RFM. Hasil clustering yang diperoleh kemudian akan diuji validitasnya untuk menentukan cluster optimal menggunakan Indeks Validitas Silhouette. Hasil clustering yang diperoleh kemudian dicari nilai rata-ratanya untuk menentukan kelas masing-masing cluster. Uji coba pada penelitian ini dilakukan terhadap 31.019 row data transaksi. Data transaksi tersebut ditransformasi menjadi nilai RFM dan menghasilkan 338 row data. Proses clustering dilakukan dengan membentuk 2 hingga 5 cluster, yang kemudian dilakukan uji validitas untuk menentukan jumlah cluster yang paling optimal. Hasil uji coba menunjukkan pembentukan jumlah cluster yang paling optimal adalah 2 cluster dengan nilai indeks silhouette sebesar 0,988366. Nilai indeks silhouette dari pembentukan 2 hingga 5 cluster menghasilkan nilai lebih besar dari 0, hal ini menunjukkan bahwa Metode DBSCAN telah dapat melakukan proses segmentasi dengan baik. Kata kunci: Segmentasi Pelanggan, Data Mining, Clustering, DBSCAN, RFM
vii
ABSTRACT
Such competitive environment of hotel business in Bali makes the companies aware about the importance of customer’s role in their business. Thus, there are many companies try to hold their market through the development of customer segmentation. Customer segmentation divides the customer into certain classes in order to help a certain company to identify its potential customer. This study discusses customer segmentation using clustering techniques and distance measurements Euclidean Distance. Clustering method used is Density Based Spatial Clustering of Application with Noise (DBSCAN) Method. Clustering process is carried out based on the value obtained from the transformation of attributes into RFM value. Clustering results obtained will then be tested for its validity to determine the optimal cluster using Silhouette validation index. Clustering results obtained then be searched for its average value to determine the class of each cluster. The experiments were conducted on 31.019 transactions. The raw data are then transformed into RFM Model and it is able to produce 338 rows of data. Clustering process were done by forming 2 to 5 clusters, which then be tested using Silhouette validation index to determine the optimal cluster. The experiment results show the attempt in creating 2 clusters contains the highest value of silhouette index which is 0,988366. Clustering process which formed 2 to 5 clusters have a value of silhouette index more than 0, and such situation signifies that the DBSCAN clustering method is able in doing the clustering process well. Keywords: Customer Segmentation, Data Mining, Clustering, DBSCAN, RFM
viii
DAFTAR ISI
HALAMAN SAMPUL ........................................................................................ i HALAMAN JUDUL ........................................................................................... ii LEMBAR PERNYATAAN ................................................................................ iii LEMBAR PENGESAHAN TUGAS AKHIR ................................................... iv BERITA ACARA TUGAS AKHIR................................................................... v KATA PENGANTAR ......................................................................................... vi ABSTRAK ........................................................................................................... vii ABSTRACT .......................................................................................................... viii DAFTAR ISI ........................................................................................................ ix DAFTAR GAMBAR ........................................................................................... xi DAFTAR TABEL ............................................................................................... xiii BAB I PENDAHULUAN .................................................................................... 1 1.1 Latar Belakang Masalah .................................................................................. 1 1.2 Rumusan Masalah ........................................................................................... 2 1.3 Tujuan Penelitian ............................................................................................ 3 1.4 Manfaat Penelitian .......................................................................................... 3 1.5 Batasan Masalah.............................................................................................. 3 1.6 Sistematika Penulisan ..................................................................................... 4 BAB II TINJAUAN PUSTAKA......................................................................... 5 2.1 State of The Art ............................................................................................... 5 2.2 Data Mining .................................................................................................... 6 2.3 Profil Aston Inn Tuban.................................................................................... 7 2.4 Customer Relationship Management .............................................................. 8 2.5 Data Mining dalam Kerangka Kerja CRM ..................................................... 9 2.6 Model RFM ..................................................................................................... 10 2.7 Analisis Cluster ............................................................................................... 11 2.7.1 Konsep Clustering ................................................................................ 11 2.7.2 Tujuan Clustering ................................................................................. 12 2.7.3 Jenis-jenis Clustering ............................................................................ 13 2.7.4 Density Based Spatial Clustering of Application with Noise................ 14 2.8 Validasi Cluster............................................................................................... 17 BAB III METODE DAN PERANCANGAN SISTEM .................................... 19 3.1 Tempat dan Waktu Penelitian ......................................................................... 19 3.2 Alur Analisis ................................................................................................... 19 3.3 Sumber Data .................................................................................................... 20 3.4 Metode Pengumpulan Data ............................................................................. 20 3.5 Instrumen Pembuatan Sistem .......................................................................... 20 3.6 Perancangan Sistem ........................................................................................ 21 3.6.1 Gambaran Umum Sistem ...................................................................... 21 3.6.2 Algoritma Perancangan Sistem ............................................................. 21 3.6.3 Pemilihan Data ...................................................................................... 24 ix
3.6.4 Transformasi Data ................................................................................. 28 3.6.5 Clustering .............................................................................................. 31 3.6.6 Pemodelan Data .................................................................................... 59 3.6.7 Cluster Validation ................................................................................. 64 3.8 Perancangan Basis Data .................................................................................. 70 3.9 Antar Muka Aplikasi ....................................................................................... 83 3.9.1 Form Standar .......................................................................................... 83 3.9.2 Form RFM .............................................................................................. 83 3.9.3 Form Clustering DBSCAN .................................................................... 84 3.9.4 Form Segmentasi .................................................................................... 85 3.9.5 Form Chart Customer ............................................................................. 86 BAB IV HASIL DAN PEMBAHASAN ............................................................ 87 4.1 Proses Pemilihan Data..................................................................................... 87 4.2 Proses Transformasi Data ............................................................................... 88 4.3 Hasil Uji Coba Clustering Algoritma DBSCAN ............................................ 88 4.4 Analisis Cluster ............................................................................................... 111 4.5 Pengaruh Inisialisasi Minimal Points (Minpts) dan Epsilon (Eps) ................. 112 BAB V PENUTUP ............................................................................................... 114 5.1 Simpulan ......................................................................................................... 114 5.2 Saran ................................................................................................................ 114 DAFTAR PUSTAKA .......................................................................................... 115
x
DAFTAR GAMBAR
Gambar 2.1 Hubungan KDD dengan Proses Data Mining (Fayyad, 2000).......... 6 Gambar 2.2 Directly Density-Reachable .............................................................. 14 Gambar 2.3 Kasus Asimetris................................................................................. 15 Gambar 2.4 Density Reachable ............................................................................. 15 Gambar 2.5 Density Connected............................................................................. 16 Gambar 3.1 Gambaran Umum Sistem .................................................................. 21 Gambar 3.2 Flowchart Algoritma Perancangan Sistem ....................................... 21 Gambar 3.3 Relasi Antar Tabel ............................................................................. 27 Gambar 3.4 Skema Penentuan Nilai tbStandar ..................................................... 29 Gambar 3.5 Skema Penentuan Nilai tbRFM ......................................................... 30 Gambar 3.6 Flowchart Komputasi Algoritma DBSCAN ..................................... 32 Gambar 3.7 Pembentukan Cluster Algoritma DBSCAN...................................... 59 Gambar 3.8 Flowchart Indeks Validitas Silhouette .............................................. 65 Gambar 3.9 Hasil Perhitungan Validitas Silhouette ............................................. 69 Gambar 3.10 Perbandingan Nilai Validitas Silhouette ......................................... 70 Gambar 3.11 Rancangan Basis Data ..................................................................... 70 Gambar 3.12 Form Standar ................................................................................... 83 Gambar 3.13 Form RFM ...................................................................................... 84 Gambar 3.14 Form Clustering .............................................................................. 85 Gambar 3.15 Form Segmentasi............................................................................. 85 Gambar 3.16 Form Chart Customer ..................................................................... 86 Gambar 4.1 Hasil Pemilihan Data ......................................................................... 87 Gambar 4.2 Hasil Transformasi Data.................................................................... 88 Gambar 4.3 Hasil Segmentasi Minpts 4 dan Eps 2000000 dengan 2 Cluster....... 89 Gambar 4.4 Grafik Segmentasi Minpts 4 dan Eps 2000000 dengan 2 Cluster..... 90 Gambar 4.5 Hasil Perbandingan Kelas ................................................................. 90 Gambar 4.6 Hasil Segmentasi Minpts 4 dan Eps 2500000 dengan 2 Cluster....... 91 Gambar 4.7 Grafik Segmentasi Minpts 4 dan Eps 2500000 dengan 2 Cluster..... 92 Gambar 4.8 Hasil Perbandingan Kelas ................................................................. 92 Gambar 4.9 Hasil Segmentasi Minpts 2 dan Eps 3000000 dengan 3 Cluster....... 94 Gambar 4.10 Grafik Segmentasi Minpts 2 dan Eps 3000000 dengan 3 Cluster... 95 Gambar 4.11 Hasil Perbandingan Kelas ............................................................... 95 Gambar 4.12 Hasil Segmentasi Minpts 3 dan Eps 2000000 dengan 3 Cluster..... 96 Gambar 4.13 Grafik Segmentasi Minpts 3 dan Eps 2000000 dengan 3 Cluster... 97 Gambar 4.14 Hasil Perbandingan Kelas ............................................................... 97 Gambar 4.15 Hasil Segmentasi Minpts 2 dan Eps 4000000 dengan 4 Cluster..... 99 Gambar 4.16 Grafik Segmentasi Minpts 2 dan Eps 4000000 dengan 4 Cluster... 100 Gambar 4.17 Hasil Perbandingan Kelas ............................................................... 100 Gambar 4.18 Hasil Segmentasi Minpts 2 dan Eps 5500000 dengan 4 Cluster..... 101 Gambar 4.19 Grafik Segmentasi Minpts 2 dan Eps 5500000 dengan 4 Cluster... 102 Gambar 4.20 Hasil Perbandingan Kelas ............................................................... 102 xi
Gambar 4.21 Hasil Segmentasi Minpts 2 dan Eps 5000000 dengan 5 Cluster..... 105 Gambar 4.22 Grafik Segmentasi Minpts 2 dan Eps 5000000 dengan 5 Cluster... 106 Gambar 4.23 Hasil Perbandingan Kelas ............................................................... 106 Gambar 4.24 Hasil Segmentasi Minpts 2 dan Eps 4500000 dengan 5 Cluster..... 107 Gambar 4.25 Grafik Segmentasi Minpts 2 dan Eps 4500000 dengan 5 Cluster... 108 Gambar 4.26 Hasil Perbandingan Kelas ............................................................... 108 Gambar 4.27 Grafik Indeks Silhouette.................................................................. 111
xii
DAFTAR TABEL
Tabel 2.1 Pembagian Customer dengan Model RFM ........................................... 11 Tabel 3.1 Tabel Customer ..................................................................................... 24 Tabel 3.2 Contoh Data pada Tabel Customer ....................................................... 25 Tabel 3.3 Tabel Room ........................................................................................... 25 Tabel 3.4 Contoh Data pada Tabel Room ............................................................. 26 Tabel 3.5 Tabel Transaksi ..................................................................................... 26 Tabel 3.6 Contoh Data pada Tabel Transaksi ....................................................... 26 Tabel 3.7 Tabel Detail Transaksi .......................................................................... 27 Tabel 3.8 Contoh data pada Tabel Detail Transaksi ............................................. 27 Tabel 3.9 Data Pemilihan Atribut sesuai Model RFM.......................................... 28 Tabel 3.10 Raw Data pada tbTransaksi................................................................. 28 Tabel 3.11 Data pada tbStandar ............................................................................ 29 Tabel 3.12 Data pada tbRFM ................................................................................ 31 Tabel 3.13 Tabel Contoh Data RFM ..................................................................... 33 Tabel 3.14 Hasil Perhitungan Iterasi Pertama ....................................................... 34 Tabel 3.15 Hasil Perhitungan Iterasi Kedua ......................................................... 35 Tabel 3.16 Hasil Perhitungan Iterasi Ketiga ......................................................... 36 Tabel 3.17 Hasil Perhitungan Iterasi Keempat ..................................................... 37 Tabel 3.18 Hasil Perhitungan Iterasi Kelima ........................................................ 38 Tabel 3.19 Hasil Perhitungan Iterasi Keenam....................................................... 39 Tabel 3.20 Hasil Perhitungan Iterasi Ketujuh ....................................................... 40 Tabel 3.21 Hasil Perhitungan Iterasi Kedelapan ................................................... 41 Tabel 3.22 Hasil Perhitungan Iterasi Kesembilan ................................................. 42 Tabel 3.23 Hasil Perhitungan Iterasi Kesepuluh ................................................... 43 Tabel 3.24 Hasil Perhitungan Iterasi Kesebelas .................................................... 44 Tabel 3.25 Hasil Perhitungan Iterasi Dua Belas ................................................... 45 Tabel 3.26 Hasil Perhitungan Iterasi Tiga Belas ................................................... 46 Tabel 3.27 Hasil Perhitungan Iterasi Empat Belas ............................................... 47 Tabel 3.28 Hasil Perhitungan Iterasi Lima Belas ................................................. 48 Tabel 3.29 Hasil Perhitungan Iterasi Enam Belas ................................................. 49 Tabel 3.30 Hasil Perhitungan Iterasi Tujuh Belas ................................................ 50 Tabel 3.31 Hasil Perhitungan Iterasi Delapan Belas ............................................. 51 Tabel 3.32 Hasil Perhitungan Iterasi Sembilan Belas ........................................... 52 Tabel 3.33 Hasil Perhitungan Iterasi Dua Puluh ................................................... 53 Tabel 3.34 Hasil Perhitungan Iterasi Dua Puluh Satu ........................................... 54 Tabel 3.35 Hasil Perhitungan Iterasi Dua Puluh Dua ........................................... 55 Tabel 3.36 Hasil Perhitungan Iterasi Dua Puluh Tiga........................................... 56 Tabel 3.37 Hasil Perhitungan Iterasi Dua Puluh Empat ....................................... 57 Tabel 3.38 Hasil Perhitungan Iterasi Dua Puluh Lima ......................................... 58 Tabel 3.39 Domain Nilai untuk Variabel RFM .................................................... 60 Tabel 3.40 Deskripsi Variabel Linguistik dan Label Konsumen .......................... 61 xiii
Tabel 3.41 Input Validasi Silhouette..................................................................... 62 Tabel 3.42 Rentang Nilai Domain Value .............................................................. 63 Tabel 3.43 Penentuan Kelas Cluster ..................................................................... 63 Tabel 3.44 Input Validasi Silhouette..................................................................... 66 Tabel 3.45 Hasil Perhitungan S(i) ......................................................................... 68 Tabel 3.46 Tabel tbStandar ................................................................................... 71 Tabel 3.47 Contoh Data Tabel tbStandar .............................................................. 71 Tabel 3.48 Tabel tbMasterStandar ........................................................................ 72 Tabel 3.49 Contoh Data Tabel tbMasterStandar ................................................... 72 Tabel 3.50 Tabel tbRFM ....................................................................................... 73 Tabel 3.51 Contoh Data Tabel tbRFM.................................................................. 73 Tabel 3.52 Tabel tbHasil ....................................................................................... 74 Tabel 3.53 Contoh Data Tabel tbHasil .................................................................. 74 Tabel 3.54 Tabel tbHasilSilhouette ....................................................................... 75 Tabel 3.55 Contoh Data Tabel tbHasilSilhouette ................................................. 75 Tabel 3.56 Tabel tbHasilGSMax........................................................................... 76 Tabel 3.57 Contoh Data Tabel tbHasilGSMax ..................................................... 76 Tabel 3.58 Tabel tbRangeR................................................................................... 77 Tabel 3.59 Contoh Data Tabel tbRangeR ............................................................. 77 Tabel 3.60 Tabel tbRangeF ................................................................................... 78 Tabel 3.61 Contoh Data Tabel tbRangeF .............................................................. 78 Tabel 3.62 Tabel tbRangeM .................................................................................. 79 Tabel 3.63 Contoh Data Tabel tbRangeM ............................................................ 79 Tabel 3.64 Tabel tbMasterKelasReg ..................................................................... 80 Tabel 3.65 Contoh Data Tabel tbMasterKelasReg ............................................... 80 Tabel 3.66 Tabel tbMasterKelasDet ..................................................................... 80 Tabel 3.67 Contoh Data Tabel tbMasterKelasDet ................................................ 81 Tabel 3.68 Tabel tbMasterSegmentasi .................................................................. 81 Tabel 3.69 Tabel tbMasterSegmentasi .................................................................. 81 Tabel 3.70 Tabel tbHasilSegmentasi..................................................................... 82 Tabel 3.71 Contoh Data Tabel tbHasilSegmentasi ............................................... 82 Tabel 4.1 Summary Hasil Pembentukan 2 Cluster ............................................... 93 Tabel 4.2 Summary Hasil Pembentukan 3 Cluster ............................................... 98 Tabel 4.3 Summary Hasil Pembentukan 4 Cluster ............................................... 103 Tabel 4.4 Summary Hasil Pembentukan 5 Cluster ............................................... 109 Tabel 4.5 Pengaruh Nilai Minpts Terhadap Jumlah Noise yang Terbentuk ......... 112 Tabel 4.6 Pengaruh Nilai Eps Terhadap Jumlah Noise yang Terbentuk............... 113
xiv