BAB II TINJAUAN PUSTAKA
Hal-hal yang dipaparkan pada Bab Tinjauan Pustaka adalah penelaahan kepustakaan yang mendasari proses perancangan dan pembuatan aplikasi meliputi data mining, Customer Relationship Management, segmentasi pelanggan, Metode DBSCAN, teori pengukuran jarak dan uji validitas cluster. 2.1
State of the Art Penelitian tentang data mining untuk CRM, khususnya untuk proses segmentasi
pelanggan, serta Model RFM dan Metode DBSCAN telah beberapa kali dilakukan sebelumnya. Ching-Hsue Cheng menggunakan teknik data mining untuk menemukan pola dan trend dari data konsumen dalam kaitannya dengan Konsep CRM. Proses clustering dilakukan terhadap data konsumen C-company, yaitu perusahaan yang bergerak di bidang industri elektronik. Proses clustering didahului dengan mendefinisikan skala dari Atribut RFM. Atribut inilah yang digunakan sebagai input dalam proses clustering yang dilakukan dengan Algoritma K-Means (Cheng, 2009). Luh Putu Dian Shavitri Handayani sebelumnya melakukan proses segmentasi pelanggan menggunakan Metode Jaringan Syaraf Tiruan ART 2 dan Model RFM untuk mengetahui pelanggan potensial pada Perusahaan Retail UD. Fenny. Proses clustering dilakukan dengan membentuk beberapa cluster dan dicari jumlah cluster optimalnya dengan menggunakan Indeks Validitas Silhouette. Hasil rata-rata keseluruhan nilai indeks validitas tiap cluster mendekati 1, yang mana artinya Metode Jaringan Syaraf Tiruan ART 2 telah dapat melakukan proses segmentasi dengan baik (Luh Putu, 2012). Penelitian lain dilakukan oleh Zakrzewska, D. untuk menerapkan konsep data mining dalam proses segmentasi pelanggan (customer segmentation) pada sebuah bank. Penelitian ini membandingkan tiga algoritma clustering dalam hal high dimensionality data with noise yaitu DBSCAN, K-Means, dan Two-phase Clustering (Zakrzewska, 2005). 5
6
2.2
Data Mining Data mining secara sederhana merujuk pada ekstraksi atau pertambangan
pengetahuan dari sejumlah besar data. Data mining juga dikatakan sebagai kegiatan menemukan pattern yang unik dari data dalam jumlah besar, data dapat disimpan dalam database, data warehouse, atau penyimpanan informasi yang lain. Data mining berkaitan dengan bidang ilmu-ilmu lain seperti database system, data warehousing, statistic, machine learning, information retrieval, dan komputasi tingkat tinggi. Data mining selain itu didukung oleh ilmu lain seperti neural network, pengenalan pola, spatial data analysis, image database, signal processing (Han, 2006). Data mining adalah langkah dalam KDD (Knowledge Discovery in Database) yang terdiri dari penerapan analisis data dan penemuan algoritma untuk menghasilkan daftar pola atau model tertentu terhadap data yang dianalisa (Fayyad, 1996). Gambar 2.1 menunjukkan data mining sebagai bagian dari KDD.
Gambar 2.1 Hubungan KDD dengan proses data mining (Fayyad, 1996)
Data mining banyak diterapkan untuk memecahkan masalah kepentingan intelektual, ekonomi, dan bisnis. Data mining dapat dibagi kedalam enam tugas, yaitu sebagai berikut (Berry & Linoff, 2004): 1.
Klasifikasi Klasifikasi
terdiri
dari
tindakan
pengujian
pada
fitur
baru
dan
mengelompokkannya ke dalam salah satu dari sekumpulan kelas yang telah diidentifikasi.
7
2.
Estimasi Estimasi berhubungan dengan nilai kontinyu, jika terdapat beberapa input data, estimasi akan bekerja dengan nilai dari beberapa variabel kontinyu yang tidak diketahui seperti pendapatan, tinggi atau credit card balance.
3.
Prediksi Prediksi adalah tugas yang sama seperti pada klasifikasi dan estimasi perbedaannya prediksi mengelompokkan berdasarkan beberapa prediksi yang berkaitan dengan waktu mendatang atau perkiraan waktu mendatang.
4.
Afinitas Tugas dari afinitas didefinisikan sebagai tindakan untuk mengelompokkan hal mana yang akan dikelompokkan ke dalam kelompok yang sama.
5.
Clustering Tugas dalam clustering yaitu mensegmentasi populasi heterogen ke dalam sub grup homogen atau clusters. Perbedaan dengan klasifikasi adalah pada clustering tidak ditentukan target pengelompokkan.
6.
Deskripsi dan Penentuan Profil Sebuah deskripsi yang baik seringkali memberikan penjelasan yang baik juga sehingga proses deskripsi dan penentuan profil ini sangat berguna untuk mengetahui pengetahuan yang terdapat pada database yang rumit. Tiga tugas pertama merupakan contoh data mining yang terawasi (supervised
learning), di mana tujuannya adalah untuk menemukan nilai dari variabel target tertentu. Afinitas dan clustering adalah tugas tidak diawasi (unsupervised learning), tujuannya adalah untuk menggungkap pengetahuan yang ada, sedangkan profiling adalah tugas deskriptif yang mungkin akan baik diawasi atau tidak diawasi. 2.3
Profil Aston Inn Tuban Archipelago International atau yang sebelumnya dikenal sebagai Aston
International adalah sebuah Hotel Management Chain di Asia Tenggara dan merupakan yang terbesar di Indonesia. Aston International memasuki pasar Asia Tenggara sejak tahun 1997 dan saat ini telah memiliki portfolio yang terdiri lebih dari
8
100 properti yang terdiri dari hotel, condotel, resort, serviced apartment dan boutique villa resort yang mana 86 diantaranya telah beroperasi dan 100 lebih lainnya sedang dalam proses pengembangan. Aston Inn Tuban merupakan satu dari sekian banyak cabang Aston International yang ada di Bali (David Ling, 2012). 2.4
Customer Relationship Management (CRM) Pelanggan adalah aset yang paling penting dari sebuah organisasi. Prospek
bisnis tanpa memuaskan pelanggan yang loyal dan mengembangkan hubungan yang baik terhadap perusahaan adalah hal yang tidak mungkin. Perusahaan untuk itu harus merencanakan dan menggunakan strategi yang tepat dalam pelayanan pelanggan. CRM (Customer Relationship Management) adalah strategi untuk membangun, mengelola, dan memperkuat hubungan perusahaan dengan pelanggan yang loyal agar dapat tercipta hubungan yang tahan lama. CRM harus merupakan pendekatan customercentric berdasarkan pandangan pelanggan. Ruang lingkup penanganan pelanggan dalam CRM harus bersifat personal karena setiap pelanggan merupakan entitas yang unik. Upaya tersebut dilakukan untuk mengidentifikasi dan memahami perbedaan kebutuhan, prefensi dan perilaku dari tiap pelanggan yang berbeda-beda (Tsiptsis & Chorianopoulus, 2009). Pengembangan bisnis dengan memusatkan pada hubungan terhadap pelanggan merupakan perubahan yang revolusioner untuk kebanyakan perusahaan. Perusahaan kini telah merubah tujuan dalam pemahaman pelanggan secara individual menjadi melihat nilai yang dimiliki tiap pelanggan sehingga pihak perusahaan mengetahui pelanggan mana yang memiliki nilai yang tinggi dan layak dijadikan investasi dan dipertahankan dan pelanggan mana yang memiliki nilai yang rendah (Berry & Linoff, 2004). Diperkirakan dalam riset American Management Association bahwa untuk menarik pelanggan baru membutuhkan biaya lima kali lebih banyak dibandingkan mempertahankan pelanggan yang telah ada. (Kotler, 1994; Peppers & Rogers, 1996) Perusahaan dapat mempersingkat daur penjualan dan meningkatkan loyalitas pelanggan untuk membangun hubungan yang dekat dengan pelanggan sehingga
9
kemudian dapat mendatangkan keuntungan. Penerapan CRM yang baik membantu perusahaan tetap menjaga pelanggan yang telah ada dan menarik pelanggan baru (Peppard, 2000). Perusahaan harus mampu menganalisa berbagai nilai yang terdapat pada masing-masing pelanggan dan mampu mempertahankan loyalitas pelanggan dalam waktu yang lama untuk memberikan keuntungan yang maksimal dengan memanfaatkan CRM sebagai strategi bisnis. 2.5
Data Mining dalam Kerangka Kerja CRM Data mining dapat menyediakan pandangan dari segi pelanggan yang
merupakan elemen penting dalam membangun CRM yang efektif. Hal ini dapat meningkatkan interaksi dengan pelanggan sehingga memaksimalkan tingkat kepuasan pelanggan serta dapat memberikan keuntungan melalui analisis pada data. Hal ini dapat mendukung manajemen pelanggan secara individual dan mengoptimalkan semua life cycle pelanggan mulai dari akuisisi dan membentuk hubungan yang kuat untuk mencegah pengurangan pelanggan. Bagian pemasaran berusaha untuk mendapatkan pangsa pasar yang lebih besar dan mendapatkan pangsa pelanggan yang lebih besar. Bagian pemasaran memiliki tanggung jawab untuk mendapatkan, mengembangkan dan menjaga pelanggan. Aktivitas pemasaran yang dapat didukung dengan data mining secara spesifik meliputi topik berikut (Tsiptsis & Chorianopoulos, 2009): 1.
Segmentasi Pelanggan Segmentasi pelanggan adalah proses untuk membagi pelanggan ke dalam kelompok homogen yang unik dalam rangka pengembangan strategi pasar yang berbeda berdasarkan karakteristiknya. Banyak perbedaan tipe yang terdapat dalam segmentasi pelanggan berdasarkan kriteria dan atribut yang spesifik untuk segmentasi
2.
Pemasaran Langsung Bagian
pemasaran
menggunakan
pemasaran
langsung
untuk
mengkomunikasikan pesan kepada pelanggan menggunakan surat, internet, email, dan telepon (tele marketing) untuk mengarahkan pelanggan untuk
10
membeli produk yang ditawarkan. Metode tersebut secara lebih spesifik digunakan untuk mendapatkan pelanggan yang potensial. 3.
Asosiasi Data mining dan asosiasi model dapat digunakan untuk mengidentifikasikan hubungan antara produk yang biasanya dibeli secara bersamaan. Hal ini digunakan untuk mengetahui produk mana yang dapat dijual secara bersamaan. Hubungan data mining dan CRM dalam perusahaan perhotelan yaitu dapat membantu untuk mengidentifikasi sifat pelanggan dalam bertransaksi, mempertahankan pelanggan dan memberi kepuasan terhadap pelanggan, meningkatkan rasio konsumsi barang, merancang transportasi barang yang baik dan aturan pendistribusian serta mengurangi biaya bisnis (Han, 2006).
2.6
Model RFM Model RFM membagi data kedalam tiga aspek dimensi variabel yaitu Recency
(R), Frequency (F), Monetary (M). Deskripsi lengkap dari RFM adalah sebagai berikut (Hughes, 1994): 1.
Recency adalah interval waktu antara transaksi terakhir yang dilakukan pelanggan dengan waktu sekarang atau selama periode tertentu. Interval waktu yang semakin dekat antara waktu terakhir melakukan transaksi dengan waktu sekarang atau akhir periode yang ditetapkan maka semakin besar nilai dari Recency.
2.
Frequency didefinisikan sebagai jumlah kali transaksi yang dilakukan pelanggan sampai waktu sekarang atau periode yang ditentukan. Jumlah kali transaksi pelanggan (rutin melakukan pembelian) yang semakin banyak, semakin tinggi nilai Frequency-nya.
3.
Monetary memiliki definisi sebagai jumlah biaya yang dikeluarkan pelanggan dalam setiap transaksi sampai waktu sekarang atau dalam periode tertentu. Jumlah biaya yang dikeluarkan semakin banyak, maka semakin besar nilai Monetary-nya.
11
Tsiptsis & Chorianopoulos menyatakan terdapat enam pembagian pelanggan berdasarkan nilai RFM yang dimiliki pelanggan, yang didefinisikan secara lebih spesifik pada Tabel 2.1 Tabel 2.1 Pembagian Pelanggan dengan Model RFM
Kelas Pelanggan Superstar
Typical Customer
-
Occational Customer
-
Golden Customer
Everyday Shopper
-
Dormant Customer
2.7
Analisis Cluster
2.7.1
Konsep Clustering
-
Deskripsi Kelas Pelanggan Pelanggan dengan tingkat loyalitas paling tinggi Memiliki nilai (value) yang paling tinggi Memiliki frekuensi yang paling tinggi Melakukan transaksi terbesar Memiliki nilai (value) terbesar kedua Memiliki frekuensi tinggi Melakukan transaksi standar rata-rata Memiliki nilai (value) dan frekuensi standar ratarata Melakukan transaksi standar rata-rata Memiliki frekuensi terendah kedua setelah Dormant Customer Memiliki recency rendah (memiliki waktu yang lama dengan rentang waktu terakhir kunjungan) Melakukan pembelanjaan dalam jumlah besar (large basket) Memiliki peningkatan dalam transaksi Melakukan pembelanjaan dalam jumlah kecil (small basket) Memiliki nilai dengan skala menengah (medium) hingga rendah (low) Memiliki frekuensi dan nilai (value) terendah Memiliki waktu yang lama ketika masa terakhir kunjungan (memiliki Recency terendah)
Teknik pengelompokkan banyak diterapkan dalam berbagai bidang seperti kedokteran, kesehatan, psikologi, hukum, statistik, astronomi, klimatologi dan sebagainya. Teknik pengelompokkan dalam bidang kedokteran dapat digunakan untuk
12
mengelompokkan jenis-jenis penyakit berbahaya berdasarkan karakteristik/sifat-sifat penyakit pasien. Teknik pengelompokkan dalam bidang kesehatan dapat digunakan untuk mengelompokkan jenis-jenis makanan berdasarkan kandungan kalori, vitamin dan protein. Teknik pengelompokkan dalam bidang klimatologi dapat digunakan untuk mengetahui pola angin dan kondisi cuaca di udara sehingga bisa diketahui wilayahwilayah yang rentan terhadap cuaca buruk (Eko Prasetyo, 2014). Analisis cluster adalah pekerjaan mengelompokkan data (objek) yang didasarkan hanya pada informasi yang ditemukan dalam data yang menggambarkan hubungan antara objek-objek tersebut (Tan, 2006). Tujuan dari analisis cluster adalah agar objek-objek yang bergabung dalam sebuah kelompok merupakan objek yang mirip atau berhubungan satu sama lain dan berbeda dengan objek dalam kelompok yang lain. Data yang masuk pada Proses Clustering tidak mempunyai label kelas seperti pada klasifikasi tetapi dikelompokkan berdasarkan karakteristiknya. Masingmasing cluster setelah itu diberi label sesuai hasil karakteristik kelompok masingmasing. Clustering karena alasan tersebut disebut juga sebagai unsupervised learning (Eko Prasetyo, 2014). 2.7.2
Tujuan Clustering Tujuan clustering data dapat dibedakan menjadi dua yaitu pengelompokan
untuk pemahaman dan pengelompokan untuk penggunaan. Tujuan pemahaman adalah untuk membuat kelompok yang terbentuk dapat menangkap struktur alami data. Proses pengelompokan dalam tujuan pemahaman biasanya hanya sebagai proses awal untuk kemudian dilanjutkan dengan pekerjaan inti seperti peringkasan atau summarization, pelabelan kelas pada setiap kelompok, dan sebagainya. Tujuan yang digunakan untuk pengelompokan biasanya adalah mencari prototype kelompok yang paling representative terhadap data dan memberikan abstraksi dari setiap objek data dalam kelompok di mana sebuah data terletak di dalamnya (Eko Prasetyo, 2014).
13
2.7.3
Jenis-jenis Clustering Metode yang dikembangkan oleh para ahli sudah sangat banyak. Masing-
masing metode mempunyai karakter, kelebihan dan kekurangan masing-masing. Clustering dapat dibedakan menurut struktur kelompok, keanggotaan data dalam kelompok dan kekompakan data dalam kelompok. Metode
Clustering
menurut
strukturnya
dibagi
menjadi
dua
yaitu
pengelompokan hirarki dan partitioning. Pengelompokan hirarki memiliki aturan satu data tunggal bisa dianggap sebagai sebuah kelompok, dua atau lebih kelompok kecil dapat bergabung menjadi satu kelompok besar dan begitu seterusnya hingga semua data dapat bergabung menjadi satu kelompok. Metode Clustering Hirarki merupakan satu-satunya metode yang masuk ke dalam kategori pengelompokan hirarki. Metode Clustering Partitioning membagi set data ke dalam sejumlah kelompok yang tidak tumpang tindih (overlap) antara satu kelompok dengan kelompok yang lain artinya setiap data hanya menjadi anggota satu kelompok. Metode seperti K-Means dan DBSCAN masuk dalam kategori pengelompokan partitioning. Metode Clustering menurut keanggotaan dalam kelompok dibagi menjadi dua, yaitu eksklusif dan tumpang-tindih. Metode tersebut termasuk kategori eksklusif jika sebuah data hanya menjadi anggota satu kelompok dan tidak menjadi anggota kelompok yang lain. Metode Clustering yang masuk dalam kategori ini adalah KMeans dan DBSCAN sedangkan yang masuk kategori tumpang-tindih adalah Metode Clustering yang membolehkan sebuah data menjadi anggota di lebih dari satu kelompok, misalnya Fuzzy C-Means. Metode Clustering menurut kategori kekompakan terbagi menjadi dua yaitu komplet dan parsial. Semua data bisa dikatakan kompak menjadi satu kelompok jika semua data bisa bergabung menjadi satu (dalam konteks penyekatan) namun jika ada sedikit data yang tidak ikut bergabung dalam kelompok mayoritas data tersebut dikatakan mempunyai perilaku menyimpang. Data yang menyimpang ini dikenal dengan sebutan noise. Metode yang tangguh untuk mendeteksi noise ini adalah DBSCAN (Eko Prasetyo, 2014).
14
2.7.4
Density-Based Spatial Clustering of Application with Noise (DBSCAN). Density-Based Spatial Clustering of Application with Noise (DBSCAN)
merupakan sebuah Metode Clustering yang membangun area berdasarkan kepadatan yang terkoneksi (density-connected). Setiap objek dari sebuah radius area (cluster) harus mengandung setidaknya sejumlah minimum data. Semua objek yang tidak termasuk di dalam cluster akan dianggap sebagai noise. Istilah yang terdapat di dalam algoritma DBSCAN adalah sebagai berikut: 1.
Minpts adalah banyak poin minimal di dalam suatu cluster
2.
Eps adalah nilai untuk jarak antar poin yang menjadi dasar pembentukan neighborhood dari suatu titik item
3.
Neighborhood yang terletak di dalam suatu radius ∈ disebut ∈ - neighborhood dari objek data
4.
Jika ∈ - neighborhood dari suatu objek berisi paling sedikit suatu angka yang minimum (Minpts dari suatu objek), objek tersebut disebut sebagai core object.
5.
Directly density-reachable, titik poin dikatakan directly density-reachable dari titik yang lain jika jarak di antara mereka tidak lebih dari nilai Epsilon (∈). Gambar 2.2 menggambarkan kasus directly density-reachable.
Gambar 2.2 Directly Density-Reachable
Directly density-reachable merupakan pasangan simetris dari core point walaupun begitu secara umum directly density-reachable bisa asimetris jika mengandung satu core point dan satu border point. (Aster, M, 1996) Gambar 2.3 menggambarkan kasus asimetris.
15
Gambar 2.3 Kasus Asimetris
Directly density-reachable asimetris mungkin terjadi jika mengandung satu core point dan satu border point.
6.
Density reachable adalah dua titik yang dihubungkan oleh rantai yang hanya terdiri dari titik-titik yang directly density-reachable dari titik sebelumnya. Gambar 2.4 menggambarkan kasus density reachable.
Gambar 2.4 Density Reachable
Gambar 2.4 menggambarkan titik yang density reachable. Density reachable adalah dua titik yang dihubungkan oleh rantai yang hanya terdiri dari titik-titik yang directly density-reachable dari titik sebelumnya.
7.
Density connected, dikatakan demikian jika ada sebuah objek o elemen D sehingga p dan q keduanya density-reachable dari o dengan memperhatikan Eps dan Minpts. Gambar 2.5 menggambarkan kasus density connected.
16
Gambar 2.5 Density Connected
Gambar 2.5 menunjukkan kasus density connected, dikatakan demikian jika ada sebuah objek o elemen D sehingga p dan q keduanya density-reachable dari o dengan memperhatikan Eps dan Minpts.
Berikut merupakan algoritma dari Metode DBSCAN: 1.
Pilih poin p secara acak.
2.
Inisialisasi nilai minpts dan eps
3.
Ambil semua poin yang density reachable terhadap p.
4.
Jika p adalah core point maka cluster terbentuk.
5.
Jika p adalah border point, tidak ada yang merupakan hubungan densityreachable dari p dan DBSCAN mengunjungi poin selanjutnya dari database.
6.
Lanjutkan sampai semua poin telah diproses. Hasil yang didapatkan tidak tergantung dari urutan proses yang diambil.
7.
Hitung jarak, apakah masih memenuhi epsilon. Perhitungan menggunakan Jarak Eucledian sebagai berikut: 𝐸(𝑥, 𝑦) = √∑𝑛𝑖=0(𝑋𝑖 − 𝑌𝑖 )2 ....................................................................... (2.1)
8.
Jika titik yang memenuhi epsilon lebih dari Minpts maka cluster terbentuk.
9.
Setelah didapat titik jarak yang paling besar, titik itu dijadikan core point.
17
Ringkasan karakteristik Metode DBSCAN dapat dipaparkan sebagai berikut (Mumtaz, 2008): 1.
DBSCAN tidak perlu mengetahui jumlah data secara sesukanya seperti pada K-Means. Hal ini memberikan keuntungan karena umumnya bentuk dan jumlah kelompok yang sebaiknya diberikan pada data berdimensi tinggi tidak bisa diketahui dengan cara analisis visual data.
2.
DBSCAN dapat menemukan bentuk kelompok sembarang, bahkan kelompok berbentuk melingkar yang tidak bisa ditangani K-Means. Hal ini dapat disesuaikan dengan menentukan nilai MinPts.
3.
DBSCAN bisa mengenali derau (noise) dengan baik.
4.
Metode DBSCAN hanya membutuhkan dua parameter yang kebanyakan tidak sensitif terhadap urutan data dalam database tetapi penentuan parameter Epsilon hanya mudah diberikan ketika melihat data spasial dua dimensi. Data berdimensi tinggi, nilai Epsilon yang tepat sangat sulit ditentukan.
5.
Metode DBSCAN hanya memberikan hasil kelompok yang baik jika menggunakan Jarak Euclidian tetapi tidak berguna untuk data berdimensi tinggi.
6.
Metode DBSCAN tidak dapat memberikan hasil yang baik untuk data yang mempunyai kelompok kepadatan yang berbeda. Hal ini karena DBSCAN hanya memandang proses pengelompokan berdasarkan radius epsilon sehingga ketika ada dua kelompok atau lebih yang mempunyai kepadatan yang berbeda, DBSCAN tidak bisa memberikan hasil yang baik.
2.8
Validasi Cluster Evaluasi dari model yang digunakan dilakukan dengan melakukan Proses
Mining pada data set dalam periode satu tahun. Proses Clustering diuji coba dengan berbagai nilai parameter dari Algoritma Clustering. Hasil clustering diuji tingkat validitasnya menggunakan Indeks Validitas Silhouette untuk menentukan jumlah cluster yang terbaik. Proses yang dilakukan dalam validasi cluster untuk menentukan jumlah cluster optimal adalah sebagai berikut:
18
1.
Tentukan jumlah jarak antara core point dengan semua titik yang berada pada cluster yang sama
2.
Hitung nilai rata-rata jarak core point dengan semua titik pada cluster yang sama a(i) = (i = objek ke 1, 2, 3,…, n)
3.
Hitung jumlah jarak antara core point dengan semua titik pada cluster yang berbeda
4.
Hitung nilai rata-rata jarak antara core point dengan semua titik pada cluster yang berbeda b(i) = (i = cluster ke 1, 2, 3, …, n)
5.
Cari nilai minimum b(i)
6.
Hitung nilai Indeks Validitas Silhouette tiap titik (Si) dengan rumus S(i) =
7.
(𝑏(𝑖)−𝑎(𝑖)) max{𝑎(𝑖),𝑏(𝑖)}
................................................................................... (2.2)
Hitung nilai rata-rata Indeks Validitas Silhouette dengan rumus 1
GSu = 𝑛 ∑𝑛𝑖=1 𝑠(𝑖) ........................................................................................ (2.3) 8.
Cluster dengan nilai GSu tertinggi merupakan cluster optimal.