TESIS
DATA MINING DENGAN METODE FUZZY UNTUK CUSTOMER RELATIONSHIP MANAGEMENT (CRM) PADA PERUSAHAAN RETAIL
YOHANA NUGRAHENI
PROGRAM PASCASARJANA UNIVERSITAS UDAYANA DENPASAR 2011
TESIS
DATA MINING DENGAN METODE FUZZY UNTUK CUSTOMER RELATIONSHIP MANAGEMENT (CRM) PADA PERUSAHAAN RETAIL
YOHANA NUGRAHENI NIM 0991761018
PROGRAM MAGISTER PROGRAM STUDI TEKNIK ELEKTRO PROGRAM PASCASARJANA UNIVERSITAS UDAYANA DENPASAR 2011
ii
DATA MINING DENGAN METODE FUZZY UNTUK CUSTOMER RELATIONSHIP MANAGEMENT (CRM) PADA PERUSAHAAN RETAIL Tesis untuk Memperoleh Gelar Magister pada Program Magister, Program Studi Teknik Elektro, Program Pascasarjana Universitas Udayana
YOHANA NUGRAHENI NIM 0991761018
PROGRAM MAGISTER PROGRAM STUDI TEKNIK ELEKTRO PROGRAM PASCASARJANA UNIVERSITAS UDAYANA DENPASAR 2011
iii
Lembar Pengesahan
Tesis Ini Telah Disetujui Tanggal 19 Juli 2011
Pembimbing I,
Pembimbing II,
Dr. IKG Darma Putra, S.Kom., MT. NIP. 197404241999031003
Ir. Linawati, M.Eng.Sc., Ph.D NIP. 196608241991032001 Mengetahui
Ketua Program Magister, Program Studi Teknik Elektro Program Pascasarjana Universitas Udayana
Direktur Program Pascasarjana Universitas Udayana
Prof.Ir.I.A.Dwi Giriantari, M.EngSc., Ph.D NIP. 196512131991032001
Prof.Dr.dr.A.A.Raka Sudewi,Sp.S(K) NIP. 195902151985102001
iv
Tesis Ini Telah Diuji dan Dinilai Tanggal 18 Juli 2011
Panitia Penguji Tesis Berdasarkan SK Direktur Program Pascasarjana Universitas Udayana, No : 088/UN14.4/TU/TE/2011, Tanggal 11 Juli 2011
Panitia Penguji Tesis : Ketua
: Dr. IKG Darma Putra, S.Kom., MT.
Anggota
:
1.
Ir. Linawati, M.Eng.Sc., Ph.D
2. Prof.Ir.Ida Ayu Dwi Giriantari, M.EngSc., Ph.D 3. Prof. Ir. Rukmi Sri Hartati, MT., Ph.D 4. Ni. Made Ary Esta Dewi Wirastuti, S.T., M.Sc., Ph.D
PERNYATAAN KEASLIAN KARYA TULIS TESIS
Dengan ini saya menyatakan bahwa dalam tesis ini tidak terdapat karya tulis yang pernah diajukan untuk memperoleh gelar kesarjanaan di suatu perguruan tinggi, dan sepanjang pengetahuan saya tidak terdapat karya atau pendapat yang pernah ditulis atau diterbitkan orang lain, kecuali yang secara tertulis diacu dalam naskah ini dan disebutkan dalam daftar pustaka. Apabila kemudian hari terbukti bahwa saya melakukan tindakan menyalin atau meniru tulisan orang lain sebagai hasil pemikiran saya sendiri, maka gelar dan ijasah yang telah diberikan oleh universitas batal saya terima.
Denpasar, 19 Juli 2011 Yang menyatakan
Yohana Nugraheni
ii
ABSTRAK DATA MINING DENGAN METODE FUZZY UNTUK CUSTOMER RELATIONSHIP MANAGEMENT (CRM) PADA PERUSAHAAN RETAIL Konsumen merupakan aset yang sangat penting bagi perusahaan retail. Hal ini adalah alasan mengapa perusahaan retail harus merencanakan dan menggunakan strategi yang cukup jelas dalam memperlakukan konsumen. Dengan banyaknya jumlah konsumen yang dimiliki oleh suatu perusahaan retail, maka masalah yang harus dihadapi adalah bagaimana menentukan konsumen potensial. Dengan menerapkan konsep CRM (Customer Relationship Management), perusahaan dapat melakukan identifikasi konsumen potensial dengan melakukan segmentasi konsumen. Tujuan dari proses segmentasi konsumen adalah untuk mengetahui perilaku konsumen dan menerapkan strategi pemasaran yang tepat sehingga mendatangkan keuntungan bagi pihak perusahaan. Penelitian ini membahas tentang bagaimana proses data mining dari data konsumen di UD. Fenny, yaitu perusahaan retail yang khusus menjual bahan dan peralatan membuat kue yang berlokasi di Jalan Nakula, Denpasar. Proses data mining ini menggunakan data yang berasal dari data penjualan pada UD. Fenny dan bertujuan untuk mencari konsumen potensial. Proses data mining dimulai dengan melakukan proses clustering menggunakan algoritma Fuzzy C-Means (FCM) dan Fuzzy Subtractive (FS) Clustering. Pada FCM jumlah cluster ditentukan, sedangkan pada FS, jumlah cluster tidak ditentukan, melainkan diperoleh melalui proses iterasi berdasarkan nilai radii. Hasil clustering dari masing-masing metode tersebut digunakan untuk melakukan segmentasi menggunakan model Fuzzy RFM untuk mendapatkan kelas konsumen. Model Fuzzy RFM menggabungkan teori himpunan fuzzy dengan model RFM, yaitu model segmentasi berdasarkan atribut Recency, Frequency dan Monetary. Model RFM merupakan model segmentasi yang umum digunakan pada perusahaan retail. Aplikasi data mining dibangun berbasis GUI menggunakan MATLAB versi 7.10.0 dan memanfaatkan beberapa toolbox yaitu Fuzzy Logic Toolbox dan Database Toolbox. Uji coba dilakukan terhadap data penjualan pada tahun 2008. Dari uji coba ini dilakukan analisis terhadap validitas algoritma clustering yang digunakan. Metode pengukuran indeks validitas cluster yang digunakan adalah Modified Partition Coefficient (MPC) dan Classification Entropy (CE). Dari kedua metode ini diperoleh hasil bahwa algoritma FCM lebih baik dibandingkan FS. Selain untuk mengukur validitas cluster, MPC dan CE digunakan juga untuk menentukan jumlah cluster terbaik. Dari hasil penelitian, jumlah cluster yang optimal untuk kedua metode clustering adalah 2. Jika diterapkan pada proses segmentasi, segmentasi dari hasil FS tidak dapat mengidentifikasi konsumen potensial, sedangkan jika menggunakan FCM identifikasi terhadap konsumen potensial didapatkan pada proses clustering dengan 2 cluster. Sehingga dapat disimpulkan bahwa algoritma FS kurang mendukung proses data mining pada perusahaan retail Kata kunci : data mining, Fuzzy C-Means, Fuzzy Subtractive, clustering, segmentasi, RFM, Modified Partition Coefficient, Classification Entropy, validitas cluster, Customer Relationship Management
iii
ABSTRACT DATA MINING USING FUZZY METHOD FOR CUSTOMER RELATIONSHIP MANAGEMENT (CRM) IN RETAIL INDUSTRY Customers are the most important asset of a retail industry. That is why a retail industry should plan and employ a clear strategy for treating customers. A problem that appears in a retail industry with a great quantity of customers is how to identify potential customers. A retail industry could identify their best customer through customer segmentation by applying Customer Relationship Management (CRM) concept. The objective of customer segmentation is to understand the customer’s behavior and apply the appropriate marketing strategy in order to make a retail industry profitable. This research presents data mining process from customer’s data in UD. Fenny, a retail industry located in Nakula street, Denpasar which specially sells baking ingredients and equipment. The data mining process uses data that derived from sales data in UD Fenny and aims to look for potential customers. Data mining process begins with clustering process using Fuzzy C-Means (FCM) and Fuzzy Subtractive (FS) Clustering algorithm. On FCM, the cluster number needs to be determined. While on FS, the cluster number obtained through the iteration process based on the radii. The clustering result from each method is used for the segmentation process using Fuzzy RFM model to obtain customer class. Fuzzy RFM model combines the fuzzy set theory with RFM model, the segmentation model based on Recency, Frequency, and Monetary attribute. RFM model is a segmentation model that commonly used in retail industries. The data mining application was built based on GUI using MATLAB version 7.10.0 and utilized Fuzzy Logic and Database Toolbox. The trial was performed on sales data in 2008. In this trial, the cluster validity from FCM and FS has been evaluated using Modified Partition Coefficient (MPC) and Classification Entropy (CE). The comparative study shows that FCM has a better performance than FS and the optimal cluster number for both clustering method is 2. Segmentation process from FS clustering result fails to identify the potential customer. While, segmentation process from FCM clustering result successfully identify the potential customer with 2 cluster number. So, it can be concluded from this research that FS clustering method is less supportive for data mining process in retail industry. Keywords: data mining, Fuzzy C-Means, Fuzzy Subtractive, clustering, segmentation, RFM, Modified Partition Coefficient, Classification Entropy,cluster validity, Customer Relationship Management
iv
KATA PENGANTAR
Puji syukur penulis panjatkan kepada Tuhan Yesus Kristus, karena atas kasih dan anugerahNya tesis yang berjudul “DATA MINING DENGAN METODE FUZZY UNTUK CUSTOMER RELATIONSHIP MANAGEMENT (CRM) PADA PERUSAHAAN RETAIL” ini dapat diselesaikan. Penulis menyadari bahwa tanpa dukungan dari banyak pihak, tesis ini tidak akan terselesaikan dengan baik. Untuk itu, dengan kesempatan ini penulis ingin menyampaikan penghargaan dan rasa terima kasih yang sebesar-besarnya kepada : 1. Prof. Dr. dr. A. A.Raka Sudewi, Sp.S(K) sebagai Direktur Pascasarjana Universitas Udayana, 2. Prof. Ir. Ida Ayu Dwi Giriantari, M.EngSc., Ph.D sebagai Ketua Program Magister, Program Studi Teknik Elektro, Program Pascasarjana Universitas Udayana. 3. Dr. I Ketut Gede Darma Putra, S.Kom., MT sebagai pembimbing I atas waktu dan kesediaan untuk memberikan ilmu, ide, masukan, dan saran kepada penulis. 4. Ir. Linawati, M.Eng.Sc., Ph.D sebagai pembimbing II. 5. A.A. Oka Sudana, S.Kom, MT sebagai pembimbing pendamping 6. Bapak dan Ibu dosen pengajar di Program Magister Teknik Elektro yang telah membagikan ilmu kepada penulis. 7. Suami tercinta Putu Denny Arsana dan putri tersayang Putu Kania Irene Arsana yang telah memberikan dukungan dan semangat untuk menyelesaikan studi S2. 8. Pdt. Dr. Budyo Pantoro dan ibu, Bapak Ketut Sudiasa dan ibu, atas dukungan doanya.
v
9. Teman-teman seperjuangan di Program Magister Teknik Elektro, Gung Ariana, Mbok Tini, Mbok Trisna, Roy, Indah, Ayu Wirdi dan teman-teman lainnya yang tidak dapat penulis sebutkan satu per satu, atas semangat dan keceriaan yang telah dibagikan selama menjalani perkuliahan di S2 Elektro. Penulis menyadari bahwa tesis yang dibuat dengan segenap kemampuan ini memiliki kekurangan. Harapan penulis, semoga karya kecil ini dapat memberikan sumbangsih pada kemajuan dunia ilmu pengetahuan dan pendidikan.
Juli, 2011
Penulis
vi
DAFTAR ISI Halaman
SAMPUL DALAM .................................................................................................. i PRASYARAT GELAR........................................................................................... ii LEMBAR PERSETUJUAN................................................................................... iii PENETAPAN PANITIA PENGUJI ..................................................................... iv PERNYATAAN KEASLIAN KARYA TULIS TESIS.......................................... v ABSTRAK ............................................................................................................. vi ABSTRACT ............................................................................................................ vii KATA PENGANTAR ......................................................................................... viii DAFTAR ISI ........................................................................................................... x DAFTAR TABEL ................................................................................................. xii DAFTAR GAMBAR ........................................................................................... xiv BAB I PENDAHULUAN ...................................................................................... 1 1.1 Latar Belakang ...................................................................................... 1 1.2 Rumusan Masalah ................................................................................. 4 1.3 Batasan Penelitian ................................................................................. 4 1.4 Tujuan Penelitian................................................................................... 5 1.5 Keaslian Penelitian ................................................................................ 5 BAB II KAJIAN PUSTAKA DAN LANDASAN TEORI................................... 7 2.1 Kajian Pustaka...................................................................................... 7 2.2 Data Warehouse ................................................................................. 12 2.3 Data Mining ....................................................................................... 15 2.2.1 Tugas Data Mining .................................................................. 17 2.2.2 CRISP-DM............................................................................... 19 2.3 Customer Relationship Management (CRM)..................................... 22 2.3.1 Teknologi CRM ....................................................................... 23 2.3.2 Data Mining dalam Kerangka CRM ........................................ 25 2.4 Himpunan Fuzzy................................................................................. 27 vii
2.5 Clustering ........................................................................................... 28 2.5.1 Hard Clustering dan Fuzzy Clustering .................................... 29 2.5.2 Metode Fuzzy C-Means Clustering.......................................... 30 2.5.3 Metode Fuzzy Subtractive Clustering ...................................... 31 2.5 Ukuran Validitas Cluster.................................................................... 34 2.6 Metode Klasifikasi Fuzzy RFM.......................................................... 36 BAB III METODOLOGI DAN RANCANGAN............................................... 42 3.1 Rancangan Penelitian .......................................................................... 42 3.2 Tempat dan Waktu Penelitian ............................................................. 55 3.3 Sumber Data ........................................................................................ 55 3.4 Instrumen Penelitian............................................................................ 56 3.5 Jadwal Penelitian................................................................................. 56 BAB IV IMPLEMENTASI................................................................................ 57 4.1 Implementasi Data Warehouse ........................................................... 57 4.2 Implementasi Data Mining.................................................................. 59 4.2.1 Implementasi Clustering dengan Algoritma Fuzzy C-Means ........................................... 60 4.2.2 Implementasi Clustering dengan Algoritma Fuzzy Subtractive ....................................... 65 4.2.3 Implementasi Segmentasi dengan Model Fuzzy RFM.............. 69 4.2.4 Implementasi Perbandingan Kelas Konsumen ......................... 75 BAB V HASIL PENELITIAN DAN PEMBAHASAN .................................... 79 5.1 Hasil Uji Coba ..................................................................................... 79 5.1.1 Algoritma Fuzzy C-Means (FCM) Clustering .......................... 79 5.1.2 Algoritma Fuzzy Subtractive (FS) Clustering........................... 93 5.2 Analisis Cluster ................................................................................. 108 BAB VI KESIMPULAN.................................................................................. 124
DAFTAR PUSTAKA ......................................................................................... 126
viii
DAFTAR TABEL Halaman
Tabel 2.1 Penelitian yang Telah Dilakukan........................................................ 11 Tabel 2.2 Definisi Kelas dan Nilai (Score) dalam Metode Sharp RFM............. 39 Tabel 2.3 Penilaian Konsumen Berdasarkan Metode Sharp RFM..................... 40 Tabel 2.4 Penilaian Konsumen Berdasarkan Metode Fuzzy RFM.................... 40 Tabel 3.1 Tabel Customer .................................................................................. 44 Tabel 3.2 Tabel Barang ..................................................................................... 44 Tabel 3.3 Tabel Master Penjualan ...................................................................... 44 Tabel 3.4 Tabel Detil Penjualan ......................................................................... 45 Tabel 3.5 Tabel Master Piutang.......................................................................... 45 Tabel 3.6 Tabel Detil Piutang............................................................................. 45 Tabel 3.7 Data Parsial dari Database UD. Fenny ............................................. 47 Tabel 3.8 Domain Nilai Untuk Masing-Masing Himpunan Fuzzy..................... 49 Tabel 3.9 Deskripsi Variabel Linguistik dan Label Konsumen ...................... 52 Tabel 3.10 Pembagian Superstar Customer ......................................................... 53 Tabel 3.11 Pembagian Golden Customer ............................................................. 54 Tabel 3.12 Pembagian Everyday Customer.......................................................... 54 Tabel 3.13 Pembagian Occational Customer ....................................................... 54 Tabel 3.14 Pembagian Dormant Customer .......................................................... 54 Tabel 3.15 Jadwal Penelitian ................................................................................ 55 Tabel 5.1 Koordinat Titik Pusat Cluster (Jumlah Cluster = 2).......................... 80 Tabel 5.2 Kelas Konsumen Setiap Cluster (Jumlah Cluster = 2) ...................... 81 Tabel 5.3 Koordinat Titik Pusat Cluster (Jumlah Cluster = 3).......................... 83 Tabel 5.4 Kelas Konsumen Setiap Cluster (Jumlah Cluster = 3) ...................... 83 Tabel 5.5 Koordinat Titik Pusat Cluster (Jumlah Cluster = 4).......................... 85 Tabel 5.6 Kelas Konsumen Setiap Cluster (Jumlah Cluster = 4) ...................... 86 Tabel 5.7 Koordinat Titik Pusat Cluster (Jumlah Cluster = 5).......................... 88 Tabel 5.8 Kelas Konsumen Setiap Cluster (Jumlah Cluster = 5) ...................... 89 Tabel 5.9 Koordinat Titik Pusat Cluster (Jumlah Cluster = 6).......................... 91 Tabel 5.10 Kelas Konsumen Setiap Cluster (Jumlah Cluster = 6) ...................... 92 Tabel 5.11 Koordinat Titik Pusat Cluster (Radii=0.5)......................................... 95 ix
Tabel 5.12 Kelas Konsumen Setiap Cluster (Radii=0.5, Jumlah Cluster = 2).... 95 Tabel 5.13 Koordinat Titik Pusat Cluster (Radii=0.22)....................................... 97 Tabel 5.14 Kelas Konsumen Setiap Cluster (Radii=0.22, Jumlah Cluster = 3) ...................................................... 98 Tabel 5.15 Koordinat Titik Pusat Cluster (Radii=0.15)..................................... 100 Tabel 5.16 Kelas Konsumen Setiap Cluster (Radii=0.15, Jumlah Cluster = 4) .................................................... 100 Tabel 5.17 Koordinat Titik Pusat Cluster (Radii=0.1)....................................... 103 Tabel 5.18 Kelas Konsumen Setiap Cluster (Radii=0.1, Jumlah Cluster = 5) ...................................................... 104 Tabel 5.19 Koordinat Titik Pusat Cluster (Radii=0.09)..................................... 106 Tabel 5.20 Kelas Konsumen Setiap Cluster (Radii=0.09, Jumlah Cluster = 6) .................................................... 106 Tabel 5.21 Indeks MPC dan CE pada Algoritma FCM dan FS Clustering ....... 108 Tabel 5.22 Perbandingan Kelas Konsumen Per Tahun ..................................... 110 Tabel 5.23 Contoh Konsumen yang Mengalami Anomali pada Proses Penentuan Kelas Konsumen ......................................... 122
x
DAFTAR GAMBAR Halaman
Gambar 2.1
Arsitektur Data Warehouse ........................................................... 14
Gambar 2.2
Proses KDD ................................................................................... 16
Gambar 2.3
Tahapan dalam Proses Knowledge Discovery in Database........... 17
Gambar 2.4
Empat Tugas Inti Data Mining ...................................................... 18
Gambar 2.5
Siklus Hidup CRISP-DM .............................................................. 20
Gambar 2.6
Kerangka Kerja Teknik Data Mining dalam CRM ....................... 26
Gambar 2.7
Contoh Proses Clustering .............................................................. 29
Gambar 2.8
Hard dan Fuzzy Clustering............................................................ 29
Gambar 2.9
Metode (a) Sharp RFM dan (b) Fuzzy RFM ................................. 41
Gambar 3.1
Diagram Relasi Antar Tabel .......................................................... 46
Gambar 3.2
Star Schema Penjualan .................................................................. 48
Gambar 3.3
Himpunan Fuzzy pada Variabel Recency ...................................... 50
Gambar 3.4
Himpunan Fuzzy pada Variabel Frequency................................... 50
Gambar 3.5
Himpunan Fuzzy pada Variabel Monetary .................................... 50
Gambar 4.1
Tampilan Utama Aplikasi Data Warehouse.................................. 57
Gambar 4.2
Fasilitas Drill-Down dan Roll-Up pada Aplikasi Data Warehouse ..................................................... 58
Gambar 4.3
Fasilitas untuk Mengetahui Total Recency, Frequency, Monetary, dan Average pada Aplikasi Data Warehouse ................................ 59
Gambar 4.4
Menu Utama Aplikasi Data Mining .............................................. 60
Gambar 4.5
Tampilan Aplikasi untuk Fuzzy C-Means Clustering ................... 61
Gambar 4.6
Tampilan Aplikasi Daftar Anggota Cluster................................... 65
Gambar 4.7
Tampilan Aplikasi untuk Fuzzy Subtractive Clustering................ 66
Gambar 4.8
Kurva Gauss................................................................................... 67
Gambar 4.9
Tampilan Aplikasi Segmentasi Menggunakan Model Fuzzy RFM ......................................................................... 70
Gambar 4.10 Hasil Plot Himpunan Fuzzy dengan Fungsi Keanggotaan Trapezoidal .................................................................................... 73 Gambar 4.11 Tampilan Aplikasi Perbandingan Kelas Konsumen dengan Pilihan Bentuk Grafik General ......................................... 76
xi
Gambar 4.12 Tampilan Aplikasi Perbandingan Kelas Konsumen dengan Pilihan Bentuk Grafik Detail............................................. 76 Gambar 5.1
Hasil Clustering Menggunakan FCM dengan 2 cluster ................ 80
Gambar 5.2
Tampilan Hasil Segmentasi 2 Cluster yang Diperoleh dari FCM.............................................................. 81
Gambar 5.3
Hasil Clustering Menggunakan FCM dengan 3 cluster ................ 82
Gambar 5.4
Tampilan Hasil Segmentasi 3 Cluster yang Diperoleh dari FCM.............................................................. 83
Gambar 5.5
Hasil Clustering Menggunakan FCM dengan 4 cluster ................ 85
Gambar 5.6
Tampilan Hasil Segmentasi 4 Cluster yang Diperoleh dari FCM.............................................................. 86
Gambar 5.7
Hasil Clustering Menggunakan FCM dengan 5 cluster ................ 88
Gambar 5.8
Tampilan Hasil Segmentasi 5 Cluster yang Diperoleh dari FCM.............................................................. 89
Gambar 5.9
Hasil Clustering Menggunakan FCM dengan 6 cluster ................ 91
Gambar 5.10 Tampilan Hasil Segmentasi 6 Cluster yang Diperoleh dari FCM.............................................................. 92 Gambar 5.11 Tampilan Hasil Clustering Menggunakan FS dengan Nilai Radii=0.5.................................................................. 94 Gambar 5.12 Tampilan Hasil Segmentasi 2 Cluster yang Diperoleh dari FS..... 95 Gambar 5.13 Tampilan Hasil Clustering Menggunakan FS dengan Nilai Radii=0.22................................................................ 97 Gambar 5.14 Tampilan Hasil Segmentasi 3 Cluster yang Diperoleh dari FS..... 98 Gambar 5.15 Tampilan Hasil Clustering Menggunakan FS dengan Nilai Radii=0.15................................................................ 99 Gambar 5.16 Tampilan Hasil Segmentasi 4 Cluster yang Diperoleh dari FS... 102 Gambar 5.17 Tampilan Hasil Clustering Menggunakan FS dengan Nilai Radii=0.1................................................................ 103 Gambar 5.18 Tampilan Hasil Segmentasi 5 Cluster yang Diperoleh dari FS... 104 Gambar 5.19 Tampilan Hasil Clustering Menggunakan FS dengan Nilai Radii=0.09.............................................................. 105 Gambar 5.20 Tampilan Hasil Segmentasi 6 Cluster yang Diperoleh dari FS... 107
xii
Gambar 5.21 Grafik Indeks MPC dan CE untuk Algoritma FCM.................... 109 Gambar 5.22 Grafik Indeks MPC dan CE untuk Algoritma FS........................ 109 Gambar 5.23 Perbandingan Kelas Konsumen Hasil Clustering Menggunakan Algoritma FCM Clustering (Customer No. = C0020) dengan Bentuk Grafik (a) General (b) Detail.............................. 111 Gambar 5.24 Perbandingan Kelas Konsumen Hasil Clustering Menggunakan Algoritma FS Clustering (Customer No. = C0020) dengan Bentuk Grafik (a) General (b) Detail.............................. 112 Gambar 5.25 Perbandingan Kelas Konsumen Hasil Clustering Menggunakan Algoritma FCM Clustering (Customer No. = C0051) dengan Bentuk Grafik (a) General (b) Detail.............................. 113 Gambar 5.26 Perbandingan Kelas Konsumen Hasil Clustering Menggunakan Algoritma FS Clustering (Customer No. = C0051) dengan Bentuk Grafik (a) General (b) Detail.............................. 114 Gambar 5.27 Perbandingan Kelas Konsumen Hasil Clustering Menggunakan Algoritma FCM Clustering (Customer No. = C0061) dengan Bentuk Grafik (a) General (b) Detail.............................. 115 Gambar 5.28 Perbandingan Kelas Konsumen Hasil Clustering Menggunakan Algoritma FS Clustering (Customer No. = C0061) dengan Bentuk Grafik (a) General (b) Detail.............................. 116 Gambar 5.29 Perbandingan Kelas Konsumen Hasil Clustering Menggunakan Algoritma FCM Clustering (Customer No. = C0138) dengan Bentuk Grafik (a) General (b) Detail.............................. 117 Gambar 5.30 Perbandingan Kelas Konsumen Hasil Clustering Menggunakan Algoritma FS Clustering (Customer No. = C0138) dengan Bentuk Grafik (a) General (b) Detail.............................. 118 Gambar 5.31 Perbandingan Kelas Konsumen Hasil Clustering Menggunakan Algoritma FCM Clustering (Customer No. = C0205) dengan Bentuk Grafik (a) General (b) Detail.............................. 119 Gambar 5.32 Perbandingan Kelas Konsumen Hasil Clustering Menggunakan Algoritma FS Clustering (Customer No. = C0205) dengan Bentuk Grafik (a) General (b) Detail.............................. 120
xiii
BAB I PENDAHULUAN
1.1
Latar Belakang Di tengah persaingan bisnis yang sangat ketat dewasa ini, perusahaan-
perusahaan
retail
mulai
mengalihkan
perhatian
mereka
dari
sekedar
mengembangkan produk dan layanan yang unggul ke arah penciptaan pengalaman personal konsumen. Hal ini dilakukan dengan suatu kesadaran yang utuh bahwa hubungan antara perusahaan dengan konsumen sangat penting untuk menunjang perkembangan dan kelangsungan perusahaan. Sesuai dengan hukum Pareto (hukum 80:20), hanya 20% dari keseluruhan konsumen yang mewakili 80% pendapatan perusahaan. Dalam hal ini, konsumen yang berbeda mewakili nilai yang berbeda. Pihak manajemen perusahaan retail harus mampu untuk mengenali konsumen terbaiknya dan mempercayainya dengan meningkatkan pemahaman perusahaan akan kebutuhan mereka sebagai individu sehingga dapat mempertahankan loyalitasnya terhadap perusahaan. Dengan menerapkan konsep CRM (Customer Relationship Management), perusahaan dapat melakukan identifikasi konsumen dengan melakukan segmentasi konsumen. Tujuan dari proses segmentasi konsumen adalah untuk mengetahui perilaku konsumen dan menerapkan strategi pemasaran yang tepat sehingga mendatangkan keuntungan bagi pihak perusahaan. UD. Fenny adalah salah satu perusahaan retail yang menyadari akan pentingnya hubungan antara pelanggan yang loyal dengan keberhasilan bisnis perusahaan. UD. Fenny merupakan perusahaan retail yang khusus menjual bahan
1
2
dan peralatan membuat kue dan berlokasi di Jalan Nakula, Denpasar. Sampai tahun 2010, UD. Fenny memiliki 1.200 pelanggan, 10.000 item barang, dan 3.000.000 transaksi penjualan. Sejak tahun 2006, UD. Fenny telah menggunakan sistem informasi berbasis komputer untuk menangani point of sales (POS) dan inventory. Hal ini berdampak pada pertumbuhan jumlah data yang sangat pesat dan menimbulkan tumpukan data yang berjumlah besar dalam basis data. Dengan jumlah data yang sangat besar, UD. Fenny kesulitan untuk melakukan identifikasi terhadap konsumen terbaiknya. Penggunaan metode tradisional untuk melakukan identifikasi konsumen dari data membutuhkan kemampuan manusia untuk menganalisa dan menginterpretasikan data. Dengan volume data yang berkembang sangat pesat, baik dari jumlah record dan jumlah field, analisa terhadap data tidak mungkin dilakukan secara manual oleh manusia. Penerapan data mining dapat membantu untuk menganalisa data yang diperoleh dari transaksi pada sistem informasi sehingga dapat menggali pola-pola yang dapat dijadikan pengetahuan baru untuk proses identifikasi konsumen di UD. Fenny. Data mining merupakan proses pencarian pola-pola yang menarik dan tersembunyi (hidden pattern) dari suatu kumpulan data yang berukuran besar yang tersimpan dalam suatu basis data, data warehouse, atau
tempat
penyimpanan data lainnya (Tan dkk, 2006). Menurut Sumanthi dan Sivandham (2009), data mining juga didefinisikan sebagai bagian dari proses penggalian pengetahuan dalam database yang dikenal dengan istilah Knowledge Discovery in Database (KDD). Teknik data mining yang digunakan untuk mencari segmentasi konsumen adalah menggunakan teknik clustering. Menurut Jain (1999), teknik clustering digunakan pada data mining untuk mengelompokan
3
objek-objek yang memiliki kemiripan dalam kelas atau segmen yang sama, sementara objek-objek yang terletak pada kelas yang berbeda menunjukkan karakteristik yang berbeda juga. Ada dua macam teknik clustering yang dapat digunakan, yaitu hard clustering dan fuzzy clustering. Pada penelitian ini akan digunakan metode fuzzy clustering, yaitu dengan algoritma Fuzzy C-Means Clustering (FCM) dan Fuzzy Subtractive Clustering (FS) untuk mengelompokkan data penjualan pada basis data UD. Fenny. Algoritma Fuzzy C-Means Clustering merupakan algoritma supervised clustering (jumlah cluster ditentukan). FCM memiliki tingkat akurasi yang tinggi dan waktu komputasi yang cepat (Hammouda, 2000). Jika jumlah cluster tidak ditentukan, maka dapat digunakan algoritma Fuzzy Subtractive Clustering, yang termasuk algoritma unsupervised clustering (Hammouda, 2000). Dengan menggunakan algoritma Fuzzy C-Means Clustering dan Fuzzy Subtractive Clustering, hasil pengelompokan data menggunakan kedua algoritma tersebut dapat dibandingkan. Hasil clustering selanjutnya akan diklasifikasi untuk menentukan segmentasi konsumen menggunakan model fuzzy RFM. Model fuzzy RFM memadukan model RFM dan logika fuzzy. Model RFM merupakan model untuk menentukan segmentasi konsumen berdasarkan recency, frequency, dan monetary. Recency adalah rentang waktu (dalam satuan hari, bulan, tahun) dari transaksi terakhir yang dilakukan oleh konsumen sampai saat ini. Frequency adalah jumlah total transaksi atau jumlah rata-rata transaksi dalam satu periode. Monetary, adalah jumlah rata-rata nilai pembelian konsumen dalam suatu satuan waktu. Dengan memadukan logika fuzzy dengan model Recency Frequency Monetary (RFM), hasil segmentasi konsumen dapat digunakan untuk memberi penilaian terhadap
4
konsumen (customer scoring) dan menentukan profil konsumen (customer profiling) dengan lebih tepat dibandingkan model RFM yang berdiri sendiri (Zumstein, 2007).
1.2
Rumusan Masalah Berdasarkan latar belakang di atas, dapat dirumuskan beberapa masalah
yang menjadi inti dari penelitian ini, yaitu : 1. Apakah algoritma Fuzzy C-Means Clustering dan Fuzzy Subtractive Clustering yang dipadukan dengan model fuzzy RFM dapat mengidentifikasi konsumen potensial dalam proses data mining ? 2. Bagaimana pengukuran kinerja algoritma Fuzzy C-Means Clustering dan Fuzzy Subtractive Clustering dalam proses data mining ?
1.3
Batasan Penelitian Dengan luasnya cakupan yang dapat terkait dengan tesis ini dan untuk
keseragaman pemahaman dalam penelitian, maka terdapat batasan-batasan yang perlu diberlakukan pada tesis ini. Batasan-batasan tersebut adalah: 1.
Meskipun proses mining akan dilakukan dari suatu data warehouse, namun dalam penelitian tidak akan melakukan kajian tentang proses pembangunan data warehouse.
2.
Proses clustering dengan algoritma Fuzzy C-Means dan Fuzzy Subtractive Clustering akan diterapkan pada data yang sama dan akan dilakukan perbandingan terhadap hasil clustering dari kedua algoritma ini.
5
3.
Tidak membuat proses otomatisasi pada proses ekstraksi fitur dan transfer data. Kedua proses tersebut dilakukan dengan menggunakan query sederhana melalui fasilitas query analyzer.
1.4
Tujuan Penelitian Tujuan dari penelitian adalah membuat suatu aplikasi yang merupakan
simulasi dari data mining dengan menerapkan metode Fuzzy C-Means Clustering dan Fuzzy Subtractive Clustering dan model fuzzy RFM untuk melakukan segmentasi terhadap hasil clustering. Hasil segmentasi dapat digunakan oleh pihak manajemen perusahaan retail untuk mendukung proses CRM sehingga perusahaan dapat melakukan identifikasi terhadap konsumen yang banyak mendatangkan keuntungan bagi perusahaan (profitable consumer). Dengan proses CRM diharapkan perusahaan retail, dalam hal ini UD. Fenny dapat melakukan manajemen yang baik terhadap konsumennya, sehingga akan tercipta loyalitas konsumen terhadap UD. Fenny.
1.5
Keaslian Penelitian Penelitian sebelumnya yang sejenis adalah penelitian Cheng dengan judul
Classifying the Segmentation of Customer Value via RFM Model and RS Theory, menggunakan metode K-Means dan Rough Theory serta pemodelan RFM. Sedangkan Zumstein dalam thesisnya yang berjudul Customer Performance Measurement : Analysis of the Benefit of a Fuzzy Classification Approach in Customer Relationship Management meneliti tentang metode fuzzy RFM untuk melakukan klasifikasi dalam proses segmentasi konsumen. Penelitian yang
6
dilakukan oleh Zumstein merupakan paparan konsep dari fuzzy RFM dan belum diterapkan untuk proses data mining. Penelitian lain dengan metode fuzzy clustering untuk proses data mining akan dipaparkan pada bagian kajian pustaka.
BAB II KAJIAN PUSTAKA DAN LANDASAN TEORI
2.1
Kajian Pustaka Penelitian tentang data mining untuk CRM, khususnya untuk proses
segmentasi konsumen, serta metode Fuzzy RFM telah beberapa kali dilakukan sebelumnya. Shin dan Sohn (2004) dalam penelitiannya menggunakan algoritma KMeans, SOM, dan Fuzzy C-Means untuk mencari segmentasi konsumen pasar modal berdasarkan nilai potensialnya, yaitu berdasarkan total nilai transaksi yang dilakukan dalam periode tiga bulan. Dari hasil perbandingan terhadap ketiga metode tersebut, algoritma K-Means memiliki hasil segmentasi yang lebih akurat. Selanjutnya dilakukan proses klasifikasi menggunakan metode aturan berbasis pohon keputusan, sehingga dihasilkan tiga segmen konsumen dan setiap segmen konsumen menentukan besarnya komisi yang harus dibayarkan untuk broker. Penelitian lainnya dilakukan oleh Jansen (2007) untuk
menerapkan
konsep data mining dalam proses segmentasi konsumen (customer segmentation) dan mendefinisikan profil konsumen (customer profiling) serta hubungan antara keduanya. Jansen menggunakan algoritma K-Means, K-Medoid, Fuzzy C-Means, Gustafson Kessel dan Gath Geva Clustering untuk melakukan proses segmentasi konsumen. Studi kasus dalam penelitian ini adalah konsumen pengguna jasa telekomunikasi Vodafone. Segmentasi konsumen didasarkan pada perilaku konsumen yang diukur berdasarkan jumlah panggilan masuk dan panggilan keluar yang dilakukan oleh konsumen. Customer profiling dibangun melalui informasi
7
8
yang berasal dari datawarehouse, seperti umur, jenis kelamin, dan informasi daerah tempat tinggal. Dengan menggunakan teknik data mining, yaitu Support Vector Machine (SVM), segmentasi konsumen dapat diperkirakan melalui profil konsumen. Dalam penelitian ini diperoleh hasil bahwa dengan menggunakan SVM, dapat dibentuk empat segmen konsumen dari data profil konsumen yang ada dengan tingkat keakuratan 80,3%. Sedangkan jika jumlah segmen yang dibentuk berjumlah 6, maka tingkat keakuratan klasifikasinya adalah 78,5%. Cao, Zhu, dan Hou (2009) menggunakan metode FFCHC (Fuzzy Fisher Criterion Based Hierarchical Clustering Algorithm) untuk melakukan segmentasi konsumen. Metode FFHC memadukan algoritma FFC (Fuzzy Fisher Criterion) sebagai algoritma untuk melakukan clustering dan clustering validity function untuk mencari jumlah cluster yang paling optimal. Metode ini diterapkan pada dataset konsumen pada suatu perusahaan pasar modal. Fathi, Kianfar, Hasanzadeh, dan Sadeghi (2009) meneliti nilai kepuasan konsumen yang dapat dimaksimalkan melalui penggunaan katalog dalam proses penjualan produk. Derajat kepuasan konsumen didefinisikan melalui dari jumlah produk kebutuhan konsumen yang muncul dalam catalog dan tingkat prioritas kebutuhan terhadap produk tersebut. Konsumen dikelompokkan menjadi tiga kelompok berdasarkan tingkat kebutuhannya terhadap produk di dalam katalog, menggunakan algoritma Fuzzy C-Means. Cheng dan Chen (2009) menggunakan teknik data mining untuk menemukan pola dan trend dari data konsumen dalam kaitannya dengan konsep CRM. Proses clustering dilakukan terhadap data konsumen C-‐ company, yaitu perusahaan yang bergerak di bidang industry elektronik.
9
Proses clustering didahului dengan mendefinisikan skala dari atribut R-‐F-‐M. Atribut inilah yang digunakan sebagai input dalam proses clustering yang dilakukan dengan algoritma K-Means . Proses clustering dilakukan untuk membagi data konsumen menjadi lima cluster. Dari lima cluster tersebut berikutnya akan dilakukan proses verifikasi, perbandingan, dan perhitungan tingkat akurasi dengan menggunakan algoritma LEM2. Dari 401 instances pada dataset yang digunakan, 67% dataset (268 instances) digunakan untuk training set, dan 33% sisanya (133instances) digunakan untuk testing set. Sedangkan penelitian tentang perbandingan algoritma Fuzzy C-Means dan Fuzzy Subtractive Clustering juga pernah dilakukan sebelumnya. Collazo-Cuevas dkk (2010) melakukan perbandingan terhadap dua metode clustering yaitu Fuzzy C-Means dan Fuzzy Subtractive Clustering. Kedua metode ini diterapkan untuk melakukan clustering terhadap data polusi udara di Liverpool. Dalam penelitian ini juga dibangun algoritma identifikasi model fuzzy sebagai dasar dari metode estimasi. Hasil dari proses clustering adalah pemodelan hubungan antara suhu udara, kelembaban udara, dan konsentrasi PM10 di Liperpool, Inggris. Hammouda dan Prof. Karaay (2000) dalam penelitiannya melakukan perbandingan terhadap empat metode clustering, yaitu F-Means, Fuzzy C- Mean, Mountain, dan Fuzzy Subtractive Clustering.
Keempat
metode
clustering ini diterapkan untuk melakukan proses clustering terhadap data medis. Selanjutnya, hasil dari proses clustering tersebut digunakan untuk membantu proses diagnosa terhadap penyakit hati. Perbandingan terhadap keempat metode clustering dilakukan menggunakan parameter keakuratan
10
hasil clustering, waktu yang dibutuhkan untuk melakukan proses clustering, root mean square error, dan kemiringan garis regresi (regression line slope). Dari hasil perbandingan diperoleh hasil bahwa Mountain Clustering kurang baik untuk digunakan pada data dengan jumlah dimensi yang besar. Pendekatan algoritma yang lebih baik adalah menggunakan Fuzzy Subtractive Clustering karena membutuhkan waktu pemrosesan yang lebih cepat dibandingkan Mountain Clustering untuk memproses data dengan 13 dimensi. Algoritma K-Means dan Fuzzy C-Means kinerja yang lebih baik dibandingkan Mountain Clustering dan Fuzzy Subtractive Clustering, namun membutuhkan informasi tentang jumlah cluster yang harus dibentuk. Penelitian tentang metode fuzzy RFM dilakukan oleh Zumstein (2007) dalam thesisnya. Zumstein meneliti tentang klasifikasi fuzzy sebagai metode analisa dan manajemen data multidimensi. Metode klasifikasi fuzzy sesuai untuk digunakan dalam proses CRM dan membangun hubungan dengan konsumen yang menguntungkan. Metode fuzzy dipadukan dengan metode klasifikasi seperti metode analisa SWOT, analisa portfolio, analisa ABC, serta metode penilaian (scoring method) untuk memperoleh hasil segmentasi konsumen yang lebih baik. Dalam penelitian ini, metode fuzzy juga dipadukan dengan metode RFM, yaitu metode untuk menentukan segmen-‐segmen konsumen berdasarkan recency, frequency, dan monetary. Metode fuzzy RFM juga dibandingkan terhadap metode sharp RFM dan dapat disimpulkan bahwa metode fuzzy RFM memberikan hasil segmentasi konsumen yang lebih baik, sehingga dapat membantu perusahaan untuk memahami perilaku konsumennya dengan lebih baik.
11
Berikut ini adalah daftar penelitian mengenai data mining yang dilakukan sebelumnya dilakukan disajikan dalam Tabel 2.1 Tabel 2.1 Penelitian yang Telah Dilakukan No. Penelitian Metode Deskripsi 1. Shin dan Sohn K-means, Fuzzy C- mencari segmentasi konsumen (2004) Means, SOM, pasar modal berdasarkan nilai Decision tree. potensialnya 2. Jansen (2007) K-Means, K-Medoid, mencari segmentasi dan profil Fuzzy C-Means, konsumen pada perusahaan Gustafson Kessel dan telekomunikasi Vodafone Gath Geva Clustering 3. Cao, Zhu, dan FFCHC (Fuzzy Fisher mencari segmentasi konsumen Hou (2009) Criterion Based pada suatu perusahaan pasar Hierarchical modal Clustering Algorithm) 4. Fathi dkk Fuzzy C-Means mencari segmentasi konsumen (2009) berdasarkan tingkat kebutuhannya terhadap produk di dalam katalog. 5. Cheng dan K-Means, RFM , dan mencari segmentasi konsumen LEM2 di C-company berdasarkan Chen (2009) atribut R-F-M. 6. Collazo-Cuevas Fuzzy C-Means dan melakukan perbandingan dkk (2010) Fuzzy Subtractive terhadap Fuzzy C-means dan Clustering. Fuzzy Subtractive Clustering untuk data polusi udara. 7. Hammouda K-Means, melakukan perbandingan dan Prof. Fuzzy C-Means, keempat algoritma clustering Karaay (2000) Mountain Clustering, dengan menggunakan data Subtractive medis untuk mendiagnosa Clustering penyakit hati 8.
Zumstein (2007)
Fuzzy classification, melakukan studi fuzzy RFM perbandingan metode klasifikasi klasik dengan metode klasifikasi yang dipadukan dengan metode fuzzy.
Dari kajian pustaka yang telah dilakukan, belum ada penelitian di bidang data mining yang diterapkan pada perusahaan retail dengan menggunakan metode
12
fuzzy, yaitu algoritma Fuzzy C-Means dan Fuzzy Subtractive Clustering dan model fuzzy RFM untuk proses segmentasi.
2.2
Data Warehouse Data warehouse merupakan kumpulan data dari berbagai sumber yang
disimpan dalam suatu gudang data (repository) dalam kapasitas besar dan digunakan untuk proses pengambilan keputusan (Prabhu, 2007). Menurut William Inmon, karakteristik dari data warehouse adalah sebagai berikut : 1. Subject oriented. Pada sistem operasional, data disimpan berdasarkan aplikasi. Set data hanya terdiri dari data yang dibutuhkan oleh fungsi yang terkait dan aplikasinya. Sedangkan pada data warehouse, data disimpan bukan berdasarkan aplikasi, melainkan berdasarkan subjeknya. Misalnya untuk sebuah perusahaan manufaktur subjek bisnis yang penting, yaitu penjualan, pengangkutan, dan penyimpanan barang. 2. Integrated. Data yang tersimpan dalam data warehouse terdiri dari berbagai sistem operasional. Oleh sebab itu terdapat kemungkinan bahwa terjadi beberapa perbedaan, yaitu dalam konvensi penamaan, representasi kode, atribut data, dan pengukuran data. Keempat perbedaan tersebut harus disamakan terlebih dahulu sesuai dengan standar tertentu agar data yang nantinya tersimpan dalam data warehouse dapat terintegrasi. 3. Time variant.
13
Pada data warehouse, data yang tersimpan adalah data historis dalam kurun waktu tertentu, bukan data terkini. Oleh karena itu data yang tersimpan mengandung keterangan waktu, misalnya tanggal, minggu, bulan, catur wulan, dan sebagainya. Karakteristik time variant pada data warehouse memiliki karakteristik sebagai berikut : a. Melakukan analisa terhadap hal di masa lalu. b. Mencari hubungan antara informasi dengan keadaan saat ini. c. Melakukan prediksi hal yang akan datang. 4. Non-volatile. Data dalam sistem operasional dapat di-update sesuai transaksi bisnis. Setiap kali terjadi transaksi bisnis. Namun dalam data warehouse, data tidak dapat diubah karena bersifat read only. Arsitektur data warehouse (gambar 2.1) mencakup proses ETL (Extraction, Transformation, Loading) untuk memindahkan data dari operational data source dan sumber data eksternal lainnya ke dalam data warehouse . Data warehouse dapat dibagi menjadi beberapa data mart, berdasarkan fungsi bisnisnya (contoh data mart untuk penjualan, pemasaran, dan keuangan). Data dalam data warehouse dan data mart diatur oleh satu atau lebih server yang mewakili multidimensional view dari data terhadap berbagai front end tool, seperti query tools, analysis tools, report writers, dan data mining tools.
14
Gambar 2.1 Arsitektur Data Warehouse (Prabhu, 2007) Proses ETL (Extraction, Transformation, Loading) merupakan proses yang harus dilalui dalam pembentukan data warehouse (Kimball, 2004). Berikut adalah penjelasan dari tiap proses. 1. Ekstraksi Data (Extract) Ekstraksi data adalah proses dimana data diambil atau diekstrak dari berbagai sistem operasional, baik menggunakan query, atau aplikasi ETL. Terdapat beberapa fungsi ekstraksi data, yaitu : a. Ekstraksi data secara otomatis dari aplikasi sumber. b. Penyaringan atau seleksi data hasil ekstraksi. c. Pengiriman data dari berbagai platform aplikasi ke sumber data. d. Perubahan format layout data dari format aslinya. e. Penyimpanan dalam file sementara untuk penggabungan dengan hasil ekstraksi dari sumber lain.
15
2. Transformasi Data (Transformation) Transformasi adalah proses dimana data mentah (raw data) hasil ekstraksi disaring dan diubah sesuai dengan kaidah bisnis yang berlaku. Langkahlangkah dalam transformasi data adalah sebagai berikut : a. Memetakan data input dari skema data aslinya ke skema data warehouse. b. Melakukan konversi tipe data atau format data. c. Pembersihan serta pembuangan duplikasi dan kesalahan data. d. Penghitungan nilai-nilai derivat atau mula-mula. e. Penghitungan nilai-nilai agregat atau rangkuman. f. Pemerikasaan integritas referensi data. g. Pengisian nilai-nilai kosong dengan nilai default. h. Penggabungan data. 3. Pengisian Data (Loading) Proses terakhir yang perlu dilakukan adalah proses pemuatan data yang didapatkan dari hasil transformasi ke dalam data warehouse. Cara untuk memuat data adalah dengan menjalankan SQL script secara periodik.
2.3
Data Mining Data mining merupakan proses pencarian pola-pola yang menarik dan
tersembunyi (hidden pattern) dari suatu kumpulan data yang berukuran besar yang tersimpan dalam suatu basis data, data warehouse, atau
tempat
penyimpanan data lainnya (Tan dkk, 2006). Menurut Sumanthi dan Sivandham (2009), data mining juga didefinisikan sebagai bagian dari proses penggalian
16
pengetahuan dalam database yang sering disebut dengan istilah Knowledge Discovery
in
Database
(KDD).
KDD
merupakan
suatu
area
yang
mengintegrasikan berbagai metode, yang meliputi statistik, basis data, kecerdasan buatan (Artificial Intelligence), machine learning, pengenalan pola (Pattern Recognition), pemodelan yang menangani ketidakpastian, visualisasi data, optimasi, Sistem Informasi Manajemen (SIM), dan sistem berbasis pengetahuan (knowledge based-system). Sebagai bagian dari proses yang ada di dalam KDD, maka data mining didahului dengan proses pemilihan data, pembersihan data, preprocessing, dan transformasi data (Sumanthi dan Sivandham, 2009).
Gambar 2.2 Proses KDD (Fayyad dkk, 1996) Ada tiga tahap penting dalam KDD, yaitu (Tan dkk, 2006) : 1. Data preprocessing Proses ini bertujuan untuk mentransformasikan data input ke dalam format yang sesuai untuk kemudian dianalisa. Dalam tahap ini dilakukan proses penggabungan data dari berbagai sumber, pembersihan data untuk menghilangkan noise data dan data ganda, serta memilih atribut data yang diperlukan bagi proses data mining.
17
2. Data mining Proses ini bertujuan untuk medapatkan pola-pola dan informasi yang tersembunyi di dalam basis data. Ada beberapa teknik yang dapat digunakan dalam data mining untuk mendapatkan pola-pola dan informasi tersembunyi, yaitu classification, neural network, decision tree, genetic algorithm, clustering, OLAP (Online Analitycal Processing), dan association rules. 3. Postprocessing Proses ini bertujuan untuk memastikan hanya hasil yang valid dan berguna yang dapat digunakan oleh pihak yang berkepentingan. Contoh dari proses ini adalah proses visualisasi, yaitu proses untuk menganalisa dan mengeksplorasi data dan hasil dari proses data mining dari berbagai sudut pandang.
Gambar 2.3 Tahapan dalam Proses Knowledge Discovery in Database (Tan dkk, 2006) 2.3.1 Tugas data mining Tugas data mining secara garis besar dibagi menjadi dua kategori utama, yaitu (Tan dkk, 2006) :
18
1. Tugas prediktif. Tujuan utama dari tugas ini adalah untuk memprediksikan nilai dari atribut tertentu berdasarkan nilai dari atribut lainnya. Atribut yang diprediksi dikenal sebagai target atau dependent variable, sedangkan atribut yang digunakan untuk membuat prediksi disebut penjelas atau independent variable. 2. Tugas deskriptif. Tujuan utama dari tugas ini adalah untuk memperoleh pola (correlation, trend, cluster, trajectory, anomaly) untuk menyimpulkan hubungan di dalam data. Tugas deskriptif merupakan tugas data mining yang sering dibutuhkan pada teknik postprocessing untuk melakukan validasi dan menjelaskan hasil proses data mining. Inti dari tugas data mining adalah pemodelan prediktif, analisa asosiasi, analisa cluster, dan deteksi terhadap anomali (Gambar 2.4).
Gambar 2.4 Empat Tugas Inti Data Mining (Tan dkk, 2006) Pemodelan prediktif mengacu pada proses membangun model untuk variabel target sebagai fungsi dari variabel penjelas. Ada dua tipe dari pemodelan prediktif,
19
yaitu klasifikasi (classification) yang digunakan untuk variabel target yang diskret, dan regresi (regression) yang digunakan untuk variable target yang kontinyu.
Analisa
asosiasi
digunakan
untuk
menemukan
pola
yang
mendeskripsikan fitur-fitur data yang saling berhubungan. Pola-pola ini biasanya digambarkan dalam bentuk aturan implikasi. Analisa cluster merupakan proses untuk mencari kelompok-kelompok data, sedemikian sehingga data yang berada dalam satu kelompok memiliki kemiripan dibandingkan data yang terletak pada kelompok lain. Deteksi anomaly merupakan proses identifikasi data yang memiliki perbedaan karakteristik yang signifikan dengan data yang lain atau yang dikenal dengan istilah outlier (Tan dkk, 2006).
2.3.2 CRISP-DM CRISP-DM (CRoss-Industry Standard Process for Data Mining) merupakan suatu konsorsium perusahaan yang didirikan oleh Komisi Eropa pada tahun 1996 dan telah ditetapkan sebagai proses standar dalam data mining yang dapat diaplikasikan di berbagai sektor industri. Gambar 2.5 menjelaskan tentang siklus hidup pengembangan data mining yang telah ditetapkan dalam CRISP-DM.
20
Gambar 2.5 Siklus Hidup CRISP-DM (Chapman, 2000) Berikut ini adalah enam tahap siklus hidup pengembangan data mining (Chapman, 2000) : 1. Business Understanding Tahap pertama adalah memahami tujuan dan kebutuhan dari sudut pandang bisnis, kemudian menterjemakan pengetahuan ini ke dalam pendefinisian masalah dalam data mining. Selanjutnya akan ditentukan rencana dan strategi untuk mencapai tujuan tersebut. 2. Data Understanding Tahap ini dimulai dengan pengumpulan data yang kemudian akan dilanjutkan dengan proses untuk mendapatkan pemahaman yang mendalam tentang data, mengidentifikasi masalah kualitas data, atau untuk mendeteksi adanya bagian yang menarik dari data yang dapat digunakan untuk hipotesa untuk informasi yang tersembunyi.
21
3. Data Preparation Tahap ini meliputi semua kegiatan untuk membangun dataset akhir (data yang akan diproses pada tahap pemodelan/modeling) dari data mentah. Tahap ini dapat diulang beberapa kali. Pada tahap ini juga mencakup pemilihan tabel, record, dan atribut-atribut data, termasuh proses pembersihan dan transformasi data untuk kemudian dijadikan masukan dalam tahap pemodelan (modeling). 4. Modeling Dalam tahap ini akan dilakukan pemilihan dan penerapan berbagai teknik pemodelan dan beberapa parameternya akan disesuaikan untuk mendapatkan nilai yang optimal. Secara khusus, ada beberapa teknik berbeda yang dapat diterapkan untuk masalah data mining yang sama. Di pihak lain ada teknik pemodelan yang membutuhan format data khusus. Sehingga pada tahap ini masih memungkinan kembali ke tahap sebelumnya. 5. Evaluation Pada tahap ini, model sudah terbentuk dan diharapkan memiliki kualitas baik jika dilihat dari sudut pandang analisa data. Pada tahap ini akan dilakukan evaluasi terhadap keefektifan dan kualitas model sebelum digunakan dan menentukan apakah model dapat mencapat tujuan yang ditetapkan pada fase awal (Business Understanding). Kunci dari tahap ini adalah menentukan apakah ada masalah bisnis yang belum dipertimbangkan. Di akhir dari tahap ini harus ditentukan penggunaan hasil proses data mining.
22
6. Deployment Pada tahap ini, pengetahuan atau informasi yang telah diperoleh akan diatur dan dipresentasikan dalam bentuk khusus sehingga dapat digunakan oleh pengguna. Tahap deployment dapat berupa pembuatan laporan sederhana atau mengimplementasikan proses data mining yang berulang dalam perusahaan. Dalam banyak kasus, tahap deployment melibatkan konsumen, di samping analis data, karena sangat penting bagi konsumen untuk memahami tindakan apa yang harus dilakukan untuk menggunakan model yang telah dibuat.
2.4
Customer Relationship Management (CRM) Konsumen merupakan aset yang sangat penting bagi suatu perusahaan.
Tidak akan ada prospek bisnis tanpa adanya hubungan antara perusahaan dengan konsumen yang bersifat loyal. Hal ini adalah alasan mengapa perusahaan harus merencanakan dan menggunakan strategi yang cukup jelas dalam memperlakukan konsumen. Customer Relationship Management (CRM) telah berkembang dalam beberapa dekade belakangan ini untuk merefleksikan peranan utama dari konsumen untuk pengaturan strategi perusahaan. CRM meliputi seluruh ukuran untuk memahami konsumen dan proses untuk mengeksploitasi pengetahuan ini untuk merancang dan mengimplementasikannya pada kegiatan marketing, produksi, dan rantai supply dari pemasok (supplier). Berikut ini akan didefenisikan beberapa pengertian CRM yang diambil dari berbagai literatur, antara lain (Tama, 2009) : 1. Dari sisi yang berkaitan dengan teknologi informasi, CRM adalah sebuah strategi untuk mengoptimalkan customer lifetime value dengan cara
23
mengetahui lebih banyak mengenai informasi konsumen dan berinteraksi dengan konsumen secara intensif (Todman, 2001). 2. Dari sisi komunikasi dan manajemen, CRM didefinisikan sebagai sebuah pendekatan perusahaan untuk memahami dan mempengaruhi perilaku konsumen melalui komunikasi yang intensif dalam rangka meningkatkan akuisisi konsumen, mempertahankan konsumen, dan loyalitas konsumen (Swift, 2000). 3. Definisi CRM jika dilihat dari segi bisnis dapat diartikan sebagai sebuah strategi bisnis untuk memahami, mengantisipasi dan mengelola kebutuhan konsumen yang potensial dalam suatu organisasi pada saat sekarang dan yang akan datang (Brown, 2000). Dari ketiga definisi di atas dapat ditarik kesimpulan mengenai definisi CRM yaitu sebuah pendekatan yang komprehensif yang mengintegrasikan setiap bisnis proses yang berhubungan langsung dengan konsumen, yaitu penjualan, pemasaran dan layanan konsumen melalui integrasi filosofi, teknologi, dan juga proses (Tama, 2009). Dengan kata lain, CRM dipandang bukanlah sebagai sebuah produk ataupun sebuah layanan, tetapi sebuah filosofi bisnis yang bertujuan memaksimalkan nilai konsumen dalam jangka panjang (customer lifetime value).
2.4.1 Teknologi CRM Sebuah definisi standar mengenai komponen teknologi CRM diberikan oleh META Group di dalam “The Customer Relationship Management Ecosystem”. Kategorisasi ini bertujuan untuk lebih memahami bagaimana suatu strategi CRM dan teknologinya mampu menyediakan seluruh arsitektur secara
24
menyeluruh yang terfokus pada layanan konsumen. Ada tiga tipe utama dari teknologi CRM yaitu (Tama, 2009) : 1. Operational CRM, yang dikenal sebagai CRM “front office”. Operational CRM merupakan area dimana terjadi hubungan dengan konsumen secara langsung. Otomasi dari proses bisnis yang terintegrasi yang melibatkan front office customer touch points, seperti penjualan, pemasaran, dan layanan konsumen, termasuk integrasi antara front office dan back office, seperti manajemen pesanan, dan otomasi pemasaran. Dengan perkembangan teknologi informasi dan komunikasi yang pesat, operational CRM kemudian juga dapat dibedakan menjadi dua bagian yaitu e-CRM dan m-CRM. 2. Collaborative CRM, merupakan bentuk perluasan dari CRM tradisional. Collaborative
CRM
berkaitan
dengan
manajemen
hubungan
antara
stakeholder eksternal, seperti supplier, distributor, dan reseller. Aplikasi utama dari collaborative CRM adalah enterprise portal yang berbasis pada infrastruktur ekstranet dan perangkat lunak manajemen hubungan mitra (partner relationshiop management software) yang memberikan akses kepada konsumen, reseller, dan mitra bisnis melalui internet. 3. Analytical CRM yang dikenal sebagai CRM “back office” atau “strategic” CRM. Analytical CRM biasanya berhubungan dengan penggunaan data secara efektif, efisien dan strategis sehingga memungkinkan pengambilan keputusan yang tepat bagi pihak manajemen. Pengambilan keputusan dilaksanakan setelah melalui proses analisis, pemodelan, dan evaluasi terhadap data yang tersimpan di basis data untuk menghasilkan sebuah hubungan yang saling menguntungkan antara perusahaan dan
25
konsumennya. Contoh dari Analytical CRM adalah business intelligence seperti data warehouse, OLAP, dan data mining. Hal yang terpenting dalam memahami perilaku konsumen tidak hanya memahami siapa mereka (dalam hal ini customer
profiling atau
segmentation) tetapi juga perilaku mereka dan pola-‐pola (pattern) yang mereka ikuti. Pemahaman perilaku pelanggan harus ditetapkan sebagai suatu proses yang dinamis dan berkelanjutan (Xu dan Walton, 2005).
2.4.2 Data Mining dalam Kerangka Kerja CRM Menurut Swift (2001), Parvatiyar dan Sheth (2001), serta Kracklauer, Mills, dan Seifert (2004), CRM memiliki empat dimensi, yaitu : 1. Identifikasi konsumen (customer identification). 2. Membangun daya tarik terhadap konsumen (customer attraction). 3. Mempertahankan konsumen yang ada (customer retention). 4. Pengembangkan konsumen (customer development). Keempat dimensi dari CRM tersebut dapat dilihat sebagai siklus tertutup dalam Customer Management System. Setiap dimensi memiliki tujuan umum yang sama yaitu untuk membangun pemahaman yang lebih mendalam dari konsumen dan meningkatkan nilai konsumen (customer value) dari perusahaan. Dalam kaitannya dengan pencapaian tujuan tersebut, teknik data mining dapat digunakan untuk menemukan karakteristik dan perilaku konsumen yang tersembunyi dalam database yang berukuran besar. Untuk menemukan pola karakteristik dan perilaku konsumen, dapat digunakan metode pemodelan data dalam teknik data mining. Beberapa metode pemodelan data yang dapat digunakan, yaitu :
26
1. Association 2. Classification 3. Clustering 4. Forecasting 5. Regression 6. Sequence discovery 7. Visualization Kerangka kerja teknik data mining dalam keempat dimensi CRM dijelaskan melalui Gambar 2.6.
Gambar 2.6 Kerangka Kerja Teknik Data Mining dalam CRM (Ngai dkk, 2008)
27
2.5
Himpunan Fuzzy Teori himpunan fuzzy merupakan titik penting perkembangan konsep
ketidakpastian. Teori himpunan fuzzy diperkenalkan oleh Lotfi A. Zadeh pada tahun 1965 (Klir dan Yuan, 1995). Dengan diperkenalkannya teori himpunan fuzzy, maka anggapan bahwa teori probabilitas sebagai satu-satunya alat untuk memecahkan masalah yang mengandung unsur ketidakpastian, mengalami perkembangan. Teori himpunan fuzzy merupakan salah satu alat untuk memecahkan masalah ketidakpastian. Himpunan nonfuzzy (crisp set) A didefinisikan oleh anggota-anggota himpunan tersebut. Jika a ∈ A, maka nilai yang berhubungan dengan a adalah 1. Namun, jika a ∉ A, maka nilai yang berhubungan dengan a adalah 0. Notasi A = {x | P(x)} menunjukkan bahwa anggota A adalah x dengan P(x) benar. Jika XA merupakan fungsi karakteristik dari A, maka dapat dikatakan bahwa P(x) benar, jika dan hanya jika XA(x) = 1. Himpunan fuzzy didasarkan pada gagasan untuk memperluas jangkauan karakteristik sedemikian hingga fungsi tersebut akan mencakup bilangan riil pada interval [0,1]. Himpunan fuzzy merupakan himpunan dengan batas-batas keanggotaan yang tidak dapat ditentukan dengan dipenuhi atau tidak dipenuhinya suatu syarat keanggotaan. Keanggotaan himpunan fuzzy ditentukan oleh derajat keanggotaan yang menentukan tingkat kesesuaian setiap anggota dengan fungsi keanggotaan yang telah ditentukan dalam himpunan fuzzy. Misalkan A adalah himpunan fuzzy dan x adalah objek tertentu. Dalil “x adalah anggota A” tidak dapat dikatakan bernilai benar atau salah, seperti yang dinyatakan dalam logika dua nilai. Dalil ini dapat dikatakan bernilai benar hanya untuk derajat tertentu, yaitu derajat dimana x
28
betul-betul anggota A. Pada umumnya, nilai kebenaran suatu dalil dinyatakan dengan bilangan riil dalam interval [0,1]. Nilai ini juga mewakili derajat keanggotaan dalam himpunan fuzzy. Notasi fungsi keanggotaan dari himpunan fuzzy A yang dilambangkan dengan µA , adalah sebagai berikut : ....................................................(2.1)
Dalam hal ini, setiap fungsi keanggotaan memetakan elemen-elemen himpunan semesta X ke bilangan riil dalam interval [0,1] .
2.6
Clustering Pengelompokan (clustering) merupakan teknik yang sudah cukup dikenal
dan banyak digunakan untuk mengelompokkan data/objek ke dalam kelompok data (cluster) sehingga setiap cluster memiliki data yang mirip dan berbeda dengan data yang berada dalam cluster lain. Jika diberikan himpunan data yang berjumlah terhingga, yaitu X, maka permasalahan clustering dalam X adalah mencari beberapa pusat cluster yang dapat memberikan ciri kepada masingmasing cluster dalam X. Gambar 2.7 menunjukkan contoh sederhana dari proses clustering, dimana 3 cluster di dalam data dapat teridentifikasi dengan mudah. Kriteria kemiripan yang digunakan dalam kasus ini adalah jarak (dalam kasus ini jarak geometris). Proses ini disebut distance-based clustering. Cara lain untuk melakukan clustering adalah conceptual clustering. Dalam conceptual clustering, objek dikelompokkan berdasarkan kecocokannya menurut konsep deskriptif.
29
Gambar 2.7. Contoh Proses Clustering (Jansen, 2007)
2.6.1 Hard Clustering dan Fuzzy Clustering Metode pengelompokan klasik (hard clustering) berdasarkan pada teori himpunan klasik, yang menentukan bahwa sebuah objek dapat menjadi anggota atau bukan anggota dari suatu cluster. Fuzzy clustering memperbolehkan suatu objek untuk menjadi anggota dari beberapa cluster sekaligus dengan derajat keanggotaan yang berbeda-beda. Derajat keanggotaan berada di antara rentang 0 dan 1. Jadi, dataset X dapat dipartisi menjadi c fuzzy subset. Di dalam situasi riil, fuzzy clustering memiliki hasil yang lebih natural dibandingkan dengan hard clustering. Iilustrasi perbedaan antara hard clustering dan fuzzy clustering ditunjukkan melalui Gambar 2.8 berikut ini.
Gambar 2.8. Hard dan Fuzzy Clustering (Jansen, 2007)
30
2.6.2 Metode Fuzzy C-Means Clustering Metode Fuzzy C-Means Clustering pertama kali dikenalkan oleh Jim Bezdek pada tahun 1981 (Jain dkk, 1999). Fuzzy C-Means adalah salah satu teknik pengelompokkan data yang mana keberadaan tiap titik data dalam suatu kelompok (cluster) ditentukan oleh derajat keanggotan. Metode Fuzzy C-Means termasuk metode supervised clustering dimana jumlah pusat cluster ditentukan di dalam proses clustering. Algoritma dari fuzzy c-means adalah sebagai berikut (Yan, 1994) : 1. Input data yang akan dikelompokkan, yaitu X, berupa matrix berukuran n x m (n=jumlah sampel data, m=atribut setiap data). Xij data sampel ke-i (i=1,2,…n), atribut ke-j (j=1,2,..m). 2. Tentukan jumlah cluster (c), pangkat untuk matriks partisi (w), maksimum iterasi (MaxIter), error terkecil yang diharapkan (ξ), fungsi objektif awal (Po=0), dan iterasi awal (t=1). 3. Bangkitkan bilangan random ηik, i=1,2,…n; k=1,2,…c sebagai elemen matrik partisi awal U. 4. Hitung pusat cluster ke-k:
, dengan k=1,2,…,c; dan j=1,2,…,m,
menggunakan persamaan berikut (Yan, 1994) : .............................................(2.2)
dengan : Vkj
= pusat cluster ke-k untuk atribut ke-j
ηik
= derajat keanggotaan untuk data sampel ke-i pada cluster ke-k
31
xij
= data ke-i, atribut ke-j
5. Hitung fungsi objektif pada iterasi ke-t menggunakan persamaan berikut (Yan, 1994) : .................(2.3)
dengan: Vkj
= pusat cluster ke-k untuk atribut ke-j
ηik
= derajat keanggotaan untuk data sampel ke-i pada cluster ke-k
xij
= data ke-i, atribut ke-j
Pt
= fungsi objektif pada iterasi ke-t
6. Hitung perubahan matriks partisi menggunakan persamaan berikut (Yan, 1994) :
...................................(2.4)
Dengan I = 1,2,…,n; dan k=1,2,…c. Dimana : Vkj
= pusat cluster ke-k untuk atribut ke-j
ηik
= derajat keanggotaan untuk data sampel ke-i pada cluster ke-k
xij
= data ke-i, atribut ke-j
7. Cek Kondisi berhenti: Jika :
langkah ke-4.
atau
maka berhenti. Jika tidak: t=t+1, ulangi
32
2.6.3 Metode Fuzzy Subtractive Clustering Dasar dari metode Fuzzy Subtractive Clustering adalah ukuran densitas (potensi) titik-titik data dalam suatu ruang (variabel). Konsep dasar dari metode Fuzzy Subtractive Clustering adalah menentukan daerah-daerah dalam suatu variabel yang memiliki densitas tinggi terhadap titik-titik di sekitarnya. Titik dengan jumlah tetangga terbanyak akan dipilih untuk menjadi pusat kelompok. Titik yang sudah dipilih menjadi pusat kelompok ini kemudian akan dikurangi densitasnya. Selanjutnya akan dipilih titik lain yang menjadi tetangga terbanyak untuk dijadikan pusat kelompok yang lain. Hal ini akan dilakukan berulang-ulang sampai semua titik teruji. Metode fuzzy subtractive clustering tergolong metode unsupervised clustering dimana jumlah pusat cluster tidak diketahui. Metode ini menggunakan data sebagai kandidat dari pusat cluster, sehingga beban komputasi tergantung dari jumlah data dan tidak bergantung dari dimensi data. Jumlah pusat cluster yang dicari ditentukan melalui proses iterasi untuk mencari titik-titik dengan jumlah tetangga terbanyak. Apabila terdapat n buah data yaitu x1, x2, ..., xn dan dengan menganggap bahwa data-data tersebut sudah dalam keadaan normal, maka densitas suatu titik dapat dihitung dengan persamaan (Gelley, 2000) :
............................(2.5)
Dimana Dk
= Densitas titik ke-k
xk
= titik ke-k
33
ra
= konstanta positif.
Dengan demikian, suatu titik data akan memiliki densitas yang besar jika titik tersebut memiliki banyak tetangga. Setelah menghitung densitas tiap-tiap titik, maka titik dengan densitas tertinggi akan terpilih menjadi pusat kelompok. Misalkan xc1 adalah titik yang terpilih menjadi pusat kelompok dan Dc1 adalah ukuran densitasnya, selanjutnya densitas dari titik-titik di sekitarnya akan dikurangi dengan persamaan (Gelley, 2000) :
............................(2.6)
Dimana rb adalah konstanta positif. Hal ini berarti bahwa titik-titik yang berada dekat dengan pusat kelompok xc1 akan mengalami pengurangan densitas secara besar-besaran. Hal ini akan berakibat titik-titik tersebut memiliki kemungkinan yang kecil untuk menjadi pusat kelompok berikutnya. Nilai rb menunjukkan suatu lingkungan yang mengakibatkan titik-titik berkurang ukuran densitasnya. Nilai rb diperoleh dari persamaan : ............................(2.7)
Biasanya squashfactor bernilai 1,5. Dengan demikian rb bernilai lebih besar dibandingkan ra. Setelah densitas tiap-tiap titik diperbaiki, selanjutnya akan dicari pusat kelompok yang kedua, yaitu xc2. Setelah xc2 diperoleh, ukuran densitas tiap titik data akan diperbaiki kembali. Langkah-langkah ini dilakukan berulang-ulang sampai semua titik teruji. Pada implementasinya, bisa digunakan 2 bilangan sebagai faktor pembanding, yaitu accept ratio dan reject ratio. Apabila hasil bagi antara potensi tertinggi suatu titik data dengan potensi tertinggi yang pertama kali
34
diperoleh pada iterasi pertama lebih besar daripada accept ratio, maka titik data tersebut diterima sebagai pusat kelompok baru. Apabila hasil bagi antara potensi tertinggi suatu titik data dengan potensi tertinggi yang pertama kali diperoleh pada iterasi pertama lebih kecil daripada accept ratio namun lebih besar daripada reject ratio, maka titik data tersebut baru akan diterima sebagai pusat kelompok yang baru jika titik tersebut terletak pada jarak yang cukup jauh dengan pusat kelompok yang lainnya. Namun, jika hasil bagi antara potensi tertinggi suatu titik data dengan potensi tertinggi yang pertama kali diperoleh pada iterasi pertama lebih kecil daripada accept ratio maupun reject ratio, maka titik tersebut tidak akan diperhitungkan lagi untuk menjadi pusat kelompok yang baru.
2.7
Ukuran Validitas Cluster Sejak konsep himpunan fuzzy diperkenalkan oleh Zadeh pada tahun 1965,
konsep fuzzy clustering banyak dikembangkan dan diterapkan. Dalam konsep fuzzy clustering, suatu data dapat menjadi anggota dari beberapa cluster sekaligus menurut derajat keanggotaannya (Wu dan Yang, 2005). Proses clustering dalam algoritma fuzzy clustering selalu mencari solusi terbaik untuk parameter yang telah didefinisikan. Namun solusi terbaik ini belum tentu dapat menentukan deskripsi terbaik dari struktur data. Dalam hal ini jumlah cluster yang ditentukan atau bentuk cluster mungkin tidak sesuai dengan data. Untuk menentukan jumlah cluster yang paling optimal dan dapat memvalidasi apakah partisi fuzzy yang diterapkan dalam proses clustering sesuai dengan data, digunakan indeks pengukuran validitas cluster (Balasko, ____). Berikut ini adalah beberapa metode
35
pengukuran validitas cluster yang umumnya digunakan untuk algoritma fuzzy clustering (Wu dan Yang, 2005) :
1. Partition Coefficient Partition Coefficient (PC) merupakan metode yang mengukur jumlah cluster yang mengalami overlap. Indeks PC mengukur validitas cluster dengan rumus sebagai berikut : ............................(2.8)
Dimana : c
= jumlah cluster
N
= jumlah data
µij
= derajat keanggotaan data ke-j pada cluster ke-i
PC(c) = nilai indeks PC pada cluster ke-c Nilai PC berada dalam batas
. Pada umumnya jumlah cluster
yang paling optimal ditentukan dari nilai PC yang paling besar
2. Modified Partition Coefficient Partition
Coefficient cenderung mengalami perubahan yang monoton
terhadap beragam nilai c (jumlah cluster). Modifikasi dari indeks PC
36
(Modified Partition Coefficient/MPC) dapat mengurangi perubahan yang monoton tersebut. dan didefinisikan dengan rumus berikut: ............................(2.9)
Dimana : c
= jumlah cluster
MPC(c)
= nilai indeks MPC pada cluster ke-c
Nilai MPC berada dalam batas 0 ≤ PC(c) ≤ 1. Pada umumnya jumlah cluster yang
optimal
ditentukan
dari
nilai
MPC
yang
paling
besar
. 3. Classification Entropy Classification Entropy (CE) merupakan metode yang mengukur tingkat kekaburan (fuzzyness) dari partisi cluster. Indeks CE mengukur validitas cluster dengan rumus sebagai berikut : ............................(2.10)
Dimana : c
= jumlah cluster
N
= jumlah data
µij
= derajat keanggotaan data ke-j pada cluster ke-i
CE(c) = nilai indeks CE pada cluster ke-c Nilai CE berada dalam batas 0 ≤ CE(c) ≤ log2c. Pada umumnya jumlah cluster yang optimal ditentukan dari nilai PE yang paling kecil
.
37
2.8
Metode Klasifikasi Fuzzy RFM Analisa RFM terdiri dari tiga dimensi, yaitu (Tsiptsis dan Chorianopoulos,
2009) : 1. Recency, yaitu rentang waktu (dalam satuan hari, bulan, tahun) dari transaksi terakhir yang dilakukan oleh konsumen sampai saat ini. 2. Frequency, yaitu jumlah total transaksi atau jumlah rata-rata transaksi dalam satu periode. 3. Monetary, yaitu jumlah rata-rata nilai pembelian konsumen dalam suatu satuan waktu. Metode sharp RFM mendeskripsikan atribut recency, frequency, dan monetary dengan variabel linguistik (Zumstein, 2007). Sebagai contoh, atribut recency dideskripsikan dengan bahasa natural long ago (lama) dan very recent (baru saja). Atribut frequency dideskripsikan dengan bahasa natural rare (jarang) dan frequent (sering). Sedangkan atribut monetary dideskripsikan dengan bahasa natural low value (rendah) dan high value (tinggi). Konteks dari masing-masing atribut didefinisikan sebagai berikut : 1. Domain atribut recency didefinisikan dalam rentang [0, 730] hari. Rentang nilai ini dibagi menjadi dua kelas yang ekuivalen, yaitu [0, 365] hari untuk variable linguistik very recent dan [366, 730] hari untuk long ago. 2. Domain atribut frequency didefinisikan dalam rentang [0, 100]. Rentang nilai ini dibagi menjadi dua kelas yang ekuivalen, yaitu [0, 9] untuk variable linguistik rare dan [10, 100] untuk frequent.
38
3. Domain atribut monetary didefinisikan dalam rentang [0, 200] euro. Rentang nilai ini dibagi menjadi dua kelas yang ekuivalen, yaitu [0, 99] euro untuk variable linguistik low value dan [100, 200] euro untuk high value. Pada Tabel 2.2, delapan kelas (C1 sampai C8) didefinisikan menggunakan atribut RFM dan variabel linguisik. Untuk setiap kelas ditentukan nilai (score) yang bergantung dari besarnya nilai recency, frequency, dan monetary. Semakin tinggi nilai recency, frequency, dan monetary dari konsumen, semakin tinggi juga nilai (score) yang diperoleh. Pada Tabel 2.3 diberikan contoh nilai recency, frequency, dan monetary dari empat konsumen. Nilai yang diperoleh oleh masing-masing konsumen diberikan berdasarkan ketentuan pada Tabel 2.2. Dari hasil Tabel 2.3 terlihat bahwa meskipun Smith dan Brown memiliki nilai monetary yang tidak jauh berbeda, keduanya diklasifikasikan ke dalam kelas yang berbeda. Di lain pihak, Miller diklasifikasikan ke dalam kelas yang sama dengan Brown meskipun unjuk kerja Brown lebih baik daripada Miller. Kekurangan metode sharp RFM disempurnakan dalam fuzzy RFM menggunakan konsep himpunan fuzzy dan fungsi keanggotaan (Zumstein, 2007). Dengan klasifikasi menggunakan metode fuzzy RFM, nilai (score) dari masing-masing konsumen dapat diperhitungkan dengan lebih akurat dan lebih baik (Tabel 2.4).
BAB III METODOLOGI DAN RANCANGAN
3.1
Rancangan Penelitian Rancangan tahapan penelitian mengacu pada enam tahap CRISP-DM, atau
siklus hidup pengembangan data mining sebagai framework dari proyek data mining (Chapman, 2000). 1. Bussiness Understanding Pada fase ini ada empat tahap yang dilakukan, yaitu : a. Pemahaman terhadap tujuan bisnis. Dalam aplikasinya pada perusahaan retail, perlu didahului dengan pemahaman terhadap tujuan bisnis yang akan menentukan pola yang akan dicari dalam proses data mining. Beberapa tujuan bisnis pada perusahaan retail yang berkaitan dengan proses CRM adalah : i. Meningkatkan dan mempertahankan jumlah konsumen terutama konsumen yang berpotensi untuk menjadi konsumen tetap (pelanggan). ii. Meningkatkan nilai penjualan terhadap melalui kegiatan cross-selling (menawarkan item barang tambahan yang juga menjadi pelengkap dari item barang utama yang akan dibeli) dan up-selling (menawarkan item barang tambahan dengan promo khusus, misalnya adanya discount atau hadiah jika pembelian mencapai nilai tertentu, sehingga nilai pembelian dari konsumen akan bertambah).
42
43
b. Penilaian situasi (situation assessment). UD Fenny merupakan perusahaan retail yang menjual produk bahan kue dan peralatan kue. Perusahaan ini memiliki lebih dari 10.000 item barang. Barang-barang tersebut dijual secara grosir dan eceran. Kondisi saat ini UD Fenny memiliki lebih dari 1.200 konsumen tetap. Omzet penjualan rata-rata tiap harinya mencapai 300 juta rupiah. c. Menerjemahkan tujuan bisnis ke dalam tujuan data mining. Pada tahapan ini dibutuhkan pemahaman terhadap tujuan bisnis dan menterjemahkannya ke dalam tujuan data mining. Salah satu tujuan dari data mining untuk mendukung proses CRM adalah membangun customer segmentation (segmentasi konsumen). Customer segmentation dapat digunakan oleh pihak manajemen untuk menemukan segmen-segmen konsumen yang bertujuan untuk : i. Membangun profil dari konsumen (customer profiling) yang terkait dengan pola pembelian dan purchase history. ii. Memahami perilaku konsumen (customer behavior) yang terkait dengan kecenderungan konsumen untuk membeli produk-produk tertentu.
2. Data Understanding Pada proses ini akan dilakukan pemahaman terhadap kebutuhan data terkait dengan pencapaian tujuan dalam CRM dan data mining. Berikut ini adalah struktur tabel dan relasi antar tabel yang akan digunakan dalam proses data mining.
44
Field KodeCustomer Nama Alamat Telp Hubungan MaxKredit MaxNunggak Area Jenis
Tabel 3.1 Tabel Customer Tipe data Keterangan Nvarchar (50) Kode customer Nvarchar (50) Nama customer Nvarchar (50) Alamat customer Nvarchar (50) Telepon customer Datetime Tanggal pertama datang Decimal (13) Maksimum kredit Int (4) Maksimum lama nunggak Nvarchar (50) Daerah geografis customer Nvarchar (50) Perorangan/usaha
Sumber : UD. Fenny
Field KodeBarang Jenis Nama Satuan Jumlah StokMinimal Harga jual Harga grosir Kemasan HargaPokokRata
Tabel 3.2 Tabel Barang Tipe data Keterangan Nvarchar (50) Kode barang Nvarchar (50) Jenis barang Nvarchar (255) Nama barang Nvarchar (50) Satuan barang Int Jumlah barang Int Stok minimum Money Harga jual Money Harga grosir Nvarchar (50) Kemasan barang Money Harga pokok rata-rata
Sumber : UD. Fenny
Field NoFaktur TglFaktur NoOrder KodeCustomer TotalJual TotalDiskon TotalItem TglJatuhTempo Pengisi Gudang Status
Tabel 3.3 Tabel Master Penjualan Tipe data Keterangan Nvarchar (50) Tanggal transaksi Datetime Nomor faktur jual Nvarchar (50) Nomor order Nvarcahr (50) Kode customer Money Total penjualan Money Total discount Int Total item barang Datetime Tanggal jatuh tempo Nvarcham (50) Operator Nvarchar (50) Gudang pengambilan barang Smallint Kas/kredit
Sumber : UD. Fenny
45
Field KodeTxn NoFaktur KodeBarang JumlahBarang TotalBiaya Disc
Tabel 3.4 Tabel Detail Penjualan Tipe data Keterangan Nvarchar (50) Kode transaksi Nvarchar (50) Nomor faktur/nota Nvarchar (50) Kode barang Int Jumlah barang Money Total jumlah dikali harga barang Money Diskon
Sumber : UD. Fenny
Field KodePiutang TglTxn NoFaktur BayarPokok BayarBunga Penyesuaian Status
Tabel 3.5 Tabel Master Piutang Tipe data Keterangan Nvarchar (50) Kode transaksi piutang Datetime Tanggal kredit Nvarchar (50) Nomor nota Money Pembayaran pokok Money Pembayaran bunga Money Pembayaran penyesuaian Smallint Lunas/belum lunas
Sumber : UD. Fenny
Field KodeBayar KodePiutang Pokok Bunga Disc Penyesuaian
Tabel 3.6 Tabel Detil Piutang Tipe data Keterangan Nvarchar (50) Kode transaksi piutang Nvarchar (50) Kode piutang Money Pembayaran pokok piutang Money Pembayaran bunga piutang Money Pemotongan discount Money Pembayaran penyesuaian
Sumber : UD. Fenny
46
Gambar 3.1 Diagram Relasi Antar Tabel
3. Data Preparation Pada tahap ini struktur basis data akan dipersiapkan sehingga mempermudah proses mining. Proses preparation ini mencakup tiga hal utama yaitu: a. Data Selection: Memilih data yang akan digunakan dalam proses data mining. Dalam proses ini dilakukan juga pemilihan atribut-atribut yang disesuaikan dengan proses data mining. b. Data Preprocessing: Memastikan kualitas data yang telah dipilih pada tahap data selection, pada tahap ini masalah yang harus dihadapi adalah noisy data dan missing values. Proses pembersihan data (cleansing) dilakukan dengan melakukan metode-metode query sederhana untuk
47
menemukan anomali-anomali data yang bisa saja masih terdapat pada sistem. c.
Data Transformation: Mengelompokkan atribut-atribut atau field-yang telah terpilih menjadi 1 tabel dengan cara melakukan denormalisasi dari basis data OLTP.
Berikut ini adalah hasil pemilihan atribut-atribut yang dibutuhkan untuk proses segmentasi menggunakan metode fuzzy RFM, yaitu atribut-atribut yang terkait dengan recency, frequency, dan monetary (Tabel 3.7).
Field KodeCustomer TglBeliAkhir FrekuensiBeli TotalBeli
Tabel 3.7 Data Parsial dari Database UD. Fenny Keterangan Kode customer Menandakan recency, merupakan tanggal transaksi pembelian terakhir yang dilakukan oleh customer Menandakan frequency, merupakan jumlah transaksi selama periode yang ditentukan Menandakan monetary, merupakan jumlah uang selama periode yang ditentukan
Dalam proses data preparation dibangun suatu data warehouse untuk mempermudah proses mining. Data yang akan dilibatkan dalam penelitian ini adalah data yang berkaitan dengan transaksi penjualan. Skema bintang penjualan yang dibentuk dalam penelitian ini ditunjukkan pada gambar 3.2.
48
Gambar 3.2 Star Schema Penjualan Data set yang digunakan dapat disesuaikan selama proses data mining, karena dimungkinkan untuk kembali ke fase sebelumnya jika ada informasi dan pengetahuan yang belum terungkap.
4. Modeling Model yang digunakan dalam penelitian ini adalah model fuzzy clustering. Metode clustering yang digunakan adalah metode Fuzzy C-Means (FCM) dan Fuzzy Subtractive Clustering (FS) untuk melakukan proses clustering pada data. Kedua metode ini memiliki karakteristik yang berbeda karena FCM Clustering merupakan metode clustering yang terawasi (supervised) sedangkan FS termasuk metode clustering yang tidak terawasi (unsupervised). Pada FCM jumlah cluster ditentukan, sedangkan pada FS, jumlah cluster tidak ditentukan, melainkan diperoleh melalui proses iterasi untuk mencari jumlah cluster yang paling tepat. Hasil proses data mining menggunakan metode FCM dan FS akan dibandingkan untuk mengetahui unjuk kerja kedua metode ini. Hasil dari proses clustering menggunakan kedua metode ini akan
49
digunakan untuk proses segmentasi konsumen. Model yang digunakan untuk proses segmentasi konsumen adalah model fuzzy RFM. Dalam model fuzzy RFM variabel recency, frequency, dan monetary, masing-masing dibagi menjadi 3 himpunan fuzzy : 1. Recency dibagi menjadi 3 himpunan fuzzy, yaitu BARU SAJA, AGAK LAMA dan LAMA (Gambar 3.3). 2. Frequency dibagi menjadi 3 himpunan fuzzy, yaitu JARANG, AGAK SERING, dan SERING (Gambar 3.4). 3. Monetary dibagi menjadi 3 himpunan fuzzy, yaitu RENDAH, SEDANG, dan TINGGI (Gambar 3.5). Domain himpunan fuzzy untuk variabel recency, frequency, dan monetary ditunjukkan dalam Tabel 3.8 berikut ini. Tabel 3.8 Domain nilai untuk masing-masing himpunan fuzzy. Atribut Variabel linguistik Domain nilai BARU SAJA 0 ≤ r < 21 hari Recency AGAK LAMA 7 < r < 44 hari LAMA 30 hari < r JARANG 0 ≤ f < 100 transaksi Frequency AGAK SERING 40 < f < 200 transaksi SERING 140 transaksi < f RENDAH 0 ≤ m < 500 juta rupiah Monetary SEDANG 100 juta < m < 1 milyar rupiah TINGGI 600 juta rupiah < m
50
Gambar 3.3 Himpunan Fuzzy pada Variabel Recency
Gambar 3.4 Himpunan Fuzzy pada Variabel Frequency
Gambar 3.5 Himpunan Fuzzy pada Variabel Monetary
51
Definisi kelas beserta definisi variabel linguistik dan label konsumen yang diberikan dalam model fuzzy RFM ditunjukkan dalam Tabel 3.9. Proses segmentasi konsumen akan dilakukan dengan menghitung derajat keanggotaan pusat cluster dari masing-masing cluster terhadap semua kelas model fuzzy RFM (K1 sampai K27) menggunakan persamaan (Zumstein, 2007) :
dengan : = derajat keanggotaan untuk masing-masing kelas = derajat keanggotaan masing-masing variabel linguistik dalam fuzzy RFM A = kelas dalam model fuzzy RFM i
= variabel linguistik dalam fuzzy RFM
x
= pusat cluster = gamma, biasanya bernilai 0,5
Dari derajat keanggotaan untuk masing-masing yang telah diperoleh, dapat ditentukan kelas dari cluster, yaitu kelas yang memiliki derajat keanggotaan paling tinggi. Setiap kelas kelas model fuzzy RFM memiliki label konsumen yang menyatakan karakteristik dari setiap kelas konsumen.
52
Kelas K1 K2 K3 K4 K5 K6 K7 K8 K9 K10 K11 K12 K13 K14 K15 K16 K17 K18 K19 K20 K21 K22 K23 K24 K25 K26 K27
Tabel 3.9 Deskripsi variabel linguistik dan Label Konsumen Deskripsi Variabel Linguistik Label Konsumen Recency Frequency Monetary Baru saja Jarang Rendah Dormant D Baru saja Jarang Sedang Dormant A Baru saja Jarang Tinggi Occational A Baru saja Agak sering Rendah Everyday D Baru saja Agak sering Sedang Golden D Baru saja Agak sering Tinggi Superstar D Baru saja Sering Rendah Everyday A Baru saja Sering Sedang Golden A Baru saja Sering Tinggi Superstar A Agak lama Jarang Rendah Dormant E Agak lama Jarang Sedang Dormant B Agak lama Jarang Tinggi Occational B Agak lama Agak sering Rendah Everyday E Agak lama Agak sering Sedang Golden E Agak lama Agak sering Tinggi Superstar E Agak lama Sering Rendah Everyday B Agak lama Sering Sedang Golden B Agak lama Sering Tinggi Superstar B Lama Jarang Rendah Dormant F Lama Jarang Sedang Dormant C Lama Jarang Tinggi Occational C Lama Agak sering Rendah Everyday F Lama Agak sering Sedang Golden F Lama Agak sering Tinggi Superstar F Lama Sering Rendah Everyday C Lama Sering Sedang Golden C Lama Sering Tinggi Superstar C
5. Evaluation Evaluasi dari model yang digunakan dilakukan dengan cara melakukan proses mining pada data set dalam 1 periode tertentu (transaksi dalam satu tahun tertentu). Proses clustering diuji coba dengan berbagai nilai parameter dari masing-masing algoritma clustering. Hasil clustering diuji tingkat validitasnya menggunakan metode pengukuran Modified Partition Coefficient dan
53
Classification Entropy untuk menentukan jumlah cluster dan algoritma clustering yang terbaik. Dengan menggunakan jumlah cluster yang paling optimal, proses clustering dilakukan untuk data set pada periode tahun yang lain. Hasil segmentasi cluster yang diperoleh dari hasil clustering algoritma Fuzzy C-Means dan Fuzzy Subtractive Clustering dibandingkan dengan data transaksi yang sesungguhnya untuk mengukur kinerja proses mining. Tabel 3.10, 3.11, 3.12, 3.13 dan 3.14 menunjukkan 5 jenis konsumen yang diurutkan dari tingkat konsumen yang paling potensial sampai yang tidak potensial. yaitu Superstar, Golden, Everyday, Occational, dan Dormant Customer yang terbagi lagi menjadi beberapa jenis konsumen berdasarkan Tabel 3.9. Pembagian 5 jenis konsumen ini akan menjadi acuan dalam proses evaluasi. Jika belum mampu membaca cluster dengan tepat, maka akan kembali ke proses modeling untuk memperbaiki struktur model yang digunakan. Tahap evaluasi dianggap telah selesai jika business understanding telah terjawab dengan baik.
Kelas K9 K18 K27 K6 K15 K24
Tabel 3.10 Pembagian Superstar Customer Deskripsi Variabel Linguistik Recency Frequency Monetary Baru saja Sering Tinggi Agak lama Sering Tinggi Lama Sering Tinggi Baru saja Agak sering Tinggi Agak lama Agak sering Tinggi Lama Agak sering Tinggi
Label Konsumen Superstar A Superstar B Superstar C Superstar D Superstar E Superstar F
54
Kelas K8 K17 K26 K5 K14 K23
Tabel 3.11 Pembagian Golden Customer Deskripsi Variabel Linguistik Recency Frequency Monetary Baru saja Sering Sedang Agak lama Sering Sedang Lama Sering Sedang Baru saja Agak sering Sedang Agak lama Agak sering Sedang Lama Agak sering Sedang
Label Konsumen Golden A Golden B Golden C Golden D Golden E Golden F
Kelas K7 K16 K25 K4 K13 K22
Tabel 3.12 Pembagian Everyday Customer Deskripsi Variabel Linguistik Recency Frequency Monetary Baru saja Sering Rendah Agak lama Sering Rendah Lama Sering Rendah Baru saja Agak sering Rendah Agak lama Agak sering Rendah Lama Agak sering Rendah
Label Konsumen Everyday A Everyday B Everyday C Everyday D Everyday E Everyday F
Kelas K3 K12 K21
Tabel 3.13 Pembagian Occational Customer Deskripsi Variabel Linguistik Recency Frequency Monetary Baru saja Jarang Tinggi Agak lama Jarang Tinggi Lama Jarang Tinggi
Label Konsumen Occational A Occational B Occational C
Kelas K2 K11 K20 K1 K10 K19
Tabel 3.14 Pembagian Dormant Customer Deskripsi Variabel Linguistik Recency Frequency Monetary Baru saja Jarang Sedang Agak lama Jarang Sedang Lama Jarang Sedang Baru saja Jarang Rendah Agak lama Jarang Rendah Lama Jarang Rendah
Label Konsumen Dormant A Dormant B Dormant C Dormant D Dormant E Dormant F
55
6.
Deployment Pada tahap ini akan dilakukan pembuatan aplikasi data mining, untuk menghasilkan laporan data mining hingga melakukan integrasi dengan sistem informasi yang telah di lapangan. Pada penelitian ini proses deployment adalah melakukan proses mining pada seluruh database, tidak dilakukan proses integrasi dengan sistem yang telah ada karena menggunakan program simulasi dengan MATLAB.
3.2
Tempat dan Waktu Penelitian Tempat dan waktu penelitian dilakukan di UD Fenny. Nakula No. 17
Denpasar dari bulan November 2010 hingga Desember 2010. Sesuai dengan rancangan tahapan penelitian CRISP-DM, penelitian di UD Fenny diawali dengan studi kelayakan (feasibility study) dan pemahaman terhadap prosedur yang sudah ada (existing procedure).
3.3
Sumber Data Data yang digunakan berasal dari basis data Sistem Informasi Manajemen
Retail UD. Fenny. Data yang tersimpan adalah data transaksi dari bulan Oktober 2006 hingga Oktober 2010. Data ini memiliki format Microsoft SQL Server 2000 dengan ukuran database sekitar 5 GB dengan jumlah record untuk tabel transaksi mencapai 3 juta record.
56
3.4
Instrumen Penelitian Berikut ini adalah instrumen yang digunakan untuk proses penelitian :
1.
Perangkat Lunak Perangkat lunak yang digunakan dalam perancangan sistem antara lain: a. Sistem Operasi Windows 7 Home Basic. b. Perangkat pemrograman MATLAB R2010a dengan bantuan beberapa toolbox yaitu Fuzzy Logic Toolbox dan Database Toolbox. c. DBMS (Database Management System) Microsoft SQL Server 2000.
2.
Perangkat Keras Perangkat keras yang digunakan dalam penelitian adalah komputer dengan spesifikasi a. Processor 2.40 GHz b. 4 GB RAM c. Hardisk 250 GB d. VGA 320 MB
3.5
Jadwal Penelitian Tabel 3.15 Jadwal Penelitian Kegiatan
Nov
Des
Jan
Feb
Mar
Apr
Mei
Juni
Pengambilan data Persiapan data Pembuatan model Pengujian model
57
Pembuatan laporan tesis
BAB IV IMPLEMENTASI
4.1
Implementasi Data Warehouse Untuk menunjang proses analisis yang dilakukan oleh pengguna, maka
data warehouse yang dirancang perlu dipresentasikan kepada pengguna. Dalam penelitian ini dibuat suatu aplikasi untuk menampilkan data penjualan yang dilakukan tiap konsumen berdasarkan recency, frequency, dan monetary. Aplikasi ini dibuat menggunakan Microsoft Visual Basic 6.0. Aplikasi ini dilengkapi dengan fasilitas roll-up dan drill-down. Roll-up adalah fitur untuk menampilkan data ke tingkat rincian yang lebih rendah, sedangkan drill-down adalah fitur untuk menampilkan data ke tingkat rincian yang lebih tinggi. Gambar 4.1 menunjukkan tampilan aplikasi data warehouse untuk menampilkan data penjualan per konsumen.
Gambar 4.1 Tampilan Utama Aplikasi Data Warehouse
57
58
Aplikasi dilengkapi dengan fasilitas drill-down dan roll-up berdasarkan hari, bulan, quarter, dan tahun (Gambar 4.2). Selain itu, aplikasi dilengkapi juga dengan fasilitas untuk mengetahui total recency, frequency, monetary, dan average (rata-rata monetary) setiap konsumen berdasarkan rentang periode yang dipilih (Gambar 4.3).
Gambar 4.2 Fasilitas Drill-Down dan Roll-Up pada Aplikasi Data Warehouse
59
Gambar 4.3 Fasilitas untuk Mengetahui Total Recency, Frequency, Monetary, dan Average pada Aplikasi Data Warehouse 4.2
Implementasi Data Mining Implementasi data mining dibangun berbasis GUI menggunakan
MATLAB versi 7.10.0 dan memanfaatkan beberapa toolbox yaitu Fuzzy Logic Toolbox dan Database Toolbox. Tools editor yang digunakan untuk perancangan GUI di dalam MATLAB adalah GUIDE. Gambar 4.4 menunjukkan tampilan utama dari implementasi data mining yang memiliki 3 menu utama, yaitu Fuzzy C-Means Clustering, Fuzzy Subtractive Clustering dan Perbandingan Kelas Konsumen. Menu Fuzzy C-Means Clustering digunakan untuk melakukan proses clustering menggunakan algoritma Fuzzy C-Means, sedangkan Menu Fuzzy Subtractive
Clustering
digunakan
untuk
melakukan
proses
clustering
menggunakan algoritma Fuzzy Subtractive. Hasil clustering dari kedua algoritma
60
tersebut akan disegmentasi menggunakan model Fuzzy RFM untuk menghasilkan kelas konsumen dari setiap cluster. Menu Perbandingan Kelas Konsumen digunakan untuk menampilkan hasil proses segmentasi untuk uji coba data setiap periode yang ditentukan (per tahun).
Gambar 4.4 Menu Utama Aplikasi Data Mining
4.2.1 Implementasi Clustering dengan Algoritma Fuzzy C-Means Gambar 4.5 menunjukkan tampilan dari aplikasi clustering dengan menggunakan algoritma Fuzzy C-Means Clustering.
61
Gambar 4.5 Tampilan Aplikasi untuk Fuzzy C-Means Clustering Ketika aplikasi dijalankan, user harus melakukan pengambilan data di dalam basis data dengan memilih menu File | Load data dan aplikasi akan menjalankan method LoadMenuItem_Callback(hObject, eventdata, handles). Berikut ini adalah tahapan dan cuplikan program dari method tersebut : 1. Mendeklarasikan variabel global. global A x alias;
2. Menghapus axes1 dari objek sehingga dapat digunakan untuk melakukan plot data baru. cla(handles.axes1,'reset'); axes(handles.axes1);
3. Mengatur koneksi ke database dengan nama data source ‘UD_Fenny’. Data source / ODBC terlebih dahulu diatur melalui administrative tools. Selanjutnya database akan diambil menggunakan perintah SQL dan diatur
62
sehingga format datanya menjadi MATLAB structure yang terdiri dari empat field, yaitu IdCustomer, Recency, Frequency, dan Monetary. conn = database('UD_Fenny','',''); p = 'Select * from TbDWH3'; curs = exec(conn,p); curs = fetch(curs); setdbprefs('DataReturnFormat','structure'); A=curs.Data;
4. Membuat matriks alias untuk mempermudah proses untuk mengidentifikasi anggota-anggota tiap cluster setelah melalui proses clustering. numrows=rows(curs); x=[1:1:numrows]'; alias=[num2cell(x),A.IdCustomer];
5. Melakukan plot field Recency, Frequency, dan Monetary untuk setiap konsumen ke dalam ruang tiga dimensi. plot3(A.Recency,A.Frequency,A.Monetary,'bo'); grid on; axis square; xlabel('Recency'); ylabel('Frekuensi'); zlabel('Monetary');
Proses berikutnya adalah proses clustering dengan menggunakan algoritma Fuzzy C-Means (FCM). Algoritma FCM memerlukan input user untuk menentukan jumlah cluster yang akan dibentuk. Setelah jumlah cluster diinputkan melalui komponen
edit
yang
tersedia,
aplikasi
ECluster_Callback(hObject, eventdata, handles)
akan
menjalankan
method
untuk memeriksa apakah
inputnya kosong atau tidak. Berikut adalah cuplikan programnya : input = str2num(get(hObject,'String')); if(isempty(input)) set(hObject,'String',0) end
Aplikasi akan menjalankan method BtCluster_Callback(hObject, eventdata, handles) untuk menjalankan proses clustering yang diaktifkan melalui komponen
63
pushbutton Cluster. Berikut adalah tahapan beserta cuplikan program dari method tersebut : 1. Mendeklarasikan variabel global. global A x alias center n H maks minim;
2. Membersihkan axes1 dari objek sehingga dapat digunakan untuk melakukan plot data baru. cla(handles.axes1,'reset');
3. Menyimpan data recency, frequency, monetary dan input jumlah cluster ke dalam variabel. n=str2num(get(handles.ECluster,'String')); Q=[x,A.Recency,A.Frequency,A.Monetary];
4. Proses clustering menggunakan fungsi fcm. Parameter yang berpengaruh terhadap hasil clustering dalam fungsi ini adalah jumlah cluster. Hasil dari fungsi fcm adalah berupa koordinat titik pusat cluster, matriks partisi dan nilai objective function. Koordinat titik pusat cluster akan di-plot di komponen axes. [center, U, obj_fcn] = fcm(Q(:,2:4),n); maxU = max(U); for i=1:n plot3(center(i,1),center(i,2),center(i,3),'ko','markes ize', 15,'LineWidth',2);hold on; end
5. Mencari anggota dari setiap cluster dan mem-plot data anggota tiap cluster di komponen axes. H=[]; maks = num2cell(max(Q(:,2:4))) minim = num2cell(min(Q(:,2:4))) s=['go';'b*';'rs';'md';'cx';'k+';'mh';'gh';'b+';'rx';'m0'; 'r*';'bs';'gd'] list_legend=''; for i=1:n index = find(U(i, :) == maxU); %mencari anggota cluster
64
cust=alias(index,2); [b,k]=size(cust); in=[]; for j=1:b in=cat(1,in,i); end Ha=[num2cell(in),cust,num2cell(Q(index,2)), num2cell(Q(index,3)),num2cell(Q(index,4))]; H=cat(1,H,Ha); %membuat daftar legend kata='Cluster ke-'; list1=strcat(kata,num2str(i)); list_legend=strvcat(list_legend,list1); %plot hasil clustering plot3(Q(index,2),Q(index,3),Q(index,4),s(i,:)); hold on; end grid on; axis square; %menampilkan legend sesuai dg jumlah cluster legend(list_legend,2); xlabel('Recency'); ylabel('Frekuensi'); zlabel('Monetary');
6. Menghitung indeks validitas Modified Partition Coefficient (MPC) dan Classification Entropy (CE). mem_func=U; jum_mf=sum(sum(mem_func.^2)); PC=jum_mf/drow; CE=-(sum(sum(mem_func.*(log(mem_func))))/drow); MPC=1-((n/(n-1))*(1-PC)); set(handles.MPC,'String',MPC); set(handles.PE,'String',CE);
Daftar anggota tiap-tiap cluster ditampilkan melalui komponen pushbutton Hasil Clustering. Aplikasi akan memanggil figure HasilClust dan menampilkan daftar anggota
tiap-tiap
cluster
pada
komponen
uitable
melalui
method
TblHasil_CreateFcn(hObject, eventdata, handles). Tampilan aplikasi ditunjukkan pada gambar 4.6. Berikut ini adalah cuplikan programnya :
65
global H; data=H; colnames = {'Cluster','Kode Customer', 'Recency', 'Frequency', 'Monetary'}; colfmt = {'numeric','char', 'numeric', 'numeric', 'bank'}; coledit = [false false false false false]; colwidth = {60 100 60 60 200}; foregroundColor = [0 0 0]; backgroundColor = [.94 .87 .87]; set(hObject,'Data',data,'Units','normalized',... 'ColumnName',colnames,... 'ColumnFormat',colfmt,... 'ColumnWidth',colwidth,... 'ColumnEditable',coledit,... 'ForegroundColor', foregroundColor,... 'BackgroundColor', backgroundColor,... 'FontSize',9);
Gambar 4.6 Tampilan Aplikasi Daftar Anggota Cluster Hasil proses clustering selanjutnya akan disegmentasi untuk menentukan kelaskelas konsumen. Proses segmentasi akan diuraikan di sub bab Implementasi Segmentasi.
4.2.2 Implementasi Clustering dengan Algoritma Fuzzy Subtractive Gambar 4.7 menunjukkan tampilan dari aplikasi clustering dengan menggunakan algoritma Fuzzy Subtractive Clustering. Seperti halnya aplikasi clustering menggunakan algoritma Fuzzy Subtractive Clustering, ketika aplikasi
66
dijalankan, user harus melakukan pengambilan data di dalam basis data dengan memilih menu File | Load data. Aplikasi akan menjalankan method LoadMenuItem_Callback(hObject, eventdata, handles). Tahapan dan cuplikan program dari method LoadMenuItem_Callback(hObject, eventdata, handles) telah dipaparkan pada sub bab Implementasi Clustering dengan Algoritma Fuzzy CMeans (FCM).
Gambar 4.7 Tampilan Aplikasi untuk Fuzzy Subtractive Clustering Proses berikutnya adalah proses clustering dengan menggunakan algoritma Fuzzy Subtractive Clustering. Algoritma ini tidak memerlukan input user untuk menentukan jumlah cluster yang akan dibentuk karena jumlah cluster akan ditentukan melalui proses iterasi. Aplikasi akan menjalankan method BtCluster_Callback(hObject, eventdata, handles) untuk menjalankan proses clustering yang diaktifkan melalui komponen pushbutton Cluster. Berikut adalah tahapan beserta cuplikan program dari method tersebut : 1. Mendeklarasikan variabel global.
67
global A x alias center n H maks minim;
2. Membersihkan axes1 dari objek sehingga dapat digunakan untuk melakukan plot data baru. cla(handles.axes1,'reset');
3. Menyimpan data recency, frequency, dan monetary ke dalam variabel. Q=[x,A.Recency,A.Frequency,A.Monetary];
4. Proses
clustering
menggunakan
fungsi
subclust.
Parameter
yang
berpengaruh terhadap hasil clustering dalam fungsi ini adalah nilai radii. Radii
adalah vektor nilai yang berada dalam rentang 0 sampai 1. Radii
merupakan jarak terjauh dari pusat cluster dengan data. Semakin besar nilai radii,
semakin besar ukuran cluster. Hasil dari fungsi subclust adalah
berupa matriks koordinat titik pusat cluster (c) dan sigma (σ). Koordinat titik pusat cluster akan di-plot di komponen axes. Sigma digunakan untuk menentukan nilai parameter fungsi keanggotaan Gauss seperti yang terlihat pada gambar 4.8.
Gambar 4.8 Kurva Gauss (Gelley, 2000) Cuplikan programnya adalah sebagai berikut :
68
[center, S] = subclust(Q(:,2:4),0.5); plot3(center(:,1),center(:,2),center(:,3),'ko','markersize', 15,'LineWidth',2);
5. Mencari anggota dari setiap cluster dan mem-plot data anggota tiap cluster di komponen axes. Derajat keanggotaan suatu titik data x pada cluster ke-k ditentukan dengan kurva Gauss menggunakan rumus (Gelley, 2000) :
dengan : xk
= titik data pada cluster ke-k
c
= pusat cluster ke-k
σ
= nilai sigma
µk
= derajat keanggotaan suatu titik pada cluster ke-k
Cuplikan programnya adalah sebagai berikut : [drow dcol]=size(Q(:,2:4)) [crow ccol]=size(center) maks = num2cell(max(Q(:,2:4))) minim = num2cell(min(Q(:,2:4))) hasil=[]; for i=1:drow hmiu=[]; for j=1:crow h1=Q(i,2:4)-center(j,:); h2=2*(S.^2); h3=((h1.^2)./h2); h4=h3; h=(h4(:,1)+h4(:,2)+h4(:,3)); miu=exp(-h); hmiu=cat(2,hmiu,[miu]); end hasil=cat(1,hasil,hmiu) end [C,I]=max(hasil,[],2) Q=cat(2,Q,I) H=[]; list_legend=''; for i=1:crow r=find(Q(:,5)==i) cust=alias(r,2); [b,k]=size(cust);
69
in=[]; for j=1:b in=cat(1,in,i); end Ha=[num2cell(in),cust,num2cell(Q(r,2)), num2cell(Q(r,3)),num2cell(Q(r,4))]; H=cat(1,H,Ha) kata='Cluster ke-'; list1=strcat(kata,num2str(i)); list_legend=strvcat(list_legend,list1) plot3(Q(r,2),Q(r,3),Q(r,4),s(i,:));hold on;grid on; end axis square; legend(list_legend,2); xlabel('Recency'); ylabel('Frekuensi'); zlabel('Monetary');
6. Menghitung indeks validitas Modified Partition Coefficient (MPC) dan Classification Entropy (CE). mf=hasil; jum_mf=sum(sum(mf.^2)); PC=jum_mf/drow; c=crow; MPC=1-((c/(c-1))*(1-PC)); CE=-(sum(sum(mf.*(log(mf))))/drow); set(handles.MPC,'String',MPC); set(handles.PE,'String',CE);
Hasil proses clustering selanjutnya akan disegmentasi untuk menentukan kelaskelas konsumen. Proses segmentasi akan diuraikan di sub bab Implementasi Segmentasi dengan Model Fuzzy RFM.
4.2.3 Implementasi Segmentasi dengan Model Fuzzy RFM Gambar 4.9 menunjukkan tampilan dari aplikasi segmentasi menggunakan model fuzzy RFM untuk menentukan kelas-kelas konsumen dari cluster yang terbentuk. Proses segmentasi dimulai dengan menentukan himpunan fuzzy untuk atribut Recency, Frequency, dan Monetary. Setiap atribut dibagi menjadi 3
70
himpunan
fuzzy.
Masing-masing
himpunan
fuzzy
menggunakan
fungsi
keanggotaan trapezoidal.
Gambar 4.9 Tampilan Aplikasi Segmentasi Menggunakan Model Fuzzy RFM Variabel linguistik dan domain nilai untuk masing-masing atribut ditentukan melalui method yang dibangkitkan pada saat 3 komponen edit untuk menampilkan jangkauan nilai himpunan fuzzy untuk masing-masing atribut. Untuk atribut Recency, variabel linguistik serta domain nilai ditentukan melalui method ERecency_CreateFcn(hObject, eventdata, handles). Berikut adalah cuplikan program dari method tersebut. global RName RVal maks rmaks; rmaks=maks(:,1) rmaks1=cell2mat(rmaks)+50 rv1=[0 0 7 21]; rv2=[7 21 30 44]; rv3=[30 44 rmaks mat2cell(rmaks1)]; RName = {'Baru Saja','Agak Lama','Lama'}; RVal = {mat2str(rv1),mat2str(rv2),mat2str(cell2mat(rv3))} if ispc && isequal(get(hObject,'BackgroundColor'), get(0,'defaultUicontrolBackgroundColor')) set(hObject,'BackgroundColor','white'); end
71
set(hObject, 'String', RVal(:,1));
Untuk atribut Frequency, variabel linguistik serta domain nilai ditentukan melalui method EFreq_CreateFcn(hObject, eventdata, handles). Berikut adalah cuplikan program dari method tersebut. global FName FVal maks fmaks fmaks=maks(:,2) fmaks1=cell2mat(fmaks)+50 fv1=[0 0 40 100]; fv2=[40 100 140 200]; fv3=[140 200 fmaks mat2cell(fmaks1)]; FName = {'Jarang','Agak Sering','Sering'}; FVal = {mat2str(fv1),mat2str(fv2),mat2str(cell2mat(fv3))} if ispc && isequal(get(hObject,'BackgroundColor'), get(0,'defaultUicontrolBackgroundColor')) set(hObject,'BackgroundColor','white'); end set(hObject, 'String', FVal(:,1));
Untuk atribut Monetary, variabel linguistik serta domain nilai ditentukan melalui method EMoney_CreateFcn(hObject, eventdata, handles). Berikut adalah cuplikan program dari method tersebut. global MName MVal maks mmaks mmaks=maks(:,3); mmaks1=cell2mat(mmaks)+400000000; mv1=[0 0 100000000 500000000]; mv2=[100000000 500000000 600000000 1000000000]; mv3=[600000000 1000000000 mmaks mat2cell(mmaks1)]; MName = {'Rendah','Sedang','Tinggi'}; MVal = {mat2str(mv1),mat2str(mv2),mat2str(cell2mat(mv3))} if ispc && isequal(get(hObject,'BackgroundColor'), get(0,'defaultUicontrolBackgroundColor')) set(hObject,'BackgroundColor','white'); end set(hObject, 'String', MVal(:,1));
Grafik himpunan fuzzy untuk atribut Recency, Frequency, dan Monetary dapat ditampilkan dalam sebuah figure melalui method BtnGrafik_Callback(hObject, eventdata, handles) seperti yang terlihat pada gambar 4.10. Berikut adalah cuplikan program dari method tersebut.
72
global RName RVal rmaks FName FVal fmaks MName MVal mmaks Rn1 Rn2 Rn3 RV1 RV2 RV3 Fn1 Fn2 Fn3 FV1 FV2 FV3 Mn1 Mn2 Mn3 MV1 MV2 MV3 figure; RName_1=str2mat(RName); Rn1 = RName_1(1,:); Rn2 = RName_1(2,:); Rn3 = RName_1(3,:); RVal_1=str2mat(RVal); RV1 = str2num(RVal_1(1,:)); RV2 = str2num(RVal_1(2,:)); RV3 = str2num(RVal_1(3,:)); a = newfis('myfis'); a = addvar(a,'input','recency',[0 cell2mat(rmaks)]); a = addmf(a,'input',1,Rn1,'trapmf',RV1); a = addmf(a,'input',1,Rn2,'trapmf',RV2); a = addmf(a,'input',1,Rn3,'trapmf',RV3); getfis(a,'input',1); subplot(2,2,1);plotmf(a,'input',1);hold on; FName_1=str2mat(FName); Fn1 = FName_1(1,:); Fn2 = FName_1(2,:); Fn3 = FName_1(3,:); FVal_1=str2mat(FVal); FV1 = str2num(FVal_1(1,:)); FV2 = str2num(FVal_1(2,:)); FV3 = str2num(FVal_1(3,:)); a = addvar(a,'input','frequency',[0 cell2mat(fmaks)]); a = addmf(a,'input',2,Fn1,'trapmf',FV1); a = addmf(a,'input',2,Fn2,'trapmf',FV2); a = addmf(a,'input',2,Fn3,'trapmf',FV3); getfis(a,'input',2); subplot(2,2,2);plotmf(a,'input',2);hold on; MName_1=str2mat(MName); Mn1 = MName_1(1,:); Mn2 = MName_1(2,:); Mn3 = MName_1(3,:); MVal_1=str2mat(MVal); MV1 = str2num(MVal_1(1,:)); MV2 = str2num(MVal_1(2,:)); MV3 = str2num(MVal_1(3,:)); a = addvar(a,'input','monetary',[0 cell2mat(mmaks)]); a = addmf(a,'input',3,Mn1,'trapmf',MV1); a = addmf(a,'input',3,Mn2,'trapmf',MV2); a = addmf(a,'input',3,Mn3,'trapmf',MV3); getfis(a,'input',3); subplot(2,2,3:4);plotmf(a,'input',3);hold on;
73
Gambar 4.10 Hasil Plot Himpunan Fuzzy dengan Fungsi Keanggotaan Trapezoidal Proses berikutnya adalah menentukan kelas segmentasi melalui method BtnFuzzy_Callback(hObject, eventdata, handles). Berikut adalah tahapan dari method tersebut : 1. Menentukan derajat keanggotaan dari setiap pusat cluster terhadap masingmasing himpunan fuzzy dari atribut Recency, Frequency, dan Monetary. 2. Membentuk 3 matriks yang terdiri dari kombinasi derajat keanggotaan dari dari atribut Recency, Frequency, dan Monetary. Masing-masing matriks terdiri dari 27 baris yang didapat dari jumlah himpunan fuzzy masing-masing atribut dipangkatkan dengan jumlah atribut (33 = 27). Dua puluh tujuh baris matriks ini mewakili jumlah kelas konsumen dalam model fuzzy RFM.
74
3. Menghitung derajat keanggotaan masing-masing pusat cluster terhadap semua kelas konsumen dan menentukan derajat keanggotaan terbesar untuk menentukan kelas konsumen dari masing-masing cluster. Berikut adalah cuplikan program dari method BtnFuzzy_Callback(hObject, eventdata, handles). global center n Rn1 Rn2 Rn3 RV1 RV2 RV3 Fn1 Fn2 Fn3 FV1 FV2 FV3 Mn1 Mn2 Mn3 MV1 MV2 MV3 C data = center; C=[]; % Langkah ke-1 for i=1:n disp(i); r=data(i,1) RV=RV1 mr1=trapmf(r,RV1) mr2=trapmf(r,RV2) mr3=trapmf(r,RV3) f=data(i,2) mf1=trapmf(f,FV1) mf2=trapmf(f,FV2) mf3=trapmf(f,FV3) m=data(i,3) mm1=trapmf(m,MV1) mm2=trapmf(m,MV2) mm3=trapmf(m,MV3) % Langkah ke-2 Kr=[mr1;mr1;mr1;mr1;mr1;mr1;mr1;mr1;mr1;mr2;mr2;mr2;mr2; mr2;mr2;mr2;mr2;mr2;mr3;mr3;mr3;mr3;mr3;mr3;mr3;mr3;mr3] Kf=[mf1;mf1;mf1;mf2;mf2;mf2;mf3;mf3;mf3;mf1;mf1;mf1;mf2; mf2;mf2;mf3;mf3;mf3;mf1;mf1;mf1;mf2;mf2;mf2;mf3;mf3;mf3] Km=[mm1;mm2;mm3;mm1;mm2;mm3;mm1;mm2;mm3;mm1;mm2;mm3;mm1; mm2;mm3;mm1;mm2;mm3;mm1;mm2;mm3;mm1;mm2;mm3;mm1;mm2;mm3] % Langkah ke-3 miu=Kr(:,1).*Kf(:,1).*Km(:,1) hasil_1=miu.^0.5 miu_2=(1-Kr).*(1-Kf).*(1-Km) selisih=1-miu_2 hasil_2=selisih.^0.5 hasil_RFM=hasil_1.*hasil_2 [score,I]=max(hasil_RFM) kls=strcat('K',num2str(I)); H={kls,Kr(I,1),Kf(I,1),Km(I,1),score} C=cat(1,C,H) End
75
Dalam implementasi ini juga ditampilkan uraian, deskripsi variabel linguistik, dan label konsumen dari masing-masing kelas. Di bawah ini adalah cuplikan program untuk membentuk matriks yang sesuai dengan Tabel 3.9. Isi matriks tersebut akan ditampilkan dalam komponen uitable. KelasLinguistik={'K1',Rn1,Fn1,Mn1,'Dormant B'; 'K2',Rn1,Fn1,Mn2,'Dormant A'; 'K3',Rn1,Fn1,Mn3,'Occational A'; 'K4',Rn1,Fn2,Mn1,'Everyday D'; 'K5',Rn1,Fn2,Mn2,'Golden D'; 'K6',Rn1,Fn2,Mn3,'Superstar D'; 'K7',Rn1,Fn3,Mn1,'Everyday A'; 'K8',Rn1,Fn3,Mn2,'Golden A'; 'K9',Rn1,Fn3,Mn3,'Superstar A'; 'K10',Rn2,Fn1,Mn1,'Dormant D'; 'K11',Rn2,Fn1,Mn2,'Dormant C'; 'K12',Rn2,Fn1,Mn3,'Occational B'; 'K13',Rn2,Fn2,Mn1,'Everyday E'; 'K14',Rn2,Fn2,Mn2,'Golden E'; 'K15',Rn2,Fn2,Mn3,'Superstar E'; 'K16',Rn2,Fn3,Mn1,'Everyday B'; 'K17',Rn2,Fn3,Mn2,'Golden B'; 'K18',Rn2,Fn3,Mn3,'Superstar B'; 'K19',Rn3,Fn1,Mn1,'Dormant F'; 'K20',Rn3,Fn1,Mn2,'Dormant E'; 'K21',Rn3,Fn1,Mn3,'Occational C'; 'K22',Rn3,Fn2,Mn1,'Everyday F'; 'K23',Rn3,Fn2,Mn2,'Golden F'; 'K24',Rn3,Fn2,Mn3,'Superstar F'; 'K25',Rn3,Fn3,Mn1,'Everyday C'; 'K26',Rn3,Fn3,Mn2,'Golden C'; 'K27',Rn3,Fn3,Mn3,'Superstar C'};
4.2.4 Implementasi Perbandingan Kelas Konsumen Proses segmentasi dari hasil clustering menggunakan kedua algoritma fuzzy clustering menentukan label/kelas konsumen untuk setiap konsumen dalam perusahaan retail. Uji coba data dilakukan per periode tertentu (per tahun) dan hasilnya disimpan dalam database. Gambar 4.11 dan 4.12 menunjukkan tampilan aplikasi Perbandingan Kelas Konsumen. Hasil perbandingan kelas konsumen akan ditampilkan dalam bentuk grafik dan diaktifkan melalui method BtnPush_Callback(hObject, eventdata, handles) pada komponen push button.
76
Dalam aplikasi ini disediakan 2 macam pilihan grafik yaitu grafik kelas konsumen yang disajikan dalam bentuk detail, yaitu sesuai dengan pembagian 27 kelas konsumen pada tabel 3.9 dan general (umum), yaitu sesuai dengan pembagian 5 kelas konsumen (Dormant, Everyday, Occational, Golden, Superstar).
Gambar 4.11 Tampilan Aplikasi Perbandingan Kelas Konsumen dengan Pilihan Bentuk Grafik General
Gambar 4.12 Tampilan Aplikasi Perbandingan Kelas Konsumen dengan Pilihan Bentuk Grafik Detail
77
Perbandingan kelas konsumen per periode (tahun) disajikan untuk setiap konsumen sehingga pihak perusahaan retail mendapatkan gambaran tentang perilaku konsumennya. Dalam aplikasi ini user diminta untuk menginputkan nomor konsumen (Customer No.) pada komponen edit dan memilih algoritma clustering yang digunakan. Selanjutnya program akan menjalankan SQL query untuk mengekstrak data sesuai dengan input yang diberikan. Berikut ini adalah cuplikan programnya : CustNo=get(handles.ECust,'String'); PopAlgoritma = get(handles.PopAlgoritma, 'Value'); switch PopAlgoritma case 1 algo='FCM'; case 2 algo='FS'; end conn = database('UD_Fenny','',''); p = ['select * from tbSegmen where CustNo=' '''' CustNo '''' 'and Metode=' '''' algo '''' ]; curs = exec(conn,p) curs = fetch(curs); setdbprefs('DataReturnFormat','structure'); A=curs.Data
Proses berikutnya adalah pembentukan grafik perbandingan kelas konsumen. Berikut adalah cuplikan programnya. cla(handles.axes1,'reset'); axes(handles.axes1); UrutanKelas=[3;6;15;9;18;24;12;21;27;2;5;14;8;17;23;11;20;26 ;1;4;13;7;16;22;10;19;25]; UrutanKelas1=[1;1;3;2;4;5;2;4;5;1;1;3;2;4;5;2;4;5;1;1;3;2;4; 5;2;4;5]; [b,k]=size(A.Tahun); levelkelas=[]; for i=1:b kelas=A.Kelas(i); if (strcmp(pilihan,'Detail')); level=UrutanKelas(kelas,1); else level=UrutanKelas1(kelas,1); end
78
H=[A.Tahun(i),A.Kelas(i),level]; levelkelas=cat(1,levelkelas,H); end
plot(levelkelas(:,1),levelkelas(:,3),'-mo',... 'LineWidth',2,... 'MarkerEdgeColor','k',... 'MarkerFaceColor',[.49 1 .63],... 'MarkerSize',12); set(gca,'XTick',2006:1:2010); set(gca,'XTickLabel',{'2006','2007','2008','2009','2010'}); xlabel('Tahun'); if (strcmp(pilihan,'Detail')); set(gca,'YLim',[1 28]); set(gca,'YTick',1:1:28); set(gca,'YTickLabel',{'Dormant F','Dormant E','Dormant D','Dormant C','Dormant B',... 'Dormant A','Everyday F','Everyday E','Everyday D','Everyday C','Everyday B',... 'Everyday A','Occational C','Occational B','Occational A','Golden F','Golden E',... 'Golden D','Golden C','Golden B','Golden A','Superstar F','Superstar E','Superstar D',... 'Superstar C','Superstar B','Superstar A',' '}); else set(gca,'YLim',[1 6]) set(gca,'YTick',1:1:6) set(gca,'YTickLabel',{'Dormant','Everyday','Occational', 'Golden','Superstar',' '}); end ylabel('Label Konsumen'); grid on; judul=strcat('Grafik Kelas Konsumen (Customer No.',CustNo,')'); title(judul); guidata(hObject,handles);
BAB V HASIL PENELITIAN DAN PEMBAHASAN
Untuk mengetahui tingkat keberhasilan dari penelitian ini, dapat dilihat dari hasil kerja sistem yang dibangun. Data yang digunakan dalam penelitian ini adalah data transaksi dari tahun 2006 sampai 2010 dengan jumlah record pada tabel transaksi sebanyak 3 juta record. Dalam penelitian ini dilakukan analisa terhadap hasil clustering dan segmentasi data transaksi dalam periode 1 tahun, yaitu tahun 2008. Periode 1 tahun dipilih pada proses data mining ini atas pertimbangan bahwa 1 tahun merupakan periode yang paling tepat untuk menggambarkan perilaku konsumen. Hasil clustering untuk algoritma Fuzzy CMeans (FCM) dan Fuzzy Subtractive diuji dengan nilai parameter jumlah cluster (algoritma FCM) dan nilai radii (algoritma Fuzzy Subtractive) yang berbeda-beda. Untuk menguji validitas cluster dan perbandingan antara kedua algoritma digunakan indeks Modified Partition Coefficient (MPC) dan Classification Entropy (CE).
5.1
Hasil Uji Coba
5.1.1 Algoritma Fuzzy C-Means (FCM) Clustering Proses clustering menggunakan algoritma FCM diuji coba dengan berbagai jumlah cluster. Proses clustering dilakukan dengan menetapkan nilai awal sebagai berikut (Yan, 2004) : 1. Jumlah cluster 2. Pangkat
=2
79
80
3. Maksimum iterasi
= 100
4. Error terkecil yang diharapkan
= 10-5
5. Fungsi objektif awal
=0
6. Iterasi awal
=1
Hasil proses clustering dengan 2 cluster menggunakan algoritma FCM ditunjukkan pada gambar 5.1. Proses clustering dihentikan pada iterasi ke-59 dengan nilai fungsi objektif = 11.644.830.729.424.286.000
Gambar 5.1. Hasil Clustering Menggunakan FCM dengan 2 cluster Tabel 5.1 menunjukkan koordinat titik pusat setiap cluster yang terbentuk dari proses clustering dan persentase jumlah anggota tiap cluster.
No Cluster 1 2
Tabel 5.1 Koordinat Titik Pusat Cluster (Jumlah Cluster = 2) Persentase Recency Frequency Monetary jumlah (hari) (per periode) (rupiah) anggota 94,39 % 62,2811 27,2048 64.887.916,46 5,61 % 4,2888 161,3914 1.269.542.546,57
81
Tabel 5.2 menunjukkan kelas konsumen yang ditentukan untuk masing-masing cluster dan derajat keanggotaan untuk kelas konsumen tersebut. Tampilan hasil segmentasi ditunjukkan pada gambar 5.2. Tabel 5.2 Kelas Konsumen Setiap Cluster (Jumlah Cluster = 2) Fungsi Fungsi Fungsi Fungsi No Kelas Keanggotaan Keanggotaan Keanggotaan Keanggotaan Cluster Konsumen Kelas Recency Frequency Monetary Konsumen 1 K19 1 1 1 1 2 K6 1 0,6435 1 0,8022
Gambar 5.2. Tampilan Hasil Segmentasi 2 Cluster yang Diperoleh dari FCM Dari hasil segmentasi dibentuk kelas konsumen berdasarkan nilai recency, frequency, dan monetary dari masing-masing pusat cluster. Berikut ini adalah profil dari masing-masing kelas konsumen : 1. Cluster ke-1 : Konsumen yang termasuk ke dalam cluster ini tergolong sebagai Dormant F Customers, yaitu konsumen dengan tingkatan terendah dalam kelas Dormant Customers. Dormant Customers merupakan konsumen
82
dengan profil yang paling buruk jika dibandingkan dengan segmen yang lain, karena memiliki tingkat recency, frequency dan monetary yang paling rendah. 2. Cluster ke-2 : Konsumen yang termasuk ke dalam cluster ini tergolong sebagai Superstar D Customers (urutan keempat dalam kelas Superstar Customer), yaitu kelas konsumen yang dianggap paling potensial karena memiliki tingkat recency, frequency, dan monetary yang tinggi.
Hasil proses clustering dengan 3 cluster menggunakan algoritma FCM ditunjukkan pada gambar 5.3. Proses clustering dihentikan pada iterasi ke-100 dengan nilai fungsi objektif = 5.769.385.842.059.524.100.
Gambar 5.3. Hasil Clustering Menggunakan FCM dengan 3 cluster Tabel 5.3 menunjukkan koordinat titik pusat setiap cluster yang terbentuk dari proses clustering dan persentase jumlah anggota tiap cluster.
83
No Cluster 1 2 3
Tabel 5.3 Koordinat Titik Pusat Cluster (Jumlah Cluster = 3) Persentase Recency Frequency Monetary jumlah (hari) (per periode) (rupiah) anggota 8,02 % 4,6819 121,2158 571.827.467,42 2,40 % 5,7893 182,8428 1.607.679.168,46 89,58 % 66,5706 22,8368 43.978.290,07
Tabel 5.4 menunjukkan kelas konsumen yang ditentukan melalui proses segmentasi untuk masing-masing cluster dan derajat keanggotaan untuk kelas konsumen tersebut. Tampilan hasil segmentasi ditunjukkan pada gambar 5.4. Tabel 5.4 Kelas Konsumen Setiap Cluster (Jumlah Cluster = 3) Fungsi Fungsi Fungsi Fungsi No Kelas Keanggotaan Keanggotaan Keanggotaan Keanggotaan Cluster Konsumen Kelas Recency Frequency Monetary Konsumen 1 K5 1 1 1 1 2 K9 1 0,7140 1 0,8450 3 K19 1 1 1 1
Gambar 5.4. Tampilan Hasil Segmentasi 3 Cluster yang Diperoleh dari FCM Berikut ini adalah profil dari masing-masing kelas konsumen :
84
1. Cluster ke-1 : Konsumen yang termasuk ke dalam cluster ini tergolong sebagai Golden D Customers (urutan keempat dalam kelas Golden Customer), yaitu konsumen dengan tingkat monetary dan frequency yang cukup tinggi. Golden Customer merupakan konsumen yang dianggap potensial setelah Superstar Customer. 2. Cluster ke-2 : Konsumen yang termasuk ke dalam cluster ini tergolong sebagai Superstar A Customers (urutan pertama dalam kelas Superstar Customer), sehingga dapat dikatakan konsumen yang berada dalam kelas ini merupakan konsumen yang paling potensial. 3. Cluster ke-3 : Konsumen yang termasuk ke dalam cluster ini tergolong sebagai Dormant F Customers, yaitu konsumen dengan tingkatan terendah dalam kelas Dormant Customers. Dormant Customers merupakan konsumen dengan profil yang paling buruk jika dibandingkan dengan segmen yang lain, karena memiliki tingkat recency, frequency dan monetary yang paling rendah.
Hasil proses clustering dengan 4 cluster menggunakan algoritma FCM ditunjukkan pada gambar 5.5. Proses clustering dihentikan pada iterasi ke-100 dengan nilai fungsi objektif = 694.012.310.630.939.140.
85
Gambar 5.5. Hasil Clustering Menggunakan FCM dengan 4 cluster Tabel 5.5 menunjukkan koordinat titik pusat setiap cluster yang terbentuk dari proses clustering dan persentase jumlah anggota tiap cluster.
No Cluster 1 2 3 4
Tabel 5.5 Koordinat Titik Pusat Cluster (Jumlah Cluster = 4) Persentase Recency Frequency Monetary jumlah (hari) (per periode) (rupiah) anggota 15,23 % 6,3198 74,8598 262.175.001,37 3,81 % 2,4884 149,2276 935.793.370,97 2,00 % 4,8983 212,1149 1.761.409.932,74 78,96 % 74,6464 16,6602 25.895.238,98
Tabel 5.6 menunjukkan kelas konsumen yang ditentukan melalui proses segmentasi untuk masing-masing cluster dan derajat keanggotaan untuk kelas konsumen tersebut. Tampilan hasil segmentasi ditunjukkan pada gambar 5.6.
86
Tabel 5.6 Kelas Konsumen Setiap Cluster (Jumlah Cluster = 4) Fungsi Fungsi Fungsi Fungsi No Kelas Keanggotaan Keanggotaan Keanggotaan Keanggotaan Cluster Konsumen Kelas Recency Frequency Monetary Konsumen 1 K4 1 0,5810 0,5946 0,5877 2 K6 1 0,8462 0,8395 0,8428 3 K9 1 1 1 1 4 K19 1 1 1 1
Gambar 5.6. Tampilan Hasil Segmentasi 4 Cluster yang Diperoleh dari FCM Berikut ini adalah profil dari masing-masing kelas konsumen : 1. Cluster ke-1 : Konsumen yang termasuk ke dalam cluster ini tergolong sebagai Everyday D Customer (urutan keempat dalam kelas Everyday Customer).
Kelas konsumen ini merupakan konsumen harian dengan
karakteristik utama frekuensi pembeliannya tinggi tetapi dengan jumlah nominal pembelian yang rendah (tingkat frequency tinggi tetapi monetary rendah).
87
2. Cluster ke-2 : Konsumen yang termasuk ke dalam cluster ini tergolong sebagai Superstar D Customers (urutan keempat dalam kelas Superstar Customer), yaitu kelas konsumen yang dianggap paling potensial karena memiliki tingkat recency, frequency, dan monetary yang tinggi. 3. Cluster ke-3 : Konsumen yang termasuk ke dalam cluster ini tergolong sebagai Superstar A Customers (urutan pertama dalam kelas Superstar Customer), sehingga dapat dikatakan konsumen yang berada dalam kelas ini merupakan konsumen yang paling potensial. 4. Cluster ke-4 : Konsumen yang termasuk ke dalam cluster ini tergolong sebagai Dormant F Customers, yaitu konsumen dengan tingkatan terendah dalam kelas Dormant Customers. Dormant Customers merupakan konsumen dengan profil yang paling buruk jika dibandingkan dengan segmen yang lain, karena memiliki tingkat recency, frequency dan monetary yang paling rendah.
Hasil proses clustering dengan 5 cluster menggunakan algoritma FCM ditunjukkan pada gambar 5.7. Proses clustering dihentikan pada iterasi ke-100 dengan nilai fungsi objektif = 2.314.452.974.244.296.200
88
Gambar 5.7. Hasil Clustering Menggunakan FCM dengan 5 cluster Tabel 5.7 menunjukkan koordinat titik pusat setiap cluster yang terbentuk dari proses clustering dan persentase jumlah anggota tiap cluster.
No Cluster 1 2 3 4 5
Tabel 5.7 Koordinat Titik Pusat Cluster (Jumlah Cluster = 5) Persentase Recency Frequency Monetary jumlah (hari) (per periode) (rupiah) anggota 4,01 % 4,6821 135,7800 592.624.007,05 1,41 % 3,5377 234,7122 1.893.776.868,40 2,60 % 3,6958 135,1146 1.168.380.234,37 16,83 % 7,5097 70,5593 202.953.104,07 75,15 % 77,8566 14,6787 21.290.251,51
Tabel 5.8 menunjukkan kelas konsumen yang ditentukan melalui proses segmentasi untuk masing-masing cluster dan derajat keanggotaan untuk kelas konsumen tersebut. Tampilan hasil segmentasi ditunjukkan pada gambar 5.8.
89
Tabel 5.8 Kelas Konsumen Setiap Cluster (Jumlah Cluster = 5) Fungsi Fungsi Fungsi Fungsi No Kelas Keanggotaan Keanggotaan Keanggotaan Keanggotaan Cluster Konsumen Kelas Recency Frequency Monetary Konsumen 1 K5 1 1 1 1 2 K9 1 1 1 1 3 K6 1 1 1 1 4 K4 0,9636 0,5093 0,7426 0,6023 5 K19 1 1 1 1
Gambar 5.8. Tampilan Hasil Segmentasi 5 Cluster yang Diperoleh dari FCM Berikut ini adalah profil dari masing-masing kelas konsumen : 1. Cluster ke-1 : Konsumen yang termasuk ke dalam cluster ini tergolong sebagai Golden D Customers (urutan keempat dalam kelas Golden Customer), yaitu konsumen dengan tingkat monetary dan frequency yang cukup tinggi. Golden Customer merupakan konsumen yang dianggap potensial setelah Superstar Customer.
90
2. Cluster ke-2 : Konsumen yang termasuk ke dalam cluster ini tergolong sebagai Superstar A Customers (urutan pertama dalam kelas Superstar Customer), sehingga dapat dikatakan konsumen yang berada dalam kelas ini merupakan konsumen yang paling potensial. 3. Cluster ke-3 : Konsumen yang termasuk ke dalam cluster ini tergolong sebagai Superstar D Customers (urutan keempat dalam kelas Superstar Customer), yaitu kelas konsumen yang dianggap paling potensial karena memiliki tingkat recency, frequency, dan monetary yang tinggi. 4. Cluster ke-4 : Konsumen yang termasuk ke dalam cluster ini tergolong sebagai Everyday D Customer (urutan keempat dalam kelas Everyday Customer).
Kelas konsumen ini merupakan konsumen harian dengan
karakteristik utama frekuensi pembeliannya tinggi tetapi dengan jumlah nominal pembelian yang rendah (tingkat frequency tinggi tetapi monetary rendah). 5. Cluster ke-5 : Konsumen yang termasuk ke dalam cluster ini tergolong sebagai Dormant F Customers, yaitu konsumen dengan tingkatan terendah dalam kelas Dormant Customers. Dormant Customers merupakan konsumen dengan profil yang paling buruk jika dibandingkan dengan segmen yang lain, karena memiliki tingkat recency, frequency dan monetary yang paling rendah.
Hasil proses clustering dengan 6 cluster menggunakan algoritma FCM ditunjukkan pada gambar 5.9. Proses clustering dihentikan pada iterasi ke-100 dengan nilai fungsi objektif = 1.902.089.956.522.725.900
91
Gambar 5.9. Hasil Clustering Menggunakan FCM dengan 6 cluster Tabel 5.9 menunjukkan koordinat titik pusat setiap cluster yang terbentuk dari proses clustering dan persentase jumlah anggota tiap cluster.
No Cluster 1 2 3 4 5 6
Tabel 5.9 Koordinat Titik Pusat Cluster (Jumlah Cluster = 6) Persentase Recency Frequency Monetary jumlah (hari) (per periode) (rupiah) anggota 2,40 % 3,7954 132,4681 1.185.546.427,97 16,83 % 11,1267 62,9324 139.419.649,49 69,34 % 82,9895 12,4752 16.151.492,22 6,21 % 5,0828 75,0337 314.373.980,65 3,81 % 3,5138 157,3896 660.645.411,86 1,41 % 2,9526 239,1661 1.849.231.138,50
Tabel 5.10 menunjukkan kelas konsumen yang ditentukan melalui proses segmentasi untuk masing-masing cluster dan derajat keanggotaan untuk kelas konsumen tersebut. Tampilan hasil segmentasi ditunjukkan pada gambar 5.10.
92
Tabel 5.10 Kelas Konsumen Setiap Cluster (Jumlah Cluster = 6) Fungsi Fungsi Fungsi Fungsi No Kelas Keanggotaan Keanggotaan Keanggotaan Keanggotaan Cluster Konsumen Kelas Recency Frequency Monetary Konsumen 1 K6 1 1 1 1 2 K1 0,7052 0,6178 0,9015 0,6232 3 K19 1 1 1 1 4 K5 1 0,5839 0,5359 0,5594 5 K5 1 0,7102 0,8484 0,7762 6 K9 1 1 1 1
Gambar 5.10. Tampilan Hasil Segmentasi 6 Cluster yang Diperoleh dari FCM Berikut ini adalah profil dari masing-masing kelas konsumen : 1. Cluster ke-1 : Konsumen yang termasuk ke dalam cluster ini tergolong sebagai Superstar D Customers (urutan keempat dalam kelas Superstar Customer), yaitu kelas konsumen yang dianggap paling potensial karena memiliki tingkat recency, frequency, dan monetary yang tinggi. 2. Cluster ke-2 : Konsumen yang termasuk ke dalam cluster ini tergolong sebagai Dormant D Customers (urutan keempat dalam kelas Dormant
93
Customer), yaitu konsumen dengan tingkat monetary dan frequency yang yang paling rendah, tetapi tingkat recency yang tinggi. 3. Cluster ke-3 : Konsumen yang termasuk ke dalam cluster ini tergolong sebagai Dormant F Customers, yaitu konsumen dengan tingkatan terendah dalam kelas Dormant Customers. Dormant Customers merupakan konsumen dengan profil yang paling buruk jika dibandingkan dengan segmen yang lain, karena memiliki tingkat recency, frequency dan monetary yang paling rendah. 4. Cluster ke-4 dan 5 : Konsumen yang termasuk ke dalam cluster ini tergolong sebagai Golden D Customers (urutan keempat dalam kelas Golden Customer), yaitu konsumen dengan tingkat monetary dan frequency yang cukup tinggi. Golden Customer merupakan konsumen yang dianggap potensial setelah Superstar Customer. 5. Cluster ke-6 : Konsumen yang termasuk ke dalam cluster ini tergolong sebagai Superstar A Customers (urutan pertama dalam kelas Superstar Customer), sehingga dapat dikatakan konsumen yang berada dalam kelas ini merupakan konsumen yang paling potensial.
5.1.2 Algoritma Fuzzy Subtractive (FS) Clustering Proses clustering menggunakan algoritma Fuzzy Subtractive diuji coba dengan berbagai nilai jari-jari atau radii. Proses clustering dilakukan dengan menetapkan nilai awal sebagai berikut (Gelley, 2000) : 1. Jari-jari atau radii, biasanya nilai yang terbaik untuk radii berada antara 0,2 dan 0,5. 2. Acccept ratio
= 0,5
94
3. Reject ratio
= 0,15
4. Squash factor
= 1,25
Uji coba clustering dimulai dengan nilai radii = 0,5 yang menghasilkan 2 cluster. Hasil proses clustering ditunjukkan pada gambar 5.11.
Gambar 5.11. Tampilan Hasil Clustering Menggunakan FS dengan Nilai Radii=0,5 Proses clustering dengan nilai radii = 0,5 menghasilkan nilai sigma untuk ketiga dimensi data, yaitu : 1. sigma recency = 63,1093 2. sigma frequency = 80,7869 3. sigma monetary = 579.230.000 Tabel 5.11 menunjukkan koordinat titik pusat setiap cluster yang terbentuk dari proses clustering dan persentase jumlah anggota tiap cluster.
Tabel 5.11
95
No Cluster 1 2
Koordinat Titik Pusat Cluster (Radii = 0,5) Persentase Recency Frequency jumlah (hari) (per periode) anggota 81,96 % 21 24 18,04 % 231 1
Monetary (rupiah) 71.253.800,00 5.100.000,00
Tabel 5.12 menunjukkan kelas konsumen yang ditentukan melalui proses segmentasi untuk masing-masing cluster dan derajat keanggotaan untuk kelas konsumen tersebut. Tampilan hasil segmentasi ditunjukkan pada gambar 5.12. Tabel 5.12 Kelas Konsumen Setiap Cluster (Radii = 0,5 , Jumlah Cluster = 2) Fungsi Fungsi Fungsi Fungsi No Kelas Keanggotaan Keanggotaan Keanggotaan Keanggotaan Cluster Konsumen Kelas Recency Frequency Monetary Konsumen 1 K10 1 1 1 1 2 K19 1 1 1 1
Gambar 5.12. Tampilan Hasil Segmentasi 2 Cluster yang Diperoleh dari FS
96
Dari hasil segmentasi dibentuk kelas konsumen berdasarkan nilai recency, frequency, dan monetary dari masing-masing pusat cluster. Berikut ini adalah profil dari masing-masing kelas konsumen : 1. Cluster ke-1 : Konsumen yang termasuk ke dalam cluster ini tergolong sebagai Dormant E Customers (urutan kelima dalam kelas Dormant Customer), yaitu konsumen dengan tingkat recency, monetary dan frequency yang rendah. 2. Cluster ke-2 : Konsumen yang termasuk ke dalam cluster ini tergolong sebagai Dormant F Customers, yaitu konsumen dengan tingkatan terendah dalam kelas Dormant Customers. Dormant Customers merupakan konsumen dengan profil yang paling buruk jika dibandingkan dengan segmen yang lain, karena memiliki tingkat recency, frequency dan monetary yang paling rendah. Kelas konsumen cluster ke-2 memiliki profil yang lebih buruk dibandingkan cluster ke-1 karena memiliki tingkat recency yang lebih rendah dibandingkan Dormant E Customer meskipun tingkat frequency dan monetary dari kelas ini sama dengan Dormant F Customer.
Proses clustering dengan nilai radii = 0,22 menghasilkan 3 cluster. Hasil proses clustering ditunjukkan pada gambar 5.13.
97
Gambar 5.13. Tampilan Hasil Clustering Menggunakan FS dengan Nilai Radii=0,22 Proses clustering dengan nilai radii = 0,22 menghasilkan nilai sigma sebagai berikut : 1. sigma recency = 27,7681 2. sigma frequency = 35,5463 3. sigma monetary = 254.860.000 Tabel 5.13 menunjukkan koordinat titik pusat setiap cluster yang terbentuk dari proses clustering dan persentase jumlah anggota tiap cluster.
No Cluster 1 2 3
Tabel 5.13 Koordinat Titik Pusat Cluster (Radii = 0,22) Persentase Recency Frequency Monetary jumlah (hari) (per periode) (rupiah) anggota 74,55 % 16 22 69.468.000,00 12,02 % 120 4 954.800,00 13,42 % 228 3 5.230.000,00
98
Tabel 5.14 menunjukkan kelas konsumen yang ditentukan melalui proses segmentasi untuk masing-masing cluster dan derajat keanggotaan untuk kelas konsumen tersebut. Tampilan hasil segmentasi ditunjukkan pada gambar 5.14. Tabel 5.14 Kelas Konsumen Setiap Cluster (Radii = 0,22 , Jumlah Cluster = 3) Fungsi Fungsi Fungsi Fungsi No Kelas Keanggotaan Keanggotaan Keanggotaan Keanggotaan Cluster Konsumen Kelas Recency Frequency Monetary Konsumen 1 K10 0,6429 1 1 0,8018 2 K19 1 1 1 1 3 K19 1 1 1 1
Gambar 5.14. Tampilan Hasil Segmentasi 3 Cluster yang Diperoleh dari FS Berikut ini adalah profil dari masing-masing kelas konsumen : 1. Cluster ke-1 : Konsumen yang termasuk ke dalam cluster ini tergolong sebagai Dormant E Customers (urutan kelima dalam kelas Dormant Customer), yaitu konsumen dengan tingkat recency, monetary dan frequency yang rendah.
99
2. Cluster ke-2 dan 3 : Konsumen yang termasuk ke dalam cluster ini tergolong sebagai Dormant F Customers, yaitu konsumen dengan tingkatan terendah dalam kelas Dormant Customers. Dormant Customers merupakan konsumen dengan profil yang paling buruk jika dibandingkan dengan segmen yang lain, karena memiliki tingkat recency, frequency dan monetary yang paling rendah. Kelas konsumen cluster ke-2 memiliki profil yang lebih buruk dibandingkan cluster ke-1 karena memiliki tingkat recency yang lebih rendah dibandingkan Dormant E Customer meskipun tingkat frequency dan monetary dari kelas ini sama dengan Dormant F Customer.
Proses clustering dengan nilai radii = 0,15 menghasilkan 4 cluster. Hasil proses clustering ditunjukkan pada gambar 5.15.
Gambar 5.15. Tampilan Hasil Clustering Menggunakan FS dengan Nilai Radii=0,15 Proses clustering dengan nilai radii = 0,15 menghasilkan nilai sigma sebagai berikut :
100
1. sigma recency = 18,9328 2. sigma frequency = 24,2361 3. sigma monetary = 173.770.000 Tabel 5.15 menunjukkan koordinat titik pusat setiap cluster yang terbentuk dari proses clustering dan persentase jumlah anggota tiap cluster.
No Cluster 1 2 3 4
Tabel 5.15 Koordinat Titik Pusat Cluster (Radii = 0,15) Persentase Recency Frequency Monetary jumlah (hari) (per periode) (rupiah) anggota 41,08 % 13 16.0000 59.218.000,00 12,22 % 61 3 16.125.350,00 24,65 % 0 73 156.106.750,00 22,04 % 128 6 9.088.100,00
Tabel 5.16 menunjukkan kelas konsumen yang ditentukan melalui proses segmentasi untuk masing-masing cluster dan derajat keanggotaan untuk kelas konsumen tersebut. Tampilan hasil segmentasi ditunjukkan pada gambar 5.16. Tabel 5.16 Kelas Konsumen Setiap Cluster (Radii = 0,15 , Jumlah Cluster = 4) Fungsi Fungsi Fungsi Fungsi No Kelas Keanggotaan Keanggotaan Keanggotaan Keanggotaan Cluster Konsumen Kelas Recency Frequency Monetary Konsumen 1 K1 0,5714 1 1 0,7559 2 K19 1 1 1 1 3 K4 1 0,5500 0,8597 0,6876 4 K19 1 1 1 1
Berikut ini adalah profil dari masing-masing kelas konsumen :
101
1. Cluster ke-1 : Konsumen yang termasuk ke dalam cluster ini tergolong sebagai Dormant D Customers (urutan kempat dalam kelas Dormant Customer), yaitu konsumen dengan tingkat recency, monetary dan frequency yang rendah. 2. Cluster ke-2 dan 4 : Konsumen yang termasuk ke dalam cluster ini tergolong sebagai Dormant F Customers, yaitu konsumen dengan tingkatan terendah dalam kelas Dormant Customers. Dormant Customers merupakan konsumen dengan profil yang paling buruk jika dibandingkan dengan segmen yang lain, karena memiliki tingkat recency, frequency dan monetary yang paling rendah. Kelas konsumen cluster ke-2 memiliki profil yang lebih buruk dibandingkan cluster ke-1 karena memiliki tingkat recency yang lebih rendah dibandingkan Dormant E Customer meskipun tingkat frequency dan monetary dari kelas ini sama dengan Dormant F Customer. 3. Cluster ke-3 : Konsumen yang termasuk ke dalam cluster ini tergolong sebagai Everyday D Customer (urutan keempat dalam kelas Everyday Customer). Kelas konsumen ini merupakan konsumen harian dengan karakteristik utama frekuensi pembeliannya tinggi tetapi dengan jumlah nominal pembelian yang rendah (tingkat frequency tinggi tetapi monetary rendah).
102
Gambar 5.16. Tampilan Hasil Segmentasi 4 Cluster yang Diperoleh dari FS
Proses clustering dengan nilai radii = 0,1 menghasilkan 5 cluster. Hasil proses clustering ditunjukkan pada gambar 5.17. Proses clustering dengan nilai radii = 0.1 menghasilkan nilai sigma sebagai berikut : 1. sigma recency = 12,6219 2. sigma frequency = 16,1574 3. sigma monetary = 115.850.000
103
Gambar 5.17. Tampilan Hasil Clustering Menggunakan FS dengan Nilai Radii=0,1 Tabel 5.17 menunjukkan koordinat titik pusat setiap cluster yang terbentuk dari proses clustering dan persentase jumlah anggota tiap cluster.
No Cluster 1 2 3 4 5
Tabel 5.17 Koordinat Titik Pusat Cluster (Radii = 0,1) Persentase Recency Frequency Monetary jumlah (hari) (per periode) (rupiah) anggota 27,66 % 13 12 32.225.000,00 33,26 % 5 45 103.825.400,00 16,23 % 46 6 3.711.500,00 9,42 % 117 3 989.300,00 13,43 % 231 1 5.100.000,00
Tabel 5.18 menunjukkan kelas konsumen yang ditentukan melalui proses segmentasi untuk masing-masing cluster dan derajat keanggotaan untuk kelas konsumen tersebut. Tampilan hasil segmentasi ditunjukkan pada gambar 5.18.
104
Tabel 5.18 Kelas Konsumen Setiap Cluster (Radii = 0,1, Jumlah Cluster = 5) Fungsi Fungsi Fungsi Fungsi No Kelas Keanggotaan Keanggotaan Keanggotaan Keanggotaan Cluster Konsumen Kelas Recency Frequency Monetary Konsumen 1 K1 0,5714 1 1 0,7559 2 K1 1 0,9167 0,9904 0,9528 3 K19 1 1 1 1 4 K19 1 1 1 1 5 K19 1 1 1 1
Gambar 5.18. Tampilan Hasil Segmentasi 5 Cluster yang Diperoleh dari FS Berikut ini adalah profil dari masing-masing kelas konsumen : 1. Cluster ke-1 dan 2 : Konsumen yang termasuk ke dalam cluster ini tergolong sebagai Dormant D Customers (urutan kempat dalam kelas Dormant Customer), yaitu konsumen dengan tingkat recency, monetary dan frequency yang rendah. 2. Cluster ke-3, 4 dan 5 : Konsumen yang termasuk ke dalam cluster ini tergolong sebagai Dormant F Customers, yaitu konsumen dengan tingkatan terendah dalam kelas Dormant Customers. Dormant Customers merupakan
105
konsumen dengan profil yang paling buruk jika dibandingkan dengan segmen yang lain, karena memiliki tingkat recency, frequency dan monetary yang paling rendah. Kelas konsumen cluster ini memiliki profil yang lebih buruk dibandingkan cluster ke-1 dan 2 karena memiliki tingkat recency yang lebih rendah dibandingkan Dormant D Customer meskipun tingkat frequency dan monetary dari kelas ini sama dengan Dormant F Customer.
Proses clustering dengan nilai radii = 0,09 menghasilkan 6 cluster. Hasil proses clustering ditunjukkan pada gambar 5.19.
Gambar 5.19. Tampilan Hasil Clustering Menggunakan FS dengan Nilai Radii=0,09 Proses clustering dengan nilai radii = 0,09 menghasilkan nilai sigma sebagai berikut : 1. sigma recency = 10,0975 2. sigma frequency = 12,9259
106
3. sigma monetary = 92.677.000 Tabel 5.19 menunjukkan koordinat titik pusat setiap cluster yang terbentuk dari proses clustering dan persentase jumlah anggota tiap cluster.
No Cluster 1 2 3 4 5 6
Tabel 5.20 Koordinat Titik Pusat Cluster (Radii = 0,09) Persentase Recency Frequency Monetary jumlah (hari) (per periode) (rupiah) anggota 24,85 % 13 12 32.225.000,00 12,62 % 40 7 6.360.000,00 34,47 % 4 41 78.688.150,00 6,01 % 69 6 24.097.300,00 13,43 % 230 1 3.250.000,00 8,62 % 117 3 989.300,00
Tabel 5.20 menunjukkan kelas konsumen yang ditentukan melalui proses segmentasi untuk masing-masing cluster dan derajat keanggotaan untuk kelas konsumen tersebut. Tampilan hasil segmentasi ditunjukkan pada gambar 5.20. Tabel 5.20 Kelas Konsumen Setiap Cluster (Radii = 0,09, Jumlah Cluster = 6) Fungsi Fungsi Fungsi Fungsi No Kelas Keanggotaan Keanggotaan Keanggotaan Keanggotaan Cluster Konsumen Kelas Recency Frequency Monetary Konsumen 1 K1 0,5714 1 1 0,7559 2 K19 0,7143 1 1 0,8452 3 K1 1 0,9833 1 0,9916 4 K19 1 1 1 1 5 K19 1 1 1 1 6 K19 1 1 1 1
107
Gambar 5.20. Tampilan Hasil Segmentasi 6 Cluster yang Diperoleh dari FS Berikut ini adalah profil dari masing-masing kelas konsumen : 1. Cluster ke-1 dan 3 : Konsumen yang termasuk ke dalam cluster ini tergolong sebagai Dormant D Customers (urutan kempat dalam kelas Dormant Customer), yaitu konsumen dengan tingkat recency, monetary dan frequency yang rendah. 2.
Cluster ke-2, 4, 5 dan 6 : Konsumen yang termasuk ke dalam cluster ini tergolong sebagai Dormant F Customers, yaitu konsumen dengan tingkatan terendah dalam kelas Dormant Customers. Dormant Customers merupakan konsumen dengan profil yang paling buruk jika dibandingkan dengan segmen yang lain, karena memiliki tingkat recency, frequency dan monetary yang paling rendah. Kelas konsumen cluster ke-2 memiliki profil yang lebih buruk dibandingkan cluster ke-1 karena memiliki tingkat recency yang lebih rendah dibandingkan Dormant E Customer meskipun tingkat frequency dan monetary dari kelas ini sama dengan Dormant F Customer.
108
5.2
Analisis Cluster Dari hasil uji coba yang dilakukan menggunakan data transaksi tahun
2008, ada beberapa hal yang dapat dianalisis. Untuk menentukan jumlah cluster yang memiliki nilai fitness terbaik digunakan indeks pengukuran validitas Modified Partition Coeficient (MPC) dan Classification Entropy (CE). Tabel 5.21 menunjukkan nilai indeks MPC dan CE untuk setiap jumlah cluster yang diujikan pada algoritma Fuzzy C-Means (FCM) dan Fuzzy Subtractive (FS) Clustering. Bentuk grafis nilai indeks MPC dan CE untuk algoritma Fuzzy C-Means dan Fuzzy Subtractive Clustering ditunjukkan pada Gambar 5.21 dan 5.22. Tabel 5.21 Indeks MPC dan CE pada Algoritma FCM dan FS Clustering Jumlah Cluster 2 3 4 5 6 Indeks FCM 0,9353 0,8981 0,8644 0,8640 0,8309 MPC FS 0,3194 0,1662 0,2017 0,1829 0,1541 Indeks FCM 0,0597 0,1280 0,1901 0,2119 0,2777 CE FS 0,1817 0,2115 0,3432 0,3142 0,2832 Nilai indeks MPC untuk masing-masing jumlah cluster pada algoritma Fuzzy CMeans lebih besar dibandingkan Fuzzy Subtractive Clustering. Sedangkan nilai indeks CE untuk masing-masing jumlah cluster pada algoritma Fuzzy C-Means lebih kecil dibandingkan Fuzzy Subtractive Clustering. Dari hasil perbandingan tersebut algoritma Fuzzy C-Means memiliki kinerja yang lebih baik dibandingkan algoritma Fuzzy Subtractive Clustering.
109
Gambar 5.21. Grafik Indeks MPC dan CE untuk Algoritma FCM
Gambar 5.22. Grafik Indeks MPC dan CE untuk Algoritma FS Dari tabel 5.21, indeks MPC yang terbesar pada algoritma Fuzzy C-Means Clustering maupun algoritma Fuzzy Subtractive Clustering berada pada proses clustering dengan jumlah cluster = 2. Sehingga berdasarkan indeks MPC, jumlah
110
cluster terbaik adalah 2 untuk kedua algoritma. Indeks CE yang terkecil pada algoritma Fuzzy C-Means dan Fuzzy Subtractive Clustering berada pada proses clustering dengan jumlah cluster = 2. Sehingga berdasarkan indeks CE, jumlah cluster terbaik menurut kedua algoritma tersebut adalah 2. Data yang digunakan untuk proses mining adalah data transaksi penjualan dari tahun 2006 sampai 2010. Proses segmentasi konsumen dengan model Fuzzy RFM menghasilkan kelas konsumen yang berbeda pada setiap tahunnya. Perbandingan kelas konsumen per tahun ditunjukkan pada Tabel 5.22 Tabel 5.22 Perbandingan Kelas Konsumen Per Tahun Customer No. C0020 C0051 C0061 C0138 C0205
Algoritma FCM FS FCM FS FCM FS FCM FS FCM FS
2006 Golden D Dormant E Dormant F Dormant E Golden D Dormant E Golden E Dormant E Dormant F Dormant E
2007 Superstar A Dormant E Dormant F Dormant E Superstar A Dormant E Superstar A Dormant E Superstar A Dormant E
Tahun 2008 Superstar D Dormant E Dormant F Dormant E Superstar D Dormant E Superstar D Dormant E Superstar C Dormant E
2009 Superstar D Dormant E Superstar D Dormant E Superstar D Dormant E Superstar D Dormant E Superstar C Dormant E
2010 Superstar E Dormant E Superstar E Dormant E Dormant F Dormant E Superstar E Dormant E Dormant F Dormant E
Gambar 5.23 sampai 5.31 menunjukkan perbandingan hasil segmentasi konsumen untuk masing-masing konsumen per tahun dalam bentuk grafis. Jumlah cluster yang digunakan untuk proses clustering menggunakan algoritma Fuzzy C-Means dan Fuzzy Subtractive adalah 2. Jika dibandingkan, hasil segmentasi konsumen dari kedua algoritma clustering yang digunakan memberikan hasil yang berbeda.
111
(a)
(b) Gambar 5.23. Perbandingan Kelas Konsumen Hasil Clustering Menggunakan Algoritma FCM Clustering (Customer No. = C0020) dengan Bentuk Grafik (a) General (b) Detail
112
(a)
(b)
Gambar 5.24. Perbandingan Kelas Konsumen Hasil Clustering Menggunakan Algoritma FS Clustering (Customer No. = C0020) dengan Bentuk Grafik (a) General (b) Detail
113
(a)
(b) Gambar 5.25. Perbandingan Kelas Konsumen Hasil Clustering Menggunakan Algoritma FCM Clustering (Customer No. = C0051) dengan Bentuk Grafik (a) General (b) Detail
114
(a)
(b) Gambar 5.26. Perbandingan Kelas Konsumen Hasil Clustering Menggunakan Algoritma FS Clustering (Customer No. = C0051) dengan Bentuk Grafik (a) General (b) Detail
115
(a)
(b) Gambar 5.27. Perbandingan Kelas Konsumen Hasil Clustering Menggunakan Algoritma FCM Clustering (Customer No. = C0061) dengan Bentuk Grafik (a) General (b) Detail
116
(a)
(b) Gambar 5.28. Perbandingan Kelas Konsumen Hasil Clustering Menggunakan Algoritma FS Clustering (Customer No. = C0061) dengan Bentuk Grafik (a) General (b) Detail
117
(a)
(b) Gambar 5.29. Perbandingan Kelas Konsumen Hasil Clustering Menggunakan Algoritma FCM Clustering (Customer No. = C0138) dengan Bentuk Grafik (a) General (b) Detail
118
(a)
(b) Gambar 5.30. Perbandingan Kelas Konsumen Hasil Clustering Menggunakan Algoritma FS Clustering (Customer No. = C0138) dengan Bentuk Grafik (a) General (b) Detail
119
(a)
(b) Gambar 5.31. Perbandingan Kelas Konsumen Hasil Clustering Menggunakan Algoritma FCM Clustering (Customer No. = C0205) dengan Bentuk Grafik (a) General (b) Detail
120
(a)
(b) Gambar 5.32. Perbandingan Kelas Konsumen Hasil Clustering Menggunakan Algoritma FS Clustering (Customer No. = C0205) dengan Bentuk Grafik (a) General (b) Detail
121
Grafik perbandingan kelas konsumen ini dapat digunakan oleh pihak perusahaan retail untuk mengetahui pola-pola pembelian konsumen yang terkait dengan perilaku konsumen. Grafik perbandingan kelas konsumen yang dapat digunakan adalah hasil segmentasi yang diperoleh dari hasil clustering dengan algoritma FCM. Hal ini disebabkan algoritma FCM memiliki kinerja yang lebih baik dibandingkan FS. Sebagai contoh konsumen dengan nomor C0020 dan C0138 termasuk konsumen potensial (tergolong Golden dan Superstar Customer) yang memiliki pola pembelian yang stabil. Konsumen dengan nomor C0051 termasuk konsumen yang memiliki peningkatan grafik kelas konsumen yang cukup signifikan yaitu dari kelas Dormant pada tahun 2006-2008 menjadi kelas Superstar pada tahun 2009-2010. Sedangkan konsumen dengan nomor C0061 dan C0205 mengalami penurunan dari kelas Superstar menjadi kelas Dormant. Khusus untuk konsumen-konsumen potensial dengan pola pembelian yang stabil dan cenderung meningkat, pihak manajemen perusahaan retail dapat memberikan potongan harga (discount) yang lebih tinggi dibandingkan konsumen, untuk meningkatkan loyalitas konsumen ini pada perusahaan. Kebijakan lain yang dapat diterapkan
adalah
meningkatkan
layanan
kepada
konsumen,
contohnya
pengiriman barang gratis. Sedangkan untuk konsumen yang mengalami penurunan kelas konsumen, pihak perusahaan retail dapat melakukan usaha-usaha untuk meningkatkan nilai pembelian. Proses ini merupakan implementasi dari penerapan CRM (Customer Relationship Management), yaitu mencakup proses analisa,
klasifikasi,
dan
segmentasi
konsumen
untuk
mengatur
dan
122
memaksimalkan nilai tambah konsumen, seperti halnya aset-aset lain dalam perusahaan (Zumstein, 2007). Anomali ditemukan pada proses segmentasi cluster hasil dari algoritma Fuzzy Subtractive. Konsumen yang seharusnya tergolong sebagai konsumen potensial (termasuk kelas Superstar atau Golden), dikelompokkan ke dalam Dormant Customer, yaitu konsumen dengan tingkat paling rendah. Tabel 5.23 menunjukkan beberapa konsumen yang mengalami anomali dengan nilai recency, frequency, dan monetary (RFM). Nilai RFM tersebut diambil dari transaksi periode tahun 2008. Tabel 5.23 Contoh Konsumen yang Mengalami Anomali pada Proses Penentuan Kelas Konsumen Customer No. C0061 C0138 C0205
Recency
Frequency 0 0 0
289 78 68
Monetary 1,621,323,550.00 1,538,869,000.00 1,078,489,100.00
Kelas Konsumen Dormant E Dormant E Dormant E
Jika dilihat dari nilai RFM ketiga konsumen tersebut dan berdasarkan domain nilai himpunan fuzzy pada tabel 3.8, ketiga konsumen tersebut termasuk konsumen yang potensial (Superstar Customer).
BAB VI KESIMPULAN DAN SARAN
6.1
Kesimpulan Dari penelitian yang telah dilakukan, maka dapat ditarik kesimpulan
sebagai berikut : 1. Algoritma Fuzzy Subtractive tidak dapat membentuk cluster yang tergolong Superstar dan Golden Customer. Sehingga dapat dikatakan algoritma Fuzzy Subtractive Clustering kurang mendukung proses data mining pada perusahaan retail untuk mendapatkan konsumen potensial. 2. Dari pengukuran validitas cluster menggunakan indeks Modified Partition Coefficient (MPC) dan Classification Entropy (CE), algoritma Fuzzy C-Means Clustering memiliki tingkat validitas lebih tinggi dibandingkan algoritma Fuzzy Subtractive Clustering. Sehingga dapat dikatakan algoritma Fuzzy CMeans Clustering memiliki kinerja yang lebih baik dibandingkan algoritma Fuzzy Subtractive Clustering dalam data mining di perusahaan retail. Jumlah cluster yang terbaik untuk algoritma Fuzzy C-Means Clustering dan Fuzzy Subtractive Clustering menurut indeks MPC dan CE adalah 2.
6.2
Saran Pengembangan simulasi aplikasi data mining dengan metode fuzzy ini
dapat dikembangkan dengan metode lain, misalnya dengan metode Jaringan Saraf Buatan sehingga dapat dibandingkan kinerja dari masing-masing metode untuk menghasilkan segmentasi konsumen yang terbaik. Dalam aplikasi ini digunakan
123
124
indeks pengukuran validitas cluster Classification Entropy yang menghasilkan indeks pengukuran yang cenderung monoton untuk setiap perubahan jumlah cluster. Sehingga, pada pengembangan aplikasi berikutnya dapat ditambahkan dengan metode pengukuran lain Dunn’s Index, Davies Bouldin’s Index, Separation Index, dan Fuzzy Hypervolume.
DAFTAR PUSTAKA Balasko, B., Abonyi, J., Feil, B.______. Fuzzy Clustering and Data Analysis Toolbox : For Use with Maltab. Department of Process Engineering University of Veszprem, Veszprem, Hungary. Berry, M.J.A., Linoff, G.S. 2004. Data Mining Techniques : For Marketing, Sales, and Customer Relationship Management. Second Edition. Wiley Publishing, Inc., Indianapolis, Indiana. Brown, S.A. 2000. Customer Relationship Management : A Strategic Imperative in the World of e-Business, Jhon Wiley and Sons Ltd, Canada. Chapman, P., Clinton, J., Kerber, R., Khabaza, T., Reinartz, T., Shearer, C., Wirth, R. 2000. CRISP-DM 1.0 : Step-by-Step Data Mining Guide. Tersedia di http://www.community.udayton.edu/provost/it/training/documents/SPSS_CRI SPWPlr.pdf. [diunduh : 10 Desember 2010]. Cox, E. 2005. Fuzzy Modelling and Genetic Algorithms for Data Mining and Explorations. Elsevier Inc., United States of America. Crespo, F., Weber, R. A Methodology for Dynamic Data Mining Based on Fuzzy Clustering. Fuzzy Sets and Systems 150 (2005) 267–284. CRISP-DM, Tersedia di http://www.crisp-dm.org, [diunduh : 24 Juli 2010]. Fayyad, U, Piatetsky-Shapiro, G. & Smyth, P., 1996, From Data Mining to Knowledge Discovery in Databases. AI Magazine 17(3), 37–54. Gelley, N., Jang, R. 2000. Fuzzy Logic Toolbox. Mathwork, Inc., USA. Hafez, A.M. Knowledge Discovery in Databases. Tersedia di http://faculty.ksu.edu.sa/ahafez/Selected%20Publications/Knowledge%20Disc overy%20in%Databases.doc. [diunduh : 1 Juni 2010]. Halkidi, M. Quality Assessment and Uncertainty Handling in Data Mining Process. Tersedia di http://www.edbt2000.unikonstanz.de/phdworkshop/papers/Halkidi.pdf. [diunduh : 25 Mei 2010]. Hammouda, K., Prof. Karaay, F. 2000. A Comparative Study of Data Clustering Techniques. University of Waterloo, Ontario, Canada.
126
127
Jain, A. K., Murthy, M. N. & Flynn, P. J. 1999. Data Clustering : A Review. ACM Computing Surveys, Vol. 31, No. 3. Jansen, S.M.H. 2007. “Customer Segmentation and Customer Profiling for a Mobile Telecommunications Company Based on Usage Behavior : A Vodafone Case Study” (thesis). Maastricht : University of Maastricht. Kimball, R. 2004. The Data Warehouse ETL Toolkit. Wiley Publishing Inc. Klawonn, F. 2004. Fuzzy Clustering : Insights and a New Approach. Mathware & Soft Computing 11 (2004) 125-142. Klir, G. J., Yuan, B. 1995. Fuzzy Sets and Fuzzy Logic : Theory and Applications. Prentice-Hall International, Inc. New Jersey, USA. Kruse, R., Nauck, D., Borgelt, C.________, Data Mining with Fuzzy Methods : Status and Perspectives. Department of Knowledge Processing and Language Engineering, Otto-von-Guericke-University of Magdeburg, Germany Myatt, G.J. 2007. A Practical Guide to Exploratory Data Analysis and Data Mining. John Wiley & Sons Inc., United States of America. Nakkrasae, S., Sophatsathit, P. & Edwards, W. R. Jr. 2004. Fuzzy Substractive Clustering Based Indexing Approach for Software Components Classification. International Journal of Computer & Information Science, Vol. 5, No. 1. Ngai, E.W.T., Xiu, L., Chau, D.C.K., 2008. Application of Data Mining Techniques in Customer Relationship Management : A Literature Review and Classification. Expert Systems with Applications 36 (2009) 2592–2602. Prabhu, S., Venatesan, N. 2007. Data Mining and Warehousing. New Age International (P) Limited, Publishers. Rao, V.S., Vidyavathi, S. 2009. Comparative Investigations And Performance Analysis of FCM and MFPCM Algorithms on Iris Data. Indian Journal of Computer Science and Engineering Vol 1 No 2, 145-151. Rokach, L., 2010. Using Fuzzy Logic in Data Mining. In : Maimon, O., Rokach, L., editors. Data Mining and Knowledge Discovery Handbook. Second Edition. London : Springer.
128
Salman, M.A, Ali, S.H. 2007. Knowledge Discovery in Data Mining Using Fuzzy c-Means Model and Genetic Programming. 4th International Conference: Sciences of Electronic,Technologies of Information and Telecommunications, Tunisia. Sassi, M., Grissa, A., & Ounell, H. 2007 . Interpreting Fuzzy Clustering Results based on Fuzzy Formal Concept Analysis. IEEE Fuzzy System Conference. Simha, J.B., Iyengar, S.S._____. Customer Value Analysis with Fuzzy Data Mining. Proceedings of the International Conference on Cognition and Recognition. Sumathi, S., Sivanandam, S.N. 2006. Introduction to Data Mining and its Applications. Spinger, Verlag Berlin Heidelberg. Swift, R.S. 2000. Accelerating Customer Relationships – Using CRM and Relationship Technologies, Prentice Hall Inc. Tama, B.A. 2009. Implementasi Teknik Data Mining di dalam Konsep Customer Relationship Management (CRM). Konferensi Nasional Sistem dan Informatika 2009, Bali, November 14, 2009. KNS&I09-011. Tan, P.N., Steinbach, M. & Kumar, V. 2006. Introduction to Data Mining. Pearson Education, Inc. Thearling, K. 2000. An Introduction to Data Mining, Tersedia di : http://www.thearling.com/text/dmwhite/dmwhite.htm. [diunduh : 18 Nopember 2010]. Thomas, B., Raju, G., 2009. Fuzzy Clustering Method for Outlier Detection in Data Mining, International Journal of Recent Trends in Engineering, Vol.1, No.2. Todman, C. 2001. Designing a Data Warehouse – Supporting Customer Relationship Management, Hewlett Packard. Tsiptsis, K, Chorianopoulos, A. 2009. Data Mining Techniques in CRM. John Wiley and Sons, Ltd., Publication. United Kingdom.
A
Wu, K., Yang, M. 2005. A Cluster Validity Index for Fuzzy Clustering. Pattern Recognition Letter 26, pp. 1275-1291.
129
Xu, M., Walton, J. 2005. Gaining Customer Knowledge Through Analytical CRM, Industrial Management & Data System, Vol.105 No.7. pp 955-977. Yan, J., Power, J., 1994. Using Fuzzy Logic (Toward Intelligent System). Prentice Hall, New York. Zumstein, D. 2007. “Customer Performance Measurement : Analysis of the Benefit of a Fuzzy Classification Approach in Customer Relationship Management” (thesis). Switzerland : University of Fribourg.