Seminar Nasional Teknologi Informasi dan Komunikasi 2016 (SENTIKA 2016) Yogyakarta, 18-19 Maret 2016
ISSN: 2089-9815
PENERAPAN DATA MINING PEMAKAIAN AIR PELANGGAN UNTUK MENENTUKAN KLASIFIKASI POTENSI PEMAKAIAN AIR PELANGGAN BARU DI PDAM TIRTA RAHARJA MENGGUNAKAN ALGORITMA K-MEANS Gunawan Abdillah, Firman Ananda Putra, Faiza Renaldi Program Studi Informatika, Fakultas Matematika dan Ilmu Pengetahuan Alam, Universitas Jenderal Achmad Yani Jl. Terusan Jenderal Sudirman, PO BOX 148 Cimahi, Jawa Barat, Indonesia ABSTRAKS Rekomendasi yang dibuat oleh PDAM (Perusahaan Daerah Air Minum) Tirta Raharja untuk mengelompokkan dan memprediksi potensi pendapatan dan pemakaian air calon pelanggan baru sangat berpengaruh pada performa dan kemajuan PDAM. Namun, karena banyaknya kriteria untuk rekomendasi pengevaluasian potensi pendapatan dan pemakaian air calon pelanggan baru dari PDAM akan menghasilkan kombinasi kriteria yang sangat banyak dan mengkonsumsi waktu yang tidak sedikit. Berdasarkan permasalahan tersebut, PDAM membutuhkan suatu aplikasi komputer yang dapat mengcluster/mengelompokkan data menggunakan Data Mining dengan metode K-Means untuk rekomendasi pengevaluasian potensi pendapatan dan pemakaian air calon pelanggan baru. Aplikasi yang dibangun akan memberikan rekomendasi pengevaluasian potensi pendapatan dan pemakaian air calon pelanggan baru PDAM disesuaikan dengan kriteria pemakaian air pelanggan baru yang telah ditentukan oleh PDAM. Pada penelitian ini menggunakan metode K-Means dengan beberapa tahapan yaitu tahap pertama menentukan jumlah cluster (k) pada data set. Tahap kedua menentukan nilai pusat (centroid). Tahap ketiga pada masing-masing record, hitung jarak terdekat dengan centroid. Tahap keempat mengelompokan objek berdasarkan jarak ke centroid terdekat. Tahap kelima mengulangi langkah ke-2, lakukan iterasi hingga centroid bernilai optimal. Adapun hasil uji coba menunjukkan bahwa penerapan data mining pemakaian air pelanggan dengan algoritma ini memiliki penilaian fungsi-fungsi yang ada pada sistem ini yaitu 95,80% sistem dapat berjalan. Kata Kunci: kriteria, data mining, K-Means satu atau lebih cluster/kelompok. Beberapa penelitian telah melakukan algoritma K-Means sebagai teknik clustering untuk mengelompokkan data nonhierarki (sekatan) yang berusaha mempartisi data yang ada ke dalam bentuk dua atau lebih kelompok sehingga data berkarakteristik sama dimasukkan ke dalam satu kelompok yang sama dan data yang berkarakteristik berbeda dikelompokkan kedalam kelompok yang lain[1]. Sementara penelitian lain menggunakan Data Mining dengan algoritma K-Means yang penerapannya dapat membantu untuk menganalisa data yang diperoleh dari transaksi[3]. Penelitian yang dilakukan yaitu membuat sistem yang dapat mengelompokkan dan memprediksi pendapatan calon pelanggan baru berdasarkan potensi pemakaian air menggunakan algoritma K-Means.
1. PENDAHULUAN 1.1 Pendahuluan PDAM (Perusahaan Daerah Air Minum) Tirta Raharja merupakan satu-satunya Badan Usaha Milik Daerah (BUMD) yang mempunyai tugas memberikan pelayanan air bersih untuk masyarakat Kota Cimahi. Pada saat ini PDAM Tirta Raharja terbagi dalam 5 cabang dan 20 kota pelayanan yang tersebar di Kabupaten Bandung Barat, Kota Cimahi dan Kabupaten Bandung. Saat ini PDAM kota Cimahi mampu melayani kurang lebih 60% dari seluruh penduduk kota Cimahi, sedangkan target pelayanan air bersih untuk skala kota besar adalah 80%. Hal ini terjadi karena kebutuhan air bersih dari tahun ke tahun selalu meningkat akibat dari penambahan jumlah penduduk, kemajuan teknologi serta peningkatan ekonomi masyarakat sedangkan debit air baku yang diolah PDAM selalu tetap. PDAM sebagai sebuah perusahaan memiliki kewajiban untuk meningkatkan keuntungan. Salah satu cara dalam meningkatkan keuntungan tersebut adalah dengan cara mendapatkan pelanggan baru yang berpotensi besar. Kriteria pelanggan baru yang berbeda-beda sehingga perlu dilakukan klasifikasi data pelanggan berdasarkan tingkat kelayakan yaitu sangat tinggi, tinggi, normal, rendah, dan sangat rendah. Algoritma K-Means merupakan salah satu algoritma/metode data clustering non hirarki yang berusaha mempartisi data yang ada ke dalam bentuk
1.2 Landasan Teori 1.2.1 Data Mining Data Mining merupakan proses ekstraksi data menjadi informasi yang sebelumnya belum tersampaikan, dengan teknik yang tepat proses data mining akan memberikan hasil yang optimal. Data mining lebih tepat disebut sebagai penambangan pengetahuan dari data, langkah-langkah penting dalam proses penambangan pengetahuan dari data secara umum sebagai berikut :
498
Seminar Nasional Teknologi Informasi dan Komunikasi 2016 (SENTIKA 2016) Yogyakarta, 18-19 Maret 2016
1.
Pembersihan data (data cleaning), yaitu proses menghapus data pengganggu (noise) yang dikatakan tidak konsisten atau tidak diperlukan. 2. Integrasi data (data integration), yaitu menggabungkan berbagai sumber data. 3. Pemilihan data (data selection), yaitu memilih data yang dipilih sesuai kebutuhan analisis. 4. Transformasi data (data transformation), yaitu proses transformasi data ke dalam format untuk diproses dan siap ditambang. 5. Penggalian data (data mining), yaitu menerapkan metode kecerdasan untuk ekstraksi pola. 6. Evaluasi pola (pattern evaluation), yaitu mengidentifikasi pola-pola yang menarik yang merepresentasikan pengetahuan. 7. Penyajian pola (knowledge presentation), yaitu teknik untuk memvisualisasikan pola pengetahuan ke pengguna. Data mining membantu perusahaan atau organisasi untuk mendapatkan pola dari data-data yang tersimpan di dalam basis data perusahaan. Pengetahuan yang diperoleh tersebut akan menjadi pedoman dalam mengambil tindakan-tindakan bisnis sebagai upaya pemeliharaan dan peningkatan tingkat kompetitif bisnis perusahaan. Walaupun sudah banyak perangkat lunak yang menawarkan kemampuan dalam proses data mining, keterlibatan manusia sangat dibutuhkan dalam setiap fase proses data mining itu sendiri. Pemahaman terhadap model statistik dan matematik yang digunakan dalam perangkat lunak sangat dituntut. Data mining adalah kegiatan menemukan pola yang menarik dari data dalam jumlah besar, data dapat disimpan dalam database, data warehouse, atau penyimpanan informasi lainnya. Data mining berkaitan dengan bidang ilmu-ilmu lain, seperti database sistem, data warehousing, statistik, machine learning, information retrieval, dan komputasi tingkat tinggi. Selain itu, data mining didukung oleh ilmu lain seperti neural network, pengenalan pola, spatial data analysis, image database, signal processing. Data mining didefinisikan sebagai proses menemukan pola-pola dalam data. Proses ini otomatis atau seringnya semiotomatis. Pola yang ditemukan harus penuh arti dan pola tersebut memberikan keuntungan, biasanya keuntungan secara ekonomi. Data yang dibutuhkan dalam jumlah besar. Karakteristik data mining adalah sebagai berikut: 1. Data mining berhubungan dengan penemuan sesuatu yang tersembunyi dan pola data tertentu yang tidak diketahui sebelumnya. 2. Data mining biasa menggunakan data yang sangat besar. Biasanya data yang besar digunakan untuk membuat hasil lebih dipercaya. 3. Data mining berguna untuk membuat keputusan yang kritis, terutama dalam strategi. Berdasarkan beberapa pengertian tersebut dapat ditarik kesimpulan bahwa data mining adalah suatu
ISSN: 2089-9815
teknik menggali informasi berharga yang terpendam atau tersembunyi pada suatu koleksi data (database) yang sangat besar sehingga ditemukan suatu pola yang menarik yang sebelumnya tidak diketahui. Kata mining sendiri berarti usaha untuk mendapatkan sedikit barang berharga dari sejumlah besar material dasar. Karena itu data mining sebenarnya memiliki akar yang panjang dari bidang ilmu seperti kecerdasan buatan (artificial intelligent), machine learning, statistic dan database. 1.2.2 Clustering Clustering termasuk ke dalam descriptive methods, dan juga termasuk unsupervised learning dimana tidak ada pendefinisian kelas objek sebelumnya. Sehingga clustering dapat digunakan untuk menentukan label kelas bagi data-data yang belum diketahui kelasnya. Konsep dasar dari clustering adalah mengelompokkan sejumlah objek ke dalam cluster dimana cluster yang baik adalah cluster yang memiliki tingkat kesamaan yang tinggi antar objek di dalam suatu cluster dan tingkat ketidaksamaan yang tinggi dengan objek cluster yang lainnya. Terdapat banyak algoritma clustering yang dalam penggunaannya tergantung pada tipe data yang akan dikelompokkan dan apa tujuan dari pembuatan aplikasinya. Algoritma tersebut dapat digunakan untuk mengelompokkan objek ke dalam cluster-cluster, kemudian dari hasil clustering akan dideteksi keberadaan outlier dalam data tersebut. Sedangkan data yang digunakan bertipe data numeric. Algoritma clustering diklasifikasikan ke dalam 5 kategori, yaitu : 1. Partitioning methods Pengelompokkan objek dimana tiap objek dimiliki oleh 1 cluster. Algoritma partisi dapat meminimalkan mean kuadrat jarak dari setiap titik data ke pusat terdekatnya[4]. Yang termasuk ke dalam metode ini adalah algoritma k-means, k-medoid atau PAM, CLARA, dan CLARANS. PAM 2. Hierarchical methods Pengelompokkan objek dapat dilakukan dengan 2 cara, agglomerative yang dimulai dengan menggabungkan beberapa cluster hingga menjadi satu, atau divisive yang dimulai dengan cluster yang sama kemudian dipecah menjadi beberapa cluster yang lebih kecil. Yang termasuk ke dalam metode ini adalah algoritma CURE, BIRCH, dan Chameleon. 3. Density-based methods Pengelompokkan objek berdasarkan tingkat kerapatan objek atau densitas. Yang termasuk dalam metode ini adalah algoritma DBSCAN, DENCLUE, dan OPTICS. 4. Grid-based methods Pengelompokkan objek dengan menggunakan struktur data grid multiresolusi yang mampu
499
Seminar Nasional Teknologi Informasi dan Komunikasi 2016 (SENTIKA 2016) Yogyakarta, 18-19 Maret 2016
ISSN: 2089-9815
menangani data berdimensi tinggi. Yang termasuk dalam metode ini adalah algoritma CLIQUE, WaveCluster, dan STING. Model-based methods Pengelompokkan objek dengan memodelkan tiap cluster, dan mencoba mengoptimasikan kesesuaian data dengan model matematika. Yang termasuk ke dalam metode ini adalah algoritma COBWEB.
tinggi, tinggi, normal, rendah, sangat rendah.
1.2.3 Preprocessing Dataset Preprocessing merupakan salah satu tahapan awal dalam data mining, yang terdiri dari proses pembersihan data, transformasi data, dan reduksi data. Tujuan dari preprocessing adalah agar data yang digunakan untuk aplikasi data mining mudah diinterpretasikan untuk dianalisis. Selain itu, agar data yang digunakan sesuai dengan aplikasi yang dibangun sehingga hasil yang dikeluarkan juga sesuai dan optimal. Dalam penelitian terdahulu preprocessing digunakan untuk menghilangkan noise yang sangat tinggi[9].
Keterangan: Vij = centroid rata-rata cluster ke-i untuk variabel ke-j Ni = jumlah anggota cluster ke-i i, k = indeks dari cluster j = indeks dari variabel Xkj = nilai data ke-k variabel ke-j dalam cluster tersebut Pada masing-masing record, hitung jarak terdekat dengan centroid Jarak centroid yang digunakan adalah Euclidean Distance, dengan rumus seperti pada persamaan 2.3:
5.
sedangkan pada tahap iterasi digunakan rumus rata-rata, pada rumus tersebut dilakukan perhitungan untuk mencari nilai rata-rata seperti pada persamaan 2.2 berikut ini: (2.2)
3.
1.2.4 Algoritma K-Means Metode K-Means adalah Metode clustering berbasis jarak yang membagi data kedalam cluster dan algoritma ini bekerja pada atribut numerik. Metode K-Means termasuk dalam partitioning clustering yang memisahkan data ke k daerah bagian yang terpisah[2]. Metode K-Means sangat terkenal karena kemudahan dan kemampuannya untuk mengelompokkan data besar dan outlier dengan sangat cepat. Dalam metode K-Means setiap data harus termasuk ke cluster tertentu pada suatu tahapan proses, pada tahapan proses berikutnya dapat berpindah ke cluster yang lain[3]. Berikut ini adalah langkah-langkah dalam algoritma K-means[1] : 1. Tentukan jumlah cluster (k) pada data set 2. Tentukan nilai pusat (centroid) Penentuan nilai centroid pada tahap awal dilakukan secara random dengan rumus menentukan target awal k-means, rumus tersebut digunakan untuk mendapatkan target data atau jarak antara kelompok, yaitu titik pusat awal untuk menghitung algoritma k-means iterasi 0 seperti pada persamaan 2.1 berikut ini:
(2.3)
4. 5.
Keterangan: De = Euclidean Distance i = banyaknya objek (x, y) = koordinat objek (s, t) = koordinat centroid Kelompokkan objek berdasarkan jarak ke centroid terdekat Ulangi langkah ke-2, lakukan iterasi hingga centroid bernilai optimal
1.2.5 K-Nearest Neighbor Algoritma k-nearest neighbor (k-NN atau KNN) adalah sebuah metode yang berfungsi untuk melakukan klasifikasi terhadap objek berdasarkan data pembelajaran yang jaraknya paling dekat dengan objek tersebut dan menguji data pelanggan baru berdasarkan perhitungan jarak minimum cluster terdekat. K-Nearest Neighbor berdasarkan konsep ‘learning by analogy’. Data learning dideskripsikan dengan atribut numerik n-dimensi. Tiap data learning merepresentasikan sebuah titik, yang ditandai dengan c, dalam ruang n-dimensi. Jika sebuah data query yang labelnya tidak diketahui diinputkan, maka K-Nearest Neighbor akan mencari k buah data learning yang jaraknya paling dekat dengan data query dalam ruang n-dimensi. Jarak antara data query dengan data learning dihitung dengan cara mengukur jarak antara titik yang merepresentasikan data query dengan semua titik yang merepresentasikan data learning dengan rumus Euclidean Distance. Pada fase training, algoritma ini hanya melakukan penyimpanan vektor-vektor fitur dan klasifikasi data training sample. Pada fase
(2.1) Keterangan: Jumlah data = Jumlah data yang akan digunakan Jumlah class = Jumlah kelompok yang telah ditentukan sebelumnya seperti sangat
500
Seminar Nasional Teknologi Informasi dan Komunikasi 2016 (SENTIKA 2016) Yogyakarta, 18-19 Maret 2016
klasifikasi, fitur – fitur yang sama dihitung untuk testing data (klasifikasinya belum diketahui). Jarak dari vektor yang baru ini terhadap seluruh vektor training sample dihitung, dan sejumlah k buah yang paling dekat diambil. Titik yang baru klasifikasinya diprediksikan termasuk pada klasifikasi terbanyak dari titik – titik tersebut. Nilai k yang terbaik untuk algoritma ini tergantung pada data; secara umumnya, nilai k yang tinggi akan mengurangi efek noise pada klasifikasi, tetapi membuat batasan antara setiap klasifikasi menjadi lebih kabur. Nilai k yang bagus dapat dipilih dengan optimasi parameter, misalnya dengan menggunakan cross-validation. Kasus khusus di mana klasifikasi diprediksikan berdasarkan data pembelajaran yang paling dekat (dengan kata lain, k = 1) disebut algoritma nearest neighbor. Ketepatan algoritma k-NN ini sangat dipengaruhi oleh ada atau tidaknya fitur-fitur yang tidak relevan, atau jika bobot fitur tersebut tidak setara dengan relevansinya terhadap klasifikasi. Riset terhadap algoritma ini sebagian besar membahas bagaimana memilih dan memberi bobot terhadap fitur, agar performa klasifikasi menjadi lebih baik. K buah data learning terdekat akan melakukan voting untuk menentukan label mayoritas. Label data query akan ditentukan berdasarkan label mayoritas dan jika ada lebih dari satu label mayoritas maka label data query dapat dipilih secara acak di antara label-label mayoritas yang ada. Gambar di bawah ini menunjukkan flowchart dari algoritma K-Nearest Neighbor.
2. PEMBAHASAN DAN HASIL 2.1 Rancangan Flowmap sistem yang berjalan
Gambar 2 Flowmap sistem yang berjalan 2.2
Analisis Sistem Berjalan Analisis sistem berjalan pada Gambar 2 di atas menjelaskan alur kegiatan yang sedang berjalan di PDAM Tirta Raharja dalam melakukan prediksi pemakaian air pelanggan baru yang bertujuan untuk menentukan pengelompokkan data pemakaian air. Pertama, admin mencatat data pemakaian air mulai dari pemakaian air tahun 2014 sampai tahun 2015, catatan data tersebut didapat dari data pemakaian air pelanggan lama yang telah dikumpulkan kepada admin. Setelah melakukan pencatatan data pemakaian air, admin melakukan pengumpulan dokumen pemakaian air dalam bentuk laporan pemakaian air. Setelah adanya rekap pemakaian air, admin melakukan prediksi pemakaian air tujuh bulan yang akan datang dengan melakukan perhitungan dengan memanfaatkan laporan pemakaian air bulan sebelumnya. Setelah melakukan prediksi pemakaian air untuk tujuh bulan yang akan datang, sistem menghasilkan laporan hasil prediksi yang dapat diakses oleh Admin PDAM Tirta Raharja.
START Tentukan jumlah tetangga terdekat Hitung jarak uji terhadap data latih Urutkan data berdasarkan jarak euclidean terkecil
ISSN: 2089-9815
END
Tentukan kelompok data uji berdasarkan label mayoritas pada centroid
501
Seminar Nasional Teknologi Informasi dan Komunikasi 2016 (SENTIKA 2016) Yogyakarta, 18-19 Maret 2016
2.3
ISSN: 2089-9815
Di data uji, data pelanggan baru dibandingkan dengan jarak terdekat terhadap 5 cluster dari hasil centroid yang disimpan dalam database. Dihitung jarak terdekatnya dengan metode KNN (KNearest Neighbors).
Rancangan Gambaran umum sistem
2.5
Proses Input Data Calon Pelanggan Baru dan Data Latih yaitu Data Pelanggan Lama Tahap pertama yaitu mengumpulkan datadata calon pelanggan baru dan data latih yaitu data pelanggan lama yang didapat dari PDAM Tirta Raharja. Isi dari data calon pelanggan baru yaitu berupa daftar nama-nama, pekerjaan pelanggan di PDAM Tirta Raharja, status rumah, dan jumlah penghuni tetap, data latih yaitu berupa data pelanggan lama. Data-data tersebut akan menjadi nilai masukan pada sistem dan dijadikan sebagai acuan untuk melakukan prediksi pemakaian air yang bertujuan untuk menentukan pemakaian air pelanggan baru di masa yang akan datang. Sebelum masuk pada setiap tahapan yang ada pada proses, data tersebut akan melalui tahapan proses data mining dan tahapan pre-processing yang didalamnya terdapat data cleaning yang bertujuan untuk menghilangkan noise data yang tidak konsisten. Selanjutnya yaitu masuk pada tahapan data selection yang bertujuan dimana data yang relevan dengan tugas analisis dikembalikan ke dalam database. Selanjutnya masuk pada tahapan data transformation dimana data berubah atau bersatu menjadi bentuk yang tepat untuk menambang dengan ringkasan performa atau operasi agresi.
Gambar 3 Gambaran umum sistem 2.4
Proses Data Mining 1. Pembersihan data Pembersihan data yaitu membersihkan atau membuang data-data yang tidak penting/tidak relevan, seperti data-data pemakaian air yang bernilai kosong atau nol (0) atau minus (-). 2. Seleksi data/pemilihan data Seleksi data/pemilihan data yaitu dari data pemakaian dengan total 15.000 data hanya diambil 20%-nya saja jadi 3.000 data. Jadi sekarang yang dipilih hanya 3.000 data saja. 3. Penggalian data (data mining) Dari 3.000 data tersebut dikelompokkan pemakaian airnya berupa range-range distribusi normal ke dalam 5 cluster yaitu sangat tinggi, tinggi, normal, rendah, sangat rendah. Cari centroidnya dari kelima cluster di atas menggunakan metode Kmeans dengan 2 parameter/atribut yaitu pekerjaan dan jumlah penghuni tetap. Kemudian hasil centroid disimpan di dalam database. Lalu pada proses pengujian :
2.6
Proses Distribusi Normal Pemakaian Air Proses distribusi normal yang dilakukan pada penelitian ini yaitu dengan mengelompokkan data pemakaian air pelanggan lama, yang bertujuan untuk membagi nilai pemakaian air di tiap clusternya berdasarkan range pemakaian air yang telah ditentukan. Proses ini dilakukan masih secara konvensional. Sebelum data pemakaian air pelanggan dibentuk ke dalam distribusi normal, dibutuhkan sebuah data sample agar proses perhitungan yang dibutuhkan dapat dijalankan. Data sample yang akan digunakan yaitu data pelanggan di PDAM Tirta Raharja pada tahun 2014 dan menggunakan 50 data sample pelanggan lama (data latih) seperti yang ada pada Tabel 1.
502
Seminar Nasional Teknologi Informasi dan Komunikasi 2016 (SENTIKA 2016) Yogyakarta, 18-19 Maret 2016
Tabel 1 Data Sample Pelanggan Lama Tahun 2014 (Data Latih)
ISSN: 2089-9815
Tabel 2 Range Pemakaian Air Pelanggan PDAM
Berdasarkan range yang telah ditentukan maka dapat disimpulkan bahwa setiap pelanggan lama yang merupakan data latih telah diketahui kelompok potensi pemakaian airnya seperti yang dapat dilihat pada Tabel 3. Tabel 3 Pengelompokkan Potensi Pemakaian Air Pelanggan Lama PDAM
Tabel 1 Data Sample Pelanggan Lama Tahun 2014 (Data Latih) (Lanjutan)
Data sample Pelanggan Lama Tahun 2014 (Data Latih) pada tabel 1 merupakan contoh data yang akan digunakan untuk melakukan distribusi normal terhadap pemakaian air. Tahap selanjutnya adalah menentukan range pemakaian air untuk pembagian distribusi normal yang ditunjukkan pada Tabel 2.
Tabel 3 Pengelompokkan Potensi Pemakaian Air Pelanggan Lama PDAM (Lanjutan)
503
Seminar Nasional Teknologi Informasi dan Komunikasi 2016 (SENTIKA 2016) Yogyakarta, 18-19 Maret 2016
ISSN: 2089-9815
Tabel 7 Target K-means Data Sample Pelanggan Lama Tahun 2014 (Data Latih) pada C4
2.7
K-Means Clustering Pada tahapan ini yaitu menentukan centroid Kmeans dari data pelanggan lama tahun 2014, menentukan target K-means bertujuan untuk mendapatkan target data atau jarak antar class (kelompok) yaitu titik pusat kelompok awal untuk menghitung algoritma K-means. Tabel 4 sampai dengan Tabel 8 merupakan hasil perhitungan k-means pada data sample pelanggan lama tahun 2014 (data latih) yang berasal dari pembagian distribusi. Tabel 4 Target K-means Data Sample Pelanggan Lama Tahun 2014 (Data Latih) pada C1
Tabel 8 Target K-means Data Sample Pelanggan Lama Tahun 2014 (Data Latih) pada C5
Tabel 5 Target K-means Data Sample Pelanggan Lama Tahun 2014 (Data Latih) pada C2 Dari 5 cluster tersebut didapatkan 5 centroid yang menjadi pusat pada masing-masing cluster. Tabel 9 menunjukkan hasil centroid yang dihitung dari rata-rata tiap cluster. Tabel 9 Hasil Centroid dari Tiap Cluster
Tabel 6 Target K-means Data Sample Pelanggan Lama Tahun 2014 (Data Latih) pada C3 2.8
K-Nearest Neighbor Langkah selanjutnya adalah pengujian dengan KNN yaitu sebuah metode untuk melakukan klasifikasi terhadap objek berdasarkan data pembelajaran yang jaraknya paling dekat dengan objek tersebut. Pada penelitian ini terdiri dari 2 atribut dengan skala kuantitatif yaitu Xi dan Yi yang masing-masing merupakan jenis pekerjaan dan jumlah penghuni tetap dan akan diuji oleh pelanggan baru. Dari perhitungan terakhir yang ditunjukkan oleh Tabel 9 diperoleh masing-masing centroid pada setiap cluster. Jika hasil input data pelanggan baru menunjukkan (Xj,Yj) = (64,5) maka perhitungan untuk metode KNN ditunjukkan pada Tabel 10.
504
Seminar Nasional Teknologi Informasi dan Komunikasi 2016 (SENTIKA 2016) Yogyakarta, 18-19 Maret 2016
ISSN: 2089-9815
Tabel 10 Hitung jarak Pelanggan Baru dengan Data Latih
Gambar 6 Tampilan (screenshoot) Range Setting Setelah kudrat dengan data jarak diketahui hasil setiap jaraknya terhadap centroid, maka langkah selanjutnya adalah urutkan jarak tersebut dan tetapkan tetangga terdekat berdasarkan jarak minimum ke-centroid yang ditunjukkan pada Tabel 11. Tabel 11 Urutan Jarak Minimum Terhadap Centroid Gambar 7 Tampilan (screenshoot) Pelanggan Lama
Gambar 8 Tampilan (screenshoot) K-Means Clustering Berdasarkan Tabel 11, jarak data uji (64,5) yang terdekat adalah terhadap centroid cluster C1, maka dapat disimpulkan data uji (64,5) masuk ke dalam cluster C1, yaitu pelanggan baru yang memiliki potensi pemakaian air yang sangat rendah. Berikut gambar tampilan (screenshoot) dari program klasifikasi potensi pemakaian air pelanggan baru: Gambar 9 Tampilan (screenshoot) Hasil Clustering
Gambar 4 Tampilan (screenshoot) Utama Sistem
Gambar 10 Tampilan (screenshoot) Cek Potensi Pelanggan Baru 3. KESIMPULAN 3.1 Kesimpulan Pada penelitian ini telah menghasilkan sebuah penerapan data mining pemakaian air pelanggan untuk menentukan klasifikasi potensi pemakaian air pelanggan baru di PDAM Tirta Raharja. Sistem ini dapat
Gambar 5 Tampilan (screenshoot) Jenis Pekerjaan
505
Seminar Nasional Teknologi Informasi dan Komunikasi 2016 (SENTIKA 2016) Yogyakarta, 18-19 Maret 2016
mengelompokkan dan memprediksi potensi pendapatan dan pemakaian air untuk calon pelanggan baru PDAM ke dalam 5 cluster, yaitu sangat tinggi, tinggi, normal, rendah, dan sangat rendah sehingga dapat mempercepat kinerja yang dapat membantu PDAM untuk proses evaluasi dalam mengelompokkan dan memprediksi potensi pendapatan dan pemakaian air calon pelanggan baru PDAM (Perusahaan Daerah Air Minum) Tirta Raharja. Proses pada penerapan data mining ini menggunakan metode K-Means clustering untuk mengelompokkan potensi pendapatan dan pemakaian air. Sistem menghasilkan output berupa kelompok potensi pendapatan dan pemakaian air berdasarkan tingkat kelayakannya. Dengan melihat hasil pengujian yang telah dilakukan hasil penilaian terhadap sistem memiliki nilai 95,80% dari 100% nilai total bobot dari semua proses yang di uji. Semua fungsi pada sistem ini dapat berjalan dan sesuai dengan tujuan yang dicapai, sehingga dapat disimpulkan bahwa setiap proses atau fungsifungsi yang diuji memiliki nilai sesuai dengan apa yang diuji. Secara umum hal ini menunjukkan bahwa perangkat lunak ini dapat digunakan dan telah menunjukkan kualitas yang baik.
ISSN: 2089-9815
[3] Afrisawati. (2013). "Implementasi Data Mining Pemilihan Pelanggan Potensial Menggunakan Algoritma K-Means". Pelita Informatika Budi Darma, Volume: V, Nomor: 3, Desember 2013 STMIK Budi Darma Medan. [4] Ediyanto. Mara, MN. Satyahadewi, N. (2013). "Pengklasifikasian Karakteristik dengan Metode K-Means Cluster Analysis". Buletin Ilmiah Mat. Stat. dan Terapannya (Bimaster) Volume 02, No. 2 (2013), hal. 133-136. [5] Septioko, T. Parhusip, HA. Mahatma, T. (2012). "Aplikasi K-Means untuk Pengelompokan Rumah Tangga di Salatiga Berdasarkan Data SUSENAS 2011". Proceeding for Call Paper PEKAN ILMIAH DOSEN FEB-UKSW, 14 DESEMBER 2012 FSM UKSW. [6] Narwati. (2010). "Pengelompokan Mahasiswa Menggunakan Algoritma K-Means". Jurnal Dinamika Informatika Vol. 2, No. 2, 2010 Fakultas Teknologi Informasi. [7] Gosno, EB. Arieshanti, I. Soelaiman, R. (2013). "Implementasi KD-Tree K-Means Clustering untuk Klasterisasi Dokumen". JURNAL TEKNIK POMITS Vol. 2, No. 2, (2013) Institut Teknologi Sepuluh Nopember (ITS). [8] Andri. Paulus. Wong, NP. Gunawan, T. (2014). "Segmentasi Buah Menggunakan Metode K-Means Clustering dan Identifikasi Kematangannya Menggunakan Metode Perbandingan Kadar Warna". JSM STMIK Mikroskil VOL 15, NO 2, OKTOBER 2014 STMIK Mikroskil. [9] Tahta Alfina, Budi Santosa, dan Ali Ridho Barakbah. "Analisa Perbandingan Metode Hierarchical Clustering, KMeans dan Gabungan Keduanya dalam Membentuk Cluster Data (Studi Kasus : Problem Kerja Praktek Jurusan Teknik Industri ITS)". Jurnal Teknik Pomits Vol.1, No.1, September 2012, ISSN : 2301-9271.
3.2
Saran Saran yang dikemukakan diharapkan dapat lebih meningkatkan hasil yang telah didapatkan. Saran yang disampaikan sebagai masukan untuk penelitian selanjutnya antara lain adalah : a. Menambah parameter lain dari potensi pemakaian air agar dapat menghasilkan informasi pendukung yang mampu membantu dalam evaluasi potensi pendapatan dan pemakaian air calon pelanggan baru tidak hanya dari proses prediksi saja. Parameter lain dapat berupa kelurahan, kecamatan, kode pos, dan lain-lain. b. Libatkan dinas terkait untuk membangun sistem agar dapat memberikan informasi yang mendukung sistem. 4. PUSTAKA [1] Khotimah, T. (2014). "Pengelompokan Surat dalam Al Qur’an Menggunakan Algoritma K-Means". Jurnal SIMETRIS, Vol. 5 No. 1 April 2014 Universitas Muria Kudus. [2] Rismawan, T. Kusumadewi, S. (2008). "Aplikasi K-Means untuk Pengelompok Mahasiswa Berdasarkan Nilai Body Mass Index (BMI) & Ukuran Kerangka". Seminar Nasional Aplikasi Teknologi Informasi 2008 (SNATI 2008) Yogyakarta, 21 Juni 2008 FTI, UII.
BIODATA PENULIS 1. Gunawan Abdillah Dosen Jurusan Informatika FMIPA Unjani 2. Firman Ananda Putra Alumni Jurusan Informatika FMIPA Unjani 3. Faiza Renaldi Dosen Jurusan Informatika FMIPA Unjani
506