Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer Vol. 2, No. 2, Februari 2018, hlm. 641-649
e-ISSN: 2548-964X http://j-ptiik.ub.ac.id
Penentuan Penerima Bantuan Ternak Menggunakan Algoritma K-Means & Naïve Bayes Moh. Fadel Asikin1, Dian Eka Ratnawati2, Mochammad Ali Fauzi3 Program Studi Teknik Informatika, Fakultas Ilmu Komputer, Universitas Brawijaya Email:
[email protected],
[email protected],
[email protected] Abstrak Indonesia adalah negara yang luas yang memiliki banyak kepulauan yang cocok untuk dikembangkan bisnis peternakan. Pada kenyataannya sektor peternakan belum mampu mendorong partisipasi masyarakat dan swasta. Untuk mengatasi permasalahan tersebut, maka sebagian anggaran Kementerian Pertanian dialokasikan dalam bentuk belanja bantuan sosial, diantaranya untuk pemberdayaan masyarakat dan penanggulangan kemiskinan dalam bentuk barang kepada kelompok tani. Salah satu bentuk bantuan yang dialokasikan ke kelompok petani adalah pemberian ternak. Penentuan calon penerima masih belum efektif dan kadang menimbulkan pemberian bantuan ternak menjadi tidak tepat sasaran, sehingga setiap pembelanjaan uang negara tidak memberikan manfaat yang maksimal bagi masyarakat. Pada penelitian ini digunakan metode K-Means Naïve Bayes (KMNB) yang dianggap mampu memberikan hasil klasifikasi yang akurat pada penentuan penerima bantuan ternak. Pendekatan pembelajaran KMNB dibentuk dengan menggabungkan teknik clustering dan klasifikasi. K-Means digunakan sebagai komponen pra-klasifikasi untuk mengelompokkan data yang sama pada tahap awal. Selanjutnya di tahap kedua data akan diklasifikasikan berdasarkan kategori diterima atau tidaknya menggunakan Naïve Bayes. Dengan demikian, data dengan kelompok yang salah selama tahap pertama akan diklasifikasikan sesuai dengan kategori di tahap kedua. Berdasarkan hasil pengujian dengan membandingkan hasil pengelompokkan pada metode K-Means konvensional terbukti bahwa KMNB memberikan akurasi tertinggi sebesar 100% sedangkan K-Means konvensional memiliki akurasi sebesar 95.91. Kata Kunci: Pengelompokkan, klasifikasi, penerima, bantuan ternak, K-Means, Naïve Bayes
Abstract Indonesia is a vast country with many islands suitable for the development of livestock business. In reality, the livestock sector has not been able to encourage public and private participation. To overcome these problems, some of the budget of the Ministry of Agriculture is allocated in the form of social assistance expenditures, such as for community empowerment and poverty alleviation in the form of goods to farmer groups. One of the forms of assistance allocated to farmer groups is the provision of livestock. Determination of potential recipients is still not effective and sometimes leads to the giving of livestock assistance is not right on target, so that every expenditure of state money does not provide maximum benefits for the community. In this research, K-Means Naïve Bayes (KMNB) method is considered capable of giving accurate classification results on the determination of livestock recipients. The KMNB learning approach is formed by combining clustering and classification techniques. KMeans is used as a pre-classification component to group the same data at an early stage. Furthermore, for the second grouping of data will be classified by category Accepted or not using Naïve Bayes. Thus, the data with the wrong group during the first stage will be classified according to the category in the second stage. Based on the test results by comparing the results of grouping on conventional K-Means method it is proven that KMNB gives the highest accuracy of 100% while conventional K-Means has an accuracy of 95.91% Keywords: Clustering, classification, recipients, livestock assistance, K-Means, Naïve Bayes
Fakultas Ilmu Komputer Universitas Brawijaya
641
Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer
1. PENDAHULUAN Indonesia adalah negara yang luas yang memiliki banyak kepulauan yang cocok untuk dikembangkan bisnis peternakan. Indonesia juga berada pada iklim tropis yang mendukung aktifitas usaha ternak itu sendiri. Pada kenyataannya sektor peternakan belum mampu mendorong partisipasi masyarakat dan swasta. Terkait dengan pemberdayaan masyarakat dan penanggulangan kemiskinan, penguatan ketahanan pangan dan untuk mendukung usaha tumbuh kembangnya usaha peternakan, maka Kementerian Pertanian telah menyalurkan belanja bantuan sosial dalam bentuk barang kepada kelompok tani. Salah satu bentuk bantuan yang dialokasikan ke kelompok petani adalah pemberian ternak. Kelompok petani yang ingin mendapatkan bantuan dibebani syarat atau kriteria, baik yang sifatnya umum maupun teknis. Penentuan calon penerima masih belum efektif dan kadang menimbulkan pemberian bantuan ternak menjadi tidak tepat sasaran, sehingga setiap pembelanjaan uang negara tidak memberikan manfaat yang maksimal bagi masyarakat. Ada beberapa kasus bantuan ternak tidak tepat sasaran yang telah terjadi beberapa tahun belakangan ini. Tahun 2011, Trenggalek kembali terkait pada kasus bantuan ternak tak tepat sasaran. Progam Jalin Kesra Propinsi Jawa Timur di Trenggalek melalui Dinas Peternakan propinsi RTSM (Rumah Tangga Sangat Miskin), terancam tidak tepat sasaran. Bantuan yang akan diberikan berupa hewan ternak yaitu kambing, domba, ayam dan itik dengan total keseluruhan 12.000 ekor. (Surabayapagi, 2011). Contoh lain yaitu kasus di Muara Bungo, Program Pemerintah untuk meningkatkan kesejahteraan para peternak, berupa bantuan sapi, yang diberikan kepada Masyarakat dengan menggunakan dana Anggaran Pendapatan dan Belanja Daerah Perubahan (APBD P) Tahun 2015 diduga tidak berjalan sebagaimana mestinya. (Sidakpost, 2015). Agar pemberian bantuan ternak tepat sasaran, efektif dan efisien, maka diperlukan suatu alat bantu untuk menyeleksi calon penerima berdasarkan kriteria umum dan teknis yang dibuat oleh masing-masing instansi sesuai dengan pedoman yang telah ditetapkan oleh Pemerintah Pusat. Teknologi Informasi dan Komputer (TIK) saat ini memiliki peran sebagai pendukung dalam mengolah data yang lebih Fakultas Ilmu Komputer, Universitas Brawijaya
642
efektif dan efisien, yang dapat membantu memecahkan masalah penentuan penerima bantuan ternak. Pengembangan perangkat lunak mulai bermunculan untuk melebarkan sayapnya ke berbagai macam bidang. Salah satu contohnya adalah bidang klasifikasi. Klasifikasi berguna untuk membedakan satu obyek dengan obyek lainnya. Klasifikasi merupakan suatu pekerjaan menilai objek daya untuk memasukkannya ke dalam kelas tertentu dari sejumlah kelas yang tersedia. (Prasetyo, 2012). Analisis kelompok (cluster analysis) adalah pekerjaan mengelompokkan data (objek) yang didasarkan hanya pada informasi yang ditemukan dalam data yang menggambarkan objek tersebut dan hubungan di antaranya (Tan, 2006). Saat ini ada banyak metode pengelompokkan dan pengklasifikasian data, diantaranya K-Means dan Naïve Bayes Classifier. K-Means merupakan salah satu metode pengelompokkan data non hierarki yang berusaha untuk mempartisi data yang ada ke dalam bentuk dua atau lebih kelompok, sehingga data berkarakterisitik sama dimasukkan ke dalam satu kelompok yang sama dan data yang berkarakterisitik lain dimasukkan ke dalam kelompok lain (Prasetyo, 2012). Sedangkan Naïve Bayes Classifier merupakan penyederhanaan dari teorema Bayes (Kusumadewi, 2009). Algoritme dalam metode Naïve Bayes didasarkan pada teknik klasifikasi yang dapat dibuktikan bahwa saat kecepatan sangat tinggi dan bersamaan diaplikasikan dalam suatu database dengan jumlah data yang besar, Naive Bayes mempunyai akurasi dan juga kecepatan yang tinggi (Nugroho, 2009). Sebuah penelitian menggunakan algoritme K-Means dan Naïve Bayes dalam permasalahan implementasi metode klustering untuk klasifikasi kanker payudara telah dilakukan oleh Anggreyni et al. (2015). Pada K-Means dilakukan pengelompokkan data ke dalam 3 klaster (jinak, mungkin, ganas). Selanjutnya hasil mungkin akan dicari peluangnya dengan menggunakan Naïve Bayes. Penggunaan KMeans & Naïve Bayes pada dataset kanker payudara memberikan akurasi tinggi sebesar 97,72% dan akurasi terendah sebesar 96,02%. Atas dasar tersebut, maka dalam hal penentuan atau penyeleksian calon penerima bantuan ternak, maka akan dicoba menggunakan dua pendekatan pembelajaran untuk penelitian ini yaitu metode K-Means dan Naive Bayes untuk klasifikasi. Nama kombinasi ini adalah K-
Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer
Means Naïve Bayes (KMNB). Pendekatan KMNB dibentuk dengan menggabungkan teknik clustering dan klasifikasi. Teknik clustering KMeans digunakan sebagai komponen pra klasifikasi untuk mengelompokkan data yang sama pada tahap awal. Selanjutnya, untuk pengelompokan tahap kedua data akan diklasifikasikan menggunakan metode klasifikasi. Dengan demikian, data yang kesalahan klasifikasi selama tahap pertama akan diklasifikasikan sesuai dengan kategori di tahap kedua. Clustering memberikan keuntungan yang signifikan atas teknik klasifikasi yang membantu mengidentifikasi kelompok data yang berperilaku sama atau menunjukkan karakteristik serupa di awal (Muda, 2011). Berdasarkan uraian di atas, peneliti mengusulkan penelitian dengan menggunakan KMNB untuk melihat akurasi serta perbandingan akurasi dari KMNB dan K-Means konvensional dalam kasus penentuan penerima bantuan ternak. 2. CLUSTERING Analisa klaster yaitu menemukan kumpulan obyek hingga obyek-obyek dalam satu kelompok sama (atau punya hubungan) dengan yang lain dan berbeda (atau tidak saling berhubungan) dengan obyek-obyek dalam kelompok lain (Hermawati, 2013). Tujuan analisa klaster dapat dibedakan menjadi dua, yaitu pengelompokkan untuk pemahaman, kelompok yang terbentuk arus menangkap struktur alami data, biasanya proses pengelompokkan dalam tujuan ini hanya sebagai proses awal untuk kemudian dilanjutkan dengan pekerjaan inti atau summarization (rata-rata, standar deviasi), pelabelan kelas pada setiap kelompok untuk kemudian digunakan sebagai data latih klasifikasi, dan sebagainya. Sementara jika untuk penggunaan, tujuan utama pengelompokkan biasanya adalah mencari prototipe kelompok yang paling representatif terhadap data, memberikan abstraksi dari setiap obyek data dalam kelompok dimana sebuah data terletak di dalamnya (Prasetyo, 2012). K-Means K-Means merupakan sebuah algoritma clustering dimana membagi data berdasarkan jarak antara data ke jumlah kelompok yang telah ditetapkan (asalkan ada cukup banyak kasus yang berbeda). Algoritma berbasis jarak ini bergantung pada jarak metric (fungsi) untuk Fakultas Ilmu Komputer, Universitas Brawijaya
643
mengukur kesamaan antara titik data. Untuk menghitung jarak metric biasa digunakan jarak eucledian, consine atau jarak fast consine. Data dimasukkan ke kelompok terdekat sesuai dengan hasi jarak metric yang digunakan (Santosa, 2007). Pengelompokan menggunakan K-Means bermaksud untuk mempartisi n obyek ke dalam kelompok k didasari pada jarak yang disebut dengan apriori dan harus dihitung dari data yang ada. Tujuan dari metode ini adalah meminimalkan jumlah varian antar klaster. Dengan fungsi kesalahan kuadrat sebagai berikut:
J i 1 mSj { X n j ) 2 k
(1)
Dimana k adalah jumlah kelompok Si (i= 1,2,… k), µj adalah titik centroid atau rata-rata semua Xn poin dalam Si. Untuk menghitung centroid digunakan perhitungan dengan mencari nilai tengah dari kumpulan data dalam sebuah kelompok. Langkah-langkah untuk melakukan pengelompokkan dengan tujuan menghasilkan suatu data yang terkelompok adalah sebagai berikut (Santosa, 2007): 1. Pilih Jumlah klaster k. 2. Inisialisasi k pusat klaster ini bisa dilakukan dengan berbagai cara. Yang paling sering dilakukan dengan cara random. Pusat-pusat klaster diberi nilai dengan angka-angka random. 3. Tempatkan setiap data/obyek ke klaster terdekat. Kedekatan dua obyek berdasarkan jarak kedua obyek tersebut. Demikian juga kedekatan suatu data ke klaster tertentu ditentukan jarak antara data dengan pusat klaster. Dalam tahap ini perlu dihitung jarak tiap data dengan data ke tuap pusat klaster. Jarak paling deka tantara satu data dengan data satu klaster tertentu akan menentukan suatu data masuk dalam klaster yang mana. Menentukan ukuran kemiripan atau ketidakmiripan antar data dengan metode jarak Euclidean. Rumusnya adalah sebagai berikut:
d ( x, y ) | x y | 2
n
i 1
( x1 y1 ) 2
(2)
Dimana : d(x,y) = Ukuran ketidakmiripan x = (x1,x2,…………..xj) adalah variable data. y = (y1,y2,……………yj) adalah
Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer
variable pada titik pusat. 4. Hitung kembali pusat klaster dengan keanggotaan klaster yang sekarang. Pusat klaster adalah rata-rata dari semua data/pbyek dalam klaster tertentu. Jika dikehendaki bisa juga memakai median dari klaster tersebut. Jadi rata-rata (mean) bukan satu-satunya ukuran yang bisa dipakai. 5. Tugaskan lagi setiap obyek dengan memakai pusat klaster yang baru. Jika pusat klaster sudah tidak berubah lagi, maka proses pengklasteran selesai. Atau, kembali lagi ke langkah nomor 3 sampai pusat klaster tidak berubah lagi. 3. KLASIFIKASI Konsep klasifikasi yang dijelaskan oleh Prasetyo (2012) menerangkan bahwa klasifikasi adalah suatu pekerjaan menilai objek daya untuk memasukkannya ke dalam kelas tertentu dari sejumlah kelas yang tersedia. Dalam klasifikasi ada dia pekerkaan utama yang dilakukan, yaitu (1) pembangunan model sebagai prototipe untuk disimpan sebagai memori dan (2) penggunaan model tersebut untuk melakukan pengenalan / klasifikasi / prediksi pada suatu objek data lain agar diketahui di kelas mana objek data tersebut dalam model yang sudah disimpannya. Klasifikasi dapat didefinisikan sebagai pekerjaan yang melakukan pelatihan / pembelajaran terhadap fungsi target f yang memetakan setiap set atribut (fitur) x ke satu dari sejumlah label kelas y yang tersedia. Pekerjaan pelatihan tersebut akan menghasilkan suatu model yang kemudian disimpan sebagai memori (Prasetyo, 2012). Naïve Bayes Kaitan antara Naïve Bayes dengan klasifikasi, korelasi hipotesis, dan bukti dengan klasifikasi adalah bahwa hipotesis dalam teorema bayes merupakan label kelas yang menjadi target pemetaan dalam klasifikasi, sedangkan bukti merupakan fitur-fitur yang menjadi masukkan dalam model klasifikasi. Jika X adalah vector masukan yang berisi fitur dan Y adalah label kelas, Naïve Bayes dituliskan dengan P(Y|X). Notasi tersebut berarti probabilitas label kelas Y didapatkan setelah fitur-fitur X diamati. Notasi ini disebut juga probabilitas akhir (posterior probability) untuk Y, sedangkan P(Y) disebut probabilitas awal (prior probability) Y. Selama proses pelatihan harus dilakukan Fakultas Ilmu Komputer, Universitas Brawijaya
644
pembelajaran probabilitas akhir P(Y|X) pada model untuk setiap kombinasi X dan Y berdasarkan informasi yang didapat dari data latih. Dengan membangun model tersebut, suatu data uji X’ dapat diklasifikasikan dengan mencari Nilai Y’ dengan memaksimalkan nilai P(Y’|X’) yang didapat. Formulasi Naïve Bayes untuk klasifikasi adalah q
P(Y | X )
P(Y ) P( X i | Y ) i 1
(3)
P( X )
P(Y|X) adalah probabilitas data dengan vector X pada kelas Y. P(Y) adalah probabilitas q
awal kelas Y.
P( X
i
| Y ) adalah probabilitas
i 1
independen kelas Y dari semua fitur dalam vector X. Nilai P(X) selalu tetap sehingga dalam perhitungan prediksi nantinya kita tinggal q
P( X
menghitung bagian P(Y )
i
| Y ) dengan
i 1
memilih yang terbesar sebagai kelas yang dipilih sebagai hasil prediksi. Sementara probabilitas q
independen
P( X
i
| Y ) tersebut merupakan
i 1
pengaruh semua fitur dari data terhadap setiap kelas Y, yang dinotasikan dengan q
P( X | Y y ) P( X i | Y y )
(4)
i 1
Setiap set fitur X = {X1,X2,X3,…,Xq} terdiri atas q atribut (q dimensi). Terdapat perlakuan khusus pada yang berlaku pada data bertipe numerik (kontinu) dalam Naïve Bayes. Caranya adalah (Prasetyo, 2012): • Melakukan Diskritesasi pada setiap fitur kontinudan mengganti nilai fitur kontinutersebut dengan nilai interval diskret. Pendekatan ini dilakukan dengan mentransformasi fitur kontinu menjadi fitur ordinal. • Mengasumsikan bentuk tertentu dari distribusi probabilits untuk fitur kontinu dan memperkirakan parameter distribusi dengan data pelatihan. Distribusi Gaussian biasanya dipilih untuk merepresentasikan probabilitas bersyarat dari fitur kontinu pada sebuah kelas P(Xi|Y), sedangkan distribusi
Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer
Gaussian dikarakteristikkan dengan dua parameter: mean, µ, dan varian σ2. Untuk setiap kelas yj, probabilitas bersyarat kelas yj untuk fitur Xi adalah
P ( X i xi | Y y i )
1 2 ij
( x )2
e
2
2
(5)
645 Mulai
Data Training, Jumlah Klaster
Gabungan K-Means dan Naïve Bayes Pendekatan pembelajaran K-Means Naïve Bayes (KMNB) dibentuk dengan menggabungkan teknik clustering dan klasifikasi. K-Means digunakan sebagai komponen pra-klasifikasi untuk mengelompokkan data yang sama pada tahap awal. Selanjutnya, untuk pengelompokan tahap kedua data akan diklasifikasikan berdasarkan kategori Diterima atau tidaknya menggunakan Naïve Bayes. Dengan demikian, data dengan kelompok yang salah selama tahap pertama akan diklasifikasikan sesuai dengan kelompoknya di tahap kedua. Prosedur yang digunakan dalam pengklasifikasian data dapat dilihat pada langkah-langkah berikut: 1. Masukkan dataset 2. Kelompokkan data dengan K-Means dan kembali dengan hasil diterima, tidak diterima dan mungkin. 3. Data yang belum masuk klaster mungkin akan diklasifikasikan dengan Naïve Bayes. 4. DESAIN SISTEM 4.1. Struktur Sistem Diagram alur sistem secara umum dibagi menjadi 2 tahap yaitu tahap pertama adalah tahap pelatihan dan tahap selanjutnya adalah tahap pengujian dijelaskan pada Gambar 1 dan Gambar 2.
Pengelompokkan K-Means
a
a
Data training terklaster, Centroid
Training Naive Bayes
Rata-rata, Standar Deviasi, Prior
Selesai Gambar 1 Pelatihan KMNB
Fakultas Ilmu Komputer, Universitas Brawijaya
Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer
646
Diterima). Mulai
Data Uji, Centroid, Ratarata, Standar Deviasi, Prior Pengelompokkan K-Means
Data testing terklaster
Testing Naive Bayes
Data testing pada klaster mungkin terklasifikasi
Selesai Gambar 2. Pengujian KMNB
Sistem ini memiliki 2 proses utama, yaitu proses pelatihan dan proses pengujian. Pada proses pelatihan dibutuhkan masukan berupa data latih. Pada proses pengujian dibutuhkan data uji yang akan diujikan. Proses pada sisten ini adalah sebagai berikut: 1. Proses pelatihan Tujuan dari proses ini adalah untuk memperoleh nilai centroid dari K-Means dan nilai rata-rata dari Naïve Bayes yang akan digunakan selanjutnya untuk data uji. Data latih pada proses K-Means digunakan untuk membentuk centroid. Keluaran yang dihasilkan melalui proses ini berupa 3 kluster. Dimana Kluster 1 atau K1 = Diterima, K2 = Tidak diterima, dan K3 = Mungkin. Selanjutnya algoritma Naïve Bayes akan mengolah dta dari K3. Tahapan yang dilakukan Naïve bayes adalah melakukan perhitungan nilai rata-rata tiap kelas. Naïve Bayes akan menghasilkan rata-rata dan standar deviasi tiap atribut kelas serta prior probability dari tiap kelas (Diterima dan Tidak Fakultas Ilmu Komputer, Universitas Brawijaya
2. Proses pengujian Pada proses pengujian ini akan mengambil nilai centroid, rata-rata, standar deviasi serta prior probility dari proses pelatihan lalu dilakukan pengklasteran dengan menggunakan K-Means.Data Uji akan diproses K-Means dengan menggunakan centroid yang telah dihasilkan pada saat pelatihan. Keluaran yang dihasilkan melalui proses ini sama halnya seperti fase pelatihan berupa 3 kluster dimana Kluster 1 atau K1 = Diterima, K2 = Tidak diterima, dan K3 = Mungkin. Selanjutnya algoritma Naïve Bayes akan mengolah data dari K3. Tahapan yang dilakukan Naïve bayes adalah melakukan perhitungan gaussian, likelihood serta probabilitas dari data uji yang ada. Naïve Bayes akan menghasilkan prediksi kelas (Diterima dan Tidak Diterima). Tujuan proses ini adalah untuk penentuan kelas dari data uji yang tidak diketahui kelasnya. 4.2. Basis Pengetahuan Basis pengetahuan berisi tentang pengetahuan yang relevan, diperlukan untuk memahami, merumuskan, dan memecahkan persoalan. Basis pengetahuan merupakan inti program dari sistem dimana basis pengetahuan ini merupakan representasi pengetahuan dari hasil wawancara Petugas Dinas Peternakan dan buku pedoman calon penerima bantuan ternak. Terdapat 13 kriteria yang digunakan sebagai penetuan penerima yang akan mendapatkan bantuan ternak: 1. Status Kelompok. 2. Struktor Organisasi. 3. Usaha yang sedang Dijalan Kelompok. 4. Pengalaman Berternak. 5. Bantuan yang Pernah Diterima. 6. Sistem Pemeliharaan. 7. Sumber Pakan dan Air. 8. Jenis Usaha yang Ingin Dilakukan Kelompok. 9. Pelayanan Kesehatan. 10. Jenis Ternak. 11. Recording. 12. Pemberian Pakan. 13. Pengolahan Limbah. 5. PENGUJIAN DAN ANALISIS 5.1. Pengujian Akurasi Berdasarkan hasil pengujian yang telah
Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer
dilakukan dengan menggunakan K-Means Naïve Bayes (KMNB) dan K-Means Konvensional menunjukkan beragam hasil. Pada pengujian pertama yaitu dengan skenario rasio data latih dan data uji yang bervariasi yaitu dengan data latih (80%, 70%, 60%, 50%) dan data uji (20%, 30%, 40%, 50%) menunjukkan hasil akurasi dari metode K-Means Naïve Bayes memiliki skor tertinggi yaitu 100% dan skor akurasi terendah 81.70%. Rata-rata akurasi dari 5 kali percobaan ini adalah 95%. Sedangkan pada pengujian kedua dengan rasio data latih bervariasi (80%, 70%, 60%, 50%) dan data uji tetap yaitu 20% menunjukkan skor akurasi tertinggi 100% dan skor akurasi terendah 84%. Penyebab penurunan akurasi dari setiap varasi data latih telah dibahas pada sub bab selanjutnya. K-Means konvensional pada umumnya tidak menggunakan fase training dan testing dikarenakan pada analisis kluster data pada KMeans belum mempunyai “kelas” sehingga proses pelatihan tidak dapat dilakukan. Pada kasus ini K-Means dibagi menjadi 2 fase untuk menyamakan bentuk pengujian dimana terdapat data latih dan data uji. Pada tahap pelatihan, KMeans membangkitkan pusat kluster (centroid) secara acak lalu melakukan proses K-Means selanjutnya seperti biasa hingga konvergen. Pada tahap pengujian, K-Means tidak membangkitkan kembali pusat kluster secara acak namun menggunakan pusat kluster terakhir pada fase pelatihan. Hasil dari pengujian pertama dari K-Means konvensional menunjukkan skor akurasi tertinggi 95.91% dan akurasi terendah 92.68%. Dari 5 kali percobaan untuk setiap variasi data latih dan data uji menunjukkan akurasi yang tetap. Begitu juga yang terjadi pada pengujian kedua dengan akurasi tertinggi 93.93% dan akurasi terendah dengan skor 57.67%. Hasil dari 5 kali percobaan pada pengujian kedua menunjukkan akurasi yang sama pada variasi data latih 80% dan data 70%. Namun pada variasi data 60% menunjukkan skor akurasi terendah 57% dan pada variasi data 50% menunjukkan akurasi terendah di angka 81%. Grafik perbandingan akurasi antara K-Means Naïve Bayes dan K-Means konvensional ditampilkan pada Gambar 3 untuk pengujian pertama dan Gambar 4 untuk pengujian kedua.
Fakultas Ilmu Komputer, Universitas Brawijaya
647
Pengujian Pertama 105 100 95 90
85 80%-20% 70%-30% 60%-40% 50%-50% K-Means Konvensional
KMNB
Gambar 1 Grafik Perbandingan Akurasi Pengujian Pertama
Pengujian Kedua 105 100 95 90 85
80 80%-20%
70%-20%
60%-20%
K-Means Konvensional
50%-20%
KMNB
Gambar 2 Grafik Perbandingan Akurasi Pengujian Kedua
Membandingkan hasil akurasi dari kedua metode ini pada dua jenis pengujian yang dilakukan dapat disimpulkan bahwa KMNB dapat meningkatkan akurasi dari K-Means dengan akurasi 100%. Hal ini terjadi Karena adanya optimasi menggunakan Naïve Bayes pada pengelompokkan K-Means. Pada Naïve Bayes. Semua atribut dari data memberikan kontribusinya dengan bobot atribut yang sama penting dalam pengambilan keputusan. 5.2. Pengaruh Jumlah Data Latih pada Data a Uji Berikut adalah tabel pengaruh jumlah data latih terhadap data uji. Tabel 1 menampilkan pengaruh jumlah data latih terhadap data uji pada pengujian pertama. Tabel 2 menampilkan pengaruh pada pengujian kedua.
Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer
Tabel 1 Hasil Percobaan Pengaruh Jumlah Data Latih terhadap Data Uji Pengujian Pertama Jumlah Data latih, Data uji (%) 80,20 70,30 60,40 50,50
Data Latih
132 116 99 83
Data Uji
33 49 66 82
Rata-rata Akurasi 95.7576 93.0612 91.2121 88.2926
Tabel 2 Hasil Percobaan Pengaruh Jumlah Data Latih terhadap Data Uji Pengujian Kedua Jumlah Data latih, Data uji (%) 80,20 70,20 60,20 50,20
Data Latih
132 116 99 83
Data Uji
33 33 33 33
Rata-rata Akurasi 95.7576 92.7272 91.5151 91.5151
Berdasarkan tabel 1 dan tabel 2 dapat dilihat bahwa akurasi lebih tinggi dimiliki oleh data latih dengan jumlah yang besar. Grafik pengaruh jumlah data latih terhadap data uji dapat dilihat pada Gambar 5.
Pengaruh Jumlah Data Latih Terhadap Data Uji 100 95 90 85 80 80%
70%
Pengujian Pertama
60%
50%
648
ketika jumlah data latih diperbesar dengan skor akurasi terendah yaitu 84% pada rasio data latih 60% meningkat hingga skor akurasi tertinggi 100%. Pengaruh Naïve Bayes pada pelatihan menjadi penyebab penurunan rata-rata akurasi yang terjadi pada data latih data latih 70% hingga 50%. Naïve Bayes membutuhkan data latih yang banyak untuk mencapai akurasi yang tinggi. Data latih yang digunakan oleh Naïve Bayes merupakan data pada kluster “Mungkin” yang berubah-ubah setiap kali percobaan dikarenakan centroid awal K-Means yang dibangkitkan secara acak. 6. KESIMPULAN Kesimpulan yang dapat adalah bahwa metode gabungan K-Means dan Naïve Bayes atau disingkat KMNB dapat diimplementasikan pada kasus penentuan calon penerima bantuan ternak. Akurasi yang dihasilkan oleh KMNB di pengujian pertama adalah 92.68%, 93.93%, 100%, dan 100%. Sedangkan K-Means Konvensional menghasilkan akurasi 92.68%, 93.93%, 95.91%, dan 93.93%. Pada pengujian kedua KMNB memiliki akurasi sebesar 93.93%, 93.93%, 93.93%, dan 100%. Pada K-Means konvensional memiliki akurasi sebesar 93.93%, 93.93%, 93.93%, dan 93.93%. Dari hasil akurasi yang diperoleh dari dua pengujian tersebut menunjukkan bahwa penggabungan K-Means dengan Naïve Bayes lebih baik dari pada KMeans konvensional. Untuk pengembangan selanjutnya yaitu, untuk menguji tingkat keakuratan yang lebih tinggi pada data latih dan data uji yang lebih rendah, maka tidak tertutup kemungkinan untuk melakukan penelitian lebih lanjut mengenai penggabungan metode KMeans dengan metode-metode yang lain.
Pengujian Kedua
DAFTAR PUSTAKA Gambar 3 Grafik Pengaruh Jumlah Data Latih Terhadap Data Uji
Pada tabel percobaan 1 dan 2 serta gambar 5 ditemukan bahwa penambahan jumlah data latih berpengaruh terhadap peningkatan nilai akurasi. Hal ini terlihat dengan peningkatan akurasi dari rasio 50-50 dengan nilai rata-rata akurasi 81.70% pada pengujian pertama. Seiring bertambahnya rasio data latih, nilai akurasi pada pengujian pertama menunjukkan kenaikan hingga 100%. Pengujian kedua dimana rasio data uji ditetapkan dengan rasio 20% juga membuktikan adanya peningkatan nilai akurasi Fakultas Ilmu Komputer, Universitas Brawijaya
Agusta, Y., 2007. K-Means – Penerapan, Permasalahan dan Metode Terkait, Volume 3. Dinakkeswan, 2014. Pedoman Umum Penetapan Kelompok APBD. s.l.:Dinas Peternakan & Kesehatan Hewan. Hermawati, F. A., 2013. Data Yogyakarta: Penerbit Andi.
Mining.
Pramudiono, I., 2003. Pengantar Data Mining: Menambang Permata Pengetahuan di Gunung Data. s.l.:s.n.
Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer
Prasetyo, E., 2012. Klasifikasi: Metode-Metode Pilihan. Yogyakarta: Penerbit ANDI. Santosa, B., 2007. Data Mining : Teknik Pemanfaatan Data untuk Keperluan Bisnis, Teori dan Aplikasi. Yogyakarta.: Graha Ilmu. Sidakpost, 2015. Sidakpost.com. [Online] Available at: https://sidakpost.com/berita-383bantuan-sapi-dinilai-tidak-tepatsasaran.html . [Diakses 8 Februari 2017]. Surabayapagi, 2011. [Online]
surabayapagi.com.
Available at: http://www.surabayapagi.com/read/736 48/2011/11/14/Bantuan_Ternak_Rawan _Tak_Tepat__Sasaran.html. [Diakses 8 Februari 2017]. Susanto, S. & Suryadi, D., 2010. Pengantar Data Mining. Yogyakarta: Penerbit ANDI. Tan, P., 2006. Dalam: Introduction to Data Mining. Boston: Pearson Education. Z. Muda, W. Y. M. S. N. U., 2011. A K-Means and Naive Bayes Learning Aproach for Better Intrusion Detection. Zalik, K., 2008. An efficient k-means clustering algorithm.
Fakultas Ilmu Komputer, Universitas Brawijaya
649