Seminar Nasional Ilmu Komputer (SNIK 2016) - Semarang, 10 Oktober 2016 ISBN: 978-602-1034-40-8
Komparasi Penerapan Algoritma Support Vector Machine dan SVM Optimasi Genetic Algorithms dalam Penentuan Penerimaan Dana KJP pada SD Negeri 02 Meruya Utara Jakarta Barat Yuli Haryanto 1, Reko Syarif Hidayatullah 2 1,2
Teknik Informatika, FTMIPA, Universitas Indraprasta PGRI Jakarta Email:
[email protected] ,
[email protected]
Abstrak Mahalnya biaya pendidikan menjadi salah satu alasan masyarakat tidak meneruskan jenjang pendidikan yang lebih tinggi. Salah satu kebijakan Kepala Dinas Pendidikan DKI Jakarta tentang dana bantuan siswa yaitu Kartu Jakarta Pintar (KJP). Kebijakan ini dibuat untuk mengurangi beban biaya pendidikan bagi masyarakat miskin namun masih seringkali tidak tepat sasaran. Banyak metode klasifikasi telah diusulkan dalam literatur untuk mengatasi masalah ini. Tapi kebanyakan tidak diterima oleh para ahli karena berbagai alasan. Dalam penelitian ini dilakukan Support vector macine dan SVM Optimasi Genetic Algorithms terhadap sasaran dana KJP dari sekolah SD NEGERI 02 Meruya. Dari hasil pengujian dengan mengukur kinerja kedua algoritma tersebut menggunakan metode pengujian Cross Validation, Confusion Matrix dan Kurva ROC, diketahui bahwa algoritma SVM Optimasi GA memiliki nilai accuracy paling tinggi, yaitu 89.06%, diikuti oleh metode SVM dengan accuracy sebesar 86.53% , sedangakan nilai AUC untuk metode SVM Optimasi GA juga menunjukkan nilai tertinggi pula, yaitu 0.916 disusul metode SVM dengan nilai AUC sebesar 0.760. Melihat nilai AUC dari kedua metode tersebut maka kedua termasuk kelompok klasifikasi baik karena nilai AUC-nya antara 0.80-0.90. Kata Kunci: Support vector machine, SVM optimasi genetic algorithms, cross validation, confusion matrix, kurva ROC Abstract The high cost of education is one of the reasons people do not continue their education more high. The one policy Head of Jakarta Education Department on student aid funds, namely Jakarta Smart Card (KJP). This policy was created to reduce the burden of the cost of education for the poor, but they are often not targeted. Many classification methods have been proposed in the literature to overcome this problem. But most are not accepted by experts for various reasons. In this research, SVM Support vector macine and Genetic Algorithms Optimization to target funds from the KJP STATE 02 Meruya elementary school. From the test results to measure the performance of the two algorithms are testing using Cross Validation, Confusion Matrix and curves ROC, it is known that the algorithm SVM Optimization GA value accuracy highest, ie 89.06%, followed by the SVM method with the accuracy of 86.53%, while the value of AUC GA Optimization for SVM method also shows the highest scores Similarly, the 0916 SVM method followed by the AUC value of 0760. Seeing the AUC values of both methods, the second includes classification groups both for his AUC values between 0.80-0.90. Keyword: Support vector machine, SVM optimization genetic algorithms, cross validation, confusion matrix, ROC curves
1.
PENDAHULUAN
Sejalan dengan pertumbuhan pendidikan di Indonesia, masalah yang dihadapi saat ini yaitu mengenai tidak meratanya pendidikan yang diperoleh masyarakat. Dalam hal ini terkait soal pembiayaan yang harus dibayarkan dalam menempuh sebuah pendidikan. Banyak masyarakat yang menganggap mahalnya biaya pendidikan menjadi salah satu alasan mereka tidak meneruskan jenjang pendidikan yang lebih tinggi. Kebijakan-kebijakan yang dibuat oleh pemerintah pusat maupun daerah mengenai biaya pendidikan, seakan menjadi kabar baik tersendiri bagi masyarakat dalam memperoleh pendidikan yang layak. Salah satu kebijakan Kepala Dinas Pendidikan DKI Jakarta tentang dana bantuan siswa yaitu Kartu Jakarta Pintar (KJP). Terlepas dari kebijakan-kebijakan tersebut, masih banyak kendala yang dihadapi. Banyak masyarakat miskin yang belum bisa merasakan dampak langsung dari kebijakan tersebut. Ini disebabkan karena adanya pelaksanaan yang tidak sesuai prosedur. Dimana kebijakan-kebijakan yang dibuat dalam mengurangi beban pembiayaan pendidikan seharusnya ditujukan untuk masyarakat miskin masih seringkali tidak tepat sasaran. Masih banyaknya masyarakat yang dikatakan mampu dalam membiayai pendidikannya sendiri juga memperoleh bantuan-bantuan yang tidak sepantasnya didapatkannya. Perlu adanya perangkat sistem yang dapat mengetahui dan membedakan antara masyarakat miskin dan masyarakat kaya sehingga kebijakan-kebijakan dari pemerintah tepat sasaran.
383
Seminar Nasional Ilmu Komputer (SNIK 2016) - Semarang, 10 Oktober 2016 ISBN: 978-602-1034-40-8
Evaluasi sasaran dana KJP adalah masalah yang sangat menantang dan penting dalam peningkatan dunia pendidikan. Banyak metode klasifikasi telah diusulkan dalam literatur untuk mengatasi masalah ini. Tapi kebanyakan dari mereka tidak diterima oleh para ahli karena berbagai alasan. Untuk itu perlu adanya kajian terhadap penerimaan dana KJP pada sekolah-sekolah terkait. Metode Algoritma Support Vector Machine adalah bagian dari metode komputasi yang bertujuan untuk mengumpulkan dan menganalisis data yang terkait dengan fungsi dari sebuah sistem untuk tujuan memperoleh pemahaman yang lebih baik. Algoritma Support Vector Machine dan SVM Optimasi Genetic Algorithm akan digunakan dalam penelitian ini agar dapat mengetahui sampai sejauh mana pengambilan keputusan terhadap penentuan sasaran kelayakan sasaran dana KJP di sekolah. 2.
METODE
2.1 Pendidikan Pendidikan secara umum adalah segala upaya yang direncanakan untuk mempengaruhi orang lain baik individu, kelompok, atau masyarakat sehingga mereka melakukan apa yang diharapkan oleh pelaku pendidikan [1]. Pendidikan adalah proses pengubahan sikap dan tata laku seseorang atau kelompok orang dalam usaha mendewasakan manusia melalui upaya pengajaran dan pelatihan, proses, cara, perbuatan mendidik [2]. Pendidikan adalah usaha sadar dan terencana untuk mewujudkan suasana belajar dan proses pembelajaran agar peserta didik secara aktif mengembangkan potensi dirinya untuk memiliki kekuatan spiritual keagamaan, pengendalian diri, kepribadian, kecerdasan, akhlak mulia, serta keterampilan yang diperlukan dirinya, masyarakat, bangsa dan negara [3]. 2.2 Kartu Jakarta Pintar (KJP) Peraturan Daerah Nomor 8 Tahun 2006 tentang Sistem Pendidikan dalam pasal 5 ayat (1), menyatakan bahwa “warga masyarakat yang berusia 7 sampai 18 tahun wajib mengikuti pendidikan dasar sampai tamat”. Pasal 16 huruf (f) menyebutkan bahwa ”pemerintah daerah wajib menyediakan dana guna terselenggaranya wajib belajar 12 tahun khususnya bagi peserta didik dari keluarga tidak mampu dan anak terlantar”. Kartu Jakarta Pintar (KJP) adalah kartu yang diberikan Gubernur DKI Jakarta Joko Widodo pada awal pemerintahannya. Setiap bulan, siswa/siswi akan diberikan bantuan pendidikan melalui semacam kartu ATM yaitu uang tunai sebesar Rp 240.000,00 untuk siswa SMA/SMK/MA kurang mampu, Rp 210.000,00 untuk siswa SMP/MTs kurang mampu, dan Rp 180.000,00 untuk siswa SD/MI kurang mampu. 2.3 KDD (Knowledge Discovery in Database) Menurut [4] Knowledge Discovery in Big Data, KDD adalah proses terorganisir identifikasi yang valid, pola baru, berguna,dan dapat dimengerti dari kumpulan data besar dan kompleks. Data Mining (DM) adalah inti dari proses KDD, yang melibatkan menyimpulkan algoritma yang mengeksplorasi data, mengembangkan model dan menemukan pola-pola sebelumnya yang tidak diketahui. Model ini digunakan untuk memahami fenomena dari analisis, data dan prediksi 2.4 Data Mining Model Data mining terdiri dari seperangkat aturan, persamaan, atau fungsi transfer yang kompleks yang dapat digunakan untuk mengidentifikasi pola data yang bermanfaat, memahami, dan memprediksi perilaku. Mereka dapat dikelompokan menjadi dua kelas utama sesuai dengan tujuan [5]. 2.5 Support Vector Machine Support Vector Machine (SVM) adalah metode supervised dimana dalam tahap training kita ingin menemukan parameter dual,a dan bias b. Setelah ditemukan kedua parameter yang optimal melalui optimasi programa kuadrat (quadratic programming). Jika ukuran problem cukup besar, solver program akuadrad biasanya lambat [6]. SVM adalah suatu teknik yang baru (1995) untuk melakukan prediksi, baik dalam kasus klasifikasi maupun regresi yang sangat popular pada saat ini. SVM berada dalam satu kelas dengan ANN dalam hal fungsi dan kondisi permasalahan yang biasa diselesaikan. Keduanya masuk dalam kelas supervised learning. Baik para ilmuwan ataupun praktisi telah banyak menerapkan teknik ini dalam menyelesaikan masalah-masalah nyata dalam kehidupan sehari-hari. Baik dalam masalah gene exception analysis,
384
Seminar Nasional Ilmu Komputer (SNIK 2016) - Semarang, 10 Oktober 2016 ISBN: 978-602-1034-40-8
financial, cuaca hingga pada bidang kedokteran. Terbukti dalam banyak implementasi, SVM member hasil yang lebih baik dari ANN, terutama dalam solusi yang dicapai.ANN menemukan solusi berupa local optimal sedangkan SVM menemukan solusi yang global dan optimal [4]. 2.6 Genetic Algorithm Genetic algorithm adalah suatu algoritma yang biasanya digunakan untuk mencari solusi-solusi yang optimal untuk berbagai masalah yang sulit misalnya masalah optimasi, traveling salesperson problem, dan learning. Algoritma ini menggunakan mekanisme seleksi alamiah dan genetika alamiah yang dikenal dalam dunia ilmu biologi, yaitu teori “Survival of the Fittest” yang dicetuskan oleh Charles Darwin. Dari kedua hal tersebut muncul istilah-istilah seperti gen, kromosom, populasi, crossover, mutasi, seleksi, dan fitness [7]. 3
HASIL DAN PEMBAHASAN
3.1 Algoritma SVM (Support Vector Machine) Data training untuk menentukan apakah siswa berhak menerima atau tidak terhadap dana KJP. Berikut akan dibahas prediksi apakah siswa berhak menerima atau tidak menggunakan metode klasifikasi support vector machine sehingga didapat Karnel Model dari rapid miner dengan bobot dari masing masing atribut dengan: w[merokok = Tidak] = 0.387, w[merokok = Ya] = -0.400, w[narkoba = Ya] = 0.407, w[narkoba = Tidak] = 0.383, w[penghasilan Orang tua = 2-3 juta] = -0.002, w[penghasilan Orang tua = 5-6 juta] = -0.000, w[penghasilan Orang tua = 3-4 juta] = 0.003, w[penghasilan Orang tua = 4-5 juta] = 0.001, w[penghasilan Orang tua = 0-1 juta] = -0.002, w[Jumlah tanggungan Orang tua = 2-3 oang] = 0.008, w[Jumlah tanggungan Orang tua = 3 orang] = 0.004, w[Jumlah tanggungan Orang tua = tidak ada] = -0.006, w[Jumlah tanggungan Orang tua = 1 orang] = -0.008, w[Menggunakan angkutan umum = Sedang] = -0.008, w[Menggunakan angkutan umum = Tinggi] = 0.003, w[Menggunakan angkutan umum = Rendah] = 0.005, w[Daya beli untuk sepatu sekolah/pribadi rendah = Sedang] = -0.001, w[Daya beli untuk sepatu sekolah/pribadi rendah = Rendah] = 0.010, w[Daya beli untuk sepatu sekolah/pribadi rendah = Tinggi] = -0.010, w[Daya pakaian seragam sekolah/pribadi rendah = Rendah] = -0.105, w[Daya pakaian seragam sekolah/pribadi rendah = Sedang] = 0.045, w[Daya pakaian seragam sekolah/pribadi rendah = Tinggi] = 0.062, w[Daya beli untuk buku, tas, dan alat tulis rendah = Rendah] = -0.248, w[Daya beli untuk buku, tas, dan alat tulis rendah = Tinggi] = 0.121, w[Daya beli untuk buku, tas, dan alat tulis rendah = Sedang] = 0.109, w[Daya beli untuk konsumsi makan/jajan rendah = Sedang] = -0.000, w[Daya beli untuk konsumsi makan/jajan rendah = Tinggi] = 0.002, w[Daya beli untuk konsumsi makan/jajan rendah = Rendah] = -0.001, w[Daya pemanfaatan internet rendah = Sedang] = -0.000, w[Daya pemanfaatan internet rendah = Tinggi] = 0.002, w[Daya pemanfaatan internet rendah = Rendah] = -0.001, w[Tidak dapat mengikuti kegiatan ekstrakurikuler yang berpotensi mengeluarkan biaya = Tidak] = 0.014, w[Tidak dapat mengikuti kegiatan ekstrakurikuler yang berpotensi mengeluarkan biaya = Ya] = 0.014. 3.2 Algoritma GA (Genetic Algorithm) Dengan menggunakan optimasi genetic algorithm (GA), attribute akan diberikan bobot sehingga model yang terbentuk dapat lebih baik. Bobot attribute yang diberikan oleh algoritma optimasi genetic algorithm (GA) adalah merokok = Tidak 1.0, merokok = Ya 0.0, narkoba = Ya 0.0, narkoba = Tidak 1.0, penghasilan Orang tua = 2-3 juta 0.0, penghasilan Orang tua = 5-6 juta 0.0, penghasilan Orang tua = 3-4 juta 0.0, penghasilan Orang tua = 4-5 juta 1.0, penghasilan Orang tua = 0-1 juta 0.0, Jumlah tanggungan Orang tua = 2-3 oang 0.0, Jumlah tanggungan Orang tua = 3 orang 0.0, Jumlah tanggungan Orang tua = tidak ada 0.0, Jumlah tanggungan Orang tua = 1 orang 0.0, Menggunakan angkutan umum = Sedang 0.0, Menggunakan angkutan umum = Tinggi 0.0, Menggunakan angkutan umum = Rendah 0.0, Daya beli untuk sepatu sekolah/pribadi rendah = Sedang 0.0, Daya beli untuk sepatu sekolah/pribadi rendah = Rendah 0.0, Daya beli untuk sepatu sekolah/pribadi rendah = Tinggi 0.0, Daya pakaian seragam sekolah/pribadi rendah = Rendah 0.0, Daya pakaian seragam sekolah/pribadi rendah = Sedang 0.0, Daya pakaian seragam sekolah/pribadi rendah = Tinggi 0.0, Daya beli untuk buku, tas, dan alat tulis rendah = Rendah 1.0, Daya beli untuk buku, tas, dan alat tulis rendah = Tinggi 0.0, Daya beli untuk buku, tas, dan alat tulis rendah = Sedang 0.0 Daya beli untuk konsumsi makan/jajan rendah = Sedang 0.0, Daya beli untuk konsumsi makan/jajan rendah = Tinggi 0.0, Daya beli untuk konsumsi makan/jajan rendah = Rendah 0.0, Daya pemanfaatan internet rendah = Sedang 0.0, Daya pemanfaatan internet rendah = Tinggi 0.0, Daya pemanfaatan internet rendah = Rendah 0.0, Tidak dapat mengikuti kegiatan
385
Seminar Nasional Ilmu Komputer (SNIK 2016) - Semarang, 10 Oktober 2016 ISBN: 978-602-1034-40-8
ekstrakurikuler yang berpotensi mengeluarkan biaya = Tidak 0.0, Tidak dapat mengikuti kegiatan ekstrakurikuler yang berpotensi mengeluarkan biaya = Ya 0.0. 3.3 Pengujian Model Model yang telah dibentuk diuji tingkat akurasinya dengan memasukan data uji yang berasal dari data training. Karena data yang didapat dalam penelitian ini setelah proses preprocessing hanya 577 data maka digunakan metode cross validation untuk menguji tingkat akurasi. Untuk nilai akurasi model untuk metode SVM sebesar 86.53%, dan metode SVM Optimasi GA sebesar 89.06% a. Confusion Matrix algoritma SVM Tabel 1 adalah perhitungan akurasi data training menggunakan algoritma SVM Diketahui dari 557 data training, dengan menggunakan metode algorit ma SVM didapat klasifikasi 422 data prediksi ditolak ternyata memang ditolak, 51 data prediksi diterima ternyata ditolak, didapat klasifikasi 24 data prediksi tolak ternyata malah diterima, dan 60 data prediksi diterima memang sesuai dengan diterima. Tabel 1. Confussion Matrix data training Untuk Algoritma SVM
Perhitungan nilai akurasi dari confusion matrix tersebut adalah sebagai berikut: Nilai akurasi dari confusion matrix tersebut adalah sebagai berikut: (
)
(
) (
)
(
)
(
)
(
)
( (
) )
Performance Vector pada rapidminer. Text View dari model Confusion Matrix untuk algoritma SVM dapat dilihat pada Gambar 1.
386
Seminar Nasional Ilmu Komputer (SNIK 2016) - Semarang, 10 Oktober 2016 ISBN: 978-602-1034-40-8
Gambar 1. Text view model confusion matrix untuk algoritma SVM
b.
Confusion Matrix algoritma GA Tabel 2 adalah perhitungan akurasi data training menggunakan algoritma GA Diketahui dari 557 data training, dengan menggunakan metode algoritma GA didapat klasifikasi 428 data prediksi Tolak sesuai hasil Tolak, 16 prediksi Tolak ternyata memang terima didapat klasifikasi 68 data prediksi terima memang sesuai dengan di terima, dan 415 data prediksi diterima ternyata di tolak Tabel 2. Confussion matrix data training untuk algoritma GA
Nilai akurasi dari confusion matrix tersebut adalah sebagai berikut: ( ) ( ) (
)
(
)
(
)
(
( (
)
) )
Performance Vector pada rafidminer. Text View dari model Confusion Matrix untuk algoritma GA dapat dilihat pada Gambar 2.
387
Seminar Nasional Ilmu Komputer (SNIK 2016) - Semarang, 10 Oktober 2016 ISBN: 978-602-1034-40-8
Gambar 2. Text view model confusion matrix untuk algoritma GA c. Confusion Matrix Komparasi Dari tiga tabel confusion matrix, selanjutnya dilakukan perhitungan nilai accuracy, precision, dan recall. Perbadingan nilai accuracy, precision, dan recall yang telah dihitung untuk metode SVM, dan SVM+GA dapat dilihat pada Tabel 3. Tabel 3. Komparasi nilai accuracy, precision, dan recall SVM
SVM + GA
Accuracy Precision
86.53% 55.39%
89.06% 60.18%
Recall
71.39%
80.95%
d. Kurva ROC Hasil perhitungan divisualisasikan dengan kurva ROC. Perbandingan ketiga metode komparasi bisa dilihat pada Gambar 3 yang merupakan kurva ROC untuk algoritma SVM.
Gambar 3. Kurva ROC dengan algoritma SVM Kurva ROC pada Gambar 4. mengekspresikan confusion matrix dari Tabel 3 Garis horizontal adalah false positives dan garis vertikal true positives.
388
Seminar Nasional Ilmu Komputer (SNIK 2016) - Semarang, 10 Oktober 2016 ISBN: 978-602-1034-40-8
Gambar 4. Kurva ROC dengan metode genetic algorithms (GA) Pebandingan hasil perhitungan nilai AUC untuk metode SVM, dan SVM+GA dan neural network dapat dilihat pada Tabel 4. Tabel 4. Komparasi Nilai AUC AUC
SVM
SVM + GA
0.918
0.937
e. Analisis Hasil Komparasi Model yang dihasilkan dengan metode SVM danan SVM+GA diuji menggunakan metode Cross Validation, terlihat perbandingan nilai accuracy, precision, sensitivity, dan recall pada Tabel 3, untuk metode GA memiliki nilai accuracy, precision, dan recall yang paling tinggi dan yang terendah adalah metode SVM. Tabel 5 membandingkan accuracy dan AUC dari tiap metode. Tabel 5. Komparasi nilai Accuracy dan AUC Accuracy AUC
SVM
GA
86.53% 0.918
89.06% 0.935
Terlihat bahwa nilai accuracy GA paling tinggi begitu pula dengan nilai AUC-nya. Untuk SVM juga menunjukan nilai yang sesuai. Untuk klasifikasi data mining, nilai AUC dapat dibagi menjadi beberapa kelompok [8]. a. 0.90-1.00 = klasifikasi sangat baik. b. 0.80-0.90 = klasifikasi baik. c. 0.70-0.80 = klasifikasi cukup. d. 0.60-0.70 = klasifikasi buruk. e. 0.50-0.60 = klasifikasi salah. Berdasarkan pengelompokkan di atas maka dapat disimpulkan bahwa metode SVM, GA, dan neural network termasuk klasifikasi baik cukup karena memiliki nilai AUC antara 0.80-0.90. 4
SIMPULAN
Dalam penelitian ini dilakukan pembuatan model menggunakan algoritma SVM, dan SVM+GA menggunakan data siswa sekolah untuk menetukan sasaran yang tepat oleh dana KJP. Model yang dihasilkan, dikomparasi untuk mengetahui algoritma yang paling baik dalam penentuan kelayakan pinjaman anggota koperasi. Untuk mengukur kinerja ketiga algoritma tersebut digunakan metode pengujian Cross Validation, Confusion Matrix dan Kurva ROC, diketahui bahwa algoritma SVM+GA memiliki nilai accuracy dan AUC paling tinggi dan yang rendah metode SVM. Dengan demikian, metode SVM+GA merupakan metode yang cukup baik dalam pengklasifikasian data, dengan demikian algoritma SVM+GA dapat memberikan pemecahan untuk permasalahan penentuan sasaran Dana KJP.
389
Seminar Nasional Ilmu Komputer (SNIK 2016) - Semarang, 10 Oktober 2016 ISBN: 978-602-1034-40-8
5 [1] [2] [3] [4] [5] [6] [7] [8]
REFERENSI Soekidjo Notoatmodjo. 2003. Pendidikan dan Perilaku Kesehatan. PT Rineka Cipta, Jakarta. Undang-undang Republik Indonesia Nomor 20 Tahun 2003 Tentang Sistem Pendidikan Nasional. Undang-undang Republik Indonesia Nomor 20 Tahun 2003 Tentang Sistem Pendidikan Nasional, Pasal 1. Maimun, Oded & Rokach, Lior. 2005. Data Mining and Knowledge Discovey Handbook. Springer, New York. David, Olson L & Delen, Dursun. 2008. Advanced Data Mining Techniques. Springer, Verlag Berlin Heidelberg. Santoso, Budi. 2007. Data Mining Terapan Dengan Matlab. Graha Ilmu, YogyakartaIlmu. Malhotra, Naresh K. 2011. Marketing Research an Applied Orientation. Pearson, New Jersey. Gorunescu, F. 2011. Data mining Concepts, Models and Techniques. Springer, Verlag Berlin Heidelberg.
390