DAFTAR ISI Prosiding Seminar Nasional Sains dan Teknologi Nuklir PTNBR – BATAN Bandung, 4 Juli 2013
Tema: Pemanfaatan Sains dan Teknologi Nuklir serta Peranan MIPA di Bidang Kesehatan, Lingkungan dan Industri untuk Pembangunan Berkelanjutan
PENGEMBANGAN APLIKASI KLASIFIKASI NAIVE BAYESIAN PENDAFTAR KE PROGRAM D-III TEKNIK INFORMATIKA FMIPA UNPAD BERDASARKAN ASAL DAERAH DAN SOSIAL EKONOMI PENDAFTAR Rudi Rosadi dan Ino Suryana Jurusan Matematika FMIPA Universitas Padjadjaran Jl. Raya Bandung-Sumedang Km 21 Jatinangor 45363 E-mail:
[email protected];
[email protected]
ABSTRAK PENGEMBANGAN APLIKASI KLASIFIKASI NAIVE BAYESIAN PENDAFTAR KE PROGRAM D-III TEKNIK INFORMATIKA FMIPA UNPAD BERDASARKAN ASAL DAERAH DAN SOSIAL EKONOMI PENDAFTAR. Seorang pendaftar yang diterima atau didapatkan oleh sebuah perguruan tinggi melalui seleksi yang diadakan oleh perguruan tinggi tersebut merupakan pendaftar dengan berbagai macam klasifikasi. Misalnya suatu perguruan tinggi perlu memilah-milah pendaftar yang diterima ke dalam berbagai kategori, dalam hal ini ditinjau dari aspek sosial ekonomi dan asal daerah. Metode yang akan digunakan adalah metode Naive Bayessian. Pada metode ini diperlukan adanya proses pembelajaran dengan menggunakan data training sebagai bahan yang digunakan untuk melakukan klasifikasi pendaftar. Data training merupakan data pendaftar sebaiknya dalam jumlah yang besar terutama terhadap pendaftar ke program studi yang akan diteliti, sehingga berpengaruh terhadap keakuratan hasil klasifikasi. Pada penelitian ini dilakukan pengembangan aplikasi untuk pengklasifikasian pendaftar, dimana pertama-tama aplikasi diberi sejumlah data pendaftar (sebagai data training). Setelah cukup banyak data pendaftar untuk setiap kategorinya, maka aplikasi sudah siap mengolah data training dimana hasilnya dapat digunakan untuk melakukan prediksi terhadap pendaftar yang belum diketahui kelasnya. Kata kunci: Klasifikasi Naive Bayessian
ABSTRACT NAIVE BAYESIAN CLASSIFICATION OF APPLICATION DEVELOPMENT PROGRAM TO APPLICANT D-III TECHNICAL INFORMATION FMIPA UNPAD BASED ON ORIGIN REGIONAL ECONOMIC AND SOCIAL APPLICANT. An applicant who received or earned by a college selection process conducted by the college registrar with a variety of classifications. For example, a college needs to sort out applicants who are accepted into the various categories, in this case in terms of economic and social aspects of the area of origin. Method to be used is Naive Bayessian. This method is necessary in the process of learning by using training data as the material used to perform the classification of registrants. Training data is data registries should be a large number, especially for applicants to courses that will be studied, and therefore contributes to the accuracy of the classification results. In this research, the development of applications for classification of registrants, where the first application was given amount of data registries (as the training data). After quite a lot of data registries for each category, then the application is ready to process the training data in which the results can be used to predict the unknown class applicants.
Key words: Naive Bayessian Classification
644
Prosiding Seminar Nasional Sains dan Teknologi Nuklir PTNBR – BATAN Bandung, 4 Juli 2013
Tema: Pemanfaatan Sains dan Teknologi Nuklir serta Peranan MIPA di Bidang Kesehatan, Lingkungan dan Industri untuk Pembangunan Berkelanjutan
1. PENDAHULUAN Pendaftar/calon mahasiswa suatu perguruan tinggi mempunyai pola/patern tertentu, pernyataan tersebut dinyatakan pada penelitian sebelumnya tahun 2002 oleh Tang-McDonald tahun 2002, hasil penelitian tersebut dijadikan untuk strategi pemasaran perguruan tinggi dalam rangka memperoleh source (mahasiswa) sebanyak mungkin. Pada tahun 2006, peneliti telah membangun sebuah sistem informasi yang disajikan dalam bentuk spasial untuk memberikan informasi bagi perguruan tinggi melihat sejauh mana tingkat penyebaran pendaftar k e perguruan tinggi khususnya Unpad (Universitas Padjadjaran) di wilayah Jawa Barat berdasarkan pengaruh keadaan sosial ekonomi dan asal daerah pendaftar. Pada penelitian ini peneliti mencoba mengembangkan penelitian sebelumnya yaitu dikembangkan pada teknik klasifikasi naive bayessian, dan lebih spesifik untuk pendaftar ke program studi tertentu di lingkungan FMIPA Unpad, dikaitkan dengan faktor asal daerah, dan sosial ekonomi pendaftar. Kesulitan dalam memprediksi data baru berhubungan dengan kategori apakah calon akan mendaftar atau tidak ke program studi tertentu menjadi permasalahan yang akan dipecahkan dalam penelitian ini. Data yang digunakan pada penelitian ini adalah biodata SMUP (Seleksi Masuk Universitas Padjadjaran) Program DIII tahun 2011.
(2) dimana, A1 U A2 U ... U An = S. Pada proses klasifikasi memerlukan sejumlah petunjuk untuk menentukan kelas apa yang cocok bagi sampel yang dianalisis tersebut. Karena itu, teorema Bayes di atas disesuaikan sebagai berikut:
(3) Dimana variabel C merepresentasikan kelas, sementara variabel F1 ... Fn merepresentasikan karakteristik-karakteristik petunjuk yang dibutuhkan untuk melakukan klasifikasi. Maka persamaan (3) menjelaskan bahwa peluang masuknya sampel dengan karakteristik tertentu dalam kelas C (posterior) adalah peluang munculnya kelas C (sebelum masuknya sampel tersebut, seringkali disebut prior), dikali dengan peluang kemunculan karakteristik-karakteristik sampel pada kelas C (disebut juga likelihood), dibagi dengan peluang kemunculan karakteristik-karakteristik sampel secara global (disebut juga evidence). Karena itu, persamaan (3) dapat pula ditulis secara sederhana sebagai berikut:
2. TINJAUAN PUSTAKA
(4)
2.1. Naïve Bayes Classifier Naïve Bayes Classifier merupakan sebuah metode klasifikasi yang berakar pada teorema Bayes. Ciri utama dari Naïve Bayes Classifier ini adalah asumsi yang sangat kuat (naif) akan independensi dari masing-masing kondisi/kejadian. Teorema Bayes merupakan dasar dari metoda tersebut. Pada teorema Bayes, bila terdapat dua kejadian yang terpisah (misalkan A dan B), maka teorema Bayes dirumuskan sebagai berikut:
Nilai evidence selalu tetap untuk setiap kelas pada satu sampel. Nilai dari Posterior tersebut yang nantinya akan dibandingkan dengan nilainilai Posterior kelas lainnya untuk menentukan ke kelas apa suatu sampel akan diklasifikasikan. Penjabaran lebih lanjut persamaan Bayes tersebut dilakukan dengan menjabarkan P(F1,...,Fn|C) menggunakan aturan perkalian, menjadi sebagai berikut:
(1) Selanjutnya, penjabaran P(F1,...,Fn|C) dapat disederhanakan menjadi seperti berikut :
Teorema Bayes sering dikembangkan mengingat berlakunya hukum probabilitas total, menjadi seperti berikut:
645
Prosiding Seminar Nasional Sains dan Teknologi Nuklir PTNBR – BATAN Bandung, 4 Juli 2013
Tema: Pemanfaatan Sains dan Teknologi Nuklir serta Peranan MIPA di Bidang Kesehatan, Lingkungan dan Industri untuk Pembangunan Berkelanjutan
dan jumlah field/kolomnya 78 field/kolom. Data yang digunakan pada penelitian adalah data penghasilan dan pendidikan akhir orang tua, dan daerah asal jadi ada 4 field/kolom yaitu: pendidikan akhir ayah, pendidikan akhir ibu, penghasilan orang tua dan daerah asal. DBMS yang digunakan peneliti untuk menampung dan memproses data adalah MySQL versi 5.1.4.1, dan software yang digunakan untuk membangun aplikasi adalah Embarcadero RAD Studio 2010.
(5) Dengan kesamaan di atas, persamaan teorema Bayes dapat dituliskan sebagai berikut:
(6) Persamaan di atas merupakan model dari teorema Naïve Bayes yang selanjutnya akan digunakan dalam proses klasifikasi dokumen. Adapun Z merepresentasikan evidence yang nilainya konstan untuk semua kelas pada satu sampel.
2.2. Klasifikasi dengan Naive Bayes classifier Klasifikasi adalah proses untuk menemukan model atau fungsi yang menjelaskan atau membedakan konsep atau kelas data, dengan tujuan untuk dapat memperkirakan kelas dari suatu obyek. Tahapan prosesnya ada 2 tahap, yang pertama tahap konstruksi model dari data training disebut sebagai tahap pembelajaran, prosesnya ditunjukkan pada Gambar 1 [2].
Gambar 2. Menggunakan model untuk prediksi
Proses data preparation, dimulai dengan proses seleksi data yaitu melakukan pemilihan field-field yang diperlukan. Model data/relasi antar tabel dapat dilihat pada Gambar 3 di bawah ini :
Gambar 1. Tahapan konstruksi model
Pada tahap pembelajaran didapatkan nilai probabilitas prior. Selanjutnya dilakukan prediksi terhadap suatu objek, dilakukan dengan menggunakan persamaan (4), alur prosesnya dapat dilihat pada Gambar 2 [2].
Gambar 3. Model relasi antar tabel
Dari relasi antara tabel pendaftar dengan tabeltabel referensinya dapat dilakukan cleaning data, sehingga di sini dilakukan seleksi data yang mempunyai relasi dengan tabel referensinya, dan didapatkan data yang bersih. Pada proses ini dilakukan perintah-perintah query untuk melakukan beberapa agregasi yang di butuhkan terhadap data di atas. Dan semua data di atas
3. METODE PENELITIAN Data yang digunakan adalah data pendaftar SMUP 2011, jumlah totalnya ada 2936 record
646
Prosiding Seminar Nasional Sains dan Teknologi Nuklir PTNBR – BATAN Bandung, 4 Juli 2013
Tema: Pemanfaatan Sains dan Teknologi Nuklir serta Peranan MIPA di Bidang Kesehatan, Lingkungan dan Industri untuk Pembangunan Berkelanjutan
disimpan dalam terintegrasi.
maupun pada proses pengklasifikasian. Rancangan interface untuk proses pembelajaran ditunjukkan pada Gambar 5 berikut ini.
sebuah
database
yang
3.2 Penggunaan Klasifikasi dengan Naïve Bayes classifier a. Tahap pembelajaran Pada tahap pembelajaran ini diawali pengambilan data/seleksi data yang dibutuhkan pada penelitian ini, dilanjutkan dengan tahap konstruksi model yang akan menghasilkan model probabilitas. Diagram alir/flow chart untuk proses ini dapat dilihat pada Gambar 4 (a). b. Tahap klasifikasi Pada tahap klasifikasi ini diawali pengambilan data testing pendaftar yang belum diketahui kelasnya, kemudian dilanjutkan proses klasifikasi naive bayes berdasarkan data hasil pembelajaran, sehingga menghasilkan informasi kelas/kategori untuk data tersebut. Diagram alir/flow chart untuk proses ini dapat dilihat pada Gambar 4 (b).
Gambar 5. Rancangan interface untuk proses pembelajaran
Selanjutnya untuk proses klasifikasi, rancangan interface nya ditunjukkan pada Gambar 6.
Gambar 6. Rancangan interface untuk proses klasifikasi
4. HASIL DAN PEMBAHASAN Tahap pertama yang dilakukan adalah melakukan proses pembelajaran yaitu mengolah data training untuk mendapatkan nilai probabilitas prior. Tahapan yang pertama menghitung distribusi pendaftar berdasarkan asal daerah dan sosial ekonomi: asal daerah, penghasilan orang tua, pendidikan ayah, pendidikan ibu. Berdasarkan data training untuk asal daerah Provinsi Jawa Barat didapat 32 kombinasi. Diantara 32 kombinasi, beberapa kombinasi yang frekuensinya terbesar adalah sebagai berikut :
Gambar 4. Diagram alir proses klasifikasi Naive Bayes
3.3 Perancangan Interface Pada penelitian ini akan dibangun sebuah program aplikasi sederhana untuk memudahkan pengolahan data pada proses pembelajaran
647
Prosiding Seminar Nasional Sains dan Teknologi Nuklir PTNBR – BATAN Bandung, 4 Juli 2013
Asal Kab. Bandung Kab. Bandung Kota Bandung Kab. Bandung Kab. Bandung Kota Bandung
Penghasilan
P.Ayah
P.Ibu
<= Rp 2 jt >Rp 2 jt dan <= Rp 4 jt
K
K
6
K
C
5
<= Rp 2 jt >Rp 2 jt dan <= Rp 4 jt >Rp 2 jt dan <= Rp 4 jt >Rp 4 jt dan <= Rp 6 jt
K
K
5
K
K
4
C
C
4
C
K
4
Tema: Pemanfaatan Sains dan Teknologi Nuklir serta Peranan MIPA di Bidang Kesehatan, Lingkungan dan Industri untuk Pembangunan Berkelanjutan
Jml
(b)
Pada aplikasi yang telah dibangun, untuk tampilan awal ketika pertama kali aplikasi dijalankan, akan tampil 2 buah halaman utama sebagai pembagian proses utama yaitu proses pembelajaran dan proses klasifikasi. Pada halaman proses pembelajaran terdapat tombol proses yang berfungsi untuk menghitung distribusi dari aspek sosial ekonomi dimana variabel/komponennya sudah ditentukan di atas. Tampilan awal aplikasi ditunjukkan pada Gambar 7, dan hasil prosesnya ditunjukkan pada Gambar 8.
(c)
(d) Gambar 8. (a) Distribusi pendaftar berdasarkan asal derah, (b) Distribusi pendaftar berdasarkan penghasilan orang tua, (c) Distribusi pendaftar berdasarkan pendidikan ayah, (d) Distribusi pendaftar berdasarkan pendidikan ibu.
Gambar 7. Tampilan awal aplikasi
Setelah diproses dengan bantuan aplikasi yang dibangun, maka diperoleh nilai-nilai distribusi pendaftar tiap komponen pendukung dan nilai probabilitas prior-nya masing-masing, yaitu pendaftar("yes") = 216/2936 dan pendaftar("no") = 2720/2936. Tahap selanjutnya yang dilakukan adalah melakukan proses klasifikasi terhadap data pendaftar yang dimasukkan. Contoh data yang akan dimasukkan adalah sebagai berikut :
(a)
648
Prosiding Seminar Nasional Sains dan Teknologi Nuklir PTNBR – BATAN Bandung, 4 Juli 2013
Asal daerah
Kota Bandung
Penghasilan Orang Tua
>2 Juta <=4 Juta
Pendidikan Akhir Ayah
S1
Pendidikan Akhir Ibu
SLTA
Tema: Pemanfaatan Sains dan Teknologi Nuklir serta Peranan MIPA di Bidang Kesehatan, Lingkungan dan Industri untuk Pembangunan Berkelanjutan
P(pend_ibu="SLTA" | Pendaftar="no")= 1140/2720=0,419 P(X|pendaftar="yes")P(pendaftar="yes")=0,073 6 x 0,241 x 0,370 x 0,296 x 0,440 = 0,000855 P(X|pendaftar="no")P(pendaftar="no")=0,9264 x 0,301 x 0,325 x 0,280 x 0,419= 0,010644
Dengan bantuan aplikasi, data tersebut dimasukkan sesuai kriteria di atas, seperti pada Gambar 9, kemudian diproses dan hasilnya ditunjukkan pada Gambar 10 di bawah ini.
Dari hasil di atas, prediksi klasifikasi nilai naive bayessian untuk pendaftar="no" lebih besar dari pendaftar="yes", artinya kemungkinan besar tidak akan mendaftar ke prodi D-III Teknik Informatika. Selanjutnya dapat dicoba variasi data pendaftar yang lain.
5. KESIMPULAN Model hasil kontruksi dari data training, menghasilkan probabilitas prior-nya masingmasing, yaitu pendaftar("yes") = 216/2936 dan pendaftar("no") = 2720/2936. Selain itu dihasilkan beberapa kombinasi diantara variabel-variabel asal daerah, penghasilan dan pendidikan orang tua, contoh untuk asal daerah Jawa Barat terdapat 32 kombinasi, dimana kombinasi dengan frekuensi terbesar yaitu bahwa pendaftar ke prodi Teknik Informatika Unpad berasal dari Kabupaten Bandung, dengan Penghasilan Orang tua <= 2 Juta, pendidikan ayah dan ibu adalah lulus SLTA. Keakuratan model klasifikasi di atas masih kurang baik disebabkan jumlah data pendaftar ke Program Studi Teknik Informatika Unpad terlalu sedikit, dan perbandingannya masih kalah jauh dari pendaftar ke program studi lainnya, sehingga tingkat keakuratan hasil klasifikasinya masih kurang. Dengan jumlah data pendaftar yang besar ke program studi tertentu dapat digunakan sebagai bahan untuk melakukan klasifikasi menggunakan metode bayessian naive pada pendaftar pada program studi tertentu, dengan menyajikan prediksi terhadap objek yang belum diketahui, kelasnya secara lebih akurat. Aplikasi yang dibagun memudahkan dan mempercepat dalam hal mengolah data pada proses pembelajaran ataupun dalam penyajian prediksi, sehingga informasi dapat tersaji secara cepat dan akurat. Pengembangan selanjutnya, pada aplikasi sebaiknya dikembangan metode upload data otomatis untuk menambah data training, sehingga jumlah data akan semakin banyak dan semakin baik dalam melakukan kontruksi model pada tahap pembelajaran.
Gambar 9. Memasukkan kriteria data pendaftar
Gambar 10. Proses Klasifikasi Bayessian Naive
Cara perhitungan di atas diperoleh dari : P(Pendaftar="yes")=216/2936=0,0736 P(Pendaftar="no")=2720/2936=0,9264 P(asal daerah="Kota Bandung" | Pendaftar="yes")= 52/216=0,241 P(asal daerah="Kota Bandung" | Pendaftar="no")= 818/2720=0,301 P(hasil="> 2 Jt dan hasil<= 4 Jt" | Pendaftar="yes")= 80/216=0,370 P(hasil="> 2 Jt dan hasil<= 4 Jt" | Pendaftar="no")= 885/2720=0,325 P(pend_ayah="S1" | Pendaftar="yes")= 64/216=0,296 P(pend_ayah="S1" | Pendaftar="no")= 762/2720=0,280 P(pend_ibu="SLTA" | Pendaftar="yes")= 95/216=0,440
649
Prosiding Seminar Nasional Sains dan Teknologi Nuklir PTNBR – BATAN Bandung, 4 Juli 2013
Tema: Pemanfaatan Sains dan Teknologi Nuklir serta Peranan MIPA di Bidang Kesehatan, Lingkungan dan Industri untuk Pembangunan Berkelanjutan
6. UCAPAN TERIMA KASIH Terima kasih kepada pihak jurusan/program studi Matematika serta Fakultas MIPA Unpad yang telah memfasilitasi adanya penelitian, dan UPT SMUP Unpad Tahun 2011 atas data pendaftar sebagai bahan peneitian kami.
5.
6.
7. DAFTAR PUSTAKA 1.
2.
3.
4.
BLACKMORE, K.L dan YANG, X., 2000, "GIS in University Admissions: Analysis and Visualization of Students Flows", in Proceeding of The 28th Annual Conference of AURISA, Coolum, QLD, Australia, 20 -24 November 2000. HAN, J. dan KAMBER, M., 2006, Slide Chapter 6 - Data Mining: Concepts and Techniques. Department of Computer Science University of Illinois at UrbanaChampaign. HAN, J. dan KAMBER, M., 2001, Data Mining: Concepts and Techniques. Morgan Kaufmann Publishers. TANG, Mc DONALD, 2002, Integrating GIS and Spatial Data Mining Technique for
7.
8.
9.
650
Target Marketing of University Course, Symposium on Geospatial Theory, Processing and Application, Ottawa 2002. ROSADI, R., 2006, “Pemetaan Spasial Hasil Data Mining Keadaan Sosial Ekonomi Pendaftar Perguruan Tinggi di Daerah Jawa Barat”, Tesis Pascasarjana Ilmu Komputer UGM. UPT SMUP UNPAD, 2011, Data Seleski Masuk Unpad Program Diploma III (SMUP-D3) tahun 2011. WIKIPEDIA: Bayes' Theorem. http://en.wikipedia.org/wiki/ Bayes'_theorem. Tanggal Akses : 3 Juli 2012. WIKIPEDIA: Bayesian spam filtering. http://en.wikipedia.org/wiki/ Bayesian_spam_filtering. Tanggal Akses : 3 Juli 2012. WIKIPEDIA: Naïve Bayes classifier. http://en.wikipedia.org/wiki/ Naive_Bayes_classifier. Tanggal Akses : 3 Juli 2012.