BAB I PENDAHULUAN 1.1
Latar Belakang Education data mining merupakan penelitian didasarkan data di dunia
pendidikan untuk menggali dan memperoleh informasi tersembunyi dari data yang ada. Pemanfaatan education data mining salah satunya mengetahui seberapa besar pengaruh bentuk pengajaran terhadap hasil yang telah dicapai oleh siswa. Data mining sendiri merupakan proses untuk menemukan pengetahuan (knowledge discovery) yang ditambang dari sekumpulan volume data yang besar (Han, 2001). Penelitian tentang prediksi diterima pada perguruan tinggi dilakukan karena selama ini data lulusan siswa diterima perguruan tinggi, data nilai, data identitas siswa belum pernah dilakukan pengolahan (mining). Penelitian ini menggunakan teknik klasifikasi untuk mengklasifikasi data identitas siswa berupa asal sekolah, gaji orang tua, pekerjaan orang tua, jumlah saudara dan nilai yang diperoleh siswa selama masa studi tiga (3) tahun. Data - data ini digunakan membangun sebuah model untuk menganalisis peluang prediksi siswa diterima di perguruan tinggi (studi kasus pada SMAN 1 Ponorogo). Ada banyak teknik yang bisa dilakukan dalam melakukan klasifikasi data, diantaranya bayesian classifier, rule based classifier, decision tree maupun support vektor machine (Han dan Kamber, 2006). Penelitian ini, akan menggunakan algoritma C4.5, Naive Bayes serta Support Vektor Machine didalam melakukan klasifikasi data. Sedangkan untuk pengujian tingkat akurasi model yang terbentuk menggunakan metode k-fold cross validation. Penggunaan teknik ini didasari oleh keperluan untuk mengetahui nilai akurasi model dari metode algoritma C4.5, Naive Bayes dan Support Vektor Machine didalam melakukan proses klasifikasi di penelitian ini. Algoritma C4.5 melakukan proses pembentukan model klasifikasi dengan membangun sebuah struktur model yang menyerupai bentuk pohon. Dimana root (akar) merupakan representasi awal mulai percabangan, branch (cabang) sebagai
1
2
percabangan pemilihan dan leaf (daun) sebagai ujung atau hasil yang diprediksi. Menurut Quinlan (1993) algoritma C4.5 dalam melakukan klasifikasi memiliki beberapa kelebihan. Kelebihan ini antara lain, dapat mengolah data numerik (kontinyu) dan data diskrit, dapat menangani nilai atribut yang hilang, menghasilkan aturan – aturan yang mudah diterjemahkan dan tercepat diantara algoritma-algoritma yang menggunakan memori utama di komputer. Sedangkan teknik klasifikasi Naive Bayes merupakan teknik klasifikasi dengan kemampuannya melakukan prinsip peluang statistika dalam melakukan pengkombinasian pengetahuan sebelumnya dengan pengetahuan baru. Prinsip ini kemudian digunakan untuk memecahkan masalah klasifikasi (Tan dkk. 2006). Penggunaan Naive Bayes didasari untuk mengetahui nilai probabilitas dari data hasil klasifikasi yang dihasilkan. Menurut Rish (2006) Naive Bayesian Classifier merupakan salah satu algoritma klasifikasi yang sederhana namun memiliki kemampuan dan akurasi tinggi. Support Vektor Machine (SVM) yang merupakan satu kumpulan teknik klasifikasi dan regresi, pengembangan dari algoritma non-linier. Support Vektor Machine dalam melakukan proses klasifikasi dengan menggunakan pasangan data input dan data output berupa target yang diinginkan, yang dikenal dengan pembelajaran terarah (supervised learning). Dengan pembelajaran terarah akan diperoleh fungsi dalam menggambarkan bentuk hubungan input dan outputnya. Sehingga fungsi yang diperoleh mempunyai kemampuan dapat digunakan untuk data input diluar data pembelajaran (Cortes, 1995). Di dalam proses awal pembentukan model untuk dilakukan klasifikasi, pembersihan data meliputi data siswa, data nilai siswa dilakukan secara manual. Hasil dari pembersihan data tersebut nantinya akan dijadikan sebuah model yang digunakan dalam pengujian beberapa metode klasifikasi dalam mencari nilai akurasi terbaik. Pengujian nantinya menggunakan aplikasi yang dibangun, selain mengetahui tingkat akurasi metode klasifikasi diantara C4.5, Naive Bayes dan Support Vektor Machine, aplikasi dalam penelitian ini diharapkan dapat dimanfaatkan memberikan informasi awal bagi siswa maupun guru di SMAN 1 Ponorogo.
3
1.2
Rumusan Masalah Dari latar belakang yang dijelaskan diatas, maka rumusan masalah dalam
penelitian ini adalah : Bagaimana metode klasifikasi dapat dimanfaatkan untuk memperkirakan keberhasilan siswa diterima di perguruan tinggi dari model data berdasarkan identitas siswa, nilai hasil belajar dan data siswa yang telah diterima di perguruan tinggi? 1.3
Tujuan dan Manfaat Penelitian
1.3.1 Tujuan Penelitian 1.
Membuat model prediksi tingkat keberhasilan diterima pada perguruan tinggi menggunakan metode klasifikasi.
2.
Membuat aplikasi dari hasil pengujian tingkat akurasi tertinggi yang dapat dimanfaatkan oleh komponen SMAN 1 Ponorogo.
1.3.2 Manfaat Penelitian Dengan penelitian ini diharapkan mengetahui tingkat akurasi dari beberapa metode klasifikasi, serta bagi pihak sekolah yakni siswa dan guru bisa mendapatkan informasi awal dari nilai yang sudah diperoleh selama masa studi tentang peluang diterima pada perguruan tinggi. 1. 4
Batasan Penelitian Batasan masalah pada penelitian ini meliputi antara lain:
1.
Data yang digunakan dalam penelitian ini adalah data nilai raport siswa kelas x-xi-xii untuk mata pelajaran ujian akhir nasional (UAN), data identitas siswa, serta data kelulusan dalam kurun waktu 11 tahun.
2.
Di dalam kurun waktu tersebut terdapat bentuk penilaian catur wulan dengan jumlah 691 record, dan penilaian semester dengan jumlah 3169 record.
3.
Menggunakan metode klasifikasi algoritma C4.5, Naive Bayes dan SVM untuk melakukan pengujian tingkat akurasi model yang dihasilkan, serta dilakukan pembandingan tingkat akurasi yang dihasilkan.
4
1.5
Keaslian Penelitian Saat ini banyak penelitian didalam education data mining yang bertujuan
untuk memanfaatkan dan menghasilkan informasi dunia pendidikan terkait prediksi, namun yang terkait pengujian tingkat akurasi dari metode klasifikasi algoritma C4.5 Support Vektor Machine dan Naïve Bayes sebagai pembandingnya terhadap model data siswa SMA diterima pada perguruan tinggi menggunakan nilai catur wulan dan nilai semester, sepengetahuan penulis belum pernah ada yang melaksanakan. Beberapa penelitian dengan menggunakan metode klasifikasi dilakukan di dalam rangka untuk mengukur tingkat akurasi. Penelitian – penelitian tersebut dijelaskan pada bab II. 1.6
Metode Penelitian. Penelitian ini dilakukan dengan tahapan sebagai berikut :
1.6.1 Analisis Sistem Pada tahap ini dilakukan analisis sistem, yang pada bagian ini dilakukan analisa data apa saja yang dibutuhkan dan kebutuhan – kebutuhan perangkat lunak dari sistem yang akan dibangunn. Setelah tahap analisis dikerjakan dan menghasilkan spesifikasi kebutuhan data dan perangkat lunak, kemudian dilakukan pemodelan sistem. Analisis pada pembangunan sistem dilakukan dengan menggunakan analisis sebab dan dampak, serta analisis dengan metode PIECES. Sedangkan pemodelan sistem dilakukan dengan menggunakan model pengembangan berorientasi objek, serta kemudian dilakukan rancangan antar muka pengguna. 1.6.2 Pengumpulan Data Proses pengumpulan data meliputi 2 katagori, yaitu pengumpulan bahan atau materi berupa buku referensi dan jurnal ilmiah. Sedangkan katagori kedua adalah pengumpulan data siswa, data nilai serta data siswa yang telah lulus. Data siswa dan data nilai siswa yang tersedia diambil dari data buku legder (buku kumpulan nilai dan data siswa selama di SMA) yang tersimpan dibagian tata usaha, serta data siswa yang diterima di perguruan tinggi dibagian bimbingan konseling (BK).
5
1.6.3 Pembangunan Sistem Berdasarkan hasil analisis sistem, maka sistem tersebut akan dibangun. Tahap pembangunan sistem dilakukan untuk membangun sistem yang belum ada sebelumnya di SMAN 1 Ponorogo. Adapun proses pembangunan sistem dari proses klasifikasi dilakukan dengan tahapan awal mengumpulkan data. Setelah data terkumpul kemudian dilakukan ekstraksi yaitu mengambil beberapa variabel data dari data siswa, nilai siswa serta data siswa yang telah lulus. Data – data yang telah dilakukan ekstraksi kemudian dilakukan pembersihan, penyatuan dan pengubahan bentuk data. Kelas dalam klasifikasi ini adalah kelas “lolos” untuk siswa yang mengandung informasi lolos ke perguruan tinggi dan kelas “ tidak” untuk siswa yang tidak lolos di perguruan tinggi. Tahapan berikutnya adalah implementasi dari metode – metode algoritma yang digunakan, sehingga komputer dapat melakukan proses klasifikasi menggunakan model data yang terbentuk ke dalam aplikasi antar muka berbasis desktop. 1.6.4 Pengujian Sistem Pengujian sistem dilakukan untuk mengukur tingkat akurasi dari metode algoritma C4.5, Support Vektor Machine dan Naive Bayes dengan menggunakan metode 10 Fold Cross Validation terhadap model data. Bentuk pengujian menggunakan metode k-fold cross validation dilakukan menggunakan aplikasi yang telah dibangun. 1.6.5 Penulisan Laporan Tahapan ini dilakukan untuk penulisan laporan terhadap langkah penelitian yang berbentuk laporan tesis. Dimulai dengan pengumpulan data siswa, nilai siswa dan data kelulusan. Kemudian dilakukan proses analisis sistem dengan melakukan pembersihan data, penggabungan dan pengubahan bentuk data. Pengembangan sistem dilakukan dengan membangun sistem aplikasi. Penggunaan data pengujian untuk mengetahui informasi prediksi.