Kumpulan Makalah Seminar Semirata 2013
Fakultas MIPA Universitas Lampung
PROSES DATA MINING DALAM MENINGKATKAN SISTEM PEMBELAJARAN PADA PENDIDIKAN SEKOLAH MENENGAH PERTAMA Fatayat1 , Joko Risanto2 FMIPA Matematika - Universitas Riau E-mail :
[email protected] Abstrak. Dunia Pendidikan memiliki data yang berlimpah dan berkesinambungan mengenai sistem Pembelajaran dan Pendidikan, siswa yang di bina dan alumni yang dihasilkan. Hal ini membuka peluang diterapkannya data mining untuk mengolah Pendidikan lebih baik. Kumpulan dari data tersebut dapat diproses lebih lanjut dengan data mining, untuk memperoleh pola baru yang dapat digunakan untuk meningkatkan efektifitas dalam proses pembelajaran, semua data yang dikelola pada bagian Administrasi merupakan sebuah sumber informasi yang bisa diekstrak kembali untuk mendapatkan suatu pengetahuan yang bisa digunakan untuk meningkatkan mutu dunia Pendidikan pada umumnya dan disekolah khususnya. Metode yang digunakan dalam penelitian ini adalah menggunakan metode Decision Tree. Dalam proses pembelajaran selama jangka waktu tertentu, maka akan terkumpul sejumlah data yang bisa dikelola disekolah untuk proses data mining . Kata Kunci : Data Mining, sistem pembelajaran pada Pendidikan Sekolah menengah Pertama
PENDAHULUAN Dalam proses pembelajaran selama jangka waktu tertentu, maka akan terkumpul sejumlah besar data. Kumpulan data tersebut dapat diproses lebih lanjut dengan data mining untuk memperoleh pola baru yang dapat digunakan untuk meningkatkan efektifitas dalam proses pembelajaran.. Hal ini tentu saja sangat berpengaruh pada peningkatan mutu siswa yang dihasilkan oleh sekolah, dan pada sekala yang lebih besar lagi akan meningkatkan kecerdasan dan intelektual bangsa. Aspek-aspek yang bisa digunakan untuk data mining adalah latar belakang siswa antara lain, Pekerjaan orang tua, pendidikan orang tua, lingkungan tempat tinggal,jarak tempat tinggal, jumlah saudara, nilai siswa dan lain-lain. Hal tersebuat bisa dijadikan sebagai suatu kelompok data yang bisa diolah dan diekstrak kembali untuk mendapat suatu informasi tersembunyi dengan algoritma data mining.
Banyak data yang bisa dikelola disekolah untuk proses data mining maka diperlukan batasan masalah agar penelitian ini bisa lebih terfokus dan tidak mengambang, adapun yang menjadi pembatasan masalah adalah proses nilainilai siswa yang meliputi nilai kognitif, psikomotorik, afektif, kehadiran dan remedi. Data-data yang diambil dari nilai siswa yang ada disekolah yang diambil dari beberapa kelas dan metode yang digunakan adalah Decision Tree. Data Mining Data mining mengacu pada proses untuk menambang (mining) pengetahuan dari sekumpulan data yang sangat besat [ Jiawei, 2001]. Sebenarnya data mining merupakan suatu langkah dalam knowlegde discovery in database (KDD). Knowledge discovery sebagai suatu proses terdidri atas pembersihan data (data cleaning), integrasi data ( data integration), pemilihan data ( data selection ), transformasi data (data Hal 209
FatayatDan Joko Risanto: Proses Data Mining Dalam Meningkatkan Sistem Pembelajaran Pada Pendidikan Sekolah Menengah Pertama
transformation), data mining,evaluasi pola (pattern evaluation) dan penyajian pengetahuan (knowledge presentation). Kerangka proses data mining yang akan dibahas tersusun atas tiga tahapan, yaitu pengumpulan data (data collection), transformasi data (data transformation),dan analisis data (data analysis) [ Nilakant]. Proses tersebut diwakili dengan preprocessing yang terdidri atas pengumpulan data untuk menghasilkan data mentah (raw data) yang dibutuhkan oleh data mining, yang kemudian dilanjutkan dengan transformasi data untuk mengubah data mentah menjadi format yang dapat diproses oleh data mining, misalnya melalui filtrasi atau agregasi. Hasil transformasi data akan digunakan oleh analisis data untuk membangkitkan pengetahuan dengan menggunakan teknik seperti analisis statistik, machine learning, dan visualisasi informasi seperti terlihat pada gambar 2.1
Gambar 2.2 Pohon Keputusan Pohon keputusan merupakan metode klasifikasi metode klasifikasi dan prediksi yang sangat kuwat dan terkenal. Metode pohon keputusan mengubah fakta yang sangat besar menjadi pohon keputusan yang mempersentasikan aturan. Pohon keputusan juga berguna untuk mengeksplorasi data, menemukan hubungan tersembunyi antara jumlah calon variabel input dengan variabel target. Pohon keputusan adalah sebuah struktur yang dapat digunakan untuk membagi kumpulan data yang besar menjadi himpunan-himpunan record yang lebih kecil dengan menerapkan serangkaian aturan keputusan. Dengan masing-masing rangkaian pembagian, anggota himpunan hasil mirip satu dengan yang lain ( Berry dan Linoff, 2004) METODE PENELITIAN
Pohon Keputusan Gambar 2.2 Pohon keputusan adalah model prediksi menggunakan struktur pohon atau struktur berhirarki. Contoh dari pohon keputusan dapat dilihat di Gambar 2.2. Disini setiap percabangan menyatakan kondisi yang harus dipenuhi dan tiap ujung pohon menyatakan kelas data. Contoh di Gambar 2.2 adalah identifikasi pembeli komputer, dari pohon keputusan tersebut diketahui bahwa salah satu kelompok yang potensial membeli komputer adalah orang yang berusia dibawah 30 tahun dan juga pelajar. Hal 210
Salah satu Algoritma induksi keputusan yaitu ID3 (Iterative Dichotomister 3). ID3 dikembangkan oleh J. Ross Quinlan. Dalam prosedur algoritma ID3, input berupa sampel training, label training dan atribut. Algoritma C4.5 merupakan perkembangan dari ID3. Sedangkan pada perangkat lunak open source WEKA mempunyai versi sendiri C4.5 yang dikenal sebagai J48. Pohon dibangun dengan cara membagi data secara rekursif hingga tiap bagian terdiri dari data yang berasal dari kelas yang sama. Bentuk pemecahan (split)
Kumpulan Makalah Seminar Semirata 2013
yang digunakan untuk membagi data tergantung dari jenis atribut yang digunakan dalam split. Algoritma C4.5 dapat menangani data numerik (kontinyu) dan diskret. Split untuk atribut numerik yaitu mengurutkan contoh berdasarkan atribut kontiyu A, kemudian membentuk minimum permulaan (threshold) M dari contoh-contoh yang ada dari kelas mayoritas pada setiap partisi yang bersebelahan, lalu menggabungkan partisi-partisi yang bersebelahan tersebut dengan kelas mayoritas yang sama. Split untuk atribut disket A mempunyai bentuk value ε X dimana X ⊂ domain(A). Untuk melakukan pemisahan obyek (split) dilakukan tes terhadap atribut dengan mengukur tingkat ketidakmurnian pada sebuah simpul (node). Pada algoritma C4.5 menggunakan rasio perolehan (gain ratio). Sebelum menghitung rasio perolehan, perlu menghitung dulu nilai informasi dalam satuan bits dari suatu kumpulan objek. Cara menghitungnya dilakukan dengan menggunakan konsep entropi E (S) = -P+ log2 P+ - P-log2 PS adalah ruang (data) sampel yang digunakan untuk pelatihan, p+ adalah jumlah yang bersolusi positif atau mendukung pada data sampel untuk kriteria tertentu dan p- adalah jumlah yang bersolusi negatif atau tidak mendukung pada data sampel untuk kriteria tertentu. Entropi(S) sama dengan 0, jika sama contoh pada S berada dalam kelas yamg sama. Entropi(S) sama dengan 1, jika jumlah contoh positf sama negative dalam S tidak sama [Mitchell,1997]. Entropi split yang membagi S dengan n record memjadi himpunan-himpunan S1 dengan n l baris dan S2 dengan n2 baris adalah :
Entropi split yang membagi S dengan n record memjadi himpunan-himpunan S1
Fakultas MIPA Universitas Lampung
dengan n l baris dan S2 dengan n2 baris adalah : Kemudian menghitung perolehan informasi dari output data atau variabel dependent y yang dikelompokkan berdasarkan atribut A, dinotasikan dengan gain (S,A). Perolehan informasi, gain (S,A), dari atribut A relative terhadap output data S adalah:
Dengan: S :Himpunan Kasus A :Atribut n :Jumlah partisi atribut A IsiI :Jumlah kasus pada partisi ke i ISI :Jumlah kasus dalam S
Nilai (A) adalah semua nilai yang mungkin dari atribut A, dan Si adalah subset dari S dimana A mempunyai nilai i. Term pertama dalam persamaan diatas adalah entropy total S dan term kedua adalah entropy sesudah dilakukan pemisahan data berdasarkan atribut A. Untuk menghitung rasio perolehan perlu diketahui suatu term baru yang disebut pemisahan informasi (Split Info).Pemisahan info dihitung dengan cara:
Bahwa S1 sampai Sc adalah n subset yang dihasilkan dari pemecahan S dengan menggunakan atribut A yang mempunyai sebanyak n nilai. Selanjutnya rasio perolehan (gaain ratio) dihitung dengan cara: Metode Penelitian Dalam penelitian ini digunakan data hasil evaluasi Siswa,sofware WEKA,Nilai Kognitif, Nilai Psikomotorik,N ilai Afektif, Kehadiran dan Remedi. Bahan/Materi Penelitian Buku textbook yang terkait dengan analisa dan perancangan dengan mengunakan software weka dan Buku Hal 211
FatayatDan Joko Risanto: Proses Data Mining Dalam Meningkatkan Sistem Pembelajaran Pada Pendidikan Sekolah Menengah Pertama
manual tool yang digunakan dalam pengembangan perangkat lunak.sistem data mining yang mengumpulkan semua data hasil evaluasi belajar siswa dan di ekstrak Uji Coba Penelitian dan pengujian yang dilakukan pada metode sarana pendukung yaitu berupa peralatan yang sangat berperan dalam menunjang penggunaan aplikasi dalam mengolah data. Pengujian apalikasi ada dua, yaitu lingkungan perangkat keras komputer dn perangkat lunak komputer. Hardware:
1. Laptop Tosiba Intel Pentium – Core Processor T3400. 2. Harddisk 160 GB. 3. Memori 512 MB DDR2
1. Microsoft Excel 2007. 2. WEKA 3. Sistem Operasi Windows ProfesionalService Pack 2.
XP
HASIL DAN PEMBAHASAN Hasil Pengujian Metode Algoritma a. Decision Tree Data awal yang digunakan pada tahap pengujian dengan menggunakan aplikasi WEKA disimpan dalam file Microsoft Excel simpan dengan format CVS ( Comman Separated Value),kemudian buka di Notepad, kemudian ambil Replace pada menu edit, ganti titik koma dengan koma lalu tekan Replace All dan kemudian simpan fail tersebut.
Software:
Data Hasil Evaluasi NAMA Andi Firmasari Budi Setiawan Cicilia Dewita Diky Ramadan Fatmawati Linda Mawar Rianai Rini Angraini Yosi Amoliya Asril
KOGNITIF 43 53 63 86 40 51 66 73 77 78
DATA HASIL EVALUASI SISWA PSIKOMOTORIK AFEKTIF KEHADIRAN 47 Baik Kurang 90 Baik Kurang 40 Buruk Kurang 69 Baik Kurang 62 Buruk Sedang 52 Baik Sedang 44 Baik Sedang 58 Baik Kurang 64 Buruk Kurang 87 Baik Sedang
Analisa Data Mining Metode C$.5 Sistem yang dirancang adalah untuk menentukan kenaikan siswa ketingkat yang lebih tinggi. Data awal baik numberik atau non numberik akan dibagi perkelas supaya memudahkan dalam proses analisa selanjutnya. Setelah semua data yang akan dimasukan dibagi perkelas, maka akan dilakukan proses klasifikasi untuk kenaikan siswa dengan membuat sebuah pohon keputusan untuk menghasilkan output. Proses pengambilan keputusan dalam klasifikasi kenaikan siswa dibagi menjadi beberapa kriteria penilaian yaitu: 1. Nilai Kognitif 2. Nilai Psikomotorik 3. Nilai Efektif Hal 212
REMEDI Hadir Hadir Tidak Tidak Hadir Hadir Hadir Hadir Tidak Tidak
NAIK Tidak Tidak Tidak Tidak Ya Ya Tidak Ya Ya Ya
4. Kehadiran 5. Remedi Melakukan Pra-Proses Dari tabel Diagram Alir Data Level 1 kita bisa mengetahui bahwa data-data yang akan dijadikan sebagai input untuk proses adalah Nilai Kognitif, Nilai Psikomotorik, nilai Afektif, Kehadiran dan Remedi. Setelah data dalam format diatas, kemudian dilakukan pra- proses mengelompokkan data-data kedalam klas (K) dengan Stugers ( DRs.Riduwan M.B.A) dengan menggunkan rumus. Jumlah Kelas ( K) = 1+ 3.3 log n Dimana : n = Jumlah data K = 1 + 3.3 log (50) K= 1 + 3.3 (1,69897) K= 1 + 5.606601
Kumpulan Makalah Seminar Semirata 2013
Fakultas MIPA Universitas Lampung
K= 6.606601 tersebut dikelompokan kedalam 3 kelas Dengan jumlah data 50 kelas yang seperti terlihat pada Tabel 1.3 didapat 7 kelas, tapi yang memakai 7 Tabel 1.3 Klasifikasi Nilai Afektif kelas ini adalah data-data yang berupa NilEfektif Baik nilai angka yaitu nilai Kognitif, nilai Cukup Psikometrik. Nilai-nilai tersebut Buruk dikelompokkan berdasarkan atribut Mengelompokan Nilai kehadiran sebagai berikut: berdasarkan persentase kehadiran siswa. Mengelompokan Nilai Kognitif Nilai kehadiran tersebut dikelompokan Mengelompokkan Nilai Kognitif, kedalam 3 kelas seperti terlihat pada tabel pengelomokan nilai berdasarkan dari hasil 1.4 ujian yang didapat oleh siswa. Dan nilai Tabel 1.4 Klasifikasi Nilai kehadiran tersebut dikelompokkan kedalam 7 kelas Kehadiran pada Tabel 1.1 Tinggi Tabel 1.1 Klasifikasi Nilai Kognitif Sedang Nilai Kongnitif 0-13 14-27 28-41 42-55 56-79 80-93 >94
Klasifikasi 1 2 3 4 5 6 7
Kurang
Mengelompokan Nilai Remedi atau nilai perbaikan berdasarkan hadir tidak hadirnya siswa pada saat remedi . Nilai remedi tersebut dikelompokan kedalam 2 kelas seperti terlihat pada Tabel 1.5 Tabel 1.5 Klasifikasi Nilai Remedi
Tabel 1.2 Klasifikasi Nilai Psikomotorik Nilai Psikomotorik 0-13 14-27 28-41 42-55 56-79 80-93 >94
Klasifikasi 1 2 3 4 5 6 7
Nilai Remedi Hadir Tidak Hadir
Mengelompokan atribut Kenaikan berdasarkan atribut-atribut sebelumnya yang berfungsi sebagai input . Kenaikan merupakan atribut tujuan yang dihasilkan dari proses klasifikasi. Kenaikan dikelompokan kedalam 2 kelas seperti terlihat pada Tabel 1.6 Tabel 1.6 Klasifikasi Nilai Remedi
Mengelompokan nilai Psikomotorik berdasarkan hasil ujian Praktek atau pun karya yang dibuat dan nilai tersebut Nilai Kenaikan dikelompokan kedalam 7 kelas seperti Ya terlihat pada tabel 1.2 Mengelompokan Nilai efektif Tidak berdasarkan tingkah laku, kesopanan, kerajinan, dan lain-lain. Nilai efektif Tabel 1.7 Format data akhir setelah dilakukan pra-proses Kognitif 3 3 3 4 4 4 4 4 4 4
Psikomotorik 5 5 5 4 6 6 4 5 5 7
Afektif Baik Baik Baik Baik Baik Baik Baik Baik Baik Baik
Kehadiran Kurang Kurang Kurang Tinggi Tinggi Tinggi Sedang Sedang Sedang Sedang
Remedi Hadir Tidak Tidak Hadir Hadir Hadir Hadir Hadir Hadir Hadir
Kenaikan Tidak Tidak Tidak Ya Ya Ya Ya Ya Ya Ya
Hal 213
FatayatDan Joko Risanto: Proses Data Mining Dalam Meningkatkan Sistem Pembelajaran Pada Pendidikan Sekolah Menengah Pertama
Pohon Keputusan Dari format data akhir kenaikan siswa maka akan dilakukan klasifikasi data algoritma C4.5 dengan membuat pohon keputusan. Seperti yang telah dijelaskan sebelumnya, algoritma C4.5 untuk membangun pohon keputusan adalah sebagai berikut; 1. Pilih atribut sebagai akar. 2. Buat cabang untuk tiap-tiap nilai. 3. Bagi kasus dalam cabang. Ulangi proses untuk setiap cabang sampai semau kasus pada cabang memeiliki kelas yang sama.Dalam kasus yang tertera pada tabel diatas, akan dibuat pohon keputusan untuk menentukan klsaifikasi kenaikan sisiwa baru (ya dan tidak) dengan melihat Nilai Kognitif, Nilai Psikometrik, Nilai Efektif, Kehadiran dan kenaikan.Untuk memilih atribut sebagai akar, didasarkan pada nilai Gain tertinggi dari atribut-atribut yang ada. Untuk menghitung Gain digunakan rumus. Perhitungan Gain dan Entrophy
Keterangan : S : Himpunan Kasus A : Atribut N : Jumlah partisi atribut A ISiI : Jumlah kasus pada partisi ke-i
Dengan menggunakan data dua persamaan diatas maka akan didapatkan entrophy dan Gain yang digunakan sebagai akar dalam membuat pohon keputusan. Menghitung jumlah kasus, jumlah k sus untuk keputus n “Y ”, juml h kasus untk keputus n “Tid k”, d n k sus yang dibagi berdasarkan atribut Nilai Kognitif, Nilai Psikomotorik, Nilai Afektif, Kehadiran dan Kenaikan. Setelah itu, lakukan perhitungan Gain untuk setiap atribut. Perhitungan Node Dengan menghitung nilai entrophy dari atribut yang tersisa setelah dihitung entrophy, kemudian menghitung Gain untuk tiap-tiap atribut. Nilai Entrophy Total Merupakan Nilai Entrophy yang mewakili dari seluruh jumlah total Variabel atribut yang ada. Dengan Rumus:
ISI : Jumlah kasus dalam S Sedangkan untuk menghitung nilai entrophy dapat dilihat pada rumus
= ( 7 X log2 ( 7 )) + ( 3 log2(3 )) 10 10 10 10 = 0,881290899
Tabel 1.8 Tabel Hasil Perhitungan Atribut Kognitif 1 2 3 4 5 6 7 Psikomotorik 1 2
Hal 214
Jumlah
Ya
0 0 0 5 1 1 3
0 0 0 3 1 0 3
0 0
0 0
KENAIKAN Tidak
Entrophy
Gain Total
0 0 0 2 0 1 0
0 0 0 0,970950594 0 0 0
0,78419584
0 0
0 0
Kumpulan Makalah Seminar Semirata 2013
3 4 5 6 7 Afektif Baik Cukup Kehadiran Tinggi Sedang Remedi Hadir Tidak Hadir Total
Fakultas MIPA Universitas Lampung
1 8 0 0 1
1 6 0 0 0
0 2 0 0 1
0 0,8112778124 0 0 0
6 4
4 3
2 1
0,918295834 0,811278124
7 3
7 0
0 3
0 0
0 10 10
0 7 7
0 3 3
0 0,881290899 0,881290899
Dari tabel di atas dapat kita ketahui bahwa atribut yang memiliki Gain paling besar adalah atribut Kognitif, yaitu sebesar 0,78419584. Dengan demikian, atribut Kognitifi bisa menjadi node 4. Ada 3 atribut dari Kognetif yaitu: 5,6,7 Atribut 5 dan 7 sudah mengklasifikasikan kasus menjadi 1 dengan keputusan Tidak naik, sedangkan 6 sudah mengklasifikasikan kasus menjadi 1 dengan keputusan Naik sehingga tidak perlu dilakukan perhitungan lebih lanjut, tetapi untuk nilai atribut lain masih perlu dilakukan perhitungan lain. Dari hasil perhitungan tersebut dapat digambarkan pohon keputusan sementara tampak pada gambar 2.3 KESIMPULAN Dari penelitian yang penulis lakukan dapat disimpulkan bahwa proses yang dilakukan secara manual dapat juga memberikan keputusan yang diharapkan, tetapi dengan rentang waktu yang lebih lama dalam proses penggalian informasinya dan kapasitas data yang bisa dihitung sangat kecil. Dengan menggunakan metode algoritma
0,706193149
0,705032719
Decision Tree dengan bantuan software WEKA proses pengalian informasi bisa lebih cepat dan bisa dengan kapasitas data yang besar dan pengambilan keputusan lebih optimal dan kesalahan dalam mengambil keputusan dapat dioptimalkan. DAFTAR PUSTAKA H n Ji wei “ D t Minig Concept nd Technique‟, Presnt tion http://www.ilmukomputer.com Iko Pramudiono. 2003. Pengantar Data Mining : Menambang Permata Pengetahuan di Gunung Data. www.ilmukomputer.com
Kusri & Emh T ufq Luthfi (2009), “ Algoritm D t Mining”, Andi Yogyakarta, Yogyakarta Kadarsiah Suryadi, DR dan Ali Ramdhani , M.t, “ Sistem pendukung keputus n”, PT Remaja Rosdakarya, Bandung, 2002 Sani Susanto, Ph.D dan Dedy Suryadi, S, T, M.S (2010), “Peng nt r D t Mining”, Andi Yog k rt .
Hal 215