PERBANDINGAN ALGORITMA ID3 DAN C5.0 DALAM INDENTIFIKASI PENJURUSAN SISWA SMA *Holisatul Munawaroh, **Bain Khusnul K,S.T.,M.Kom ***Yeni Kustiyahningsih,S.Kom.,M.Kom Program Studi Teknik Informatika, Universitas Trunojoyo Jl. Raya Telang, PO BOX 2, Kamal, Bangkalan E-mail: *
[email protected], **
[email protected], ***
[email protected]
ABSTRAK Selama ini pemilihan jurusan di SMA Negeri 2 Bangkalan merupakan masalah yang selalu dihadapi oleh guru. Masalah yang sering terjadi adalah keterlambatan nilai siswa dari wali kelas dan banyaknya jumlah siswa kelas X sehingga proses penjurusannya kurang tepat. Oleh karenanya diperlukan suatu sistem yang terkomputerisasi yang dapat menangani masalah diatas. Pada penelitian ini dibangun aplikasi untuk mengidentifikasi penjurusan siswa SMA. Aplikasi penjurusan SMA ini menggunakan algoritma ID3 dan C5.0 yang merupakan algoritma pohon keputusan yang sering digunakan karena memiliki tingkat akurasi yang tinggi dalam menentukan keputusan. Namun, belum diketahui algoritma mana diantara keduanya yang lebih unggul kinerjanya. Oleh karena itu algoritma ini perlu dibandingkan. Penelitian ini membandingkan kinerja dari algoritma ID3 dan C5.0 dalam melakukan identifikasi penjurusan siswa SMA. Penelitian ini menggunakan 200 data siswa kelas X tahun ajaran 2011/2012, data tersebut dipecah menjadi 2 yaitu 150 data training dan 50 data testing. Hasil dari penelitian yang dilakukan, diketahui nilai precision terbesar dicapai oleh algoritma C5.0 pre pruning dengan nilai sebesar 94,87 %. Nilai recall terbesar dicapai oleh algoritma C5.0 pre pruning dengan nilai sebesar 97,37 %. Nilai accuracy terbesar dicapai oleh algoritma C5.0 pre pruning dengan nilai sebesar 94 %. Nilai error rate terkecil dicapai oleh algoritma C5.0 pre pruning dengan nilai sebesar 6%. Hasil akhir dari penelitian ini adalah algoritma C5.0 lebih baik dari pada algoritma ID3 karena memiliki tingkat akurasi yang lebih tinggi daripada algoritma ID3. Kata Kunci: Pohon Keputusan, ID3, C5.0, IPA, IPS.
ABSTRACT All this time election majors at high school 2 Bangkalan is a problem that has always faced by teachers. The problem that often occurs is the delay value of homeroom students and the large number of students of class X so that the process majoring is less precise. Therefore we need a computerized system that can handle the above problems. In this research, built applications for identify majors high school students. This application uses algorithms ID3 and C5.0 that is decision tree algorithm often used because it has a high degree of accuracy in determining the decision. However, the algorithm is not yet known which of the two is superior performance. Therefore these algorithms need to be compared. This study compared the performance of ID3 and C5.0 algorithms in identifying majors of students in high school. This study uses 200 data class X students of the school year 2011/2012, the data is broken down into 2 that is 150 training data and 50 testing data. Results of research conducted, the largest known value of precision is achieved by pre-pruning algorithm C5.0 with a value of 94.87%. Biggest recall value achieved by pre pruning algorithm C5.0 with a value of 97.37%. Greatest accuracy values achieved by pre-pruning algorithm C5.0 with a value of 94%. Value of the smallest error rate achieved by pre pruning algorithm C5.0 a value of 6%. The end result of this research is the C5.0 algorithm is better than the ID3 algorithm because it has a higher level of accuracy than the ID3 algorithm. Keywords: Decision Tree, ID3, C5.0, Science, Social Studies.
1
2 Jurnal Sarjana Teknik Informatika Vol. 1, No. 1, Juni 2013, hlm 1-12
PENDAHULUAN Sekolah Menengah Atas (disingkat SMA), adalah jenjang pendidikan menengah pada pendidikan formal di Indonesia setalah lulus Sekolah Menengah Pertama (atau sederajat). Sekolah Menengah Atas ditempuh dalam kurun waktu 3 tahun, mulai dari kelas X sampai kelas XII. Pada tahun kedua (yakni kelas XI), siswa SMA dapat memilih jurusan yang ada. Idealnya, pemilihan jurusan itu berdasarkan minat, bakat, dan kemampuan siswa, sehingga dengan itu mereka diharapkan akan berhasil dalam menyelesaikan studinya di SMA serta dapat melanjutkan pendidikan ke jenjang yang lebih tinggi. Proses penjurusan di SMAN 2 Bangkalan dilakukan pada saat siswa berada di kelas X dan akan naik ke kelas XI. Setelah wali kelas menerima seluruh nilai semester maka wali kelas akan memutuskan apakah siswa tersebut naik atau tidak. Jika siswa tersebut dinyatakan naik maka selanjutnya akan dilakukan proses penjurusan oleh tim yang terdiri dari Wakil Kepala Sekolah Bidang Kurikulum, Guru Bimbingan Konseling, Wali Kelas X dan Guru Mata Pelajaran yang berkaitan dengan penjurusan. Masalah yang sering terjadi dalam proses penjurusan adalah keterlambatan nilai siswa dari para wali kelas, akibatnya pada akhir proses penjurusan para tim penentu jurusan berburu waktu sehingga proses penjurusan kurang tepat, ditambah lagi dengan banyaknya jumlah siswa kelas X. Tahun ajaran 2011/2012 tercatat siswa kelas X sejumlah ± 320 orang. Penjurusan siswa yang dilakukan di SMAN 2 Bangkalan hanya pada dua jurusan yaitu IPA dan IPS. Penentuan penjurusan ini dipertimbangkan berdasarkan nilai akademik siswa, minat siswa dan bakat siswa yang dilihat dari hasil psikotest. Pada penelitian ini dibangun aplikasi untuk mengidentifikasi penjurusan siswa SMA. Aplikasi penjurusan SMA ini menggunakan algoritma ID3 dan C5.0 yang merupakan algoritma pohon keputusan yang sering digunakan karena memiliki tingkat akurasi yang tinggi dalam menentukan keputusan. Dalam studi kasus yang lain, penelitian terkait perbandingan kinerja pohon keputusan ID3 dan C4.5 pernah dilakukan oleh Sofi Defiyanti dan D L Crispina Pardede dengan judul “perbandingan kinerja algoritma ID3 dan C4.5 dalam klasifikasi spam-mail” membuktikan bahwa pohon keputusan dengan algoritma ID3 memiliki kinerja yang lebih baik dibandingkan algoritma C4.5 dalam mengklasifikasikan data spam email. Berikutnya penelitian tentang prediksi keaktifan studi mahasiswa dengan algoritma C5.0 dan K-Nearest Neighbor yang melakukan prediksi untuk mengetahui keaktifan seorang mahasiswa. Dalam penelitian ini proses klasifikasi yang memberikan hasil bahwa atribut Indeks Prestasi Kumulatif (IPK) merupakan atribut yang menentukan status studi mahasiswa. Hasil penelitian ini memberikan informasi bahwa Algoritma C5.0 lebih baik dibandingkan algoritma K-Nearest Neighbor. Berdasarkan kedua penelitian tersebut, dapat dilihat bahwa kedua algoritma, ID3 dan C5.0 mempunyai kinerja yang baik dalam pengidentifikasiannya. Namun, belum diketahui algoritma
Holisatul Munawaroh. Perbandingan ID3 dan C5.0 dalam Identifikasi Penjurusan SMA
3
mana diantara keduanya yang lebih unggul kinerjanya. Oleh karena itu algoritma ini perlu dibandingkan. Pada penelitian ini membandingkan kinerja dari algoritma ID3 dan C5.0 dalam melakukan identifikasi penjurusan siswa SMA. Hasil akhir dari penelitian ini diharapkan dapat mengetahui algoritma mana yang memiliki akurasi yang paling tinggi. Rule yang dihasilkan juga akan digunakan sebagai penentu keputusan sehingga dapat memprediksi jurusan siswa IPA atau IPS.
TINJAUAN PUSTAKA Profil SMA SMA Negeri 2 Bangkalan merupakan salah satu unit pelaksana teknis dinas pendidikan kota Bangkalan yang berada di Jl. Soekarno hatta 18 kelurahan Mlajah kecamatan Bangkalan. SMAN 2 Bangkalan ini dibuka pada tanggal 1 April 1978 dan memiliki status akreditasi sekolah yaitu A pada tahun 2005. Jumlah siswa kelas X tahun ajaran 2011/2012 adalah ± 320 siswa. Penjurusan siswa yang dilakukan di SMAN 2 Bangkalan hanya pada dua jurusan yaitu IPA dan IPS. Penentuan penjurusan ini dipertimbangkan berdasarkan nilai akademik siswa, minat siswa dan bakat siswa yang dilihat dari hasil psikotest. Data Mining Data Mining adalah salah satu bidang yang berkembang pesat karena besarnya kebutuhan akan nilai tambah dari database skala besar yang makin banyak terakumulasi sejalan dengan pertumbuhan teknologi informasi. Definisi umum dari Data Mining itu sendiri adalah serangkaian proses untuk menggali nilai tambah berupa pengetahuan yang selama ini tidak diketahui secara manual dari suatu kumpulan data [1]. Pohon Keputusan Pohon keputusan adalah salah satu metode klasifikasi yang paling popular karena mudah untuk diinterpretasi oleh manusia. Konsep dari pohon keputusan adalah mengubah data menjadi pohon keputusan dan aturan-aturan keputusan. Algoritma pohon keputusan telah banyak digunakan dalam penelitian dari berbagai studi kasus. Penelitian terkait dengan proposal tugas akhir ini pernah dilakukan oleh Moh. Nugroho W (2012) dengan judul “Perbandingan kinerja pohon keputusan ID3 dan C4.5 dalam identifikasi
kelayakan
kredit
sepeda
motor”.
Penelitian
tersebut
dilakukan
untuk
mengidentifikasi kelayakan kredit menggunakan algoritma pohon keputusan ID3 dan C4.5 serta untuk mengukur kinerja algoritma ID3 dan C4.5 dari sisi keakuratan hasil prediksi. Pengukuran kinerja yang dilakukan menggunakan sekelompok data uji untuk mengetahui persentase precision, recall dan accuracy. Hasil akhir dari penelitian ini menunjukkan bahwa algoritma C4.5 memiliki tingkat akurasi yang lebih tinggi daripada algoritma ID3. [3]
4 Jurnal Sarjana Teknik Informatika Vol. 1, No. 1, Juni 2013, hlm 1-12
Dalam studi kasus yang lain, penelitian terkait perbandingan kinerja pohon keputusan ID3 dan C4.5 pernah dilakukan Surbhi Hardikar, Ankur Shrivastava dan Vijay Choudhary (2012) dengan judul “Comparison between ID3 and C4.5 in Contrast to IDS” Pada penelitian ini, analisa perbandingan yang dilakukan berdasarkan kinerja parameter yaitu akurasi, penggunaan memory, model build time, search time dan error rate. Hasil dari penelitian ini menunjukkan bahwa algoritma C4.5 memiliki tingkat akurasi yang sama dengan algoritma ID3. [4] Selanjutnya penelitian tentang klasifikasi tumbunhan jamur dengan menggunakan algoritma C5.0 pada tahun 2009 yang menghasilkan dua kelas jamur, yaitu jamur yang dapat dimakan ( edible mushroom ) dan jamur beracun ( poisonous mushroom ). Dalam penelitian ini metode yang digunakan adalah decision tree yang merupakan metode klasifikasi yang paling banyak digunakan dengan algoritma C5.0. Dataset tumbuhan jamur dibagi menjadi 3 bagian yaitu 2 bagian untuk data training dan 1 bagian untuk data testing. Hasil klasifikasi menunjukkan bahwa presentase nilai akurasi mencapai 100%, yang menunjukkan bahwa algoritma yang digunakan sangat cocok dengan data yang diolah [5]. Pembangunan tree dimulai dengan data pada simpul akar (root node) yang dilanjutkan dengan pemilihan sebuah atribut, formulasi sebuah logical test pada atribut tersebut dan pencabangan pada setiap hasil dari test. Langkah ini terus bergerak ke subset ke contoh yang memenuhi hasil dari simpul anak cabang (internal node) yang sesuai melalui proses rekursif pada setiap simpul anak cabang. Langkah-langkah tersebut diulangi hingga dahan-dahan dari tree memiliki contoh dari satu kelas tertentu. Beberapa model decision tree yang sudah dikembangkan antara lain adalah IDS, ID3, C4.5, C5.0, CHAID dan CART.
METODE PENELITIAN ID3 Algoritma ID3 atau Iterative Dichotomiser 3 (ID3) merupakan sebuah metode yang digunakan untuk membuat pohon keputusan yang telah dikembangkan oleh J. Ross Quinlan sejak tahun 1986. Algoritma pada metode ini menggunakan konsep dari entropy informasi. Algoritma ID3 dapat diimplementasikan menggunakan fungsi rekursif (fungsi yang memanggil dirinya sendiri). [6]. Secara ringkas, langkah kerja Algoritma ID3 dapat digambarkan sebagai berikut [7]: 1. Hitung Entropy dan Information gain dari setiap atribut dengan menggunakan rumus:
Entropy (S ) = P log 2 P P log 2 P
(1)
Dimana: S = ruang (data) sample yang digunakan untuk training. P+ = jumlah yang bersolusi positif (mendukung) pada data sample untuk kriteria tertentu. jumlah yang bersolusi negatif (tidak mendukung) pada data sample untuk kriteria tertentu.
Holisatul Munawaroh. Perbandingan ID3 dan C5.0 dalam Identifikasi Penjurusan SMA
Gain S, A = Entropy S − ∑
Sv S
Entropy(Sv)
5
(2)
Dimana: S = ruang (data) sample yang digunakan untuk training. A = atribut. V = suatu nilai yang mungkin untuk atribut A. Nilai(A) = himpunan yang mungkin untuk atribut A. |Sv| = jumlah sample untuk nilai V. |S| = jumlah seluruh sample data. Entropy(Sv) = entropy untuk sample-sample yang memiliki nilai V. Tujuan dari pengukuran nilai information gain adalah untuk memilih atribut yang akan dijadikan cabang pada pembentukan pohon keputusan. 2. Pilih atribut yang memiliki nilai information gain terbesar. 3. Bentuk simpul yang berisi atribut tersebut. 4. Ulangi proses perhitungan information gain yang akan terus dilaksanakan sampai semua data telah termasuk dalam kelas yang sama. Atribut yang telah dipilih tidak diikutkan lagi dalam perhitungan nilai information gain. C5.0 Algoritma C5.0 merupakan merupakan penyempurnaan dari algoritma terdahulu yang dibentuk oleh Ross Quinlan pada tahun 1987, yaitu algoritma ID3 dan C4.5. Perbedaan utama C5.0 dari ID3 adalah: - C5.0 dapat menangani atribut kontinyu dan diskrit. Akan tetapi pada penelitian ini yang dipakai hanya atribut diskrit karena jika menggunakan atribut kontinyu pohon yang dihasilkan akan panjang dan tidak efisien. - Hasil pohon keputusan C5.0 dapat dipangkas atau terdapat pruning (pemangkasan). Atribut dengan nilai information gain tertinggi akan terpilih sebagai parent bagi node selanjutnya. Algoritma ini membentuk pohon keputusan dengan cara pembagian dan menguasai sampel secara rekursif dari atas ke bawah. Algoritma ini dimulai dengan semua data yang dijadikan akar dari pohon keputusan sedangkan atribut yang dipilih akan menjadi pembagi bagi sampel tersebut. 𝐼 𝑠1 , 𝑠2 , … , 𝑠𝑚 = − ∑𝑚 𝑖=1 𝑝𝑖 log 2 𝑝𝑖
(3)
S adalah sebuah himpunan yang terdiri dari s data sampel. Diketahui atribut class adalah m dimana mendefinisikan kelas-kelas di dalamnya, Ci (for i= 1,…,m), si adalah jumlah sampel pada S dalam class Ci. untuk mengklasifikasikan sampel yang digunakan maka diperlukan informasi dengan menggunakan aturan 3. Dimana pi adalah proporsi kelas dalam output seperti pada kelas Ci dan diestimasikan dengan si /s. Atribut A memiliki nilai tertentu {a1, a2,…, av}. Atribut A dapat
6 Jurnal Sarjana Teknik Informatika Vol. 1, No. 1, Juni 2013, hlm 1-12
digunakan pada partisi S ke dalam v subset, {S1, S2, …, Sv}, dimana Sj berisi sample pada S yang bernilai aj pada A. Jika A dipilih sebagai atribut tes (sebagai contoh atribut terbaik untuk split), maka subset ini akan berhubungan pada cabang dari node himpunan S. Sij adalah jumlah sample pada class Ci dalam sebuah subset Sj. Untuk mendapatkan informasi nilai subset dari atribut A tersebut maka digunakan formula, 𝑦
𝐸 𝐴 = ∑𝑗 =1 𝑠1𝑗 +...+𝑠𝑚𝑗 𝑠
𝑠1𝑗 +...+𝑠𝑚𝑗 𝑠
𝐼(𝑠1𝑗 , … , 𝑠𝑚𝑗 )
(4)
adalah jumlah subset j yang dibagi dengan jumlah sampel pada S, maka untuk
mendapatkan nilai gain, selanjutnya digunakan formula, 𝐺𝑎𝑖𝑛 𝐴 = 𝐼 𝑠1 , 𝑠2 , … , 𝑠𝑚 − 𝐸 𝐴
(5)
Pre Pruning Pre pruning yaitu pemangkasan yang dilakukan sejak awal pembentukan pohon dengan cara menghentikan pembangunan suatu subtree lebih awal, yaitu dengan memutuskan untuk tidak lebih jauh mempartisi data training. Cara kerja pre pruning adalah dengan menghitung dulu nilai information gain untuk mengetahui nilai parent dan child. Setelah parent dan child diketahui kemudian dihitung nilai errornya, jika nilai error child lebih kecil parent maka parent membentuk subtree lagi, tapi sebaliknya jika nilai error child lebih besar dari parent maka pruning dilakukan dan pembentukan subtree berhenti. Untuk menghitung nilai error digunakan rumus dibawah ini. Rumus pre pruning :
r e
z2 r r2 z2 z 2n n n 4n 2 z2 1 n
(6)
Dimana: r = nilai perbandingan error rate n = total sample z 1 c
c = confidence level Post Pruning Post Pruning merupakan pemangkasan yang dilakukan setelah pohon terbentuk secara utuh. Reduced Error Pruning merupakan salah satu algoritma postpruning. Algoritma ini membagi data menjadi dua, yaitu training data dan test data. Training data adalah data yang digunakan untuk membentuk pohon keputusan, sedangkan test data digunakan untuk menghitung nilai error rate pada pohon setelah dipangkas.
Holisatul Munawaroh. Perbandingan ID3 dan C5.0 dalam Identifikasi Penjurusan SMA
7
Cara kerja REP adalah dengan memangkas internal node yang dimulai dari internal node paling bawah ke atas. Pemangkasan dilakukan dengan cara mengganti atribut dengan leaf node yang memiliki kelas yang dominan muncul. Setelah itu test data diproses menggunakan rule hasil pemangkasan, kemudian dihitung nilai error ratenya. Test data juga diproses dengan rule awal, yaitu rule yang terbentuk sebelum pohon dipangkas, kemudian dihitung nilai error ratenya. Apabila nilai error rate yang dihasilkan dari pemangkasan pohon lebih kecil, maka pemangkasan dilakukan. Rancangan Sistem Mulai
Input data training, data testing
Preprosesing (transformasi data numerik ke kategorikal)
Mining ID3
Mining C5.0
Pohon Keputusan & Rule ID3
Pohon Keputusan & Rule C5.0
Proses klasifikasi data testing dengan rule ID3
Proses klasifikasi data testing dengan rule C5.0
Penilaian Kinerja ID3 & C5.0
Input Data Penentu Keputusan
Proses Klasifikasi
Jurusan IPA atau IPS
Selesai
Gambar 1. Flowchart Sistem
HASIL DAN PEMBAHASAN Data yang digunakan dalam tugas akhir ini merupakan data siswa kelas X angkatan 2011/2012 yang diperoleh dari SMAN 2 Bangkalan. Jumlah data yang digunakan sebanyak 200 data dimana 140 data memiliki kelas ipa dan 60 memiliki kelas ips. Dalam implementasinya, data diujicoba menjadi 3 skenario. Skenario 1 digunakan untuk membandingakan algritma ID3 dan C50 pre
8 Jurnal Sarjana Teknik Informatika Vol. 1, No. 1, Juni 2013, hlm 1-12
pruning, skenario 2 digunakan untuk membandingkan algoritma post pruning dan skenario 3 digunakan untuk efektifitas dan efisiensi dari algoritma. Pada penelitian ini data dipecah menjadi 3 yaitu data training digunakan untuk membentuk pohon keputusan, data testing digunakan untuk ujicoba pada pohon yang telah dibentuk guna menghitung nilai error rate dan data test pruning digunakan untuk mengetes akurasi pada pohon yang telah dibentuk guna proses pemangkasan pohon Skenario 1 Skenario 1 digunakan untuk membandingkan algritma ID3 dan C5.0 pre pruning. Pada skenario 1 ini data yang digunakan yaitu 150 data training dan 50 data testing. Data yang akan digunakan dipecah menjadi 2 yaitu data training dan data testing, yaitu: Berikut keterangan dari jumlah populasi data, yaitu : Tabel 1. Data Skenario 1 ID3 Training Testing Jumlah
150 50 200
C5.0 prepruning 150 50 200
Skenario 2 Skenario 2 digunakan untuk membandingkan algoritma post pruning. Dalam algoritma post pruning data yang digunakan dipecah menjadi 3 yaitu data training, data testing dan data test pruning. Untuk membandingkan kinerjanya data post pruning dipecah menjadi 3 partisi, yaitu: partisi 50:100 adalah 50 data training, 100 data test pruning, partisi 75:75 adalah 75 data training, 75 data test pruning dan partisi 100:50 adalah 100 data training, 50 data test pruning. Dari ketiga partisi tersebut sama-sama menggunakan 50 data testing. Berikut keterangan jumlah populasi data : Tabel 2. Data Skenario 2
Training Test Pruning Testing Jumlah
C5.0 Post Pruning 50:100 75:75 100:50 50 75 100 100 75 50 50 50 50 200 200 200
Skenario 3 Skenario 3 digunakan untuk membandingkan algoritma ID3, C5.0 pre pruning dan C5.0 post pruning guna untuk mengetahui efektifitas dan efisiensi dari algoritma tersebut. Berikut keterangan dari jumlah populasi data, yaitu :
Holisatul Munawaroh. Perbandingan ID3 dan C5.0 dalam Identifikasi Penjurusan SMA
9
Tabel 3. Data Skenario 3 ID3 Training Testing Test Pruning Jumlah
100 100 200
C5.0 prepruning 100 100 200
C5.0 post pruning 50 50 100 50
Analisa Perbandingan Algoritma Setelah pohon dibentuk, selanjutnya dilakukan perbandingan dengan data yang merupakan data testing, data yang digunakan ada 50 data dimana data tersebut dilakukan pengklasifikasian menggunakan rule ID3 dan C5.0 yang telah dibentuk. Kemudian kelas yang terbentuk dibandingkan dan dihitung nilai error ratenya. Setelah proses klasifikasi, kemudian dihitung kinerja dari masing-masing algoritma yang meliputi akurasi, error rate, precision dan recall. Berikut tabel kinerja perbandingan : Tabel 4. Kinerja Perbandingan Algoritma Skenario 1
Skenario 2 C5.0 C5.0 Post Post ID3 Pruning Pruning 100:100 75:75 100:50 94% 90% 93%
Skenario 3
94%
C5.0 Post Pruning 50:100 94%
Error Rate 14%
6%
6%
6%
10%
7%
7%
5%
Precision
89,74%
94,87%
94,87%
94,87%
90,24%
93,42%
92,31%
94,74%
Recall
92,11%
97,37%
97,37%
97,37%
97,37%
97,26%
98,63%
98,63%
Kinerja
Akurasi
ID3 150:50 86%
C5.0 Pre Pruning 150:50
C5.0 Pre Pruning 100:100
C5.0 Post Pruning 100:100
93%
95%
Skenario 1 Pada Skenario 1 terdapat penilaian kinerja algoritma ID3 dan C50 pre pruning. Penilaian kinerja diperoleh dari hasil klasifikasi rule algoritma dengan data testing. Perbandingan skenario 1 ini digunakan untuk membandingkan kinerja dari kedua algoritma, guna mengetahui algoritma mana yang paling bagus kinerjanya. Dari Hasil penilaian kinerja diketahui algoritma C50 pre pruning memiliki akurasi yang lebih baik dari pada ID3. Ini terlihat dari nilai akurasi C50 pre pruning sebesar 94% sedangkan ID3 sebesar 86%.
10 Jurnal Sarjana Teknik Informatika Vol. 1, No. 1, Juni 2013, hlm 1-12
Perbandingan pada skenario 1 dari kedua algoritma dapat digambarkan pada grafik berikut: 120% 100% 80% 60% 40% 20% 0%
Precision Recall Akurasi Error Rate ID3 150:50
C5.0 prepruning 150:50
Gambar 2. Grafik Skenario 1
Skenario 2 Pada Skenario 2 terdapat penilaian kinerja algoritma C5.0 post pruning. Penilaian kinerja diperoleh dari hasil klasifikasi rule algoritma c50 post pruning dengan 50 data testing. Dalam skenario 2 ini terdapat 3 partisi data yaitu 50:100 adalah 50 training dan 100 test pruning , 75:75 adalah 75 training dan 75 test pruning, 100:50 adalah 100 training dan 50 test pruning. Perbandingan skenario 2 ini digunakan untuk membandingkan kinerja algoritma dari tiap partisi, guna mengetahui algoritma mana yang paling bagus kinerjanya. Dari Hasil penilaian kinerja diketahui algoritma C5.0 post pruning 50:100 dan 75:75 memiliki akurasi yang sama dan lebih baik dari pada C5.0 post pruning 100:50. Ini terlihat dari nilai akurasi C5.0 post pruning 50:100 dan 75:75 sebesar 93,88% sedangkan C5.0 post pruning 100:50 sebesar 90%. Perbandingan pada skenario 2 dari ketiga partisi data dari algoritma C5.0 post pruning dapat digambarkan pada grafik berikut: 120% 100% 80% 60% 40% 20% 0%
Precision Recall Akurasi C5.0 post C5.0 post C5.0 post pruning pruning pruning 50:100 75:75 100:50
Error Rate
Gambar 3. Grafik Skenario 2
Skenario 3 Pada Skenario 3 terdapat penilaian kinerja algoritma ID3, C50 pre pruning dan C5.0 post pruning. Penilaian kinerja diperoleh dari hasil klasifikasi rule algoritma dengan data testing. Perbandingan skenario 3 ini digunakan untuk membandingkan kinerja dari kedua algoritma, guna mengetahui algoritma mana yang paling bagus kinerjanya selain itu untuk efektifitas dan efisiensi dari algoritma tersebut. Dari Hasil penilaian kinerja diketahui algoritma C50 post pruning memiliki
Holisatul Munawaroh. Perbandingan ID3 dan C5.0 dalam Identifikasi Penjurusan SMA
11
akurasi yang lebih baik dari pada ID3. Ini terlihat dari nilai akurasi C50 post pruning sebesar 95% sedangkan ID3 sebesar 93%. Perbandingan pada skenario 3 dari kedua algoritma dapat digambarkan pada grafik berikut: 120% 100% 80% 60%
Precision
40%
Recall
20%
Akurasi
0%
Error Rate ID3 100:100
C5.0 pre C5.0 post pruning pruning 100:100 100:100
Gambar 4. Grafik Skenario 3
KESIMPULAN DAN SARAN Kesimpulan Beberapa kesimpulan yang dapat diambil dari hasil penelitian ini adalah : 1. Hasil ujicoba pengukuran kinerja kedua algoritma menggunkanan 3 skenario yang telah dilakukan, dapat disimpulkan bahwa pada skenario 3 merupakan ujicoba paling efektif karena akurasi yang dihasilkan mencapai 95% pada algoritma C5.0 post pruning 100:100. 2. Algoritma pohon keputusan yang terbaik adalah algoritma C5.0 karena memiliki kinerja (precision, recall, accuracy dan error rate) yang lebih baik dibandingkan algoritma ID3. Ini terlihat dari nilai akurasi C5.0 post pruning 100:100 sebesar 95% sedangkan untuk ID3 100:100 sebesar 93%. 3. Hasil penilaian kinerja yang telah diketahui dapat disimpulkan juga bahwa semakin banyak data testing yang digunakan semakin tinggi tingkat akurasi yang dihasilkan. Ini terlihat dari hasil skenario 1 menggunakan 50 data testng algoritma ID3 sebesar 86% dan C5.0 post pruning sebesar 90%. Sedangkan menggunakan 100 data testing hasil kinerjanya meningkat pada algoritma ID3 sebesar 93% dan C5.0 post pruning sebesar 95%. Saran Saran-saran yang bisa disampaikan adalah sebagai berikut: 1. Aplikasi ini masih bisa dikembangkan untuk algoritma pohon keputusan lainnya dan untuk metode pruning yang digunakan juga masih bisa dikembangkan lagi. 2. Algoritma C5.0 pada aplikasi ini tidak bisa mengklasifikasi data yang mengandung missing value, sehingga dapat lebih disempurnakan lagi. 3. Tampilan dari aplikasi ini masih terlihat kaku, sehingga dapat dibuat lebih menarik lagi.
12 Jurnal Sarjana Teknik Informatika Vol. 1, No. 1, Juni 2013, hlm 1-12
DAFTAR PUSTAKA [1]
Pramudiono I. Pengantar Data Mining: Menambang Permata Pengetahuan di Gunung Data.
2003
diakses
tanggal 17 Oktober 2012. [2]
Nugroho, Fanuel., Kristanto, Harianto., dan Oslan, Yetli. Validitas Suatu Alamat menggunakan Pohon keputusan dengan Algoritma ID3. Jurnal Informatika, Volume 3 Nomor 2 April 2007. 1: 2. 2007.
[3]
Hardikar S, Shrivastava A, Choudhary V. Comparison between ID3 and C4.5 in Contrast to IDS. VSRD-IJCSIT. Vol. 2 (7). 659-667. 2012.
[4]
Humairah, N. Klasifikasi Data Tumbuhan Jamur Dengan Menggunakan Algoritma C5.0 [Skripsi]. UPN Veteran. Jakarta. 2009.
[5]
Nugroho M.W. Perbandingan kinerja pohon keputusan ID3 dan C4.5 dalam klasifikasi kelayakan kredit sepeda motor (studi kasus Bussan Auto Finance) [Skripsi]. Universitas Trunojoyo. Bangkalan. 2012.
[6]
Wahyudin. Metode Iterative Dichotomizer 3 (ID3) Untuk Penerimaan Mahasiswa Baru. Tanpa
Tahun.
KOMPUTER/WAHYUDIN/metode_ID3_untuk_mhsbaru.pdf> diakses tanggal 17 Oktober 2012. [7]
Defianti, S dan Pardede, D. L. C. Perbandingan Kinerja Algoritma ID3 dan C4.5 dalam Klasifikasi
SpamMail.
2008.
~mwiryana/KOMMIT/per-artikel/03-02-004-Perbandingan%5BSofi%5D.pdf>,
diakses
tanggal 5 Oktober 2012. [8]
Ernawati, I. Prediksi Status Keaktifan Studi Mahasiswa Dengan Algoritma C5.0 dan KNearest Neighbor [Tesis]. Institut Pertanian Bogor. Bogor. 2008.
[9]
Tanpa
Nama.
Constructing Decision Trees. Tanpa Tahun.
store.com/Notes/Decision-Tree.10.11.ppt> diakses tanggal 3 Oktober 2012.