Seminar Nasional Teknologi Informasi dan Komunikasi 2015 (SENTIKA 2015) Yogyakarta, 28 Maret 2015
ISSN: 2089-9815
PERBANDINGAN ALGORITME J48 DAN NBTREE UNTUK KLASIFIKASI DIAGNOSA PENYAKIT PADA SOYBEAN Saucha Diwandari1, Noor Akhmad Setiawan2 Jurusan Teknik Elektro dan Teknologi Informasi Universitas Gadjah Mada Jl. Grafika No. 2 Yogyakarta - 55281 E-mail:
[email protected],
[email protected] 12
ABSTRAKS Klasifikasi merupakan salah satu teknik yang terdapat pada data mining yang bertujuan menempatan objekobjek ke salah satu dari beberapa kategori yang telah ditetapkan sebelumnya. Teknik klasifikasi seringkali digunakan untuk memprediksi atau mendeskripsikan data set dengan kategori biner dan nominal. Makalah ini menyajikan evaluasi kinerja dari algoritme J48 dan NBTree yang merupakan bagian dari decision tree dengan menggunakan tools WEKA untuk data set Soybean yang terdapat pada UCI Machine Learning. Evaluasi dilakukan berdasarkan pada perbandingan tingkat akurasi, sensitivity dan specificity dengan menggunakan true positive dan false positive dalam confusion matrix yang dihasilkan dari masing-masing algoritme serta menggunakan correct dan incorrect instances untuk mengetahui metode yang paling efisien dari dua algoritme tersebut. Hasil dari percobaan yang telah dilakukan menunjukkan bahwa kinerja dari algoritme J48 lebih baik jika dibandingkan dengan NBTree. Hal ini terlihat dari tingkat akurasi yang dihasilkan algoritme J48 lebih tinggi jika dibandingkan dengan NBTree sehingga dapat disimpulkan jika algoritme J48 merupakan algoritme yang efisien untuk menyelesaikan kasus Soybean. Kata Kunci: Klasifikasi, Algoritme Decision Tree, WEKA ABSTRACT Classification is one of the techniques contained in data mining that aims to place objects into one of several predefined categories. Classification techniques are often used to predict or describe data sets with binary and nominal categories. This paper presents a performance evaluation of the J48 and NBTree algorithms which are part of the decision tree by using the WEKA tools for Soybean data sets contained in the UCI Machine Learning. The evaluation conducted is based on a comparison of the level of accuracy, sensitivity and specificity by using true positive and false positive in a confusion matrix generated from each of the algorithms and by utilizing correct and incorrect instances to determine the most efficient method of the two algorithms. The results of the experiments conducted show that the performance of the algorithm J48 is better when compared with NBTree. This can be seen from the level of accuracy of the resulting J48 algorithm that is higher when compared with NBTree algorithm. So it can be concluded that the J48 algorithm is an efficient algorithm to solve the case of Soybean. Keyword : Classification, Decision Tree Algorithm, WEKA 1.
PENDAHULUAN Data mining berkembang dalam berbagai aplikasi yang sangat luas seperti analisis senyawa organik, diagnosa medis, desain sebuah produk, peramalan keuangan dan lain sebagainya. Data mining mengacu pada analisis data dalam jumlah besar yang tersimpan dalam komputer. Data mining tidak hanya spesifik pada satu jenis data atau media akan tetapi dapat diterapkan pada berbagai jenis penyimpanan informasi(Goyal & Mehta, 2012). Data yang tersimpan dapat bersifat terstruktur, semi-terstruktur dan tidak terstruktur juga melingkupi relational database, object-relational database dan object oriented, data warehouse dan transactional database. Pada dasarnya data mining berhubungan dengan analisa data dan penggunaan teknik-teknik perangkat lunak untuk mencari pola dan keteraturan dalam himpunan data yang siftanya
tersembunyi. Berbagai teknik yang tersedia pada data mining diantaranya adalah classification, clustering, feature selection dan association rule. Makalah ini berfokus pada teknik klasifikasi serta pengukuran kinerja dari algoritme klasifikasi yang berdasarkan pada tingkat TP dan FP yang dihasilkan oleh algoritme bila diterapkan pada sekumpulan data. Metode klasifikasi merupakan proses untuk mengelompokkan sejumlah data kedalam kelaskelas tertentu yang telah ditetapkan sebelumnya berdasarkan kesamaan sifat dan pola yang ada dalam data-data tersebut. Algoritme klasifikasi melakukan pembelajaran dari data latih dan kemudian membangun model yang selanjutnya digunakan untuk melakukan klasifikasi pada objek baru. Melalui data set Soybean yang terdapat pada UCI Machine Learning Repository akan dilakukan
205
Seminar Nasional Teknologi Informasi dan Komunikasi 2015 (SENTIKA 2015) Yogyakarta, 28 Maret 2015
perbandingan dua algoritme pada WEKA yaitu algoritme J48 dan NBTree. 2.
TINJAUAN PUSTAKA Dalam sepuluh tahun terakhir, telah banyak penelitian yang dilakukan dalam bidang data mining khususnya pada teknik klasifikasi untuk menyelesaikan berbagai masalah. Sa’diyah et al(Alfisahrin & Mantoro, 2014) melakukan penelitian pada bidang kesehatan khususnya untuk masalah penyakit liver dengan melibatkan tiga classifier, yaitu : Decision Tree, Naïve Bayes dan NBTree. Hasil dari penelitian ini menunjukkan bahwa classifier NBTree memiliki tingkat akurasi yang lebih tinggi dan Naïve Bayes memiliki kecepatan waktu komputasi lebih cepat jika dibandingkan dengan dua classifier lainnya. Ayse et al(Cufoglu, Lohi, & Madani, 2009) melakukan penelitian untuk melakukan klasifikasi pada user profile. Pada penelitian ini, digunakan beberapa classifier, yaitu : Naïve Bayes, Instance-Based (IBI), SimpleCART, Naïve Bayesian Tree (NBTree), Iterative Dichotomister Tree (Id3), J48 dan SMO. Dengan tujuan untuk menemukan algoritme klasifikasi yang terbaik melalui tingkat akurasi yang paling tinggi maka hasil yang ditemukan bahwa kinerja classifier NBTree lebih baik dari classifier lainnya. Anshul el al(Goyal & Mehta, 2012) menggunakan classifier Naïve Bayes dan J48 untuk financial institute dataset. Hasil dari penelitian ini ialah bahwa classifier J48 memberikan tingkat akurasi yang lebih untuk kelas gender yang memiliki dua nilai, yaitu : perempuan dan laki-laki pada bank dataset. Hasil lain menunjukkan tingkat efisiensi dan akurasi dari J48 dan Naïve Bayes berada pada level yang baik. P Amudha et al(Amudha & Rauf, 2011) melakukan penelitian pada KDD CUP’99 dataset untuk melakukan analisis kinerja pendekatan data mining khususnya klasifikasi pada intrusion detection. Classifier yang digunakan dalam penelitian ini adalah J48, Naïve Bayes, NBTree dan Random Forest. Hasil yang ditemukan adalah NBTree dan Random Forest lebih baik dari algoritme lainnya dalam hal akurasi prediksi dan tingkat deteksi. Penelitian ini mengadopsi algoritme yang menurut penelitian sebelumnya merupakan algoritme terbaik untuk kasus klasifikasi. Algoritme tersebut adalah J48 dan NBTree.
ISSN: 2089-9815
anthracnose, phyllosticta-leaf-spot, alternarialeafspot, frog-eye-leaf-spot, diaporthe-pod-&-stemblight, cyst-nematode, 2-4-d-injury dan herbicideinjury. Juga terdiri dari 35 atribut yang dijelaskan pada Table 1. Tabel 1 Atribut Soybean Data Set No Nama Atribut Deskripsi 1 Date April, May, June, July, August, September, October, ?. 2 Plant-Stand Normal, It-normal, ? 3 Precip It-norm, norm, gtnorm, ?. 4 Temp It-norm, norm, gtnorm, ?. 5 Hail Yes, No, ?. 6 Crop-hist Diff-1st-year, same1st-year, same-1sttwo-yrs, ?. 7 Area-damaged Scattered, lowareas, upper-areas, whole-field, ?. 8 Severity Minor, pot-severe, severe, ?. 9 Seed-tmt None, fungicide, other, ?. 10 Germination 90-100%, 80-89%, It-80%, ?. 11 Plant-growth Norm, abnorm, ?. 12 Leaves Norm, abnorm. 13 Leafspots-halo Absent, yellowhalos, no-yellowhalos, ?. 14 Leafspots-marg w-s-marg, no-w-smarg, dna, ? 15 Leafspot-size Lt-1/8, gt-1/8, dna, ?. 16 Leaf-shread Absent, present, ?. 17 Leaf-malf Absent, present, ?. 18 Leaf-mild Absent, upper-surf, lower-surf, ?. 19 Stem Norm, abnorm 20 Lodging Yes, no, ?. 21 Stem-cankers Absent, below-soil, above-soil, abovesec-nde, ?. 22 Canker-lesion Dna, brown, dkbrown-blk, tan, ?. 23 Fruiting-bodies Absent, present,?. 24 Exterbal decay Absent,firm-anddry,watery,?. 25 Mycelium Absent, present, ?. 26 Int-discolor None, brown,
3.
PEMBAHASAN Data set yang digunakan adalah Soybean yang bersumber dari UCI Machine Learning Repository. Data set Soybean terdiri dari 307 instance dan 19 kelas yaitu : diaporthe-stem-canker, charcoal-rot, rhizoctonia-root-rot, phytophthora-rot, brown-stemrot, powdery-mildew, downy-mildew, brown-spot, bacterial-blight, bacterial-pustule, purple-seed-stain, 206
Seminar Nasional Teknologi Informasi dan Komunikasi 2015 (SENTIKA 2015) Yogyakarta, 28 Maret 2015
black, ?. Absent, present, ?. Norm, diseased, few-present, dna, ?. 29 Fruit-spods Absent, colored, brown-w/blkspecks, distort, dna, ?. 30 Seed Norm, abnorm, ?. 31 Mold-growth Absent, present, ?. 32 Seed-discolor Absent, present, ?. 33 Seed-size Norm, It-norm, ?. 34 shriveling Absent, present, ?. 35 Roots Norm, rotted, gallscysts, ?. Nilai dari atribut dinotasikan sebagai nilai numerik dengan nilai pertama ditandai dengan angka ‘0’, kedua ‘1’ dan seterusnya dan beberapa nilai yang tidak diketahui atau missing value ditandai dengan ‘?’. Nilai ‘dna’ tidak diterapkan pada data set ini. Pada Soybean data set terdapat beberapa missing value yang perlu dilakukan pembaharuan data. Beberapa instance yang memiliki missing value harus diperbaharui dengan nilai-nilai berikut ini: 1. Date : 0 2. Plant-stand : 1 3. Precip : 8 4. Temp : 11 5. Hail : 7 6. Crop-hist : 41 7. Area-damaged : 1 8. Severity : 1 9. Seed-tmt : 41 10. Germination : 41 11. Plant-growth : 36 12. Leaves : 1 13. Leafspots-halo : 0 14. Leafspots-marg : 25 15. Leafspot-size : 25 16. Leaf-sharead : 25 17. Leaf-malf : 26 18. Leaf-mild : 25 19. Stem : 30 20. Lodging : 1 21. Stem-cankers : 41 22. Canker-lesion : 11 23. Fruiting-bodies : 11 24. External decay : 35 25. Mycelium : 11 26. Int-discolor :11 27. Sclerotia : 11 28. Fruit-pods : 11 29. Fruit spots : 25 30. Seed : 35 31. Mold-growth : 29 32. Seed-discolor : 29 27 28
ISSN: 2089-9815
33. Seed-size : 35 34. Shriveling : 29 35. Roots : 35
Sclerotia Fruit-pods
4.
METODE KLASIFIKASI Klasifikasi merupakan suatu proses menemukan kumpulan pola atau fungsi yang mendeskripsikan serta memisahkan kelas data yang satu dengan yang lainnya untuk menyatakan objek tersebut masuk pada kategori tertentu yang sudah ditentukan atau dikenal juga sebagai supervised learning. Metode klasifikasi terdiri dari dua proses, yaitu : learning step atau tahap training phase dimana algoritme klasifikasi membangun classifier dengan menganalisis atau “belajar dari” sebuah training set yang memiliki label dan telah tersedia sebelumnya, selanjutnya untuk mengetahui akurasi dari classifier yang telah dibentuk, pada tahap kedua dilakukan pengujian terhadap classifier tersebut dengan menggunakan test set yang merupakan kumpulan data baru yang dipilih secara acak dan bersifat independen dari training set yang artinya data yang digunakan pada test set tidak digunakan untuk membangun classifier(Zhao & Zhang, 2008). Pada makalah ini, dua classifier yaitu algoritme J48 dan NBTree digunakan untuk perbandingan. Perbandingan dilakukan berdasarkan tingkat akurasi, sensitivity dan specificity dengan menggunakan true positive dan false positive dalam confusion matrix yang dihasilkan pada masing-masing algoritme serta menggunakan correct dan incorrect instances untuk mengetahui metode yang paling efisien dari dua algoritme tersebut. 4.1
Algoritme Decision Tree J48 J48 adalah salah satu jenis classifier pada metode klasifikasi dalam data mining dan bagian dari C4.5 decision tree yang sederhana. C4.5 membangun sebuah pohon keputusan berdasarkan pada seperangkat input data yang berlabel. Pohon keputusan adalah model prediksi menggunakan struktur pohon atau struktur berhirarki. Konsep dari pohon keputusan adalah mengubah data menjadi pohon keputusan dan aturan-aturan keputusan. Berikut ini tahapan algoritme J48 : 1) Menyiapkan data training 2) Menentukan akar dari pohon. 3) Menghitung nilai Gain melalui Persamaan (1). Entropy(S) =
(1)
4) Ulangi langkah ke-2 hingga semua tupel terpartisi dengan menggunakan Persamaan (2). Gain(S,A) =
(2)
5) Proses partisi pohon keputusan akan berhenti saat semua tupel dalam node N mendapat 207
Seminar Nasional Teknologi Informasi dan Komunikasi 2015 (SENTIKA 2015) Yogyakarta, 28 Maret 2015
kelas yang sama dan atau tidak ada atribut di dalam tupel yang dipartisi lagi dan atau tidak ada tupel di dalam cabang yang kosong. Algoritme J48 mengabaikan missing value yaitu nilai untuk item yang dapat diprediksi berdasarkan apa yang diketahui tentang nilai-nilai atribut pada baris lainnya. Ide dasar dari algoritme ini adalah untuk membagi data ke dalam jangkauan berdasarkan nilai atribut untuk item yang ditemukan dalam training data set. Algoritme J48 memungkinkan klasifikasi baik melalui pohon keputusan ataupun aturan yang dihasilkan dari pembentukan classifier(Goyal & Mehta, 2012). 4.2
Algoritme Decision Tree NBTree Naïve Bayesian Tree Learner atau NBTree merupakan kombinasi dari klasifikasi Naïve Bayes dan decision tree learning. Algoritme NBTree memiliki kesamaan dengan algoritme C4.5. Setelah tree terbangun, sebuah Naïve Bayes dibangun untuk setiap daun dengan menggunakan data yang terkait dengan daun itu sendiri. Sebuah NBTree classifier dalam menetapkan class label pada sebuah instance yaitu dengan menyortir ke sebuah daun dan menerapkan Naïve Bayes dalam daun tersebut. NBTree sering mencapai tingkat akurasi yang lebih tinggi jika dibandingkan dengan Naïve Bayesian classifier(Zhao & Zhang, 2008). 5.
PENGOLAHAN DATA DAN EVALUASI KINERJA ALGORITME Data yang akan digunakan pada proses pengolahan data, terdiri dari holdout method dan resampling method 1) Holdout Method terbagi dalam dua bagian, yaitu: Training data. Pada tahap ini data yang digunakan yaitu 199 instance dari jumlah total data 307 instance yang digunakan sebagai pembentuk classifier. Test data digunakan untuk menguji classifier yang telah dibentuk pada tahap training phase dengan menggunakan training data. Data yang digunakan yaitu 108 instance dari jumlah total data 307 instance yang ada. 2) Resampling method Dalam resampling method yang digunakan adalah cross validation. Pada bagian cross validation semua data yang berjumlah 307 digunakan. Cross validation merupakan metode untuk mengevaluasi model-model regresi dengan suatu ukuran kemampuan prediksi dan memilih satu model yang terbaik. Ukuran kemampuan prediksi dalam metode cross validation dicari dengan cara membagi data menjadi dua bagian. Bagian pertama digunakan untuk membuat model regresi dan bagian yang kedua digunakan untuk memvalidasi agar diketahui seberapa baik kemampuan prediksi dari model tersebut. Cross validation melengkapi kekurangan dari holdout method yaitu dimana lebih
ISSN: 2089-9815
sedikit contoh-contoh yang berlabel yang tersedia untuk training karena beberapa record digunakan untuk testing. Hasilnya adalah model yang dihasilkan dapat tidak sebagus ketika semua contoh berlabel digunakan untuk training dan model yang terbentuk dapat sangat tergantung pada komposisi dari training set dan test set. Cross Validation memiliki keuntungan dalam pengunaan sebanyak mungkin data untuk training(Zhao & Zhang, 2008). Dalam tahap evaluasi kinerja algoritme pada klasifikasi didasarkan pada banyaknya (count) test record yang diprediksi secara benar dan secara tidak benar oleh model. Count ini ditabulasikan dalam sebuah table yang dikenal sebagai confusion matrix. Tabel 2 menggambarkan confusion matrix untuk masalah klasifikasi. Tabel 2 Confusion Matrix Klasifikasi Predicted Class Class = 1
Class = 0
Actual
Class = 1
F11
F10
Class
Class = 2
F01
F00
Setiap entri Fij dalam table ini menyatakan banyaknya record dari kelas i yang diprediksi menjadi kelas j. Sebagai contoh, F01 adalah banyaknya record dari kelas 0 yang secara tidak benar diprediksi sebagai kelas 1. Berdasarkan pada entri-entri dalam confusion matrix, banyaknya total prediksi yang benar yang dibuat oleh model adalah (F11 + F00) dan banyaknya total prediksi yang tidak benar adalah (F10 + F01) (Ilmu Pengetahuan Indonesia, 2008). Informasi dalam confusion matrix diperlukan untuk menentukan kinerja model klasifikasi. Dalam makalah ini, pengujian dilakukan dengan menggunakan WEKA (Waikato Environment for Knowledge Analysis) untuk membandingkan algoritme J48 dan NBTree. Data set yang digunakan tersedia pada URL https://archive.ics.uci.edu/ml/datasets/Soybean. 6.
ANALISIS DAN HASIL Dalam penelitian ini dilakukan percobaan terhadap Soybean dataset dengan dua algoritme yang terdapat pada WEKA, yaitu J48 dan NBTree. 6.1
Pengujian dan Hasil Klasifikasi dengan Algoritme J48 Hasil pengolahan data menggunakan classifier tree J48 menghasilkan sebanyak 13 leaf node dan 25 tree. 1) Training set Pengolahan klasifikasi data Soybean dengan pilihan ‘use training set’ dengan menggunakan training data yang berjumlah 199 instance pada WEKA menghasilkan data yang dapat dilihat pada 208
Seminar Nasional Teknologi Informasi dan Komunikasi 2015 (SENTIKA 2015) Yogyakarta, 28 Maret 2015
ISSN: 2089-9815
Tabel 3 dan confusion matrix yang terbentuk dapat dilihat pada Gambar 1. Tabel 3 Hasil Evaluasi Training Set J48 No 1 2 3 4 5 6 7 8
Spesifikasi Pengukuran Correctly Classified Instances Incorrectly Classified Instances Kappa statistic Mean absolute error Root mean squared error Relative absolute error Root relative squared error Total Number of Instances
Nilai 198 atau 99,4975 % 1 atau 0,5025 % 0,9943 0,0015 0,0276 1,036 % 10,1901 % 199
Gambar 2 Confusion Matrix dari Supplied Test J48 Akurasi yang diperoleh ialah 100 % artinya classifier yang terbentuk dapat mengklasifikasikan semua data pada kelasnya masing-masing secara tepat. Sehingga hasil mean squared error adalah 0 %. 3) Pilihan tes untuk cross validation dengan jumlah folds sebanyak 10 dengan menggunakan 307 instance menghasilkan sebanyak 30 leaf node dan 59 tree dan data lengkapnya dapat dilihat pada Tabel 5 dan confusion matrix yang terbentuk dapat dilihat pada Gambar 3. Tabel 5 Hasil Evaluasi Confusion Matrix J48 No 1
Gambar 1 Confusion Matrix dari Use Training Set J48 Akurasi yang diperoleh ialah 99,4975 % dengan test record yang diklasifikasi secara benar sebanyak 198. Jumlah test record yang diklasifikasi secara tidak benar sebanyak 1 atau 0,5025 % Dengan hasil mean squared error adalah 0,0276 %. 2) Supplied Test Set Classifier yang telah terbentuk pada tahap training set selanjutnya diuji dengan menggunakan data test data dengan 108 instance menghasilkan data yang dapat dilihat pada Tabel 4 dan confusion matrix yang terbentuk dapat dilihat pada Gambar 2.
2 3 4 5 6 7 8
Spesifikasi Pengukuran Correctly Classified Instances Incorrectly Classified Instances Kappa statistic Mean absolute error Root mean squared error Relative absolute error Root relative squared error Total Number of Instances
Nilai 279 atau 90,8795 % 28 atau 9,1205 % 0,9001 0,0109 0,0881 11,3162 % 40,1699 % 307
Tabel 4 Hasil evaluasi Supplied Test Set J48 No 1 2 3 4 5 6 7 8
Spesifikasi Pengukuran Correctly Classified Instances Incorrectly Classified Instances Kappa statistic Mean absolute error Root mean squared error Relative absolute error Root relative squared error Total Number of Instances
Nilai 1 atau 100 % 0 atau 0 % 1 0 0 0% 0% 1
Gambar 3 Confusion Matrix dari Cross Validation Algoritme J48
209
Seminar Nasional Teknologi Informasi dan Komunikasi 2015 (SENTIKA 2015) Yogyakarta, 28 Maret 2015
Akurasi yang diperoleh ialah 90,8795 % dengan test record yang diklasifikasi secara benar sebanyak 279. Jumlah test record yang diklasifikasi secara tidak benar sebanyak 28 atau 9,1205 % Dengan hasil mean squared error adalah 0,0881 %. Pengujian dan Hasil Klasifikasi dengan Algoritme NBTree Hasil pengolahan data menggunakan classifier tree NBTree menghasilkan sebanyak 9 leaf node dan 17 tree.
data yang dapat dilihat pada Table 7 dan confusion matrix yang terbentuk dapat dilihat pada Gambar 5. Tabel 7 Hasil Evaluasi Supplied Test Set NBTree No 1
Spesifikasi Pengukuran Correctly Classified Instances
2
Incorrectly Classified Instances
3 4 5 6 7 8
Kappa statistic Mean absolute error Root mean squared error Relative absolute error Root relative squared error Total Number of Instances
6.2
1) Training Set Pengolahan klasifikasi data Soybean dengan pilihan ‘use training set’ dengan menggunakan training data yang berjumlah 199 instance pada WEKA menghasilkan data yang dapat dilihat pada Tabel 6 dan confusion matrix yang terbentuk dapat dilihat pada Gambar 4.
ISSN: 2089-9815
Nilai 1 atau 100 % 0 atau 0 % 1 0 0 0% 0% 1
Tabel 6 Hasil Evaluasi Training Set NBTree No 1 2 3 4 5 6 7 8
Spesifikasi Pengukuran Correctly Classified Instances Incorrectly Classified Instances Kappa statistic Mean absolute error Root mean squared error Relative absolute error Root relative squared error Total Number of Instances
Nilai 199 atau 100 % 0 atau 0 % 1 0,0064 0,0359 4,3784 % 13,2693 % 199
Gambar 4 Confusion Matrix dari Use Training Set Algoritme NBTree Akurasi yang diperoleh ialah 100 % artinya bahwa semua test record diklasifikasi secara tepat. Jumlah test record yang diklasifikasi secara tidak benar sebanyak 0 % Dengan hasil mean squared error adalah 0,0359 %. 2) Supplied Test Set Classifier yang telah terbentuk pada tahap training set selanjutnya diuji dengan menggunakan data test data dengan 108 instance menghasilkan
Gambar 5 Confusion Matrix dari Supplied Test Set Algoritme NBTree Akurasi yang diperoleh ialah 100 % artinya classifier yang terbentuk dapat mengklasifikasikan semua data pada kelasnya masing-masing secara tepat. Sehingga hasil mean squared error adalah 0 % 3) Cross Validation Pilihan tes untuk cross validation dengan jumlah folds sebanyak 10 dengan menggunakan 307 instance menghasilkan sebanyak 10 leaf node dan 19 tree data lengkapnya dapat dilihat pada Tabel 8 dan confusion matrix yang terbentuk dapat dilihat pada Gambar 6. Tabel 8 Hasil Evaluasi Cross Validation NBTree No 1 2 3 4 5 6 7 8
210
Spesifikasi Pengukuran Correctly Classified Instances Incorrectly Classified Instances Kappa statistic Mean absolute error Root mean squared error Relative absolute error Root relative squared error Total Number of Instances
Nilai 275 atau 89,5765 % 32 atau 10,4235 % 0,8858 0,0178 0,0938 18,4701 % 42,7967 % 307
Seminar Nasional Teknologi Informasi dan Komunikasi 2015 (SENTIKA 2015) Yogyakarta, 28 Maret 2015
ISSN: 2089-9815
Tabel 10 Hasil Klasifikasi Algoritme NBTree No
Metode
1
Use training set
2
3
Gambar 6 Confusion Matrix dari Cross Validation Algoritme NBtree Akurasi yang diperoleh ialah 89,5765 % dengan test record yang diklasifikasi secara benar sebanyak 275. Jumlah test record yang diklasifikasi secara tidak benar sebanyak 32 atau 10,4235 % Dengan hasil mean squared error adalah 0,0938 %. 6.3
Rekomendasi Hasil yang diperoleh dari keseluruhan tes yang dilakukan baik dengan ‘use training set’, ‘supplied test set’ dan cross validation dari Algoritme J48 dapat dilihat pada Tabel 9 dan Tabel 10 untuk hasil klasifikasi pada algoritme NBTRee. Tabel 9 Hasil Klasifikasi Algoritme J48 No
Metode
1
Use training set
2
3
Supplied test set
Cross Validation
Spesifikasi Pengukuran
Nilai
Incorrectly Classified
1
Correctly Classified
198
Akurasi (%)
99,4975
Error Mean (%)
0,0276
Incorrectly Classified
0
Correctly Classified
108
Akurasi (%)
100
Error Mean (%)
0
Incorrectly Classified
28
Correctly Classified
279
Akurasi (%)
90,8795
Error Mean (%)
0,0881
Supplied test set
Cross Validation
Spesifikasi Pengukuran
Nilai
Incorrectly Classified
0
Correctly Classified
199
Akurasi (%)
100
Error Mean (%)
0,0359
Incorrectly Classified
0
Correctly Classified
108
Akurasi (%)
100
Error Mean (%)
0,0015
Incorrectly Classified
32
Correctly Classified
275
Akurasi (%)
89,5765
Error Mean (%)
0,0938
Hasil dari percobaan klasifikasi pada data set Soybean dengan menggunakan algoritme J48 dan NBTree menunjukkan bahwa classifier yang terbentuk dari algoritme J48 memiliki tingkat akurasi yang lebih tinggi jika dibandingkan dengan classifier yang terbentuk dari algoritme NBTree. Untuk algoritme J48 terlihat bahwa saat pembentukan classifier melalui ‘use training set’ menghasilkan tingkat akurasi sebesar 99,4975 % dengan mean error paling minimal adalah 0,0276 % yang artinya bahwa classifier J48 membentuk model yang baik. Berbeda halnya dengan hasil dari classifier NBTree terlihat bahwa masih terdapat error mean saat uji coba dengan ‘use training set’ sebesar 0,0359 % dan saat classifier yang terbentuk dari NBTree diuji coba melalui ‘supplied test set' masih terdapat error mean sebesar 0,0015 sedangkan pada classifier J48 untuk ‘supplied test set’ dapat mencapai tingkat akurasi 100 % dengan mean error 0 %. Hal ini pula didukung dengan adanya percobaan melalui cross validation, dimana classifier J48 memiliki tingkat akurasi yang lebih tinggi yaitu 90,8795 % jika dibandingkan dengan classifier NBTree yang hanya 89,5765 %. 7.
KESIMPULAN Melalui percobaan yang telah dilakukan terhadap data set Soybean dengan algoritme klasifikasi yang terdapat pada WEKA yaitu algoritme J48 dan NBTree dapat disimpulkan bahwa kinerja dari algoritme J48 lebih baik jika dibandingkan dengan NBTree. Hal ini terlihat dari tingkat akurasi yang dihasilkan algoritme J48 lebih tinggi jika dibandingkan dengan NBTree. Selain itu jika dilihat dari lama waktu komputasi, untuk algoritme J48 rata-rata menghabiskan waktu sekitar 0.01 – 0.04 detik berbeda halnya dengan NBTree yang dapat menghabiskan waktu sekitar 0.04 – 13.33 detik.
211
Seminar Nasional Teknologi Informasi dan Komunikasi 2015 (SENTIKA 2015) Yogyakarta, 28 Maret 2015
PUSTAKA Alfisahrin, S. N. N., & Mantoro, T. (2014). Data mining techniques for optimization of liver disease classification (pp. 379–384). Presented at the Proceedings - 2013 International Conference on Advanced Computer Science Applications and Technologies, ACSAT 2013. Amudha, P., & Rauf, H. A. (2011). Performance analysis of data mining approaches in intrusion detection. Presented at the Proceedings of 2011 International Conference on Process Automation, Control and Computing, PACC 2011. Cufoglu, A., Lohi, M., & Madani, K. (2009). A comparative study of selected classifiers with classification accuracy in user profiling (Vol. 3, pp. 708–712). Presented at the 2009 WRI World Congress on Computer Science and Information Engineering, CSIE 2009. Goyal, A., & Mehta, R. (2012). Performance comparison of Naïve Bayes and J48 classification algorithms. International Journal of Applied Engineering Research, 7(11 SUPPL.), 1389–1393. Ilmu Pengetahuan Indonesia, L. (2008). Metode Klasifikasi Data Mining. Retrieved from www.biomaterial.lipi.go.id Zhao, Y., & Zhang, Y. (2008). Comparison of decision tree methods for finding active objects. Advances in Space Research, 41(12), 1955– 1959.
212
ISSN: 2089-9815