perpustakaan.uns.ac.id
digilib.uns.ac.id
BAB IV HASIL DAN PEMBAHASAN
4.1
Data E-mail Pada bagian ini akan disajikan detail jumlah keseluruhan dataset yang digunakan untuk penelitian. Dataset diambil CSDMC2010 yang disediakan oleh http://www.csmining.org/ dan diakses pada tanggal 27 Oktober 2014.
Isi dataset dari CSDMC2010 bisa dilihat pada gambar 4.1. Total dataset e-mail yang dimiliki oleh CSDMC2010 adalah 4653 email yang terdiri dari 4292 data training dan 4327 data testing. Dari kedua jenis data tersebut antara spam dan non-spam menjadi satu direktori
sehingga apabila diproses secara langsung tidak akan menghasilkan nilai akurasi, presisi, recall dan error rate yang diinginkan.
Gambar 4.1. Data Set
4.2
Penyeleksian Pada bagian sebelumnya telah dijelaskan total dataset e-mail yang dimiliki oleh CSDMC2010. Dikarenakan tercampurnya antara spam dan non-spam maka penyeleksian data dilakukan secara manual dibantu oleh label list yang tersedia pada paket dataset (lihat gambar 4.1 pada file SPAMTrain.label). Label list berisi informasi e-mail mana saja yang tergolong spam maupun non-spam. Penyeleksian awal adalah memilah email mana yang termasuk spam dan non-spam yang terdapat pada folder
Training. Dari sini didapatkan spam sebanyak 600 dan non-spam sebanyak
commit to user 17
perpustakaan.uns.ac.id
digilib.uns.ac.id 18
600. Lalu pada folder Testing diambil total 250 spam dan 250 non spam. Hasil penyeleksian tersebut akan dilampirkan pada halaman lampiran 3.
4.3
Hasil Implementasi dan Analisa Pada bagian ini akan dijabarkan hasil dari keseluruhan pengujian. Penyajian data adalah tabel perhitungan diikuti dengan grafik sebagai pembanding. Tabel 4.1 Tabel Pengujian Naïve Bayesian data
True
False
False
True
testing Positif Positif Negatif Negatif
20%
26
22
24
28
40%
56
37
44
63
60%
98
57
52
93
80%
141
52
59
148
100%
201
37
49
213
Tabel 4.1 berisi hasil keseluruhan pengujian dataset e-mail menggunakan metode Naïve Bayesian. True Positif adalah keadaan dimana non-spam dianggap non-spam.True Negatif adalah keadaan dimana spam
dianggap sebagai spam. False Positif adalah keadaan dimana spam yang dianggap sebagai non-spam. False Negatif adalah keadaan dimana non-
spam dianggap sebagai spam. Tabel 4.2 Tabel Pengujian ID3 data
True
False
False
True
testing Positif Positif Negatif Negatif
20%
22
36
26
16
40%
51
59
42
48
60%
89
73
55
83
80%
126
77
66
131
100%
183
68
53
196
commit to user
perpustakaan.uns.ac.id
digilib.uns.ac.id 19
Tabel 4.3 Tabel Pengujian ID3_2 data True False False True testing Positif Positif Negatif Negatif 20% 22 28 34 16 40% 51 39 62 48 60% 89 61 67 83 80% 126 59 84 131 100% 183 47 74 196
Tabel 4.2 dan tabel 4.3 berisi hasil keseluruhan pengujian dataset email menggunakan metode ID3. True Positif adalah keadaan dimana nonspam dianggap non-spam. True Negatif adalah keadaan dimana spam dianggap sebagai spam. False Positif adalah keadaan dimana spam yang dianggap sebagai non-spam. False Negatif adalah keadaan dimana non-spam dianggap sebagai spam. Pada kasus ID3 proses pengujian menghasilkan tiga output yaitu spam, non-spam dan unsure. Dalam kasus ini penulis mengkondisikan menjadi dua tabel yaitu tabel ID3 dan ID3_2. Pada tabel ID3 kondisi unsure dikenali sistem sebagai non-spam. Sedangkan Pada tabel ID3_2 kondisi unsure dikenali sistem sebagai spam.
4.4
Hasil Analisa menggunakan Confusion Matrixdan Pembahasan Proses selanjutnya adalah perhitungan akurasi, presisi, recall dan error rate menggunakan dasar rumus Confusion Matrix. Detail perhitungan pada lampiran dua.
Tabel 4.4 Tabel Akurasi NBC ID3 ID3_2 0.540 0.380 0.380 0.595 0.495 0.495 0.637 0.573 0.573 0.723 0.643 0.643 0.828 0.758 0.758
commit to user
perpustakaan.uns.ac.id
digilib.uns.ac.id 20
Tabel 4.4 berisi hasil dari perhitungan akurasi kedua metode. Untuk mempermudah perbandingan bisa dilihat pada grafik di gambar 4.2
akurasi 1 0.8 0.6
NBC
0.4
ID3
0.2
ID3_2
0 1
2
3
4
5
Gambar 4.2Grafik akurasi
Dari grafik yang disajikan terlihat bahwa akurasi semakin membaik sejalan dengan bertambahanya data training dan testing. Akurasi yang dihasilkan metode Naïve Bayesian menghasilkan angka lebih besar dibandingkan akurasi dari metode ID3. Dari ID3 dan ID3_2 angka yang dihasilkan sama meskipun dengan kondisi yang berbeda. Mengapa bisa memunculkan angka yang sama dikarenakan untuk penghitungan akurasi formula yang dibutuhkan adalah jumlah dari kedua kondisi prediksi dibandingkan dengan jumlah total data. Sehingga meskipun dikondisikan berbeda hasilnya akan tetap sama karena jumlah dari kedua kondisi prediksi tetap sama bagaimana pun kondisinya.
Tabel 4.5 Tabel Presisi NBC ID3 ID3_2 0.542 0.379 0.440 0.602 0.464 0.567 0.632 0.549 0.593 0.731 0.621 0.681 0.845 0.729 0.796
commit to user
perpustakaan.uns.ac.id
digilib.uns.ac.id 21
Tabel 4.5 berisi hasil dari perhitungan presisi kedua metode. Untuk mempermudah perbandingan bisa dilihat pada grafik di Gambar 4.3
Presisi 1 0.8 0.6
NBC
0.4
ID3 ID3_2
0.2 0 1
2
3
4
5
Gambar 4.3Grafik Presisi
Dari grafik yang disajikan terlihat bahwa presisi semakin membaik sejalan dengan bertambahanya data training dan testing. Presisi yang dihasilkan metode Naïve Bayesian lebih besar dibandingkan akurasi dari metode ID3. Dari perbandingan ke dua ID3 sendiri, ID3_2 menghasilkan presisi yang lebih baik. ID3_2 lebih baik karena nilai False Positif lebih kecil dibandingkan False Positif yang dimiliki ID3.
Tabel 4.6 Tabel Recall NBC ID3 ID3_2 0.520 0.458 0.560 0.548 0.653 0.618 0.705 0.656 0.804 0.775
0.393 0.451 0.571 0.600 0.712
Tabel 4.6 berisi hasil dari perhitungan recall kedua metode. Untuk mempermudah perbandingan bisa dilihat pada grafik di gambar 4.4
commit to user
perpustakaan.uns.ac.id
digilib.uns.ac.id 22
Recall 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0
NBC ID3 ID3_2
1
2
3
4
5
Gambar 4.4Grafik Recall
Dari grafik yang disajikan terlihat bahwa recall semakin membaik sejalan dengan bertambahanya data training dan testing. recall yang dihasilkan metode Naïve Bayesian lebih besar dibandingkan akurasi dari metode ID3. Dari perbandingan ke dua ID3 sendiri, ID3 menghasilkan recall yang lebih baik. Dalam hal recall ID3 bisa lebih baik dikarenakan pada kondisi ID3 nilai False Negatif lebih kecil. Table 4.7 Tabel False Alarm Rate NBC ID3 ID3_2 0.458 0.621 0.560 0.398 0.536 0.433 0.368 0.451 0.407 0.269 0.379 0.319 0.155 0.271 0.204 Tabel 4.7 berisi hasil dari perhitungan error rate kedua metode. Untuk mempermudah perbandingan bisa dilihat pada grafik di gambar 4.5
commit to user
perpustakaan.uns.ac.id
digilib.uns.ac.id 23
False Alarm Rate 0.7 0.6 0.5 0.4
NBC
0.3
ID3
0.2
ID3_2
0.1 0 1
2
3
4
5
Gambar 4.5Grafik False Alarm Rate
Error Rate pada penyajian data ini adalah berdasarkan kasus yang diidentifikasi salah, sehingga perhitungan error rate disini berdasarkan pada nilai prediksi spam. Dalam hal ini adalah False Positif. Dari grafik yang disajikan terlihat bahwa error semakin mengecil sejalan dengan bertambahanya data training dan testing yang berarti kemungkinan terjadinya kesalahan semakin kecil. Error Rate yang dihasilkan metode Naïve Bayesian lebih kecil dibandingkan akurasi dari metode ID3. Dari perbandingan ke dua ID3 sendiri, ID3 menghasilkan alarm rate yang lebih kecil nilai false positifnya lebih besar dibandingkan ID3_2.
commit to user