BAB IV HASIL DAN PEMBAHASAN
4.1 Hasil Penelitian 4.1.1 Support Vector Machines (SVM) Setelah melalui proses training dan testing dengan metode Support Vector Machines (SVM), diperoleh hasil yang tertera pada lampiran 4, yang akan dijadikan sebagai bahan analisis data sebagai berikut :
Tabel 3 Hasil Pengenalan Email Spam dengan SVM
Parameter
Hasil
ns
500
nh
500
ns→s
375
ns→h
125
nh→h
490
nh→s
10
Keterangan : ns
: jumlah spam
62
nh
: jumlah ham
ns→s : jumlah spam yang benar dikenali sebagai spam ns→h : jumlah spam yang dikenali sebagai ham nh→h : jumlah ham yang benar dikenali sebagai ham nh→s : jumlah ham yang dikenali sebagai spam
Data hasil eksperimen dengan metode SVM di atas selanjutnya menjadi bahan untuk proses evaluasi kinerja yang akan diukur dengan beberapa perhitungan sebagai berikut :
1.
Recall Spam 375 375 125 0.75
2.
Recall Ham 490 490 0
〲
3.
0.98
Precision Spam 375 375 10
63
0.97
4.
Precision Ham 490 490 125 0.80
5.
F-measure Spam 2x
0.75 0.974 0.75 0.974 0.85
6.
F-measure Ham 2x
0.98 0.796 0.98 0.796 0.88
4.1.2 K Nearest Neighbor (kNN) Hasil pengenalan metode k-Nearest Neighbor (kNN) dengan k = 1 sebagaimana terlampir pada lampiran 5 adalah sebagai berikut :
64
Tabel 4 Hasil Pengenalan Email Spam dengan kNN
Parameter
Hasil
Ns
500
Nh
500
ns→s
464
ns→h
36
nh→h
431
nh→s
69
Keterangan : ns
: jumlah spam
nh
: jumlah ham
ns→s : jumlah spam yang benar dikenali sebagai spam ns→h : jumlah spam yang dikenali sebagai ham nh→h : jumlah ham yang benar dikenali sebagai ham nh→s : jumlah ham yang dikenali sebagai spam
Data hasil eksperimen dengan metode kNN di atas selanjutnya menjadi bahan untuk proses evaluasi kinerja yang akan diukur dengan beberapa perhitungan sebagai berikut :
65
1.
Recall Spam 464 464 36 0.93
2.
Recall Ham 431 431 69 0.86
3.
Precision Spam
464 464 69 0.87
4.
Precision Ham 431 431 36 0.92
5.
F-measure Spam 2x
66
0.928 0.870 0.928 0.870
0.90
6.
F-measure Ham 2x
0.862 0.862
0.922 0.922
0.89
4.1.3 Naïve Bayes Classifier (NBC) Hasil pengenalan dengan metode Naïve Bayes Classifier (NBC) sebagaimana terlampir pada lampiran 6 direpresentasikan pada tabel berikut :
Tabel 5 Hasil Pengenalan Email Spam dengan NBC
Parameter
Hasil
ns
500
nh
500
ns→s
496
ns→h
4
nh→h
118
nh→s
382
Keterangan : ns
: jumlah spam
67
nh
: jumlah ham
ns→s : jumlah spam yang benar dikenali sebagai spam ns→h : jumlah spam yang dikenali sebagai ham nh→h : jumlah ham yang benar dikenali sebagai ham nh→s : jumlah ham yang dikenali sebagai spam
Data hasil eksperimen dengan metode NBC di atas selanjutnya menjadi bahan untuk proses evaluasi kinerja yang akan diukur dengan beberapa perhitungan sebagai berikut :
1.
Recall Spam : 496 496 4 0.99
2.
Recall Ham : 118 118 382 0.24
晜
3.
Precision Spam : 496 496 382 68
0.56
4.
Precision Ham 118 118 4 0.97
5.
F-measure Spam 2x
0.992 0.564 0.992 0.564
0.72
6.
F-measure Ham 2x
0.236 0.967 0.236 0.67 0.38
69
4.2 Analisis Hasil Penelitian 4.2.1 Recall, Precision dan F-measure Spam Berikut adalah tabel recall, precision dan f-measure spam yang dihasilkan oleh metode Support Vector Machines (SVM), k Nearest Neighbor (kNN) dan Naïve Bayes Classifier (NBC). Tabel 6 Recall, Precision dan F-measure Spam
SVM kNN NBC
Recall Spam
Precision Spam
F‐measure Spam
0.75 0.93 0.99
0.97 0.87 0.56
0.85 0.90 0. 72
Berdasarkan tabel di atas dapat terlihat bahwa nilai recall spam tertinggi diperoleh dari hasil pengenalan metode NBC, precision spam tertinggi diperoleh dari hasil pengenalan metode SVM, sedangkan f-measure spam tertinggi diperoleh dari hasil pengenalan metode kNN. Metode Support Vector Machines (SVM) menghasilkan recall spam yang lebih rendah dari metode kNN dan NBC yaitu sebesar 0.75. Namun meski demikian metode SVM menghasilkan precision spamtertinggi dibandingkan dengan hasil pengenalan metode kNN dan NBC yaitu sebesar 0.97. F-measure spam yang dihasilkan metode SVM cukup tinggi yaitu sebesar 0.85, meskipun masih berada di bawah f-measure spam kNN. Nilai precision spam SVM yang lebih tinggi dari kNN dan NBC menunjukkan bahwa SVM sangat efektif dalam mempertahankan email ham agar
70
tidak dikenali sebagai spam. Hal ini sangat penting, karena jika email ham dikenali sebagai spam, maka penerima cenderung untuk tidak membaca email tersebut karena menganggapnya sebagai email spam. Namun recall spam yang rendah menunjukkan bahwa kinerja SVM dalam mengenali email spam lebih rendah dari kNN dan NBC. Metode k Nearest Neighbor (kNN) menghasilkan recall spam yang cukup tinggi, yaitu sebesar 0.93 meskipun masih di bawah recall spam NBC. Precision spam kNN pun cukup tinggi yaitu sebesar 0.87, namun juga masih di bawah precision spam SVM. Untuk F-measure spam kNN menghasilkan nilai tertinggi dibandingkan dengan f-measure spam SVM dan NBC yaitu sebesar 0.90. Metode Naïve Bayes Classifier (NBC) menghasilkan nilai recall spam yang lebih tinggi dari recall spam SVM dan kNN yaitu sebesar 0.99. Namun, precision spam yang dihasilkan sangat rendah yaitu sebesar 0.56. Hal ini menyebabkan nilai fmeasure spam yang dihasilkan oleh metode NBC ini menjadi rendah, yaitu sebesar 0.72. Nilai recall spam NBC yang lebih tinggi dari SVM dan kNN menunjukkan bahwa kinerja NBC dalam mengenali email spam lebih baik dari SVM dan kNN. Hal ini juga sangat penting mengingat kerugian yang banyak terjadi akibat banyaknya email spam yang dikenali sebagai email ham sebagaimana disebutkan pada latar belakang penelitian. Namun precision spam yang sangat rendah menunjukkan bahwa kemampuan NBC dalam mengenali email ham lebih rendah dari SVM dan kNN sehingga banyak email ham yang dikenali sebagai email spam.
71
Graffik hasil perrhitungan nilai n recall, precision dan d f-measuure spam dari m metode Supp pport Vectorre Machiness (SVM), k Nearest Neeighbor (kN NN) dan Naïïve B Bayes Classifier (NBC) digambarkaan seperti di bawah ini :
1 0.9 0.8 0.7 0.6
Recall Sp pam
0.5
Precision n Spam
0.4
F‐Measure Spam
0.3 0.2 0.1 0 SVM
kNN N
N NBC
Gambar 22 2 Grafik Nilai Recall, Preciision dan F-meeasure Spam
4 4.2.2 Rec call, Preciision dan n F-measure Ham Beriku ut adalah tabbel recall, prrecision dan f-measure spam s yang dihasilkan d olleh m metode Supp pport Vectorr Machines (SVM), k Nearest Neighbor (kNN N) dan Naïïve B Bayes Classifier (NBC) : T Tabel 7 Recall,, Precision dann F-measure Ham H
SSVM k kNN N NBC
Re Recall Ham
Preecision Ham m
F‐meeasure Ham
0.98 0.86 0.24
0.80 0 0.92 2 0.97 7
0.88 0.89 0. 38
72
Berdasarkan tabel di atas, nilai recall ham tertinggi dihasilkan oleh metode SVM yaitu sebesar 0.98, precision ham tertinggi dihasilkan oleh metode NBC yaitu sebesar 0.97, sedangkan f-measure ham tertinggi dihasilkan oleh metode kNN yaitu sebesar 0.89.
Metode Support Vector Machines (SVM) menghasilkan nilai recall ham yang
sangat tinggi, yaitu sebesar 0.98.. Namun, precision ham yang dihasilkan SVM lebih rendah dari precision ham hasil kNN dan NBC yaitu sebesar 0.80. Nilai f-measure ham yang dihasilkan oleh metode SVM cukup tinggi, yaitu sebesar 0.88, meskipun masih di bawah f-measureham kNN. Nilai recall ham SVM yang lebih tinggi dari kNN dan NBC menunjukkan bahwa kinerja SVM dalam mengenali email ham lebih baik dari kNN dan NBC. Hal ini berarti proporsi email ham yang dikenali sebagai email spam lebih rendah dari kNN dan NBC. Namun nilai precision ham SVM yang lebih rendah dari kNN dan NBC menunjukkan bahwa kinerja SVM dalam mengenaliemail spam tidak lebih baik dari kNN dan NBC. Metode k Nearest Neighbor (kNN) menghasilkan nilai recall ham yang cukup tinggi yaitu sebesar 0.86 meskipun masih di bawah recall ham SVM. Precision ham yang dihasilkan metode kNN pun cukup tinggi yaitu sebesar 0.92 meskipun masih di bawah precision ham NBC. Sedangkan nilai f-measure ham yang dihasilkan kNN lebih tinggi dari f-measure ham SVM dan NBC yaitu sebesar 0.89.
73
Metode Naïve Bayes Classifier (NBC) menghasilkan nilai recall ham yang sangat rendah yaitu sebesar 0.24. Namun, nilai precision ham yang dihasilkan NBC sangat tinggi, yaitu sebesar 0.97, lebih tinggi dari precision ham SVM dan kNN. Sedangkan nilai f-measure ham yang dihasilkan NBC ini cukup rendah, yaitu sebesar 0.38. Nilai precision ham NBC yang lebih tinggi dari SVM dan kNN menunjukkan bahwa kinerja NBC dalam mengenali email spam lebih tinggi dari SVM dan kNN. Sementara dalam mengenali email ham kinerja NBC sangat rendah jika dibandingkan dengan SVM dan kNN. Hal ini ditunjukkan oleh rendahnya nilai recall ham yang dihasilkan oleh NBC. Secara keseluruhan, hasil perhitungan nilai recall, precision dan f-measure ham yang dihasilkan oleh metode Support Vector Machines (SVM), k Nearest Neighbor (kNN) dan Naïve Bayes Classifier (NBC) digambarkan dalam grafik di bawah ini :
74
1 0.9 0.8 0.7 0.6
Recall Ham
0.5
Precision Ham
0.4
F‐Measu ure Ham
0.3 0.2 0.1 0 SVM
kNN N
N NBC
Gambar 23 2 Grafik Nilai Recall, Preciision dan F-meeasure Spam
Hasil penelitian ini menunj njukkan bahhwa SVM leebih baik dalam d konteeks p pengenalan email ham. Hal ini ditunnjukkan olehh nilai preciision spam dan d recall haam y yang lebih tinggi t dari metode m kNN dan NBC. Sedangkan S d dalam konteks pengenallan e email spam NBC menuunjukkan hassil yang lebih baik denggan nilai recall spam dan d p precision ha am yang lebiih tinggi darii SVM dan kNN. k Hal tersebut t dapat disebabkaan karena strruktur email spam lebih kompleks dari e email ham. Ketersebaraan data emaail spam yanng lebih kom mpleks padaa ruang vecttor m menyebabka an hyperplaane yang dihasilkan oleh algorritma SVM tidak dappat m melakukan pengelompok p kkan email spam s sebaikk pengelompookkan emaill ham.
75
Hasil penelitian ini berbeda dengan beberapa hasil penelitian sebelumnya yang telah disebutkan pada Bab I. Hal ini dapat disebabkan oleh beberapa faktor berikut : 1.
Perbedaan jenis dan jumlah feature yang digunakan baik dalam proses training maupun testing.
2.
Perbedaan dalam teknik pre-processing data.
3.
Perbedaan dalam teknik pembobotan data.
4.
Perbedaan jenis kernel yang digunakan.
76