Jurnal Teknologi Informasi, Volume 10 Nomor 1, April 2014, ISSN 1414-9999
KLASIFIKASI SPAM EMAIL MENGGUNAKAN ALGORITMA C4.5 DENGAN SELEKSI FITUR Sukardi, Abd Syukur, dan Catur Supriyanto Pascasarjana Teknik Informatika Universitas Dian Nuswantoro
ABSTRACT Many user are annoyed by the amount of time spent on deleting spam emails, the costs to be incurred , and the amount of network bandwidth. By it is necessary to email spam classification is useful to save time and cost are used to delete spam email in your inbox.C4.5 algorithm is one method that can be used for classification of email spam. This study aims to apply the C4.5 algorithm with feature selection in order to improve the accuracy of spam email classification. In this study using data from the UCI repository of machine learning databases. The method used is the data preprocessing, classification with C4.5 algorithms, training, and measure the level of accuracy with the confusion matrix and ROC curves. After the experiment by using the algorithm C4.5 gain ratio criterion model, information gain and Gini index, the highest accuracy results on the model Gini index criterion ie 92.18 with 30 fold cross validation. Further experiments performed with chi-square feature selection, information gain and information ratio again using p = 0.2 to p = 0.8. Of the Gini index criterion model of feature selection is then performed and the result is information gain ratio feature selection on the value of p = 0.6 has a 92.46 % accuracy rate. The results of this study indicate that the algorithm C4.5 with feature selection has higher accuracy when compared with the ID3 73.20 % . Keywords : internet , spam , email , C4.5 , Chi Square 1. PENDAHULUAN 1.1. Latar Belakang Spam messages membanjiri internet dengan mengirimkan salinan pesan-pesan yang sama untuk memaksa agar pesan-pesan tersebut sampai kepada pemakai yang tidak memilih untuk menerimanya. Akibatnya banyak pemakai yang merasa terganggu oleh banyaknya waktu yang dihabiskan untuk menghapus pesan spam, besarnya biaya yang harus dikeluarkan, dan besarnya bandwidth jaringan [1]. Untuk mengatasi hal tersebut, diperlukan suatu filter antispam dengan algoritma tertentu yang dapat memisahkan antara spam mail dengan non spam mail (atau yang biasa disebut ham atau legitimate mail). Banyak algoritma antispam filter yang tersedia, diantaranya adalah algoritma decision tree, naïve bayes, support vector machine (SVM), neural network dan lain-lain [2] . Untuk mengatasi hal ini, diperlukan suatu filter antispam dengan algoritma tertentu yang dapat memisahkan antara spam-mail dengan non spam mail (atau yang biasa disebut ham atau legitimate mail). Banyak algoritma antispam filter yang tersedia, diantaranya adalah algoritma decision tree, naïve bayes, support vector machine (SVM), neural network dan lain-lain. Dari penelitian lain yang dilakukan oleh JyhJian Sheu diperoleh hasil bahwa metode Iteratve Dichotomiser 3 (ID3) dari decision tree merupakan metode yang paling baik jika dibandingkan dengan naïve bayes dan k-nearest neighbors (KNN) [4]. Dari penelitian tersebut diketahui bahwa ID3 mempunyai precision dan accurancy lebih baik dari pada naive bayes dan KNN.
http://research.pps.dinus.ac.id
19
Jurnal Teknologi Informasi, Volume 10 Nomor 1, April 2014, ISSN 1414-9999 Algoritma C4.5 adalah algoritma klasifikasi data dengan teknik pohon keputusan yang terkenal karena memiliki kelebihan-kelebihan. Kelebihan ini misalnya dapat mengolah data numerik (kontinyu) dan diskret, dapat menangani nilai atribut yang hilang, menghasilkan aturan-aturan yang mudah diintrepetasikan dan tercepat diantara algoritma-algoritma yang lain. Keakuratan klasifikasi yaitu kemampuan model untuk dapat mengklasifikasi label kelas terhadap data baru atau yang belum diketahui sebelumnya dengan baik. 1.2. Rumusan Masalah 1. Masalah Umum Banyak pemakai yang merasa terganggu oleh banyaknya waktu yang dihabiskan untuk menghapus pesan spam, besarnya biaya yang harus dikeluarkan, dan besarnya bandwidth jaringan. 2. Masalah Spesifik a. Masih rendahnya akurasi pada penelitian sebelumnya [1]. b. Banyaknya jumlah fitur dari kumpulan email menyebabkan berkurangnya akurasi klasifikasi email. Hal tersebut terjadi dikarenakan tidak semua fitur berpengaruh terhadap peningkatan akurasi klasifikasi email. 1.3. Tujuan Penelitian Adapun tujuan dari penelitian ini adalah 1. Tujuan Umum Mengurangi gangguan spam terhadap pemakai oleh banyaknya waktu yang dihabiskan untuk menghapus pesan spam, besarnya biaya yang harus dikeluarkan, dan besarnya bandwidth jaringan. 2. Tujuan Spesifik Meningkatkan akurasi klasifikasi spam email menggunakan algoritma C4.5 dengan seleksi fitur. Penelitian ini dibatasi pada klasifikasi email yang spam dan bukan (ham) pada email client yang telah dibangun. Klasifikasi Spam email hanya memperhatikan header dan body dari email yang dalam bentuk bahasa Inggris dan tidak dapat melakukan pengecekan terhadap sebuah attachment atau file. 1.4. Manfaat Penelitian 1. Bagi Masyarakat Penggunaan waktu dan biaya menjadi lebih efisien dan efektif karena waktu yang dihabiskan untuk menghapus pesan spam, besarnya biaya yang harus dikeluarkan, dan besarnya bandwidth jaringan bisa dikurangi. 2. Bagi Ilmu Pengetahuan dan Teknologi Diketahuinya akurasi Algoritma C4.5 dengan seleksi fitur yang memiliki kinerja paling baik, membahas komponen-komponen pendukung yang digunakan pada spam filter dan menganalisis faktorfaktor yang menyebabkan kegagalan proses klasifikasi. 2. TINJAUAN PUSTAKA 2.1. Penelitian Terkait Penelitian terkait dengan klasifikasi spam email pernah dilakukan oleh Sofi Defiyanti dan D.L. Crispina Padede [1] dengan judul “Perbandingan Kinerja Algoritma ID3 dan C4.5 dalam klasifikasi spam email. Penelitian tersebut bersumber pada data spam mail yang diperoleh di UCI Machine Learning Respository. Dalam penelitian ini tools yang digunakan adalah WEKA. Hasil penelitian tersebut menunjukkan bahwa ID3 memiliki tingkat akurasi 73,20%, sedangkan C4.5 tingkat akurasi 72,38% .
20
http://research.pps.dinus.ac.id
Jurnal Teknologi Informasi, Volume 10 Nomor 1, April 2014, ISSN 1414-9999
2.2. Landasan Teori 2.2.1 Klasifikasi Klasifikasi adalah proses menemukan sekumpulan model yang menggambarkan serta membedakan kelaskelas data. Tujuan dari klasifikasi adalah agar model yang dihasilkan dapat digunakan untuk memprediksi kelas dari suatu data yang tidak mempunyai label kelas. Jika diberikan sekumpulan data yang terdiri dari beberapa fitur dan kelas, maka klasifikasi adalah menemukan model dari kelas tersebut sebagai fungsi dari fitur-fitur yang lain. Klasifikasi adalah salah satu metode dalam data mining yang dapat mengkasifikasikan email sebagai spam atau non-spam. Pengklasifikasian ini berdasarkan karakteristik dari spam [5]: 1. Alamat pengirim yang tidak benar. 2. Pemalsuan header mail untuk menyembunyikan email sesungguhnya sehingga akan sulit menetapkan sebagi spam atau non-spam. 3. Identitas penerima tidak nyata. 4. Kamus alamat penyerang. Alamat email yang berada dalam ‘To’ memiliki variasi alamat email penerima. 5. Isi subject tidak berhubungan dengan isi email. 6. Isi email memiliki sifat keragu-raguan. 7. Unsubscribe tidak bekerja pada spam mail. 8. Mengandung script tersembunyi.
2.2.2
Spam Email
Pendefinisian spam e-mail berbeda-beda. Undang-undang CAN-SPAM memberikan definisi utama spam dengan menjelaskan apa yang (dan apa yang tidak) diperbolehkan bila mengirim e-mail komersial pemasaran. Undang-undang tersebut disahkan pada tahun 2004 oleh Federal Trade Commission, yang diperbarui tahun 2008. Selain FTC terdapat badan-badan lain yang mengklasifikasikan spam, yaitu Internet Service Provider (ISP). Internet Service Provider juga memiliki bagian besar dalam menentukan apa yang dianggap spam. ISP tidak mengandalkan CAN-SPAM sendirian untuk mendefinisikan spam karena di mata mereka spam .didefinisikan oleh pengguna. Jika penerima e-mail mengelompokkan pesan e-mail sebagai spam dengan cara meletakkan di daftar pengirim yang diblokir mereka, menjatuhkannya di folder spam atau sekadar tidak konsisten membukanya, maka itu dianggap spam oleh ISP terlepas dari apakah itu melekat pada masing-masing dan setiap CAN-SPAM aturan. Berikut adalah tipe-tipe e-mail spam [3]: 1. Untuk Iklan: Spam dapat digunakan untuk mempromosikan suatu produk ataupun layanan, mulai dari produk software, perumahan real estate hingga produk kesehatan dan produk vitamin. 2. Untuk Mengirimkan Malware: Spam adalah salah satu cara utama untuk mendistribusikan virus dan malware. Dengan target yang bersifat individual, akan memperdaya korban untuk mempercayai bahwa mereka menerima dokumen penting atau file tertentu, yang sebenarnya mengandung malware. 3. Phishing: Bersembunyi dibalik namanama besar perusahaan besar, lembaga keuangan, lembaga pemerintah, lembaga amal, para phisher mencoba memikat korban untuk mengunjungi website palsu, dimana melalui website tersebut mereka dapat mencuri data keuangan pribadi atau informasi dengan mengenai identitas korbannya. 4. Scam: Mengirimkan e-mail sebagai pangeran dari Nigeria, pegawai bank dari Swiss, seorang anak kecil yang sakit keras, dan beberapa tipe lainnya, para scammer berusaha memperoleh simpati. 5. Pesan yang tak berarti: Sebuah potongan pesan sampah seperti ini dapat memenuhi inbox mail kita. Bahkan beberapa pesan seperti ini dapat mengkelabui teknologi spam filter, banyak pesan tak berarti ini dikirimkan tanpa tujuan yang jelas. Perbedaan Spam dan Ham (bukan spam) berdasarkan struktur e-mail dapat diklasifikasikan sebagai berikut.
http://research.pps.dinus.ac.id
21
Jurnal Teknologi Informasi, Volume 10 Nomor 1, April 2014, ISSN 1414-9999
Header Email header menunjukkan informasi perjalanan setiap email. Secara umum, email header terdiri dari pengirim, jaringan dan penerima email . Subject Subject suatu e-mail merupakan suatu judul topic yang mewakili isi pada e-mail mail dapat dijumpai pada header setiap e-mail. Maka dapat dilihat pada gambar header spam esuatu kata .VIAGRA.. Kata tersebut sering dijumpai pada subjek spam e-mail. Body Pada e-mail, body adalah isi dari suatu pesan e-mail, dan dengan adanya body e-mail, pengirim (sender) menyampaikan maksud yang akan disampaikan kepada penerima. Pada proyek akhir ini selain mengklasifikasikan e-mail header, dapat pula diklasifikasikan melalui bodynya. Karena dengan body e-mail, dapat ditentukan bahwa tersebut e-mail yang penting atau tidak. ............................................. (2.1) Dengan Pi adalah proporsi data S dengan kelas i, dan k adalah jumlah kelas pada output S. Nilai entropy setelah pemisahan adalah sebagai berikut: ............................................
(2.2)
Dengan v adalah semua nilai yang mungkin dari atribut A, dan Sv adalah subset dari S dimana atribut A bernilai v. information gain adalah sebegai berikut : .............................................
(2.3)
Besarnya nilai information gain menunjukkan seberapa besar pengaruh suatu atribut terhadap pengklasifikasian data. 2.2.3 Seleksi Fitur Seleksi fitur adalah salah satu tahapan praproses yang berguna terutama dalam mengurangi dimensi data, menghilangkan data yang tidak relevan, serta meningkatkan hasil akurasi [13]. Definisi masalah seleksi fitur sebagai berikut: diberikan sekumpulan fitur lalu dipilih beberapa fitur yang mampu memberikan hasil yang terbaik pada klasifikasi [14]. Ada dua titik berat seleksi fitur dengan pendekatan machine learning yaitu memilih fitur yang akan digunakan dan menjelaskan secara konsep bagaimana mengkombinasikan fitur-fitur tersebut untuk menghasilkan konsep induksi yang benar atau hasil yang sesuai[15]. Seleksi fitur digunakan memberikan karakterisik dari data. Seleksi fitur merupakan salah satu penelitian yang banyak dilakukan di berbagai bidang seperti pattern recognition, process identification, dan time series modelling. a. Chi-Square Seleksi fitur adalah proses menghilangkan beberapa fitur atau term yang kurang relevan untuk penentuan topik suatu dokumen. Terdapat 2 pembagian dalam seleksi fitur yaitu seleksi fitur supervised dan unsupervised. Seleksi fitur yang termasuk ke dalam kategori supervised adalah Chi-Square (CS), Information Gain (IG) dan Mutual Information (MI), sedangkan seleksi fitur yang termasuk kedalam kategori unsupervised adalah Term Strength (TS), Term Contribution (TC), Entropy-based Ranking (En) dan document frequency (DF) [16]. Perbedaan antara keduanya adalah keberadaan informasi awal tentang kategori dari suatu dokumen. Dalam pengklasifikasian sebuah dokumen, Chi-square adalah salah satu supervised seleksi fitur yang mampu menghilangkan banyak fitur tanpa mengurangi tingkat akurasi [17]. Ukur dependence dari dua variabel dengan rumus :
22
http://research.pps.dinus.ac.id
Jurnal Teknologi Informasi, Volume 10 Nomor 1, April 2014, ISSN 1414-9999
Keterangan: A : jumlah kali fitur t dan kategori c co terjadi B : berapa kali t terjadi tanpa c C : berapa kali c terjadi tanpa t D : jumlah kali tidak c atau t terjadi N : jumlah kasus b.
Information Gain
Pengurangan entropy disebabkan oleh partisi sesuai dengan atribut, dengan rumus sebagai berikut:
Gain(S, f) = Entropy(S) - (Pr(f)Entropy(S f) + Pr (f)Entropy(S f )) IG (t ) = −∑i Pr(ci ) log Pr(ci ) + Pr(t )∑i Pr(ci t ) log Pr(ci t ) + Pr(t )∑i Pr(ci t ) log Pr(ci t )
c.
Gain Ratio
EntropyY diberikan X tidak Pernah lebih dari entropy Y saja, karena ini mengetahui X dan memiliki lebih banyak informasi dalam menentukan Y. Keuntungan informasi di definisikan perbedaan antara dua nilai:
GAIN (Y / X ) = H (Y ) − H (Y / X ) Bersama dengan ini gain informasi dapat menentukan rasio keuntungan:
GainRatio(Y / X ) = d.
IGAIN (Y / X ) H (Y )
Gini Index
Untuk lebih spesifik, setelah seleksi fitur teks, akan mencari kemungkinan terjadinya masing-masing kelas di set data yang menunjukan fitur t. Kemudian menghitung Gini Index dengan rumus: n
Gini (t ) = ∑ P (ci t ) 2 i =1
3. DATA DAN PENGUJIAN Data uji yang digunakan pada penelitian ini bersumber pada database spam-email yang diperoleh dari UCI repository of machine learning database (http://archive.ics.uci.edu/ml/machine-learningdatabases/spambase/) [18]. Penelitian ini menggunakan empat data yang memiliki ukuran yang berbeda. Data yang digunakan pada penelitian iniadalah data yang memiliki dimensi yang beragam. Hal ini
http://research.pps.dinus.ac.id
23
Jurnal Teknologi Informasi, Volume 10 Nomor 1, April 2014, ISSN 1414-9999 dimaksudkan agar perbedaan hasil akurasi klasifikasinya dapat terlihat ketika data diolah tanpa seleksi fitur maupun menggunakan seleksi fitur. Evaluasi yang akan dilakukan menggunakan parameter F-Measure yang terdiri dari perhitungan precision dan recall. Recall, precision dan F-Measure merupakan metode pengukuran efektifitas yang biasa dilakukan pada proses klasifikasi [19]. Dalam penelitian ini, nilai precision dan recall didasarkan pada hasil keluaran menggunakan confusion matrix, seperti Tabel 3.1. Tabel 3.1. Confusion Matrix Actual Positif TP FP
Predication True False
Negatif FN TN
Pada confusion matrix sendiri, untuk menentukan akurasi pengujian digunakan persamaan [20]. Keterangan: TP : True posistif TN : True negatif FP : False positif FN : False negatif Recall dan Precision adalah dua kriteria yang digunakan untuk mengevaluasi tingkat efektifitas kinerja sistem temu kembali informasi. 1. Precision Precision adalah bagian data yang di ambil sesuai dengan informasi yang dibutuhkan. Rumus precision adalah :
precision( p ) =
TP TP + FP
....................................................................................(3.1)
2. Recall Recall adalah pengambilan data yang berhasil dilakukan terhadap bagian data yang relevan dengan query. Rumus Recall adalah :
recall (r ) =
TP TP + FN
............................................................................................(3.2)
3. Accuracy Accuracy adalah persentase dari total e-mail yang benar diidentifikasi. Rumus Accurasy adalah :
acurasy =
TP + TN TP + FP + TN + FN
............................................................................(3.3)
Untuk membandingkan dua model klasifikasi digun akan kurva ROC. ROC kepanjangan dari Receiver Operating Characteristic. Kurva ROC menunjukkan trade-off antara true positive rate (proporsi 24
http://research.pps.dinus.ac.id
Jurnal Teknologi Informasi, Volume 10 Nomor 1, April 2014, ISSN 1414-9999 tuple positif yang teridentifikasi dengan benar) dan false positive rate (proporsi tuple negatif yang teridentifikasi salah sebagai positif) dalam suatu model. Dengan kurva ROC, dapat melihat trade off antara tingkat dimana suatu model dapat mengenali tuple positif secara akurat dan tingkat dimana model tersebut salah mengenali tuple negatif sebagai tuple positif. Kurva ROC terdiri atas sumbu vertikal yang menyatakan true positive rate, dan sumbu horizontal yang menyatakan false positive rate. Jika memiliki true positif (sebuah tupel positif yang benar diklasifikasikan) maka pada kurva ROC akan bergerak ke atas dan plot titik. Sebaliknya, jika tupel milik kelas “tidak” ketika memiliki false positif, maka kurva ROC bergerak ke kanan dan plot titik. Proses ini diulang untuk setiap tupel tes (setiap kali bergerak ke atas kurva untuk true positif atau terhadap hak untuk false positif). Untuk mengukur ketelitian dari suatu model, dapat mengukur area di bawah kurva ROC. 4. HASIL DAN PEMBAHASAN Data uji yang digunakan dalam penelitian ini bersumber pada database spam-mail yang diperoleh dari UCI Machine Learning Repository http://www.ics.uci.edu/ ~mlearn/MLRepository.html. Database terdiri dari koleksi email dari bulan Agustus 1999. Database terdiri dari total 4601 e-mail, dimana 1813 (39.4%) adalah spam dan 2788 (60.6%) adalah non-spam. Koleksi spam-email berasal dari HP e-mail dan spam-email individu. Koleksi non-spam email berasal dari e-mail kantor dan e-mail perseorangan. Setiap e-mail telah dianalisa dan terdapat 58 atribut (57 atribut input dan 1 atribut target atau kelas) yang menjelaskan tentang spam-email. Rincian dari atribut tersebut adalah : 1. 48 atribut bertipe continuous [0,100] yang beranggotakan kata. Kata yang dimaksud antara lain : Make Remove People You Hp telnet 1999 Original Dengan persentase:
address Internet Report Credit Hpl 857 Parts Project
all Order Addresses Your George Data Pm Re
3d mail Free Font 650 415 Direct Edu
Our Receive Business 000 Lab 85 Cs Table
Over Will Email Money Labs Technology Meeting Conference
x100% 2. 6 atribut bertipe continuous [0,100] yang beranggotakan karakter : “;"
“(“
“[“
“!”
“$”
“#”
x100% 3. 1 atribut bertipe continous real [1,...] yang berisi rata-rata deret huruf kapital yang tidak bisa dipecahkan. 4. 1 atribut bertipe continous real [1,...] yang berisi nilai terpanjang deret huruf kapital yang tidak bisa dipecahkan. 5. 1 atribut bertipe continous real [1,...] yang berisi nilai jumlah deret huruf kapital yang tidak bisa dipecahkan. Untuk klasifikasi data mining, nilai Area Under Curve (AUC) dapat dibagi menjadi beberapa kelompok [21]. http://research.pps.dinus.ac.id
25
Jurnal Teknologi Informasi, Volume 10 Nomor 1, April 2014, ISSN 1414-9999 a. 0.90-1.00 = klasifikasi sangat baik b. 0.80-0.90 = klasifikasi baik c. 0.70-0.80 = klasifikasi cukup d. 0.60-0.70 = klasifikasi buruk e. 0.50-0.60 = klasifikasi salah 1.1 Tanpa Seleksi Fitur Tahap eksperimen dengan menerapkan algoritma C4.5 dengan menggunakan tiga model kriteria yakni gain ratio, information gain dan gini index, dengan nilai cross validation mulai 10, 20 dan 30. Hasil yang di dapat dari eksperimen tersebut sebagai berikut. Pada tahap ini dari ketiga kriteria model tersebut nilai akurasi yang paling tinggi yakni kriteria gini index, dengan perbandingan nilai akurasi sebagai berikut: Tabel 4.1. Komparasi akurasi berdasarkan kriteria dengan10-fold cross validation Gain Ratio Information Gain Gini Index 10 91,02 91,28 91,61 Tabel 4.2. Komparasi akurasi berdasarkan kriteria dengan 20-fold cross validation Gain Ratio Information Gain Gini Index 20 90,39 91,35 91,42
Tabel 4.3. Komparasi akurasi berdasarkan kriteria dengan 30-fold cross validation Gain Ratio Information Gain Gini Index 30 90,59 91,74 92,18 Dari ketiga tabel penerapan algoritma C4.5 tanpa seleksi fitur dari ketiga model kriteria yakni gain ratio, information gain dan gini index menunjukan bahwa model kriteria gini index memiliki akurasi yang paling tinggi yakni 92,18% dengan 30 fold cross validation. 4.2 Seleksi Fitur a. Chi square Tabel 4.16. . Model confusion matrix pada kriteria gini index dengan seleksi fitur chi square pada p=0,8
Predicated Class
Actual Class Spam 1633 180
Spam Non Spam
Pr ecision =
Re call =
26
Non Spam 197 2591
(1633) x100% = 89,23% (1633 + 197)
(1633) x100% (1633 + 180)
= 90,07%
http://research.pps.dinus.ac.id
Jurnal Teknologi Informasi, Volume 10 Nomor 1, April 2014, ISSN 1414-9999
Accurasy =
(1633 + 2591) x100% = 91,81% (4601)
Berdasarkan tabel tersebut di atas dapat dijelaskan bahwa 197 data email non spam adalah hasil prediksi dari data email spam. Sedangkan 1633 data email spam diprediksi sudah sesui metode C4.5 dengan kriterian gini index yakni data email spam. 180 data email non spam di prediksi hasilnya menjadi email spam. Sedangkan 2591 data email non spam diprediksi sudah sesui yakni tetap data email non spam.
Gambar 4.4. Kurva ROC dengan dengan seleksi fitur chi square nilai p=0,8 Setelah memperhatikan nilai akurasi dengan menggunakan seleksi fitur chi square pada kriteria gini index yakni 91,81%, namun nilai AUC rendah dibandingkan dengan nilai p=0,6. Namun secara keseluruuhan nilai AUC pada kriteria gini index dengan seleksi fitur chi square masih tergolong klasifikasi sangat baik, karena nilainya masih di interval 0,9-1.0. Selengkapnya nilai AUC pada masing nilai P dapat dilihat pada Gambar 4.4. Tabel 4.17. Perbandingan nilai AUC pada seleksi fitur chi square pada kriteria gini index Nilai P 0,2 0,4 0,6 0,8 AUC 0,912 0,942 0,951 0,941 b. Information gain Tabel 4.21. Model confusion matrix pada kriteria gini index dengan seleksi fitur informtion gain pada p=0,8 Predicated Class
Actual Class Spam 1634 179
Spam Non Spam
Pr ecision =
Re call =
(1634) x100% (1634 + 179)
Accurasy =
http://research.pps.dinus.ac.id
(1634) x100% (1634 + 189)
(1634 + 2602) x100% (4601)
Non Spam 189 4601
= 89,63%
= 90,13%
= 92,07%
27
Jurnal Teknologi Informasi, Volume 10 Nomor 1, April 2014, ISSN 1414-9999
Berdasarkan tabel tersebut di atas dapat dijelaskan bahwa 189 data email non spam adalah hasil prediksi dari data email spam. Sedangkan 1634 data email spam diprediksi sudah sesui metode C4.5 dengan kriterian gini index yakni data email spam. 179 data email non spam di prediksi hasilnya menjadi email spam. Sedangkan 4601 data email non spam diprediksi sudah sesui yakni tetap data email non spam.
Gambar 4.5. Kurva ROC dengan seleki fitur information gain pada p=0,8 Nilai akurasi dengan menggunakan seleksi information gain pada model kriteria gini index yakni 92,07% yang paling, namun nilai AUC rendah dibandingkan dengan nilai p=0,6. Secara keseluruhan nilai AUC dengan seleksi fitur information gain pada model kriteria gini index tergolong klasifikasi sangat baik, karena nilainya masih di interval 0,9-1.0. Selengkapnya nilai AUC pada masing-masing nilai P dapat dilihat pada Gambar 4.22. Tabel 4.22. Perbandingan nilai AUC pada seleksi fitur Information gain pada model kriteria gini index Nilai P 0,2 0,4 0,6 0,8 AUC 0,94 0,95 0,96 0,95 c. Information Gain Ratio
Tabel 4.25. Model confusion matrix pada kriteria gini index dengan seleksi fitur information gain ratio pada p=0,6
Predicated Class
Actual Class Spam 1634 179
Spam Non Spam
Pr ecision =
Re call =
(1634) x100% (1634 + 179)
Accurasy =
28
(1634) x100% (1634 + 168)
(1634 + 2620) x100% (4601)
Non Spam 168 2620 = 90,68%
= 90,13%
= 92,46%
http://research.pps.dinus.ac.id
Jurnal Teknologi Informasi, Volume 10 Nomor 1, April 2014, ISSN 1414-9999 Berdasarkan tabel tersebut di atas bahwa 168 yang diklasifikasikan menjadi email spam padahal prediksinya adalah data email non spam. 179 data email spam yang di prediksi, hasilnya diklasifikasi ke email non spam. 2620 data non spam sudah sesuai dengan prediksi yakni menjadi email non spam. 1634 data email spam yang diprediksi hasilnya sesuai yakni tetap diklasifikasi ke email spam
Gambar 4.6. Kurva ROC dengan seleksi fitur information gain ratio pada p=0,6 Setelah memperhatikan nilai akurasi dengan menggunakan seleksi fitur information gain ratio pada model kriteria gini index yakni 92,46%, namun nilai AUC rendah dibandingkan dengan p=0,4. Namun secara keseluruuhan nilai AUC pada seleksi fitur information gain ratio dengan model kriteria gini index masih tergolong klasifikasi sangat baik, karena nilainya masih di interval 0,9-1.0. Selengkapnya nilai AUC pada masing-masing nilai P dapat dilihat pada Gambar 4.27. Tabel 4.27. Perbandingan nilai AUC pada seleksi Information gain ratio pada model kriteria gini index Nilai P
0,2
0,4
0,6
0,8
AUC
0,94
0,96
0,95
0,95
5. PENUTUP 5.1 Kesimpulan Berdasarkan hasil eksperimen, mulai tahap awal hingga evaluasi, dapat ditarik kesimpulan bahwa algoritma algoritma C4.5 dengan menggunakan tiga model kriteria yakni gain ratio, information gain dan gini index, hasil akurasi yang paling tinggi terdapat pada model kriteria gini index yakni 92,18% . Selanjutnya model kriteria gini index dilakukan seleksi fitur chi square, information gain, information gain ratio dan untuk meningkatkan hasil akurasi. Hasil yang paling tinggi dari ketiga seleksi fitur yakni information gain ratio deng nilai p=0,6 dan hasil akurasinya menjadi 92,46. Serta memilikiti nilai AUC rata-rata antara 0,9-1,0 dan ini termasuk klasifikasi sangat baik. 5.2 Saran Pengukuran kinerja sebuah algoritma data mining dapat dilakukan berdasarkan beberapa kriteria antar lain seperti keakuratan prediksi, kecepatan/efisiensi, kehandalan, skalabilitas dan interpretabilitas. Penelitian ini menggunakan satu kriteria yaitu berdasarkan akurasi klasifikasi. Dengan demikian penelitiasn lain dengan menggunakan kriteria lain dapat dilakukan. DAFTAR PUSTAKA [1] Sofi Defiyanti dan D. L. Crispina Pardede 2008, “Perbandingan Kinerja Algoritma Id3 Dan C4.5 Dalam Klasifikasi Spam-Mail, Universitas Gunadharma, Jakarta http://research.pps.dinus.ac.id
29
Jurnal Teknologi Informasi, Volume 10 Nomor 1, April 2014, ISSN 1414-9999 [2] [3] [4] [5]. [6] [7] [8] [9] [10] [11] [12] [13] [14] [15] [16] [17] [18] [19] [20]
[21]
30
Prasetyo Anugroho, Idris Winarno., Nur Rosyid M, “ Klasifikasi Email Spam Dengan Metode Naïve Bay es Classifier Menggunakan Java Programming”, ITS Surabaya Prasetyo Anugroho, dkk, 2010, Klasifikasi Email Spam Dengan Metode Naive Bayes Classifier Menggunakan Java Programming, Surabaya. Sheu, Jyh-Jian. An Efficient Two-phase Spam Filtering Methode Based on E-mails categorization. International Journal of Network Security, Vol. 8, No. 3, PP.334-343, Taiwan, May 2008 Lambert, Anselm, Analysis of Spam, A dissertation in Computer Science at University of Dublin, 2003. Anyanwu, Matthew N., and Shiva Sajjan G. Comparative Analysis of Serial Decision Tree Classification Algorithms. International Journal of Computer Science and Security, (IJCSS) Volume (3) : Issue (3). 1: 2-4. Tanpa Tahun. Santosa, B. 2007. Data Mining: Teknik Pemanfaatan Data untuk Keperluan Bisnis. Graha Ilmu. Yogyakarta. Larose, D.T. 2005. Discovering Knowledge in Data: An Introduction to Data Mining. John Willey & Sons, Inc. Han, J. dan M. Kamber. 2006. Data Mining: Concepts and Techniques, Second Edition. Morgan Kaufmann Publishers. San Francisco. Basuki, Achmad., dan Syarif, Iwan. Pohon keputusan. 2003. URL:http://lecturer.eepisits.edu/~basuki/lecture/DecisionTree.pdf, diakses tanggal 20 November 2011. Nugroho, Fanuel., Kristanto, Harianto., dan Oslan, Yetli. Validitas Suatu Alamat menggunakan Pohon keputusan dengan Algoritma ID3. Jurnal Informatika, Volume 3 Nomor 2 April 2007. 1: 2. 2007. Romansyah, F., Sitanggang I. S., dan Nurdiati, S. Fuzzy Decision Tree dengan Algoritma ID3 pada Data Diabetes. Internetworking Indonesia Journal Vol. 1/No. 2 (2009). 1: 2. 2009. Yu, L., dan H Liu. 2003. Feature Selection for High Dimensional Data: A FastCorrelation-Based Filter Solution. www.hpl.hp.com/conferences/icml2003 /papers/144.pdf Jain, A., dan D Zongker. 1997. Selection Feature: Evaluation, Application, and Small Sample Performance. IEEE Transaction on Pattern Analysis and Machine Intteligence : 153-158. Portinale, L., dan L Saitta. 2002. Feature Selection. http://citeseer.ist.psu.edu. Z. Chen and W.M. Com, "An Evaluation on Feature Selection for Text Clustering," Proc. of ICML 2003, Washington DC: 2003. C. Sun, X. Wang, and J. Xu, "Study on Feature Selection in Finance Text Categorization," Science And Technology, 2009, pp. 5077-5082. UCI repository of machine learning database (http://archive.ics.uci.edu/ml/machine-learningdatabases/spambase/) diakses pada tanggal 4 april 2013. H. Eyke, 2008, Granular Computation in machine learning and data mining. In P. Witold, S. Andrzej, K Vladik, (editors), handbook of Granular computing, John Wiley & Sons, pages 889-907. Y.C. Tang, 2006, Granular Support Vector Machines Based On Granular Computing, Soft Computing and Statistical Learning A Disertation Submitted in Partial Fulfillment of Requerments for the degree of Doctor Of Philosophy in the College of Arts and Sciences, Georgeia State University. Gorunescu, Florin, 2011. Data Mining: Concepts, Models, and Techniques. Verlag Berlin Heidelberg: Springer
http://research.pps.dinus.ac.id