ANALISIS PERFORMANSI ALGORITMA C5.0 DALAM PENGKLASIFIKASIAN SPAM EMAIL
TUGAS AKHIR
Sebagai Persyaratan Guna Meraih Gelar Sarjana Strata 1 Teknik Informatika Universitas Muhammadiyah Malang
Rayi Tegar Pamungkas 08560075
JURUSAN TEKNIK INFORMATIKA FAKULTAS TEKNIK UNIVERSITAS MUHAMMADIYAH MALANG 2014
i
LEMBAR PERSETUJUAN
Analisis Performansi Algoritma C5.0 Dalam Pengklasifikasian Spam Email
TUGAS AKHIR
Sebagai Persyaratan Guna Meraih Gelar Sarjana Strata 1 Teknik Informatika Universitas Muhammadiyah Malang
Menyetujui
Pembimbing I
Pembimbing II
Machmud Effendi, M.Eng
Gita Indah Marthasari, ST
NIP. 108.0203.0306
NIP. 108.0611.0442
ii
LEMBAR PENGESAHAN Analisis Performansi Algoritma C5.0 Dalam Pengklasifikasian Spam Email
TUGAS AKHIR Sebagai Persyaratan Guna Meraih Gelar Sarjana Strata 1 Teknik Informatika Universitas Muhammadiyah Malang
Disusun Oleh : Rayi Tegar Pamungkas 08560075
Tugas Akhir ini telah diuji dan dinyatakan lulus melalui sidang majelis penguji pada tanggal 21 Maret 2014
Menyetujui,
Penguji I
Penguji II
Dhebys Suryani Hormansyah, S.Kom., M.T
Sofyan Arifianto, S.Si., M.Kom
NIDN. 0706118303
NIDN.
Mengetahui, Ketua Jurusan Teknik Informatika
Yuda Munarko, S.Kom., M.Sc. NIP. 108.0611.0443
iii
LEMBAR PERNYATAAN Yang bertanda tangan dibawah ini : NAMA
: RAYI TEGAR PAMUNGKAS
NIM
: 08560075
FAK/JUR
: TEKNIK INFORMATIKA
Dengan ini saya menyatakan bahwa tugas akhir dengan judul “ANALISIS PERFORMANSI ALGORITMA C5.0 DALAM PENGKLASIFIKASIAN SPAM EMAIL” beserta seluruh isinya adalah karya saya sendiri dan bukan merupakan karya tulis orang lain, baik sebagian maupun seluruhnya, kecuali dalam bentuk kutipan yang telah disebutkan sumbernya. Demikian surat pernyataan ini saya buat dengan sebenar-benarnya. Apabila kemudian ditemukan adanya pelanggaran terhadap etika keilmuan dalam karya saya ini, atau ada klaim dari pihak lain terhadap keaslian karya saya ini maka saya siap menanggung segala bentuk resiko/sanksi yang berlaku.
Mengetahui, Dosen Pembimbing
Malang, 16 Februari 2014 Yang Membuat Pernyataan
(Machmud Effendi M.Eng)
(Rayi Tegar Pamungkas)
iv
LEMBAR PERSEMBAHAN Alhamdulillah, puji syukur saya panjatkan kepada Allah Azza Wajalla yang telah memberikan rahmat, hidayah serta karunia-Nya sehingga penulis dapat menyelesaikan pembuatan laporan tugas akhir berjudul “Analisis Performansi Algoritma
C5.0
Dalam
Pengklasifikasian
Spam
Email”.
Penulis
menyampaikan rasa terima kasih kepada : 1. Bapak Mahmud Effendi, M.Eng sebagai dosen pembimbing I. Terima kasih atas bimbingan yang telah diberikan dan pesan moral yang telah diberikan. 2. Ibu Gita Indah Marthasari, ST sebagai dosen pembimbing II. Terima kasih atas pengertian dan kesabaran beliau selama membimbing penulis yang jarang ke kampus untuk bimbingan dikarenakan kesibukan yang lain. 3. Sukisno dan Winarsih selaku orang tua penulis yang sabar menunggu penulis untuk wisuda serta memotivasi penulis untuk menjadi orang yang lebih baik. 4. Prima Andy Winaya dan Atur Nanda Pambudi selaku saudara penulis yang telah memotivasi dan memberikan dorongan semangat kepada penulis. 5. (Alm) Soewono dan Sariatun selaku kakek dan nenek penulis, maaf tidak bisa memperlihatkan foto wisuda kepada beliau dikarenakan telah pergi ke alam barzah terlebih dahulu. 6. Lusyawati yang selama ini telah memotivasi dan mentransfer ilmu ekonominya kepada penulis. 7. Semua teman-teman seperjuangan baik yang sudah wisuda maupun yang masih mengulang kuliah, diantaranya Teguh, Anggit, Firman, Ferry, Fitrah, Ihwan, Bowo, Intan, Ayu, Mida, Luluk, dll.
Malang, 21 Maret 2014
Penulis
v
KATA PENGANTAR
ْــــــــــــــــــم اﷲِالرَّحْ َم ِن اا َّر ِحيم بِس ِ ال َّس َ ُم َ َ ْي ُم ْم َ َرحْ َم ُم ﷲِ َ بَ َر َ اُم ُم Segala puja dan puji syukur penulis panjatkan kehadirat Allah SWT, karena atas limpahan kasih dan sayang-Nya sehingga penulis diberikan kesehatan dan kesabaran dalam menyelesaikan tugas akhir yang berjudul “Analisis Performansi Algoritma C5.0 Dalam Pengklasifikasian Spam Email”. Tugas akhir ini membahas tentang pengujian tingkat performansi algoritma C5.0 menggunakan bantuan library WEKA (Waikato Environment For Knowledge Analysis) dalam mengklasifikasikan pesan email. Penulis menyadari bahwa dalam penulisan tugas akhir ini masih jauh dari kata sempurna. Oleh karena itu, penulis mengharapkan kritik serta saran yang bersifat membangun guna penyempurnaan tugas akhir ini.
َ َّ َ ُم َ َ ْي ُم ْم َ َرحْ َم ُم ﷲِ َ بَ َر َ اُم ُم
Malang, 21 Maret 2014
Penulis
vi
DAFTAR ISI HALAMAN JUDUL........................................................................................ LEMBAR PERSETUJUAN ............................................................................ LEMBAR PENGESAHAN ............................................................................. LEMBAR PERNYATAAN KEASLIAN ........................................................ ABSTRAKSI .................................................................................................. ABSTRACT .................................................................................................. LEMBAR PERSEMBAHAN ....................................................................... KATA PENGANTAR .................................................................................. DAFTAR ISI ................................................................................................. DAFTAR GAMBAR ...................................................................................... DAFTAR TABEL ............................................................................................ BAB I
BAB II
PENDAHULUAN 1.1 Latar Belakang Masalah ......................................................... 1.2 Rumusan Masalah .................................................................. 1.3 Tujuan ..................................................................................... 1.4 Batasan Masalah ..................................................................... 1.5 Metodologi Penyelesaian Masalah ......................................... 1.6 Sistematika Penulisan ............................................................. LANDASAN TEORI 2.1 Email ....................................................................................... 2.1.1 Sejarah Email ....................................................................... 2.1.2 Pengalamatan Email ............................................................ 2.1.3 Cara Kerja Email ................................................................. 2.1.4 Spam Email.......................................................................... 2.2 Text Mining ............................................................................ 2.2.1 Definisi Text Mining ........................................................... 2.2.2 Tahapan Proses Text Mining ............................................... 2.3 Algoritma Term Frequency-Inverse Document Frequency (TF-IDF)................................................................................... 2.3.1 Definisi Algoritma TF-IDF ................................................. 2.3.2 Cara Kerja Algoritma TF-IDF ............................................. 2.4 Algoritma C5.0 ....................................................................... 2.4.1 Definisi Algoritma C5.0 ..................................................... 2.4.2 Cara Kerja Algoritma C5.0 ................................................. 2.5 Waikato Environment for Knowledge Analysis (WEKA) ..... 2.5.1 Definisi WEKA .................................................................. 2.5.2 Fitur WEKA ....................................................................... 2.5.3 Format Data WEKA ........................................................... 2.6 Alat Ukur Evaluasi .................................................................
vii
i ii iii iv v vi vii viii ix xii xiv
1 2 2 2 3 4 5 5 5 6 7 9 9 9 11 11 12 13 13 13 14 14 15 16 16
BAB III ANALISA DAN PERANCANGAN SISTEM 3.1 Analisis Masalah..................................................................... 19 3.2 Analisa Kebutuhan ................................................................. 19 3.2.1 Kebutuhan Fungsional ......................................................... 19 3.2.2 Kebutuhan Non Fungsional ................................................. 19 3.3 Analisa Sistem ......................................................................... 20 3.3.1 Alur Sistem .......................................................................... 20 3.3.2 Use Case Diagram ............................................................... 26 3.3.3 Activity Diagram ................................................................. 27 3.4 Perancangan Sistem ................................................................ 30 3.4.1 Class Diagram...................................................................... 30 3.4.2 Sequence Diagram ............................................................... 31 3.5 Desain Interface Aplikasi ....................................................... 32 BAB IV IMPLEMENTASI DAN PENGUJIAN 4.1 Perangkat Hardware Dan Software Yang Digunakan ............ 35 4.2 Implementasi Sistem............................................................... 35 4.2.1 Implementasi Preprocessing ................................................ 35 4.2.1.1 Case Folding .................................................................. 36 4.2.1.2 Tokenizing ..................................................................... 36 4.2.1.3 Filtering ......................................................................... 37 4.2.1.4 Stemming ....................................................................... 37 4.2.2 Implementasi Algoritma Term Frequency - Inverse Document Frequency (TF-IDF) ........................................................... 38 4.2.2.1 Term Frequency (TF) .................................................... 38 4.2.2.2 Document Frequency (DF) ............................................ 39 4.2.2.3 Inverse Document Frequency (IDF) .............................. 40 4.2.2.4 Term Frequency-Inverse Document Frequency ............ 40 4.2.3 Implementasi Algoritma C5.0 .............................................. 41 4.3 Pengujian ................................................................................... 42 4.3.1 Pengujian Fungsionalitas Sistem ......................................... 42 4.3.2 Hasil Pengujian Sistem ........................................................ 44 4.3.3 Hasil Pengujian Gmail Dan Yahoo ..................................... 49 BAB V KESIMPULAN DAN SARAN 5.1 Kesimpulan ............................................................................. 52 5.2 Saran ....................................................................................... 53 DAFTAR PUSTAKA ...................................................................................... LAMPIRAN ................................................................................................
viii
54 55
DAFTAR GAMBAR Gambar 2.1 Gambar 2.2 Gambar 2.3 Gambar 3.1 Gambar 3.2 Gambar 3.3 Gambar 3.4 Gambar 3.5 Gambar 3.6 Gambar 3.7 Gambar 3.8 Gambar 3.9 Gambar 3.10 Gambar 3.11 Gambar 3.12 Gambar 4.1 Gambar 4.2 Gambar 4.3 Gambar 4.4 Gambar 4.5 Gambar 4.6 Gambar 4.7 Gambar 4.8 Gambar 4.9 Gambar 4.10 Gambar 4.11 Gambar 4.12 Gambar 4.13 Gambar 4.14 Gambar 4.15 Gambar 4.16 Gambar 4.17 Gambar 4.18
Cara Kerja Email ...................................................................... Cara Kerja Email Lanjutan ....................................................... Tahapan Proses Text Mining.................................................... Alur Flowchart Sistem ............................................................. Use Case Aplikasi .................................................................... Activity Diagram Pilih File Email ........................................... Activity Diagram Preprocessing Email .................................... Activity Diagram TF-IDF ........................................................ Activity Diagram C5.0 ............................................................. Class Diagram Aplikasi............................................................ Sequence Diagram Pilih File .................................................... Sequence Diagram Hitung Performansi ................................... Form Preprocessing.................................................................. Form TF-IDF............................................................................ Form C5.0 ................................................................................ Kode Program Case Folding .................................................... Kode Program Tokenizing ....................................................... Kode Program Filtering............................................................ Kode Program Stemming ......................................................... Kode Program Term Frequency ............................................... Kode Program Document Frequency ....................................... Kode Program Inverse Document Frequency .......................... Kode Program Term Frquency Inverse Document Frequency Kode Program Preprocessing, TF-IDF dan C5.0 ..................... Interface Proses Preprocessing ................................................. Interface Proses TF-IDF........................................................... Interface Proses C5.0 ............................................................... Grafik Precision Dengan 500 File ............................................ Grafik Recall Dengan 500 File ................................................ Grafik Accuracy Dengan 500 File ........................................... Grafik Precision Dengan 1000 File .......................................... Grafik Recall Dengan 1000 File .............................................. Grafik Accuracy Dengan 1000 File .........................................
ix
6 6 10 20 27 27 28 29 30 31 31 32 33 33 34 36 36 37 38 39 39 40 40 41 42 43 44 45 46 47 47 48 49
DAFTAR TABEL Tabel 2.1 Tabel 3.1 Tabel 3.2 Tabel 3.3 Tabel 4.1 Tabel 4.2 Tabel 4.3 Tabel 4.4 Tabel 4.5 Tabel 4.6
Confusion Matrix .......................................................................... Contoh Perhitungan TF-IDF ......................................................... Contoh Data Perhitungan C5.0 ..................................................... Perhitungan Information Gain, Entropy dan Gain ........................ Hasil Klasifikasi Dengan Total Data 500 ..................................... Hasil Klasifikasi Dengan Total Data 1000 ................................... Pengujian Gmail Dengan 250 Data Testing .................................. Pengujian Gmail Dengan 500 Data Testing .................................. Pengujian Yahoo Dengan 250 Data Testing ................................. Pengujian Yahoo Dengan 500 Data Testing .................................
x
17 22 23 25 44 45 49 50 50 51
DAFTAR PUSTAKA [1]
Com, J. 2009. Cara Kerja Email: Jago Internet dari Nol hingga Mahir. Yogyakarta: Multicom.
[2]
Defiyanti, Sofi. 2008. Perbandingan Kinerja Algoritma ID3 dan C4.5 Dalam Klasifikasi Spam-Mail. Universitas Gunadarma.
[3]
Dunham, M.H. 2003. Data Mining Introductory And Advance Topics. Upper Saddle River, NJ: Pearson Education, Inc.
[4]
Han, J. Kamber, M. 2001. Data Mining: Concepts and Technique. San Fransisco: Morgan Kaufmann Publishers.
[5]
Indranandita, Amalia. 2008. Sistem Klasifikasi Dan Pencarian Jurnal Dengan Menggunakan Metode Naïve Bayes Dan Vector Space Model. Universitas Kristen Duta Wacana.
[6]
Insan, Pramudya Prima. Klasifikasi Emosi Untuk Teks Berbahasa Indonesia Dengan Menggunakan Algoritma C5.0. Universitas Brawijaya
[7]
Kantardzic M. 2003. Data Mining Concept Models, Methods, and Algorithms. New Jersey, USA: A John Wiley & Sons.
[8]
Kusrini dan Luthfi, Emha Taufiq. 2009. Algoritma Data Mining. Yogyakarta: Andi Publisher.
[9]
Robertson, Stephen. 2005. Understanding Inverse Document Frequency: On Theoretical Arguments for IDF, England: Journal of Documentation, Vol. 60, pp. 502-520.
[10]
Septiandana, Sandy. 2012. Klasifikasi Status Ketenagakerjaan Menggunakan Algoritma Pohon Keputusan. UPN Veteran Jakarta.
[11]
Sulistiyani, Sri. 2009. Bikin PC Aman Dari Serangan Virus, Spam, Dan Spyware. Yogyakarta: Andi Publisher.
[12]
Witten, Ian H., Frank, Eibe, & Hall, Mark A. 2011. Data Mining Practical Machine Learning Tools And Techniques. Burlington: Morgan Kaufmann Publishers.
[13]
Yuhefizar. 2008. 10 Jam Menguasai Internet Teknologi dan Aplikasinya. Jakarta: Elex Media Komputindo.
[14]
Zafikri, Atika. 2010. Implementasi Metode Term Frequency (TF-IDF) Pada Sistem Temu Kembali Informasi. Universitas Sumatra Utara.
xi