KLASIFIKASI EMAIL DPNGAN MENGGUNAKAN METODE NAIVE BAYESIAN STUDI KASUS : MAILING LIST www.tux.org Tantiny t", Budi Susanto('), Widi HapsariG)
jaman modern ini, komunikasi dan penyebaran informasi merupakan hal yang sangatpenting. Salah satubentukkomunikasi yaitu surat-menyurat, tidak lagi dilakukan secara tradisional menggunakan kertas, amplop dan perangko. Surat-menyurat secara global sekarang dilakukan menggunakan teknologi email. Email saat ini menjadi salah satu alat komunikasi yang perturnbuhannya kian pesat dari hari ke hari. Hal ini dapat dicermati melalui banyaknya komunitas mailing list yang bermunculan di Internet. Namun ada kendala yang muncul dari penggunaan entail, yakni jumlah email yang banyak dan diterima dalam waktu yang bersamaan. Hal ini berakibat infonnasi-informasi yang ada dalam email menjadi terkubur dalam tumpukan informasi yang lain. Untuk mengatasi masalah tersebut, maka telah dikembangkan beberapa aplikasi untuk mengklasifikasikan email menurut kriteria tertentu, seperti kategori, pengirim atau pun subject entail. Tugas Akhir ini bertujuan membangun sebuah sistem klasifikasi enrail dengan menggunakan Metode Naive Bayesian dengan mengambil studi kasus dari mailing /rsf www.tux.org Sistem yang dibangun mampu mengklasifikasikan email kedalam 3 kategori yang sudah ditentukan dengan pengetahuan ia miliki dan mengubah pengetahuan tersebut jika terjadi kesalahan klasifikasi (pembelajaran
Abstrak:
Pada
bertahap).
Kata Kunci: text mining, emoil, klasifikasi, Naive Bayesian. ataupun Gmail. Selain
PENDAHULUAN
itu komunitas mailing list
Di jaman era globalisasi informasi menjadi
yang tumbuh di dunia maya juga ikut ambil bagian
komoditi yang sangat bernilai. Oleh karena itu alat-
menumbuhkan kebiasaan penggunaan email sebagai
alat komunikasi kian hari kian berkembang dengan
salah satu alat komunikasi.
Tetapi pada praktik di lapangan email yang
tujuan mempercepat sampainya informasi ke tangan
Kini alat-alat komunikasi dapat ditenrui
seharusnya sebagai sumber informasi bisa kehilangan
dalam berbagai macam media seperti media cetak,
fungsinya. Hal ini terjadi, karena banyaknya email
audio, visual maupun digital.
yang diterirna clalam waktu yang
pengguna.
bersamaan.
Contohnya bagi pengguna email yang berlangganan
Intemet sebagai salah satu media digital menawarkan bentuk teknologi komunikasi yang
nailing lrst dalarn
murah dan cepat, yakni ernajl. Kemudahan yang
bahkan ratusan ernail. Tentunya sangat disayangkan,
,litawarkan email menarik banyak orang untuk
karena informasi yang rerkandung dalam enrail
menggunakannya.
Hal ini ditambah
satu hari bisa menerima puluhan
terkubur oleh tumpukan informasi yang lain.
dengan
tersedianya layanan email gratis seperti Yahoo! Mail Tantiny , Mahasiswa kknik Informatika, Fakultas Teknik, Universilas Kristen Dula Wacana Budi Susanto, S.Kom., M.T, Dosen kknik Inforrnatika, Fakultas Tbknik, Universitas Kristen Dtda Wacana Dra. Widi Hapsari, M.7., Dosen Teknik Infurrnatika, Fakultas Tbknik, Universitas Kristen Duta Wacana
34
Tantiny, Klasifikasi Email dengan Menggunakan Metode Naive Bayesian 35
DASARTEORI
TEXTMINING
Text mining dapat diartikan
i
sebagai
: r---"lffill;
penemuan informasi yang baru dan tidak diketahui
i
--- a--lt
sebelumnya oleh komputer, dengan secara otomatis
:
mengekstrak informasi dari sumber-sumber yang
berbeda. Kunci dari proses ini adalah
Tahapan Proses Texf
M6ing:------
.-
menggabungkan informasi yang berhasil diekstraksi dari berbagai sumber (Marti Hearst,2OO2), Sebagai
TEXTPREPROCESSING
bentuk aplikasi dari text mining, sistem klasifikasi
Tahap proses awal terhadap teks bertujuan
email menggu nakan email sebagai sumber informasi
untuk mempersiapkan teks menjadi data yang akan
dan
akan diekstrak dari sumber informasi. Informasi
mengalami pengolahan lebih lanjut. Tahap ini diawali dengan melakukan pemecahan sekumpulan
klasifikasi dapat berbentuk angka-angka
karakter ke dalam kata-kata (token). Setiap token
probabilitas, sef aturan atau bentuk lainnya.
adalah objek dari suatu tipe, sehingga jumlah token
informasi klasifikasi sebagai informasi yang
Text mining adalah varian dari data mining,
yang berusaha mencari informasi yang tersimpan
alian lebih banyak daripada tipenya (Budi Susanto,
2oo6).
dalam suatu data terstruktur seper.ti basis data. Perbedaan antarc
text mining dan data mining
Pada tahap aclalah terdapatnya
terletak pada sumbel data yang digunakan. Texf
petik tunggal
mining melakukan ekstraksi informasi terhadap data
dua
tesktual (natural language) yang tidak terstruktur,
sedangkan data
mining melakukan
ekstraksi
informasi dari data yang terstruktur.
ini hal yang perlu diperhatikan
karakter-karakter tertentu seperti
( ' ), titik ( . ), semikolon ( ; ), titik
( : ) serta angka (O - 9) atau lainnya yang muncul dalam sebuah email. Dalam memperlakukan karakter-karakter tersebut sangat tergantung sekali pada kontek aplikasi yang dikembangkan. Sehingga
Tahapan proses proses text mining dibagi
diperoleh kumpulan kata-kata yang dikandung oleh
menjadi 4 tahap utama, seperti pada gambar dibawah
suatu teks atau kumpulan teks, yang kemudian akan
ini, yaitu proses awal
dibawa sebagai inpuf unruk tahap berikutnya.
terhadap
teks
(text
preprocessing), transformasi teks ke dalam bentuk
Text Transformation
ntara (text transformation), pemilihan fitur- fitur
Pada tahap
ini hasil yang diperoleh
dari
yang sesuai (feature selection) dan penemuan pola
tahap text preprccessing akan melalui
Qtattem discovery) (Loretta AuvilLoretta &
transformasi yang dilakukan dengan mengubah kata-
2003). Masukan awal dari
proses ini
kata ke dalam bentuk dasar sekaligus mengurangi
adalah suatu data teks dan menghasilkan keluaran
jumlah kata-kata tersebut. Salah satu jenis tindakan
berupa pola sebagai hasil interpretasi.
yang dapat dilakukan yaitu penghapusan sfopword .
Searsmith,
proses
Stop Word
Stop word adalah kata-kata yang bukan nrerupakan
ciri (kata unik) dari suatu dokumen
36 JUKNAL INFORMATIKA, VOLUME 3 NOMOR 2,
APNL
seperti kata sambung. Contoh stop word adalah
, tt a tt dan
2OO7
membedakan konsep atau kelas data, dengan tujuan
seterusnya.
untuk dapat mempertirakan kelas dari suatu objek
Memperhitungkan sfop word pada transformasi teks
yang labelnya tidak diketahui. Model itu sendiri bisa
akan membuat keseluruhan sistem text mining
berupa aturan "jika-maka", berbentuk pohon
bergantung kepada faktor bahasa.
pengambilan keputusan (decision tree), formula
" andt'
,
tt
the"
proses
matematis seperti Naive Bayesian dan Supporf
penghilangan sfop word. Namun proses
Vector Maching atau bisa juga berupa jaringan
penghilangan stop word tetap digunakan karena
seperti Neural Net work.
Hal ini menjadi kelemahan dari
proses
ini
akan sangat mengurangi beban kerja
Proses klasifikasi biasanya dibagi menjadi
; leaming dan fesf. Pada
fase leaming,
sistem. Dengan menghilangkan stop word dari suatu
dua fase
teks maka sistem hanya akan memperhitungkan
sebagian data yang telah diketahui kelas datanya
kata-kata yang dianggap penting.
diumpankan untuk membentuk model prediksi.
Feature Selection
Karena menggunakan data yang telah diberikan label proses
terlebih dulu oleh ahli di bidang itu sebagai contoh
penghapusan s top wordnamun tidak semua kata yang
data yang benar maka klasifikasi sering juga disebut
Walaupun teks sudah melalui
dokumen. Tahap
sebagai metocla diawasi (supervised method).
seleksi fitur (feature selection) bertujuan untuk
Kemudian pada fase tesf-nya model yang sudah
mengurangi dimensi dari suatu kumpulan teks, atau
terbentuk diuji dengan sebagian data lainnya untuk
tersisa menggambarkan
dengan kata
lain
isi dari
menghapus kata-kata yang
mengetahui akurasi
dari model tersebut. Bila
dianggap tidak penting atau tidak menggambarkan isi
akurasinya mencukupi model ini dapat dipakai untuk
dokumen berdasarkan frekuensi dari kata tersebut.
prediksi kelas data yang belum diketahui.
Terdapat dua jenis kata Yang
daPat
Supervised Learning
dianggap "tidak menggambarkan isi dokumen" yaitu
Supervised leaming adalah salah satu
kata yang muncul terlalu sedikit atau terlalu banyak
teknik dalam pembelajaran mesin, untuk membentuk
dalam dokumen dan kata yang muncul dalam banyak
sebuah fungsi dari data latihan. Suatu clata latih pada
dokumen. Kata yang muncul terlalu sedikit dianggap
supervised leuning terdiri dari beberapa pasangan
bukanlah kata yang begitu penting sedangkan kata
nilai-nilai masukan dan nilai keluaran (nilai dari
yang muncul terlalu banyak clianggap sebagai kata
atribut tujuan)
Berdasarkan keluaran
umum.
supervised leaming dibagi menjadi
Pattern Discovery
dari
fungsi,
2, regresi dan
Pattern
klasifikasi. Regresi terjadi jika oufpuf dari fungsi
discoveryadalah tahap terpenting dari seluruh proses
merupakan nilai yang kontinyu sedangkan klasifikasi
Tahap penemuan Pola atau text mining. Tahap
ini
berttsaha menemukan pola
terjadi jika keluaran dari fungsi adalah nilai tertentu
atau pengetahuan dari keseluruhan teks.
dari suatu atribut tujuan (ticlak kontinyu). Tujuan
Classificalion
dari supervised learning adalah untuk memprediksi
Klasifikasi adalah proses untuk metremukan
model atau fungsi yang menjelaskan
atau
nilai dari fungsi untuk sebuah data masukan yang sah setelah hanya melihat sejumlah data latih.
Tantiny, Klasifikasi Email dengan Menggunakan Metode Naitve Bayesian 37
Berikut adalah tahapan umum biasanya dilakukan pada sup ervised leaming
yang
nilai tf-idf, yakni
(Budi Susanro, 2006).
'.
tfidf 0) = tf6) * idf 0)
1. Menentukan tipe dari data latih
2.
Persamaan untuk mendapatkan
[2.1]
Mengumpulkan data latih. Data latih
yang digunakan seharusnya memiliki karakterisktik
idf
(i)=,ortdt)
12.21
dunia nyata. Karena itu data latih dapat berasal baik dari hasil pengukuran atau dari pakar.
(w(i)')
3. Menentukan representasi fitur
;
w(i)\tfdif (i)
masukan
t2.31
dari fungsi yang ingin dibentuk karena tingkat akurasi dari fungsi dapat dipengaruhi oleh representasi dari masukan (contoh
:
wi =tfidf
j,ej)=tfi*idf (j)
12.41
jumlah fitur
tidak boleh terlalu banyak tetapi juga tidak boleh terlalu sedikit, cukup untuk memprediksi keluaran secara
(t
Pada persamaan
[2.1], kita melihat bahwa
bobot TF-IDF merupakan frekuensi kemunculan
j dimodifikasi dengan sebuah factor skala (idf(j)). Persamaan idf(i) secara sederhana
kata
akurat).
4. Menentukan struktur dari
pengetahuan
menghitung jumlah dokumen yang berisi kata
(fungsi) dan algoritma yang akan diguuakan. 5. Jalankan algoritrna telhadap data latih.
j
(df(j)) dan membalik skalanya. Sehingga ketika suatu kata muncul di beberapa di beberapa dokumen,
maka kata tersebut dipertimbangkan sebagai kata
Metode TF-lDF (Terrns Frequency-Inverse
yang tidak penting dan nilai faktor skala akan rendah
Document Frequency)
(bahkan mendekati nol). Demikian juga sebaliknya,
Metode TF-IDF merupakan suatu cara
jika kata bersifat unik dan muncul hanya di beberapa
untuk memberikan bobot hubungan suatu kata (term)
dokumen, faktor skala akan membesarkan karena
terhadap email. Metode
ini
menggabungkan dua
kata tersebut bersifat penting. Jika diinginkan bentuk
tf-idf()
konsep untuk perhitungan bobot yaitu, frekuetrsi
normalisasi dari nilai
kemunculan sebuah kata didalam sebuah ernail
(0...1), maka kita dapat menerapkan
tertentu clan inverse frekuensi email
yang
[2. 3].Untuk pemmbentukan vector masing-rnasing
mengandung kata tersebut. Frekuensi kemunculan
dokurnen, dapat pula diberikan nilai bobot masing-
kata didalam email yang diberikan menunjukkan
masing kata dalam dokumen tersebut
seberapa penting
kata tersebut didalarn
email
menjadi nilai diantara persamaan
dengan
persamaan [2.41.
tersebut. Frekuensi email yang mengandung kata
Metode Na'ive Bayesian
tersebut menunjuklian seberapa umum kata tersebut.
Metode Naive Bayesian adalah klasifikasi model
Sehingga bobot hubungan antara sebuah kata dan
statistik. Naive Bayesian dapat memprediksikan
sebuah email akan tinggi apabila li'ekuensi kata
kemungkinan-kemungkiuan kelas anggota, seperti
tersebut tinggi didalam email dan frekuensi
kernungkinan yang menempatkan sampel baru
keseluruhan email yang mengandung kata tersebut
kelas khususnya. Naive Bayesian berlandaskan pada
yang rendah pada kumpulan email (database).
teorema Bayesian yang selalu mernperlihatkan
pa,-Ja
INFORMATIKA, VOLUME 3 NOMOR 2, APRIL 2OO7
38 JUKNAL
performa yang cepat dan tepat sekalipun diterapkan
menggunakan rumus
pada database yang sangat besar.
penghitungan P(ailvj) yang digunakan adalah sesuai
Berikut ini akan disajikan garis besar Metode Naive
dengan rumus [2.71
menggunakan data latih lengkap berupa pasangan
dan sistem diberi tugas untuk menebak
nilai fungsi target daidata tersebut (Mitchell, Tom,
[2.e]
Keterangan:
1. n : adalah jumlah total kata berbeda
akan diberikan sebuah data baru dalam bentuk
Mekanisme
tl,- rI Pllt'.. 1'.)' r' u-|kotnkart'
Bayesian untuk klasifikasi reks Sistem dilatih
nilai-nilai atribut dan nilai target kemudian sistem
t2.61.
yang terdapat
di
dalam semua data tekstual yang
memiliki nilai fungsi targef yang sesuai.
I ee7).
2. n* I
adalah jumlah kemunculan kata w*
Metode NaiVe bayes memberi nilai targef kepada data
pada semua data tekstual yang memiliki nilai fungsi
baru menggunakan nilai V"oo, yaitu nilai kemungkinan tertinggi dari seluruh anggota
targef yang sesuai.
himpunan sef domain V.
berbeda yang muncul dalam seluruh data tekstual
1.-irrp
rc t2.51
=argruaxP(r'ilnra:...ct,) nt=j
3.
1.u,{p
Bayes adalah
A.
:
Proses pelatihan. Input adalah ernail
contoh yang telah diketahui kategorinyal
P(ara...n,,\
lExamples adalah kumpulan data
= fir€inaxPtrl t,fr )...d, r', )P(r', l-,tI'
1
lZ'Z)
asumsi bahwa atribut-atribut yang digunakan bersifat conditionally independent antara satu dan yang lainnya, terhadap nilai fungsi target atau dengan kata lain rumus [2.5] dapat kita tulis ulang menjadi
= arg.maxP(1'rlfl,P{n,
ir"}
:
t2.81
latih
yang
mencakup seluruh kemungkinan nilai fungsi target.
Fungsi
Metode Naive Bayes bekerja dengan dasar
1'.Mr?
adalah jumlah kata yang
yang digunakan.
ulang rumus tersebut menjadi :
ll.:t'
:
Ringkasan algoritma untuk Metode NaiVe
Terorema Bayes kemudian digunakan untuk menulis
r t/rp = (-ttgllla.r-
lkosakatal
ini
mempelajari probabilitas P(w*lv,) dan
r(v,).l 1. Kumpulkan semua kata, puctuation dan foken yang muncul pada Examples.
I
Vocabulary
+
kumpulan kata-kata
yang berbeda (distinct) yang muncul
pada
Exunples, 2. Hitung P(v,) dan P(w*lv,)
V"oo adalah nilai probabilitas hasil perhitungan Metode Naive Bayes untuk nilai fungsi
target yan9 bersangkutan. Frekuensi kemunculan kata pada data latih menjadi dasar perhitungan nilai dari P(v,) dan P(qlv,). Himpunan ser dari nilai-nilai
probabilitas
ini
berkorespondensi dengan hipotesa
yang ingin dipelajari. Hipotesa kemudian digunakan
untuk mengklasifikasikan data-data baru
dengan
Untuk setiap nilai targef v, dari V. <)
Docs,
€
kumpulan dokumen yang
rnemiliki nilai target v,.
I P(v,) + t) Texq t
lclocs:l/lEx amplesl,
hasil konkatenasi
seluruh
jumlah kara yang
berbeda
dokumen pada docs.
ty
+-
yang muncul pada Text.
Tantiny, Klasifikasi Email dengan Menggunakan Metode Naive Bayesian 39
I
Untuk setiap kata wk yang ada dalam
Keterangan i
l.
Vocabulary.
\ <-
jumlah kemunculan kata wo dalam
Text.
Tab page yang menampilkan email hasil
migrasi, email ditampilkan menurut kategori
dan
dibagi berdasarkan tipenya, yakni emarT TRAINING,
P(w*lv,)
<-
(n*+1)/(n+lVocabularyl).
email UJI dan email hasil KLASIFIKASI.
2. Rich text box untuk menampilkan B.
Proses klasifikasi. Input adalah emai.l
isi
email yangdipilih.
3. Informasi mengenai jumlah email dari
yang belum diketahui kategorinya:
{Mengembalikan estimasi nilai targef dari
Doc.l
Microsoft Outlook dalam database yang belum di training dan jumlah email hasil klasifikasi.
i
Posirions
(-
seluruh kata dari Doc yang
ditemukan dal am V ocabulary
I
Proses Pembangunan Pembelajaran Metode Naive
RetumVnb, dimana Vnb = argmax
Bayesian
P(vj) n
P(a,lv,)
Proses pembangunan pembelajaran Metode
Naive Bayesian untuk masing-masing kategori, CARA KERJA SISTEM Proses Migrasi Email
yakni kategori PROGRAMING, kategori SISTEM
dari Microsoft Outtook
ke
Database
'
Proses migrasi dari Microsoft Outlook ke
database akan menghasilkan daftar
/isf untuk
tab
email training, emailuji dan informasi jumlah email
dari Microsoft Outlook yang terdapat
OPERASI dan kategori UMUM. Proses pembelajaran ini terdiri dari beberapa sub proses yakni tokenisasi, pembuangan stop word, pembobotan nilai TF-IDF
,
feature seJecfion dan
pembangunan vektor pembelajaran Nai've Bayesian.
dalam
database.
Atrqre 6 by4tosccessendlad&esrs .\ LL) *d.dhoubor. Do p w.nt to dowrh6T lltBB
unlxFcted,
Elcow *rss
f-'{l
ytuh6ve
t ruvbs.Ws.nd yd rhodd
lor jl
,:l
f-:rp-lT*h_-l
Form Untuk Mengakses Microsoft Outlook.
Oil!,
Cmai{
"'1*::
Form Sistem Dengan Tampilan Hasil Training. Keterangan
7.
:
Tab page yang menampilkan email hasil
klasifikasi, email ditampllkan menurut kategori.
2,
Rich text box untuk menampilkan isi
email yangdipilih.
Form Email Dengan Email Hasil Migrasi.
3. Informasi mengenai jumlah email dati
40 JUKNAL INFORMATIKA, VOLUME 3 NOMOR 2, APRIL 2OO7
Keteranqan
Microsoft Outlook dalam database yang belum di
i
1. Visualisasi hasil klasifikasi dalam grafik
training. bar. Proses Pengujian
Klasifikasi Metode NaiVe Bayesian
Proses pengujian klasifikasi Metode Naive
Bayesian bertujuan untuk menguji email termasuk dalam klasifikasi kategori yang mana. Pada proses
akan dilakukan perhitungan klasifikasi
ini
dengan
ANALISIS SISTEM
Untuk analisis sistem akan dilakukan pengujian dengan menggunakan jumlah email sebanyak
15, 30, 45 dan 120 buah email training
Metode Nai've Bayesian serta perhitungan nilai
untuk masing-masing kategori yang ada dan 10 buah
presisi hasil klasifikasi.
email uji yang belum memiliki kategori. Hasil Pengujian
.dr,ntrfr
Dari
{*frK:*a*.
keempat
hasil pengujian
akan
dianalisis pengaruh dari nilai feature seleclion dan
jumlah email terhadap hasil dari nilai presisi Iartrdn&r
,*;. fmtatl
ii
klasifikasi. Hasil keseluruhan perhitungan presisi
dari keempat pengujian dapat dilihat pada
,","*-.
tabel
dibawah ini.
'*'
|1hti &&.!*.'k15 {iK,lil r-r@"
+r
Form Klasifikasi Dengan Proses Klasifikasi Metode Naive BaYesian. Kelerangan
:
1. Jumlah input-an enail training untuk masing-masing kategori sebanyak 10 buah email.
2.
Tabel Perbandingan Presisi Pengujian.
Text Box untuk menampilkan proses
training yang berlangsung.
Analisis Feafu re Selection
3. Informasi mengenai jumlah enail dari
Analisis feature selection akan membahas
Microsoft Outlook dalam database yang belum di
pengaruh besar kecil ntlai featurc selection terhadap
training dan jumlah enlail hasil klasifikasi'
nilai presisi. Dari
keempat pengujian yang
mengunakan nilai feature selection 5%, to%r z0%t
Grafik Bar Menampilkan Yisualisasi Grafik bar akan menampilkan hasil presisis
3O%, 40% danT 5% dapat dilihat pada gambar tabel dibawah
klasifikasi.
ini.
J
EMAIL TRAINING
'5
90 80
81! 550 i40 E30
220 t0 0
UJll.1,fs5% UJll.2,ls10% uJll.3,fs20% UJll4,fs30% UJll.s,ts40% UJll.6,fs75% Nil.i Feature Sotection
Grafik Bar Dengan Yisualisasi Hasil Klasifikasi Metode Naive BaYesian.
Grafik Email Training
\5
Email.
Tantiny, Klasifikasi Email dengan Menggunakan Metode Naive Bayesian 41 EMAILTMINING 30
Dari gambar untuk pengujian II.1, II.2,
1m
s gzo
II.3,
!m !$
dan
II.4
dapat dilihat bahwa,
nilai
feature
selection yang semakin tinggi akan membuat nilai
1ao tm
presisi klasifikasi semakin tinggi pula. Nilai presisi
10
0
20% UJI 1.4,h 30% Xilal Fe4ursS.lscllon
UJI 1.2,h 1070 UJI l.3,fs
UJI l.s,fs
40%
UJI l.6.fs
75'l
Grafik Ernail Training 30 Email.
tertinggi diperoleh saat nilai feature selectionberada pada
nilai 3O%
dengan
IL5
pada Pengujian 1m
seleclion 4O% dan
s g70 =80
nilai presisi 90%. Namun
dan
II.6
dengan nilai feature
75 %, nllai presisi mengalami
penurunan menjadi 70% dan 5O%. Hal
loo !$ lro t20
ini terjadi,
karena nilai feature seleclion yang terlalu tinggi,
10
0 UJI r.1.h
5%
UJI l.2.ls
10'6
UJr LJ,ts 2006 UJI 1.4,'s
30%
UJI l.s,rs
40'lo
UJI l.6,ts 75%
perhitungan klasifikasi Metode Naive Bayesian yang
Grafik.Email Training 45 Email. EMAIL TRAII{ING
sehingga dapat mengurangi akurasi dalam disebabkan sernakin banyaknya kata yang diambil
I20
dan dihitung probabilitasnya dalam
t@
s
klasifikasi
Metode Naive Bayesian.
=80 C?o !m io
t
1o :s 2zo
Grafik Email Training 45.
Dari gambar untuk pengujian III.1,
10
[I.2,
0 UJI l.2,ls
10%
UJI l.3,fs
20v"
UJI l.4,fs
30%
UJ! l.5,fs
40%
UJI l-6,ts75%
Analisis dari grafik-grafik diatas adalah
t
berikut
dan
IIL5
dapat dilihat bahwa, nilaifeature
selection yang semakin tinggi akan membuat nilai
Grafik.Email Training 12O Email.
sebagai
III.3, III.4
presisi klasifikasi semakin tinggi pula. Nilai presisi tertinggi diperoleh saat nilai feature selection beracla
:
40%
GrafikEmailTrainingl5.
pada nilai
Dari gambar untuk pengujian I.1, I.2r I.3,
pada Pengujian
dengan
III.6
nilai presisi 90%. Namun
dengan nilai feature selection
o/o, nilai presisi mengalami penurunan menjadi
I.4 dan I.5 dapat dilihat bahwa, nilai feature selection
75
yang semakin tinggi akan membuat nilai presisi
4oo/o,
klasifikasi semakin tinggi pula. Nilai presisi tertinggi
yang terlalu tinggi, sehingga dapat mengurangi
diperoleh saat nTlai feature selection berada pada nilai
akurasi dalam perhitungan klasifikasi Metode Naive
4Och dengan nilai presisi 80%. Namun
Bayesian yang disebabkan semakin banyaknya kata
Pengujian
I.6
pada
dengan nllai feature selection 75
o/o,
H^l ini terjadi, karena nllai feature seiection
yang diambil dan dihitung probabilitasnya dalam
nilai presisi mengalami penurunan menjadi 60%,Hal
klasifikasi Metode Naive Bayesian.
ini terjadi, karena nilai feature selection yang terlalu
t
tinggi, sehingga dapat mengurangi akurasi dalam
Dari gambar untuk pengujian
perhitungan klasifikasi Metode Naive Bayesian yang
dilihat bahwa, nllai feature selection yang semakin
disebabkan semakin banyaknya kata yang diambil
tinggi dan jumlah email training yang banyak akan
dan dihitung probabilitasnya dalam
membuat nilai presisi klasifikasi semakin tinggi pula.
klasifikasi
Grafik Email Trainin
gLZO. IV.l
dan
IV.2,
j
dapat
Metode Naive Bayesian.
Nilai presisi tertinggi diperoleh saat nilai feature
I
selectionberada pada nilai lO% dengan nilai presisi
Grafik Email Training 3O.
42 JURNAL INFOKMATIKA. VOLUME 3 NOMOR 2, APRIL 2OO7 GRAFIK FEATURE SELECTION 5%
9Oo/o, karena
jumlah email training yang banyak
sehingga saat nilai feature selection lO% kata-kata
yang terambil sudah cukup banyak jumlahnya dan
tinggi frekuensi kemunculan katanya. Seclangkan pada Pengujian IV.3 dan
IV.4 nilai
80
Eto r60 '-s
t.o '6 30
,20
10 0
email
15
presisi
20% dan
45
email
120 email
Jumlah Email Tralning
mengalami penurunan menjadi 8O% dan 7O% pada saat nilai feature selection bemilai
email
30
Grafik Feature Selection
5Vo.
GRAFIK FEATURE SELECTION 1O%
3O%.
Hal ini terjadi dikarenakan jumlah email training yang banyak, sehingga kata-kata yang dihasilkan dari pengambilan feature selection berjumlah lebih banyak dari pengujian sebelumnya (untuk nilai
15
€mail
30
emall
45
em5il
120 email
Jumlah Email Tralning
feature selection yang sarna) dan berakibat turunnya
Grafik Feature Selection lOVo.
nilai akurasi perhitungan klasifikasi. Sedangkan pada Pengujian
GRAFIK FEATURE SELECTION 20%
IV.5 dan IV.6
dengan nilai feature selection 40% dan 75 %, nilai presisi semakin mengalami penurunan meniadi 4oo/o
dan 5O%. Hal
ini
terjadi, karena nllai feature
selection yang terlalu
tinggi, sehingga
a2 80
Eza j76
4A
Etz
a70
=68 s il
15
email
30
email
45
email
120 smail
Jumlah Emall Tralninq
dapat
Grafik Feature Selection 2O7o.
mengurangi akurasi dalam perhitungan klasifikasi
GRAFIK FEATURE SELECTION 30%
Metode Naive Bayesian yang disebabkan semakin
banyaknya kata yang diambil dan dihitung probabilitasnya dalarn klasifikasi Metode Naive Bayesian. 15
email
30
email
45
email
120 em6il
Jumlah Emall Trainins
Grafik Feature Selection 3OVo.
Analisis Jumlah Email Training
GR,AFIK FEATURE SELECTION 40%
Analisis iumlah email training akan membahas pengaruh besar kecil jumlah email training terhaclap nilai presisi. Dari
keen'rpat
pengujian yang mengunakan jumlah enlail training sebesar
75 email, 3O email, 45 email
dan1r2O email
15
30
email
45
email
120 email
Jumtah Email Training
akan disajikan dalam grafik dengan pengelornpokkan
Grafik Feature Selection 4OVo.
berdasarkan ntlai feature selection yang digunakan.
Grafik dapat dilihat pada gambar.
em6il
GRAFIK FEATURE SELECTION 75% 70
*
;s0 .ii
40
i30 i.^ z
10
0 15
email
30
email
45
email
120 email
Jumlah Emall Training
Grafik Feature Selection 71Vo,
I
I
Tantiny, Klasifikasi Email dengan Menggunakan Metode Naive Bayesian 43
I
Analisis dari grafik-grafik diatas adalah sebagai
kemunculan kata-kata yang mengarah pada kategori
berikut
tertentu.
:
I
Grafik Fealur e Selection 5Vo,
I
Dari gambar jumlah emajl training yang
Dari gambar nilai presisi tidak lagi hanya dipengaruhi
Grafik Feature Selection
SOVo .
semakin besar akan meningkatkan nilai presisi. Pada
jumlah email training, namun juga
jumlah email training 75 email, nilai presisi yang
selection ikut berperan. Pada jumlah email training
diperoleh 50%. Sedangkan pada jumlah
15 email, nilai presisi yang diperoleh 7O%.
emai.l
nilai
feature
training 30 email, 45 email dan 120 email, nilai
Sedangkan pada jumlah email training
30
email,
presisi yang diperoleh 8O%, Hal ini terjadi karena
nilai presisi yang diperoleh 9O%. Untuk
email
nilai jumlah email yang besar dapat menambah
training
akurasi dalam perhitungan klasifikasi Metode Naive
penurunan dari nilai sebelumnya menjadi 80% dan
Bayesian yang disebabkan oleh semakin banyaknya
7O%. Hal ini dikarena nilai feature selection yang
frekuensi kemunculan kata-kata yang mengarah
tinggi, sehingga dapat mengurangi akurasi
pada kategori tertentu.
perhitungan klasifikasi Metode Naive Bayesian yang
0
disebabkan semakin banyaknya kata yang diambil
Grafik -Peafure Selection LOVo,
45 dan 120 nilai
presisi mengalami
Dari gambar jumlah emaji training yang semakin
dan dihitung probabilitasnya dalam
besar akan meningkatkan nilai presisi. Pada jumlah
Metode Naive Bayesian.
emarT
training 30 email, nilai presisi yang diperoleh
7O%. Sedangkan pada jumlah email training
3O
I
dalam
klasifikasi
GrafikFeafure Selection 4QVo.
Dari gambar nilai presisi tidak lagi hanya dipengaruhi
email, dan 45 email , nilai presisi yang diperoleh
jumlah email training, namun juga nilai
80%, sedangkan pada saat jumlah email training
selection ikut berperan. Pada jumlah email trainrng
L2O email diperoleh nilai presisi 90%. Hal ini terjadi
15 email, nilai presisi yang diperoleh 80%.
nilai jumlah email yang besar
feature
dapat
Sedangkan pada jumlah emarl training 3O email,
menambah akurasi dalam perhitungan klasifikasi
nilai presisi yang diperoleh mengalami penurunan
Metode Naive Bayesian yang disebabkan oleh
menjadi 7O%. tJntukemail training 45 nilai presisi
semakin banyaknya frekuensi kemunculan kata-kata
yang diperoleh mengalami kenaikan dari nilai
yang mengarah pada kategori terlentu.
sebelumnya menjadi
t
mengalami penurunan lagi menjadi 40% pa'da saat
karena
Grafik Feafure Seteclion 2OVo.
90lo yang
kemudian
Dari gambar jumlah email training yang semakin
junrlah email ttainingberada pada 12O email. Hal ini
besar akan meningkatkan nilai presisi. Pada jumlah
dikarena nilai feafure seleclionyang tinggi, sehingga
email training 75 email, nilai presisi yang diperoleh
dapat mengurangi akurasi dalam perhitungan
7O%. Sedangkan pada jumlah email training 30
klasifikasi Metode Naive Bayesian yang disebabkan
email, 45 email dan 72O email, nilai presisi yang
semakin banyaknya kata yang diambil dan dihitung
diperoleh 8O%. Hal ini terjadi karena nilai jumlah
probabilitasnya dalam klasifikasi Metode Naive
email yang besar dapat menambah akurasi dalam
Bayesian.
perhitungan klasifikasi Metode Naive Bayesian yang
t
disebabkan
oleh semakin banyaknya
frekuensi
GrafikFealure SelectionTSVo.
Dari gambar nilai presisi
secara umum mengalami
44 JURNAL INFORMATIKA, VOLUME 3 NOMOR 2,
penurunan. Pada jumlah emarl trainin
g 75
APNL
2OO7
Analisis dari grafik-grafik diatas adalah
email,
nilai presisi yang diperoleh 60%. Sedangkan pada
sebagai
berikut l
1. llJ
jumlah email training 3O email, nilai presisi yang
Untuk jumlah email 15
dengan
diperoleh mengalami penurunan menjadi 50%.
feature selection 5/o, saatnllai feature selection 5%
Untuk email training 45 nilai presisi mengalami
nilai presisi yang diperoleh 5O%. Hal ini disebabkan
penurunan lagi menjadi 4O%. Sedangkan pada saat
nllai feature selection yang rendah dan jumlah email
nilai jumlah email training I2O email, nilai presisi
training yang sedikit, sehingga kata-kata yang
ifi
diambil untuk perhitungan klasifikasi juga sedikit
kembali mengalami kenaikkan menjadi
5
O%. Hal
dikarena nilai feature selection yang tinggi, sehingga
(akibat nilai feature selection yang rendah)
dapat mengurangi akurasi dalam perhitungan
frekuensi kemunculan kata-kata tersebut juga rendah
klasifikasi Metode Naive Bayesian yang disebabkan
(akibat jumlah email training yang sedikit). Kedua
semakin banyaknya kata yang diambil dan dihitung
faktor tersebut yang berpengaruh pada perhitungan
probabilitasnya dalam klasifikasi Metode Naive
probabilitas di metode klasifikasi Naive Bayesian,
Bayesian.
sebab kata-kata yang akan dihitung probabilitasnya
dan
terlalu sedikit dan nilai frekuensi kemunculan Analisis Hubungan Antara Nilai Feafure Selection
katanya juga rendah, sehingga akurasi perhitungan
Dengan Jumlah Ernail Training
untuk masing-masing kategori menjadi kurang
Dari analisis feature selection dan analisis jumlah email diperoleh hubungan antara keduanya pada gambar dibawah ini.
akurat. [0J
Untuk jumlah emai] 15 dengan feature
selection 4O%, saatnilai featue selection 4O%
nilai
presisi yang cliperoleh 8O%.Hal ini disebabkan nilai
feature selection yang tinggi. Faktor tersebut yang berpengaruh pada perhitungan probabilitas di metode
klasifikasi Naive Bayesian, sebab kata-kata yang
akan dihitung probabilitasnya cukup
banyak,
sehingga akurasi perhitungan untuk masing-masing kategori menjadi lebih akurat. lilJ Untuk jumlah email 15 dengan feature selecfion 'l go/o, saat nilai feature selection 7 5% nilai presisi yang diperoleh 60%. Hal ini disebabkan nilai feature selection yang sangat tinggi, sehingga kata-
kata yang diambil untuk perhitungan klasifikasi jumlahnya lebih banyak (akibat selection yang
nilai
feature
tinggi). Faktor tersebut
yang
berpengaruh pada perhitungan probabilitas di metode
klasifikasi Naive Bayesian, sebab kata-kata yang
akan dihitung probabilitasnya sangat
banyak,
Tantiny, Klasifikasi Email dengan Menggunakan Metode Naive Bayesian 45
sehingga kata-kata yang umum (kata-kata yang
berpengaruh pada perhitungan probabilitas di metode
belum tersaring saat proses pembuangan stop word)
klasifikasi Naive Bayesian, sebab kata*kata yang
yang berada disemua kategori ikut terambil dan
akan dihitung probabilitasnya sangat
berakibat turunnya akurasi klasifikasi meqjadi turun,
sehingga kata-kata yang umum (kata-kata yang
karena akan ikut dihitung probabilitasnya.
belum tersaring saat proses pembuangan stop word)
2.
lilJUntuk jumlah email
45
banyak,
dengan
yang berada disernua kategori ikut terambil dan
featurc selection 5%, saat nilai feature selection 5%
berakibat turunnya akurasi klasifikasi menjadi turun,
nilai presisi yang diperoleh 80%. Hal ini disebabkan
karena akan ikut dihitung probabilitasnya.
jumlah email training yang banyak. Faktor tersebut
3.
f0JUntuk
jumlah emai! 720
dengan
yang berpengaruh pada perhitungan probabilitas di
feature selection 5%, saat nilai feature selection 5%
metode klasifikasi Naive Bayesian, sebab frekuensi
nilai presisi yang diperoleh 80%. Hal ini disebabkan
kemunculan kata menjadi lebih banyak walaupun
jumlah email training yang banyak. Faktor tersebut
jumlah kata yang diambil sedikit (akibatnllai feature
yang berpengaruh pada perhitungan probabilitas di
selection yang rendah), sehingga akurasi perhitungan
metode klasifikasi Naive Bayesian, sebab frekuensi
untuk masing-masing kategori menjadi lebih akurat"
kemunculan kata menjadi lebih banyak walaupun
[!J Untuk jumlah emai] 45 dengan feature
jumlah kata yang diambit sedikit (akiba
t ntlai
feature
selection 4O/o, saat nilai feature selection 40% nllaj
selection yang rendah), sehingga akurasi perhitungan
presisi yang diperoleh 90%. Hal ini disebabkan nilai
untuk masing-masing kategori menjadi lebih akurat.
feature selecfion yang cukup tinggi dan jumlah email
FlJUntuk jumlah email 120 dengan feature
training yang banyak, sehingga kata-kata yang
selection 4Q%, saatnilai feature selection
diambil untuk perhitungan klasifikasi juga banyak
presisi yang diperoleh 4O%. Halini disebabkan oleh
(akibat nilai feature selection yang ringgi)
pengambilan kata-kata yang terlalu umum, karena
dan
40% nilai
frekuensi kemunculan kata-kata tersebul juga tinggi
jumlah email training yang banyak
(akibat jumlah email training yang banyak). Kedua
menghasilkan bag of word yang besar dan kata-kata
faktor tersebut yang berpengaruh pada perhitungan
yang umum frekuensi kemunculannya lebih tinggi
probabilitas
di
beratti
metode klasifikasi Naive Bayesian,
dibandingkan kata-kata yang bersifat khusus untuk
sebab kata-k ata y ang akan dihitung probabilitasnya
suatu kategori. Oleh karena tingginya frekuensi
cukup banyak dan nilai frekuensi kemunculan katanya juga tinggi, sehingga akurasi perhitungan
kemunculan kata-kata yang sifatnya umum, maka
untuk masing-masing kategori menjadi lebih akurat.
akan memiliki nilai bobot TF-IDF normal yang besar
[!J Untuk jumlah emai] 45 dengan feature selection
5%,
saat pembobotan
nilai TF-IDF kata-kata inilah yang
dan sesuai dengan aturan feature selecfion atan
5% nilai
mengambil kata-kata yang memiliki bobot TF-IDF
presisi yang diperoleh 40%.I[al ini disebabkan nilai
normal yang besar. Faktor tersebut yang berpengaruh
feature selection yan1 sangat tinggi, sehingga kata-
pada perhitungan probabilitas di metode klasifikasi
kata yang diambil untuk perhitungan klasifikasi junrlahnya lebih banyak (akibat nilai feature
Naive Bayesian, sebab kata-kata yang akan dihitung probabilitasnya adalah kata-kata yang bersifat umum
selection yang tinggi). Faktor tersebut yang
yang berada disetiap kategori, sehingga
7
saat ntlai feature selection
7
akurasi
46 JURNAL INFORMATIKA. VOLUME 3 NOMOR 2,
APNL
menghasilkan akurasi klasifikasi yang tepat adalah
perhitungannya rendah. l-IJUntuk jumlah email 120 dengan feature
selection
7
2OO7
5%, saatnilai feature selection
7
5% nilai
nilai feature sielection yang berkisar antara 10% sampai40%.
presisi yang diperoleh 50%.Hal ini disebabkan nilai
t
feature selectionyang sangat tinggi, sehingga kara-
pada jumlah email training. Semakin banyak jumlah
kata yang diambil untuk perhitungan klasifikasi
email training akurasi klasifikasi yang dihasilkan
jumlahnya lebih banyak (akibat selection yang
nilai
feature
tinggi). Faktor tersebut
Keakuratan klasifikasi
juga
dipengaruhi
makin akurat.
yang
berpengaruh pada perhitungan probabilitas di metode
DAFTAR PUSTAKA
klasifikasi Naive Bayesian, sebab kata-kata yang
Auvil, Loretta & Searsmith, Duane. IJsing Text
banyak,
Mining for Spam Filtering, Automated
sehingga kata-kata yang umum (kata-kata yang
Learned Group National Center for
belum tersaring saat proses pembu angan stop word)
Supercomputing Applications University
yang berada disemua kategori ikut dihitung
of Illinois, http://algdocs.ncsa.uiuc.edu/
probabi I itasnya.
PR-20031116-3.ppt, Diakses
akan dihitung probabilitasnya sangat
pada
tanggal : 3 Febuari 2007.
Hearst, Marti.
KESIMPULAN
Dari sistem klasifikasi email
dengan
Metode Nalve Bayesian yang dikembangkan untuk menerapkan konsep data mining pada dokumenen email dapatditarik beberapa kesimpulan
O
Sistem klasilikasi email dengan Metode
Iisf www.tux.org, telah berhasil menerapkan tahaptahap sebuah proses fexf mining terhadap kumpulan suatu dokumen teks dan juga berhasil menerapkan
O
klasifikasi dengan Metode Naive Bayesian. Keakuratan klasifikasi yang
text
mining? . http :,/ /www.sims.berkelev.edu
/
-hearst/text-mining.htrnl Kusumo, Ario Suryo. (2OO2). Visual Basic.NET versi 2OO2 dan 2OO3, Jakarta : PT Elex
:
Naive Bayesian yang mengambil studi kasus mailing
proses
17 Oktober 2OO3. What is
diuji
tidak
Media Komputindo.
Mitchell, Tom M. (199?). Machine Learning. Singaporel McGraw
Rickyanto, Isak.
Hill
(2003). Membuat Aplikasi
Windows Dengan Visual Basic.NET, Jakarta : PT Elex Media Komputindo. Susanro, Budi.
(2006). studi Email Mining i Email
menggunakan proses stemming (pengernbalian kata
Clustering, Institut Teknologi Bandung,
menjadi kata dasar).
2O06,Hal:12.
t
Keakuratan klasifikasi tergantung pada
Stopword
list,
http: / /web.inet- tr.orq.trlOnline/
tinggi rendahnya nilai feature selection. Semakin
Waishelp/stopemail.html, Diakses pada
besar nilai feature selection, maka akurasi dari hasil
tanggal: 31 Januari 2007.
klasifikasi semakin tinggi. Namun nilai feature
Tala, Fadillah
Z. (2oo|). A
Study
of
Sternrning
selection yang sangat tinggi dapat menurunkan
Effects onlnformation Retrieval in Bahasa
akurasi dari hasil klasifikasi. Berdasarkan hasil
Indonesia, Amsterdam
pengujian nilai feature selection yang cocok untuk
Amsterdam.
: Universiteit
van
Taitiny, Klasifikasi Email dengan Menglg4nakan Metode Naive Bayesian 47
Tanenbaum, Adrew
S. (2003).
Nefworks, New Jersey : Pearson Education .a:
'
Comptuter
l.l
,
Weiss, Sholom M.; Indurkhya, Nitin; Zhang, Tong;
Inc.
Yung, Kok. (2005). Membangun Aplikasi
'
ElexMediaKomputindo,
Database Dengan Visuai Basic. NET
2OO5 dan Perintah SQL, Jakarta
; PT
Mining: Predictive
,
Metthods for Analyzing
llntructured Information, Springer Science+Business Media, Inc.