Text Categorization Based on Topic (Trastoto P., Dyan K., Ariefan DW) Computer Science Universitas Gadjah Mada
Abstract—Banyak klasifikasi teks yang ditemui masih manual sehingga sistem hanya dapat menentukan kategori teks berdasarkan yang telah pengguna tetapkan sebelumya. Perlu adanya suatu teknik khusus yang mengolah teks-teks tersebut agar dapat dimanfaatkan. Klasifikasi teks berdasarkan topik merupakan salah satu metode untuk dapat mengetahui kategori berdasarkan pada suatu topik dari teks yang ada. Klasifikasi yang dilakukan terhadap teks-teks tersebut menggunakan metode Naive Bayes Classifier. Kata Kunci: Naive Bayes Classifier, Teks, Klasifikasi I. PENDAHULUAN
S
emakin berkembangnya teknologi menuntut agar pekerjaan dapat diselesaikan dengan cepat dan meminimalkan campur tangan dari manusia. Semakin banyak pekerjaan yang dikerjakan oleh suatu teknologi maka semakin mempermudah manusia dalam menyelesaikan pekerjaannya. Kategorisasi teks yang sering dijumpai masih banyak yang manual sehingga sistem hanya dapat menentukan kategori teks tersebut berdasarkan yang telah pengguna tetapkan sebelumya. Kategorisasi teks berdasarkan topik merupakan salah satu metode untuk dapat mengetahui kategori berdasarkan pada suatu topik dari teks yang ada. Pencarian informasi (Information Retrieval) berbasis query sebenarnya bisa melakukan hal ini. Namun, cara ini tidaklah efisien karena pencarian informasi berbasis query berguna untuk mengetahui secara pasti kejadian yang terjadi, bukan untuk pencarian informasi yang sifatnya pendekatan. Oleh karena itu, dibutuhkanlah teknik khusus untuk membantu mencari informasi yang relevan. Salah satu metode klasifikasi yang terkenal adalah Naive Bayes Classifier (yang kemudian akan ditulis NBC). Kelebihan dari metode ini adalah
tingkat akurasi yang tinggi, juga waktu komputasi yang lebih cepat. NBC adalah klasifikasi statistik yang bisa memprediksi probabilitas sebuah kelas. NBC dapat dihitung berdasarkan Teorema Bayes berikut ini:
P ( B∣A)=
P ( A∣B) P ( B) P( A)
Berdasarkan teorema di atas, B merepresentasikan sebuah kelas dan A merepresentasikan sebuah atribut. P(B) disebut prior probability B. P(A) merupakan prior probability X. P(B|A) merupakan probabilitas B benar jika A dan P(A|B) adalah probabilitas A jika B benar. II.DASAR TEORI 2.1 Data Mining Kemajuan dalam pengumpulan data dan teknologi penyimpanan yang cepat memungkinkan organisasi menghimpun jumlah data yang sangat luas. Alat dan teknik analisis data yang tradisional tidak dapat digunakan untuk mengekstrak informasi dari data yang sangat besar. Untuk itu diperlukan suatu metode baru yang dapat menjawab kebutuhan tersebut. Data mining merupakan teknologi yang menggabungkan metode analisis tradisional dengan algortima yang canggih untuk memproses data dengan volume besar. Data mining atau Knowledge Discovery in Databases (KDD) adalah pengambilan informasi yang tersembunyi, dimana informasi tersebut sebelumnya tidak dikenal dan berpotensi bermanfaat. Proses ini meliputi sejumlah pendekatan teknis yang berbeda, seperti clustering, data summarization, learning classification rules. 2.2 Classification Suatu
teknik
dengan
melihat
pada
kelakuan dan atribut dari kelompok yang telah didefinisikan. Teknik ini dapat memberikan klasifikasi pada data baru dengan memanipulasi data yang ada yang telah diklasifikasi dan dengan menggunakan hasilnya untuk memberikan sejumlah aturan. Aturan-aturan tersebut digunakan pada data-data baru untuk diklasifikasi. Teknik ini menggunakan supervised induction, yang memanfaatkan kumpulan pengujian dari record yang terklasifikasi untuk menentukan kelaskelas. Salah satu algoritma yang terkenal untuk teknik ini adalah Naive Bayes Classifier. 2.3 Membangun
sebuah
classifier
dari
model
probabilitas. NBC mengkombinasikan model ini dengan aturan keputusan. Sebuah aturan yang umum adalah untuk memilih hipotesis yang paling mungkin, ini dikenal sebagai posteriori maksimum atau aturan keputusan MAP. 2.4 Naïve Bayes Classifier untuk klasifikasi dokumen Berikut ini adalah sebuah contoh dari NBC untuk permasalahan klasifikasi dokumen. Masalah mengklasifikasikan dokumen adalah berdasarkan konten, misalnya spam dan non-spam e-mail. Bayangkan bahwa dokumen yang diambil dari beberapa kelas dokumen yang dapat dimodelkan sebagai set kata-kata dimana probabilitas (independen) bahwa kata ke-i dari suatu dokumen tertentu terjadi dalam dokumen dari kelas C dapat ditulis sebagai p(wi |C) (2.31) Untuk perlakuan ini, kita menyederhanakan hal-hal lebih lanjut dengan mengasumsikan bahwa kata-kata secara acak terdistribusi dalam dokumen yaitu, kata-kata tidak tergantung pada panjang dokumen, posisi dalam dokumen ,dengan hubungannya dengan kata lain, atau dokumen-konteks yang lain. 2.5 Evaluasi Hasil Teks Kategorisasi Teks yang telah berhasil dikategorisasikan akan dievaluasi nilai keakurasian dari hasil tersebut. Dalam mengevaluasi hasil tersebut terdapat 3 bagian, yaitu akurasi, presisi dan recall. Akurasi =
TP +TN TP+ FP+FN +TN
Precision =
Recall =
TP TP + FP
TP TP+ FN
III. METODE Koleksi data training dimasukkan ke dalam database beserta kategori yang telah menyertai data training, dalam hal ini adalah kalimat pada paragraf atau teks tersebut. Sebelum dilakukan tahap klasifikasi dengan naïve bayes, ada beberapa hal yang perlu dikerjakan terlebih dahulu yaitu pada langkah preprocessing. Tahap preprocessing meliputi penghilangan kata – kata yang tidak diperlukan seperti tanda baca, tanda penghubung sampai dengan angka juga ikut dihalangkan. Kemudian kalimat dipecah per kata untuk distemming dan penghilangan stopword. Ekstraksi fitur dari naïve bayes yang digunakan pada paper ini adalah term frekuensi - laplace smoothing. Dengan menghitung probabilitas kemunculan suatu kata pada kumpulan kalimat yang telah dimasukkan, akan didapatkan suatu nilai yang nantinya dibandingkan dengan probabilitas pada kategori lain. Sehingga nilai terbesarlah yang akan dijadikan sebagai hasil bahwa teks tersebut merupakan kategori dari nilai terbesar yang telah didapatkan. IV. IMPLEMENTASI SISTEM DAN PEMBAHASAN Setelah melakukan analisis dan membuat rancangan atau desain sistem sesuai dengan kebutuhan yang telah ditentukan, maka tahap selanjutnya yaitu implementasi sistem. Pada tahap awal di gambar 1, user akan diberikan sebuah textarea dan beberapa tombol untuk memasukkan teks yang akan dicari kategori dari teks tersebut kemudian tekan tombol proses sebagai input perintah. Sistem akan menjalankan proses perhitungan sesuai dengan yang telah dibuat dan memberikan hasil berupa nama kategori dan proses perhitungan yang dilakukan saat melakukan perhitungan naive bayes.
Gambar 1. UI System Categorization Pada saat memproses teks yang diinputkan oleh pengguna, sistem juga menyimpan teks tersebut sebagai data training yang telah di filter terlebih dahulu dengan metode – metode sebelumya dan tersimpan sebagai kategori hasil yang telah diberikan oleh sistem. Pengguna selain dapat menggunakan sistem ini untuk megkategorikan teks yang dimasukkan, sistem ini juga menyediakan fasilitas untuk menambah data training berdasar pada topik atau kategori pada teks yang dimasukkan. Setelah hasil sudah keluar maka pengguna dapat melihat proses perhitungan dari sistem dengan menekan tombol “Lihat Proses Hitung”. Gambar 2 memperlihatkan pengguna dapat menambahkan data training berdasarkan kategori yang ditetapkan untuk dimasukkan ke dalam database pada sistem.
Gambar 2. Input teks - data training V.
PENGUJIAN
Pengujian sistem dari kategori teks pada paper ini dapat dilakukan dengan menghitung akurasi, presisi dan recallnya. Sedangkan data training yang disediakan berjumlah 180 dengan tiap kategori sebanyak 30 data training.
Kategori olahraga D1= Isa raja sedang bermain badminton di universitas gadjah mada - Y D2 = Sunarto pun memberikan selamat kepada para wisudawan beserta keluarga atas keberhasilannya menyelesaikan di perguruan tinggi - N D3= Sebastian Vettel secara sengaja mengabaikan team order Red Bull untuk meraih kemenangan - Y D4 = Tekanan yang diberikan dari pihak sekolah untuk mencapai target lulus 100 persen kerap kali membuat peserta didik terbebani saat mengerjakan UN - N D5 = Sekretaris Fraksi PDI Perjuangan Bambang Wuryanto ini menjelaskan saat ini defisit neraca perdagangan akibat sumbangan impor BBM yang sangat besar -N Tabel kategori olahraga doc
Sistem prediction
Correct answer
TP FP FN TN
d1
N
Y
d2
N
N
d3
Y
Y
d4
N
N
1
d5
N
N
1
1 1 1
Akurasi : 4/5 Precision : 1/1 = 1 Recall : 1/2 = 0.5 Kategori inernasional D1= Neraca perdagangan internasional adalah gambaran perbandingan antara besarnya nilai ekspor dan nilai impor - Y D2 = Icona dirancang oleh mantan direktur teknik Ferrari Claudio Lombardi N D3= Obama memiliki hubungan erat dengan negara lain sehingga memiliki kekuatan militer yang sangat kuat - Y D4 = Perdagangan internasional itu lebih
dikenal dengan kegiatan ekspor-impor, pelakunya adalah eksportir dan importir - Y D5 = Sirkuit Nurburgring sebagai sirkuit balap dan trek pengujian mobil paling terkenal di seluruh dunia telah mengalami masalah keuangan selama bertahun-tahun -N
doc
Tabel kategori internasional Sistem Correct TP FP FN TN prediction answer
d1
N
Y
d2
N
N
d3
Y
Y
d4
N
Y
d5
N
N
1 1 1 1 1
Akurasi : 3/5 Precision : 1/1 = 1 Recall : 1/3 Kategori pendidikan D1= Berkapsitas sepuluh penumpang, kaca anti peluru berdimensi besar di semua sisi kabin dapat memberi sensasi pandangan panorama bagi semua awak N D2 = Seorang siswa yang tidak lulus dan mengikuti kejar paket c sedang belajar serius di dekat lapangan sepak bola - Y D3= Jumlah pserta Ujian Akhir Sekolah dan Ujian Akhir Nasional (UAS/UAN) tahun 2013 tingkat SMA/sederajat di Kabupaten Gayo - Y D4 = ToPu sedang makan makanan paket C yang ada di warung sambil bermain game di java - N D5 = Secara konvensional terdapat kecenderungan bahwa upaya peningkatan mutu pendidikan selalu dikaitkan dengan ketersediaan sarana dan prasana pendidikan yang memadai, serta kompetensi guru - Y Tabel kategori pendidikan doc
Sistem prediction
Correct answer
TP FP FN TN
d1
N
N
d2
Y
Y
1
d3
Y
Y
1
d4
Y
N
d5
Y
Y
1
1 1
Akurasi : 4/5 Precision : 3/4 Recall : 3/3 = 1 Kategori ekonomi D1= Mantan Wakil Presiden RI Jusuf Kalla mengatakan ada atau tidaknya kebijakan redenominasi rupiah oleh pemerintah Indonesia tidak akan mengganggu perekonomian - Y
D2 = Perekonomian global tengah menghadapi berbagai rintangan yang mengancam pemulihan krisis - Y D3= Sunarto berharap, dalam era globalisasi dan abad ke-21 yang penuh dengan tantangan dan gejolak dalam berbagai bidang, termasuk bidang pendidikan tinggi menuntut kesiapsiagaan yang makin baik dan tuntutan profesionalisme yang makin tinggi - N D4 = Negara telah menunjuk likuidator, Jens Lieser, yang menjelaskan bahwa seluruh bisnis Nurburgring berstatus dijual -N D5 = Jusuf kalla mengundang ToPu untuk bermain sepak bola bersama - N Tabel kategori ekonomi doc
Sistem prediction
Correct answer
TP FP FN TN
d1
Y
Y
1
d2
N
Y
d3
N
N
1
d4
N
N
1
d5
Y
N
1
1
Akurasi : 3/5 Precision : 1/2 = 0.5 Recall : 1/2 = 0.5 Kategori lain - lain D1= Cinta antara arifan dan seorang mahasiswi sungguh sangat memilukan - Y D2 = Penghargaan "Hot Thread of The Month" ini diadain supaya Agan-Agan makin terpacu untuk membuat thread berkualitas - Y D3= Tugas 2 adalah Pengantar Ekonomi (topik supply and demand) - Y D4 = UI mengirimkan tim Sadewa dengan rancangan mobil bernama Kalabia Evo_3 yang merupakan kendaraan ultraefisien dan ramah lingkungan berbasiskan teknologi muktahir hasil pemikiran mahasiswa - Y D5 = Krisis ekonomi yang melanda Siprus membuat gaji presiden negara tersebut, Nicos Anastasiades, dipotong 25% - N Tabel kategori lain - lain doc
Sistem prediction
Correct answer
d1
N
Y
TP FP FN TN 1
d2
N
Y
1
d3
N
Y
1
d4
Y
Y
d5
N
N
Recall :
1 1
(0.5+1/3+1+1/2+1/ 4+1) =0.59723 6 VI. PENUTUP
Akurasi : 2/5 Precision : 1/1 = 1 Recall : 1/4 Kategori teknologi D1= Sebuah gambar yang bocor di internet mengungkap kemungkinan HTC One versi dual SIM card - Y D2 = Menko Perekonomian Hatta Radjasa meminta PT KAI mempertimbangkan kemampuan ekonomi masyarakat terkait rencana penghapusan KRL ekonomi - N D3= Orang yang membawa htc itu merupakan pelatih sepak bola professional -N D4 = Akses informasi yang cepat mendukung kemajuan suatu negara - N D5 = Kategorisasi teks berdasarkan topik merupakan salah satu tugas artificial intelligence - N Tabel kategori teknologi doc
Sistem prediction
Correct answer
TP FP FN TN
d1
Y
Y
1
d2
N
N
d3
Y
N
1
d4
Y
N
1
d5
N
N
1
1
Akurasi : 3/5 Precision : 1/3 Recall : 1/1 = 1 Rata – rata precision dan recall dari ke-6 kategori di atas adalah Akurasi :
( 4/5+3/5+4/5+3 /5+2 /5+3/5) =0.634 6 Precision :
(1+1+3/ 4+1 /2+1+1/3) =0.76389 6
1. Kesimpulan Dari semua uraian sebelumnya, maka dapat ditarik kesimpulan sebagai berikut : 1. Naive Bayes Classifier merupakan metode klasifikasi yang mudah diimplementasikan karena sederhana, juga waktu komputasi yang cepat. NBC merupakan salah satu metode yang populer digunakan untuk menyelesaikan masalah klasifikasi 2. Proses perhitungan untuk semua teks berhasil diperoleh dengan perhitungan Laplace Smoothing 3. Akurasi dari proses kategorisasi teks sangat bergantung dengan kualitas dan kuantitas dari data training yang disediakan 2. Saran Beberapa saran untuk kelanjutan sistem teks kategorisasi berdasarkan topik ini antara lain: 1. Algoritma stemming perlu disempurnakan 2. Data training dan pengklasifikasian teks perlu diperbanyak DAFTAR PUSTAKA [1] Rendy, Klasifikasi Tweet berdasarkan Berita dengan Metode Naïve Bayes Classifier . [2] Saraswati, 2011, Text Mining Classifier untuk Text Mining dengan metode Naive Bayes Classifier dan Support Vector Machines untuk Sentiment Analysis [3] Wibisono, Y. Klasifikasi Berita Berbahasa Indones menggunakan Naive Bayes Classifier. Universitas Pendidikan Indonesia