ISSN : 2302-450X
PROSIDING PERTEMUAN DAN PRESENTASI KARYA ILMIAH BALI, 23 OKTOBER 2015
PEMBICARA UTAMA SEMINAR PANEL DENGAN TEMA “Inovasi Teknologi Informasi dan Komunikasi dalam Menunjang Technopreneurship” Ir.Onno Widodo Purbo.M.Eng.Ph.D Putu Sudiarta, S.Kom
PENYUNTING AHLI Dr. Ahmad Ashari.M.Kom Dr. H. Agus Zainal Arifin, S.Kom.,M.Kom Agus Muliantara, S.Kom., M.Kom.
PELAKSANA SEMINAR
PELINDUNG Rektor Universitas Udayana, Bali
PENANGGUNG JAWAB Dekan Fakultas MIPA Universitas Udayana Ketua Program Studi Teknik Informatika, FMIPA Universitas Udayana
PANITIA I Gusti Agung Gede Arya Kadyanan,S.Kom.,M.Kom. I Dewa Made Bayu Atmaja Darmawan,S.Kom.,M.Cs. I Wayan Supriana,S.Si.,M.Cs. Ida Bagus Made Mahendra, S.Kom., M.Kom. I Komang Ari Mogi, S.Kom, M.Kom. I Made Widi Wirawan, S.Si., M.Cs. I Putu Gede Hendra Suputra, S.Kom., M.Kom. Ngurah Agus Sanjaya ER., S.Kom., M.Kom. Agus Muliantara, S.Kom.,M.Kom. I Made Widiartha,S.Si., M.Kom. Made Agung Raharja, S.Si., M.Cs. I Gusti Ngurah Anom Cahyadi Putra, S.T., M.Cs. I Gede Santi Astawa, S.T., M.Cs. Ida Bagus Gede Dwidasmara,S.Kom.,M.Cs. Dra. Luh Gede Astuti, M.Kom.
Analisis Load Balancing Web Server dengan Web Server Cluster Menggunakan Linux Virtual Server pada Virtual Mesin I Putu Hendra Prayoga Dhana ............................................................................
668
Anified Logging Framework For Social Network Menu Analytic At SINTAKS.COM Pande Gede Suyoga Adi Gitayana ......................................................................
673
Sistem Pakar untuk Mendiagnosis Penyakit dengan Gejala Batuk pada Anak Balita dengan Metode Dempster Shafer Ida Bagus Wira Negara .......................................................................................
676
Pengembangan Plugin untuk MLM dengan Sistem Binary pada Mesin Wordpress Christo Edward Werat ........................................................................................
680
Perancangan Sistem Informasi Promosi Kerajinan Tradisional Bali Berbasis Web Putu Mega Suryawan ..........................................................................................
687
Perancangan E-commerce pada Usaha Kerajinan Bubut Kayu Jati pada Gallery Nirmala I Made Wahyu Wijaya ........................................................................................
694
Perancangan Media Penyimpanan Online Menggunakan Owncloud Berbasis Client Server dan Dropbox pada Cloud Computing I Made Ari Widjaja Bukian ................................................................................
699
Sistem Pendukung Keputusan Memilih Perguruan Tinggi Negeri (PTN) Menggunakan Analytical Hierarchy Process (AHP) Dewa Putu Rama Prabawa ..................................................................................
705
Klasifikasi Konten Berita Menggunakan Naive Bayes dengan Smoothing Modified Absolut Discount I Made Dwi Putra Suarbawa ...............................................................................
711
Static Routing Software Defined Networking pada RYU Controling Tutde Suputrawan ...............................................................................................
717
Sistem Informasi Promosi Pakaian Adat Bali Berbasis Web I Nyoman Nila Kusuma Atmaja .........................................................................
725
KLASIFIKASI KONTEN BERITA MENGGUNAKAN NAÏVE BAYES DENGAN SMOOTHING MODIFIED ABSOLUTE DISCOUNT I Made Dwi Putra Suarbawa, I Made Widiartha2 1,2
Jurusan Ilmu Komputer, Fakultas MIPA, Universitas Udayana Jl. Kampus Bukit Jimbaran Universitas Udayana Email:
[email protected],
[email protected] ABSTRAK
Saat ini, berita menjadi sangat penting dalam memenuhi kebutuhan informasi sehari-hari. Dengan perkembangan teknologi yang semakin pesat, konsumen dapat mengakses berita dengan cepat dan mudah secara online. Namun, sebelum berita tersebut online, tentu saja berita tersebut harus di kelompokkan ke dalam kategori-kategori seperti edukasi, politik, ekonomi, olahraga, kriminal dan lain sebagainya. Tentu saja dalam proses pengelompokkan berita dalam jumlah yang sangat banyak, akan memakan waktu yang sangat lama jika editor membacanya satu persatu hanya untuk mengelompokkannya dengan tepat. Oleh karena itu, perlu dibangun sebuah sistem yang mampu mengelompokkan berita berdasarkan kontennya secara otomatis. Naive bayes merupakan algoritma klasifikasi yang mengasumsikan antar atribut bersifat independent. Kesederhanaannya membuat algoritma ini menjadi algoritma yang cepat dan mudah untuk di implementasikan. Namun algoritma ini juga memiliki kekurangan yaitu probabilitas untuk setiap kondisi tidak boleh nol, untuk menangani kasus ini akan digunakan metode smoothing yaitu absolute discount. Pada penelitian ini berita yang akan di kelompokkan terdiri dari kategori Ekonomi, Entertainment, Health, Tekno, Bola, Otomotif. Hasil dari penelitian ini adalah dengan menggunakan algoritma Naïve Bayes dengan Smoothing di dapat akurasi sebesar 88% . Penggunaan seleksi fitur Information Gain juga terbukti mampu meningkatkan akurasi dari NBC sebesar 2%. Kata Kunci: naïve bayes, absolute discount, enhanced absolute discount, pruning, stemming, information gain, klasifikasi teks. ABSTRACT Nowadays, the news becomes very important in meeting the needs of day-to-day information. With the increasingly rapid development of technology, consumers can access the news quickly and easily online. However, before the news online, of course, the news should be grouped into categories such as education, politics, economics, sports, crime and others. Of course in the process of grouping the news in a large quantity, it will take a very long time if the editor read one by one only to classify them appropriately. Therefore, it is necessary to build a system capable of classifying news based content automatically. Naive Bayes is a classification algorithm that assumes an independent character attributes. Its simplicity makes this algorithm into an algorithm that is fast and easy to implement. However, this algorithm also has the disadvantage that the probability for each condition can not be zero, to deal with this case will be used smoothing method that is absolute discount. In this study, the news will be grouped consist of categories of Economics, Entertainment, Health, Tekno, Ball, Automotive. Results of this research is to use the Naïve Bayes algorithm can Smoothing in an accuracy of 88%. Use of Information Gain feature selection also been proven to improve the accuracy of NBC by 2%.. Keywords: naïve bayes, absolute discount, enhanced absolute discount, pruning, stemming, information gain, text classification.
1
kamus besar bahasa Indonesia, yang dimkasud dengan berita disini adalah cerita atau keterangan mengenai kejadian atau peristiwa yang hangat. Sedangkan menurut Budiman, K. (2005), berita adalah laporan mengenai suatu peristiwa atau kejadian yang terbaru, laporan mengenai fakta- fakta yang actual, menarik perhatian, dinilai penting dan luar biasa.
PENDAHULUAN [TIMES NEW ROMAN 12, BOLD, UPPERCASE]
Sesuai dengan perkembangan jaman yang semakin maju yang dapat disebut sebagai zaman era informasi. Kalau dahulu kita harus berusaha mencari informasi, kini kita harus berusaha menyeleksi informasi (yang di sebut dengan berita). Menurut 711
ISSN : 2302 – 450X
Karena hal inilah menjadikan internet sebagai sarana dalam mendapatkan informasi yang cepat, tidak bergantung tempat dan waktu. Dengan kemudahan tersebut, banyak penyedia layanan informasi mulai beralih ke media digital. Berita yang di buat oleh jurnalis biasanya tidak tergolong dengan tepat ke dalam kategori yang di sediakan dikarenakan setiap jurnlis memiliki sudut pandang yang berbeda dalam menentukan kategori suatu berita. Maka dari itu, editor harus membaca ulang berita agar nantinya dapat di kategorikan dengan benar. Di lain sisi, proses untuk menggolongkan berita tersebut menjadi sangat lama karena terbatasnya jumlah tenaga yang dimiliki sedangkan berita harus segera di publikasikan sesegera mungkin. Oleh karena itu di dubutuhkan metode text minning sebagai salah satu alternative dalam menyelesaikan masalah dalam proses pengkategorian tersebut. Text minning merupakan varian dari data mining yang berusaha untuk mengklasifikasi dan menemukan varian dari data mining yang berusaha untuk mengekstraksi dan menemukan sesuatu yang belum diketahui sebelumnya dan mengandung informasi yang sangat berguna dari sekumpulan data tekstual yang besar jumlahnya. Namun masih diperlukan penelitian dengan metode lain untuk mencapai hasil klasifikasi yang lebih baik. Dimana pada penelitian ini penulis lebih memfokuskan untuk implementasi menggunakan metode Naïve Bayes Clasifier dalam pengklasifikasian berita kejadian berbahasa Indonesia dan berita di perolah dari www. Kompas.com.
diklasifikasikan ke dalam kelas jika syarat (|) > (|) ≠ 1 ≤ ≤ terpenuhi[1]. Probabilitas dari dokumen terkategori ke dalam kelas Ci dihitung dengan teorema bayes.
2
dapat di abaikan karena tidak mempengaruhi rasio dari nilai ( | ). Sehingga formula untuk menghitung ( | ) adalah.
MODEL, ANALISIS, DESAIN, DAN IMPLEMENTASI
2.1 Naive Bayes Classifier Naive bayes Classifier banyak digunakan dalam membangun sistem pengklasifikasian yang bersifat real-time. NBC memiliki komputasi yang efisien dan mudah di mengerti. Algoritma ini mengasumsikan hubungan antar fitur adalah independent yang mana nilai fitur dari suatu kelas adalah independen dengan nilai dari fitur lainnya. Pada penerapannya asumsi ini tidak terlalu mempengaruhi performa saat proses pemblajaran. NBC menempuh dua tahap saat dalam proses klasifikasi teks. Yaitu tahap pemblajaran dan tahap klasifikasi. Pada tahap pemblajaran dilakukan proses pemilihan kata yang mungkin dapat muncul pada dokumen sample yang dapat merepresentasi dokumen. Pada tahap klasifikasi, nilai probabilitas suatu dokumen tergolong ke suatu kategori di tentukan oleh term yang muncul di dalam dokumen yang di klasifikasikan. Kita beranggapan bahwa kategori target klasifikasi di lambangkan dengan C = {C1,C2,...Cm} dengan m adalah jumlah kelas. Dan suatu dokumen 712
( |) =
( )(| ) ()
......................(1)
Karena nilai () bernilai tetap, maka () dapat di abaikan dan dokumen di klasifikasikan dengan formula. ( |) = ( )(| ) .........................(2) Pada model multinominal, (| ) di hitung dengan formula seperti berikut. || ( | ) !
( |) = (∑ )! ∑
...(3)
Dimana adalah himpunan term atau vocabulary, || adalah panjang dari vocab, adalah jumlah dari kata yang muncul di dokumen d, ( | ) adalah probabilitas dari dengan syarat . (∑ )! dan ! dapat di abaikan karena kedua bagian formula tersebut tidak bergantung pada kelas[1]. Sehingga formula untuk menghitung probabilitas dengan syarat d adalah ||
( |) = ∑ ( | ) ..............(4)
||
( |) = ∑ ( | )
(5)
NBC memerlukan setiap nilai dari probabilitas agar tidak 0. Hal ini dipengaruhi oleh nilai ( | ) yang tidak boleh 0. Pada formula (4), untuk menangani permasalahan ini akan digunakan metode smoothing pada Naive Bayes Classifier. 2.2 Absolute Discount Pada dasarnya, absolute discount bekerja dengan cara menurunkan probabilitas dari kata-kata yang terlihat sesuai dengan jumlah nilai delta yang kemudian digunakan untuk meningkatkan hasil probabilitas yang tidak dapat di hitung pada kata-kata yang tidak muncul. Smoothing juga digunakan untuk meningkatkan akurasi NBC. Pada naive bayes formula (5), ( | ) di smoothing dan formula untuk menghitungnya menjadi[1].
I Made Dwi Putra suarbawa, Klasifikasi Konten Berita Menggunakan Naïve Bayes Dengan Smoothing Modified Absolute Discount
Information Gain(? ) ( | ) max("# ( , ) −
%$, 0) +
%$ ∗ (" ) ∗ ( )) = − ∑|| ( )logP(C' ) + = ∑* ∈ . count(w, C' ) || ( ) ∑ ( |@ )%#A( |@ ) + ...................(6) Dimana delta memiliki range 0 s/d 1. " adalah jumlah kata unik pada kelas dan ( ) adalah probabilitas dari di seluruh vocab. Untuk menghitung ( ) digunakan formula ( ) =
∑6 789 /2345( , ) ∑ ∑7 /2345( , )
..................(7)
Dengan menganggap ( ) sebagai sebuah fungsi dari kata yang mana memiliki distribusi uniform yang di kali dengan jumlah kemunculan Wk pada Vocab, ( ) kemudian di hitung dengan formula[1]. ( ) = :( ) ∑; < "# ( , ) ................(8) Dengan, :( ) =
||
Pembaharuan terhadap metode smoothing ini sudah di bahas pada penelitian sebelumnya dan terbukti mampu meningkatkan akurasi dan efisiensi waktu pada saat proses klasifikasi menggunakan NBC. 2.3 Information Gain Selain metode smoothing, seleksi fitur dapat digunakan untuk meningkatkan akurasi dari hasil klasifikasi NBC.[6] telah membandingkan 12 buah algoritma yang digunakan untuk menyeleksi fitur. Nicolette Nicolosi mendapatkan bahwa terdapat dua buah algoritma yang memiliki performa yang di anggap terbaik digunakan untuk klasifikasi multi label. Dua algoritma tersebut adalah chi-square dan information gain. Pada penelitian ini akan digunakan information gain sebagai seleksi fitur. Dari Information Gain digunakan untuk memberikan score pada setiap kata di mulai dari kata yang memiliki gain tertinggi yang di anggap penting. Tujuan lain adalah untuk mereduksi jumlah kata yang di digunakan sebagai koleksi model atau vocab yang mana juga dapat berfungsi untuk meningkatkan efisiensi waktu proses klasifikasi. Formula untuk menghitung nilai gain dari ? adalah [2]
||
( ) ∑ ( |@ )%#A( |@ ) ........ . (9) Dimana ( ) adalah probabilitas dari kategori ke i. ( ) adalah probabilitas dari term muncul pada koleksi dokumen atau vocab. dan ( |@ ) adalah probabilitas dari kelas dengan syarat @ muncul pada kelas tersebut. Sebelum reduksi fitur, term terlebih dahulu di ranking dari terbesar hingga terkecil menggunakan information gain. Seleksi fitur hanya memilih fitur terbaik yang merepresentasikan dokumen yang jumlahnya dapat ditentukan sendiri. 2.4 Pre-processing Pre-processing diperlukan untuk mempersiapkan data agar mudah untuk dilakukan klasifikasi. Adapun tahap-tahap pre-processing seperti tokenizing yaitu menghilangkan tanda baca, simbol, number dan memecah text menjadi beberapa token yang biasanya dipecah berdasarkan spasi. Tidak semua kata yang terdapat pada dokumen merepresentasikan dokumen secara akurat. Kata-kata tersebut seperti ‘sangat’, ‘sedang’, ‘selalu’, ‘adapun’, ‘di’, ‘adalah’ dll. Kata-kata tersebut kita kenal dengan sebutan stopword dan akan dihapus dari vocab. tujuan dari menghilangkan stopword ini dalah mereduksi term, mereduksi noise dan menjaga hanya kata-kata yang dianggap penting, dan membuat proses pada langka selanjutnya menjadi lebih efektif dan efesien. Langkah berikutnya adalah stemming yaitu mengembalikan semua kata berimbuhan ke bentuk dasarnya. Stemming ini dilakukan karena biasanya terdapat kata dengan maksud yang sama tetapi memiliki imbuhan yang berbeda. Stemming ini juga bertujuan untuk mereduksi jumlah term yang di hasilkan pada tahap pre-processing. Tahap selanjutnya adalah meng-indeks term dan mencari frequensi dari masing-masing term pada masingmasing kelas. Ini akan memudahkan proses klasifikasi frequensi term pada suatu kelas akan sering digunakan untuk mencari probabilitas pada NBC. 2.5 Alur Program Tahap-tahap yang akan di terapkan pada sistem klasifikasi secara garis besar adalah sebagai berikut:
713
ISSN : 2302 – 450X
Dokumen Teks
Tokenizing
Stopword Removal
Berikut adalah table hasil klasifikasi menggunakan 70% data sebagai data training dengan 13207 term yang di index setelah melalui proses preprocessing. Variasi delta dan jumlah term yang terpilih akan mempengaruhi akurasi yang di peroleh seperti pada table berikut.
Stemming
No
Delta
Term Selected
1
0.1
500
72.34042553
2
0.1
1000
80.24316109
3
0.1
1500
83.28267477
4
0.1
2000
83.89057751
5
0.1
2500
86.62613982
6
0.1
3000
83.28267477
7
0.2
500
64.74164134
8
0.2
1000
79.02735562
9
0.2
1500
83.89057751
10
0.2
2000
83.89057751
11
0.2
2500
86.93009119
12
0.2
3000
87.23404255
13
0.3
500
51.06382979
14
0.3
1000
72.03647416
Dataset yang digunakan pada percobaan ini adalah teks berita yang di dapat dari www.compas.com sebanyak 1085 berita yang terdiri dari 152 berita dengan label ekonomi, 201 berita dengan label Entertainment, 205 berita dengan label health, 191 berita dengan label tekno, 205 berita dengan label bola, 131 berita dengan label otomotif. Untuk melakukan experimen, Dari seluruh dataset yang dimiliki, akan digunakan 70%-nya sebagai data training dan 30%-nya sebagai data testing.
15
0.3
1500
77.50759878
16
0.3
2000
82.0668693
17
0.3
2500
86.93009119
18
0.3
3000
88.44984802
19
0.4
500
39.81762918
20
0.4
1000
66.56534954
21
0.4
1500
74.77203647
22
0.4
2000
79.02735562
23
0.4
2500
86.01823708
4
24
0.4
3000
88.75379939
25
0.5
500
32.21884498
26
0.5
1000
59.27051672
27
0.5
1500
69.30091185
28
0.5
2000
75.98784195
29
0.5
2500
84.80243161
30
0.5
3000
88.44984802
31
0.6
500
26.13981763
32
0.6
1000
52.27963526
33
0.6
1500
63.2218845
34
0.6
2000
73.25227964
35
0.6
2500
82.37082067
36
0.6
3000
88.75379939
37
0.7
500
20.06079027
Vektor Dokumen
Hitung term frequensi untuk setiap term pada vocab
Membangun Model
Klasifikasi Dokumen
3
DATA PENELITIAN
HASIL UJI COBA
Baik atau tidaknya sistem akan dapat di lihat dari banyaknya dokumen yang di klasifikasikan secara tepat. adapun cara untuk menghitung akurasi, adalah sebagai berikut. Akurasi =
<3;BDE_D5FG2H_IF4DH <3;BDE_23;F4_3<
J100%
Sistem juga akan di uji dengan memvariasikan nilai delta dan jumlah term yang digunakan setelah di ranking dengan information gain. Nilai delta yang akan digunakan adalah dari 0.1 s/d 1. Kemudian jumlah term yang telah di ranking juga di seleksi dan digunakan sebanyak 500, 1000, 1500..dst. dari hasil running program nantinya akan dapat di lihat nilai delta terbaik dengan jumlah term yang paling optimal untuk akurasi yang terbaik.
714
Akurasi
I Made Dwi Putra suarbawa, Klasifikasi Konten Berita Menggunakan Naïve Bayes Dengan Smoothing Modified Absolute Discount
38
0.7
1000
47.41641337
5
0.5
81.45896657
39
0.7
1500
56.53495441
6
0.6
82.0668693
40
0.7
2000
71.42857143
7
0.7
83.58662614
41
0.7
2500
81.76291793
8
0.8
83.89057751
42
0.7
3000
87.23404255
9
0.9
85.10638298
43
0.8
500
16.71732523
10
1
86.01823708
44
0.8
1000
42.85714286
45
0.8
1500
51.36778116
46
0.8
2000
65.95744681
47
0.8
2500
79.33130699
48
0.8
3000
85.41033435
49
0.9
500
15.50151976
50
0.9
1000
37.99392097
51
0.9
1500
47.72036474
52
0.9
2000
62.91793313
5
53
0.9
2500
76.89969605
54
0.9
3000
81.45896657
55
1
500
13.06990881
56
1
1000
34.95440729
57
1
1500
43.76899696
58
1
2000
59.57446809
59
1
2500
74.16413374
60
1
3000
78.41945289
Berita menjadi sumber utama dalam memenuhi kebutuhan informasi sehari-hari. Dengan jumlah berita yang banyak dari berbagai bidang membuat tenaga manusia saja tidak cukup untuk menangani penggolongan berita. Untuk itu dibutuhkan sebuah sistem otomatis yang mampu melakukan pekerjaan manusia dengan cepat. Naive Bayes memiliki komputasi yang tidak rumit dan mudah di mengerti. Metode smoothing digunakan untuk meningkatkan akurasi dan menangani permasalahan pada NBC seperti unseen word. Information Gain juga terbukti mampu meningkatkan akurasi dengan mereduksi fitur yang di anggap kurang relevan dalam merepresentasikan dokumen pada kasus berita ini.
Table di atas adalah hasil experiment yang dilakukan dengan menggunakan data training dan data testing yang sama. Dengan mencoba delta dari nilai terkecil hingga tertinggi dan memvariasikan jumlah term yang digunakan kita dapat melihat bahwa akurasi tertinggi di capai ketika delta bernilai 0.6 dengan jumlah term optimalnya 3000 dengan akurasinya 88.75379939%. Nilai akurasi terkecil di dapat ketika delta bernilai 1 dan jumlah termnya 500. Jika diperhatikan dari tabel tersebut, dapat di lihat bahwa jumlah term sebanyak 500 sering kali menghasilkan akurasi terkecil pada nilai delta yang sama. Dan jumlah term 3000 sering kali memberikan akurasi yang cukup tinggi. Untuk experimen berikutnya klasifikasi akan dilakukan kembali dengan memvariasikan nilai delta sama seperti sebelumnya, namun pada experiment kedua ini tidak menggunakan information gain untuk menyeleksi fitur. Berikut adalah hasil experiment. No
Delta
Akurasi
1
0.1
2
0.2
73.556231
3
0.3
76.29179331
4
0.4
79.63525836
68.69300912
Dari hasil experiment dapat di lihat terdapat nilai akurasi tertinggi dengan delta 1 dengan akurasi 86.01823708%. Dari kedua experiment yang telah dilakukan, terlihat bahwa penerapan information gain sebagai seleksi fitur memberikan hasil yang lebih baik jika dibandingkan dengan tanpa menggunakan seleksi fitur.
6
KESIMPULAN
DAFTAR PUSTAKA
[1] Chharia, A. 2013. “Enhanching naïve bayes performance with modified absolute discount smoothing method in spam classification”. International Journal of Advanced Research in Computer Science and Software Engineering. ISSN: 2277 128X. [2] Dey Sarkar, S. 2013. “Empirical Study on Filter based Feature Selection Methods for Text Classification”. International Journal of Computer Applications (0975 – 8887). [3] Rosyking Lumbanraja, R. 2013. “Sistem Pencarian Data Teks dengan Menggunakan Metode Klasifikasi Rocchio(Studi Kasus:Dokumen Teks Skripsi)”. Kumpulan Makalah Seminar Semirata 2013 Fakultas MIPA Universitas Lampung. [4] Mrs. Leena. H. Patil, 2014. “A Multistage Feature Selection Model for Document Classification Using Information Gain and Rough Set”. (IJARAI) International Journal 715
ISSN : 2302 – 450X
of Advanced Research in Artificial Intelligence. Vol. 3, No.11, 2014. [5] Said, B. 2015. “KLASIFIKASI DATA SMS CENTER BUPATI PAMEKASAN MENGGUNAKAN NAÏVE BAYES DENGAN MAD SMOOTHING”. Seminar Nasional “Inovasi dalam Desain dan Teknologi” IDeaTech 2015. ISSN: 2089-1121. [6] Nicolosi, N. 2008. “Feature Selection Methods for Text Classification”. [7] Hamzah, A. 2012. “KLASIFIKASI TEKS DENGAN NAÏVE BAYES CLASSIFIER (NBC) UNTUK PENGELOMPOKAN TEKS BERITA DAN ABSTRACT AKADEMIS”.
716
Prosiding Seminar Nasional Aplikasi Sains & Teknologi (SNAST) Periode III. ISSN:1979911X. [8] Kurniawan, B. Effendi, S. Salim Sitompul, O. 2012. “Klasifikasi Konten Berita Dengan Metode Text Mining”. JURNAL DUNIA TEKNOLOGI INFORMASI. Vol. 1, No. 1, (2012) 14-19. [9] Aggarwal, S. 2013. “Naïve Bayes Classifier with Various Smoothing Techniques for Text Documents”. International Journal of Computer Trends and Technology (IJCTT). volume 4 Issue 4 – April 2013