Klasifikasi Iklan pada Online Shop dengan Metode Naive Bayes Danny Septiawan1,Dwi Aries Suprayogi1,Abdul Malik Mukhtar1,Wahyudi Hatiyanto1 1
Teknik Informatika, Program Teknologi Informasi dan Ilmu Komputer, Universitas Brawijaya Jl. Veteran No.8 Malang, Informatika, Gedung A PTIIK – UB Email :
[email protected],
[email protected],
[email protected],
[email protected]
ABSTRAK Dengan semakin berkembangangnya teknologi banyak orang mulai beralih untuk beriklan dari media cetak menjadi media online yang dirasa sangat efektif dan dapat menjangkau semua orang bahkan di seluruh dunia karena dengan mengiklankan produk mereka secara online, produk mereka bisa diakses oleh semua orang dari berbagai daerah tanpa harus mengeluarkan biaya untuk memasang iklan karena sudah banyak website yang menyediakan wadah untuk menampung iklan - iklan jual beli online. Namun masih banyak sekali orang - orang yang secara sengaja maupun tidak sengaja untuk memasang iklan tidak pada kategori sebenarnya. Hal ini terjadi karena proses pengklasifikasian iklan yang ada saat ini masih harus di inputkan manual oleh sang pembuat iklan. Oleh karena itu kami membuat penelitian untuk membantu pengklasifikasian iklan secara otomatis berdasarkan judul dan kata - kata yang ada pada iklan tersebut untuk meminimalisir salah kategori dan agar website penyedia jasa pemasangan iklan bisa terlihat lebih rapi dan mudah untuk melakukan pencarian iklan yang diinginkan.Penelitian ini dilakukan dengan menggunakan algoritma Naïve Bayes Classifier untuk klasifikasi. Pada algoritma Naïve Bayes sendiri, data latih dan efisiensi sistem sangat mempengaruhi nilai efisiensi yang dihasilkan. Sehingga penggunaan algoritma tersebut dimaksudkan untuk mendapatkan nilai akurasi yang lebih maksimal dalam klasifikasi. Kata Kunci : Jual Beli Online,Website,Naive Bayes Classifier
1. PENDAHULUAN 2. 3. Online shop akhir - akhir ini sangat digemari dari berbagai kalangan baik anak muda maupun orang dewasa.Online shop memberikan kemudahan bagi para customer untuk menawarkan barang atau produk yang dimiliki oleh customer baik dalam kondisi baru atau bekas.Dengan kemudahan yang ditawarkan ini customer semakin tertarik untuk mengiklankan barang atau produk yang dimilikinya. 4. Untuk mengelola informasi dari kumpulan iklan yang jumlahnya sangat banyak tentunya bukan pekerjaan yang mudah.Oleh karena itu diperlukan sebuah metode yang dapat mengorganisir dan mengklasifikasi iklan secara otomatis,sehingga dapat mempermudah dalam pencarian yang sesuai dengan keinginan.Tujuan dilakukannya penelitian ini untuk membantu pengklasifikasian iklan secara otomatis berdasarkan judul dan kata - kata yang ada pada iklan tersebut untuk meminimalisir kesalahan kategori dan agar website penyedia jasa pemasangan iklan bisa terlihat lebih rapi dan mudah untuk melakukan pencarian iklan yang diinginkan. 5. Bidang yang mempelajari teknik - teknik untuk pengorganisasian dokumen teks secara umum dibagi menjadi dua kelompok,yaitu
classification dan clustering.Menurut Pramudiono,classification adalah proses untuk menemukan model yang membedakan konsep atau kelas data,dengan tujuan untuk dapat memperkirakan kelas dari suatu objek yang labelnya tidak diketahui.Sedangkan clustering digunakan untuk melakukan pengelompokan data tanpa berdasarkan kelas data tertentu dan dapat digunakan untuk memberikan label pada kelas data yang belum diketahui [7]. 6. Metode Naïve Bayes dikenal dengan algoritma klasifikasi simple Bayesian. Algoritma ini banyak digunakan karena terbukti efektif untuk kategorisasi teks, sederhana, cepat dan akurasi tinggi [11].Metode Naïve Bayes atau Naïve Bayes Classifier (NBC) adalah salah satu metode yang digunakan untuk klasifikasi teks.NBC menggunakan teori probabilitas sebagai dasar teori.Dalam bukunya,Han, J. dan Kamber, M. menyatakan bahwa “Bayesian classifiers mempunyai tingkat kecepatan dan akurasi yang tinggi ketika diaplikasikan dalam database yang besar” [3]. 7. Data yang digunakan untuk penelitian kali ini adalah data iklan yang kami ambil dari www.tokobagus.com dan www.berniaga.com yang merupakan tempat
pemasangan iklan jual beli online. Iklan yang yang diambil terdiri dari 5 kategori dengan 20 iklan untuk masing - masing kategorinya.
8. MODEL, ANALISIS, DESAIN, DAN IMPLEMENTASI 9. 9.1 Online Shop 10. Dalam memudahkan customer dalam mencari barang atau produk yang diinginkan maka sebaiknya iklan - iklan yang ada online shop di klasifikasikan sesuai dengan kategori masing masing iklan secara otomatis.Jika online shop dapat melakukan klasifikasi iklan secara otomatis maka dapat menghemat waktu yang diperlukan mengingat iklan pada online shop dapat bertambah banyak dalam waktu yang singkat sehingga online shop dapat bekerja secara optimal.Selain dapat mengefisiensi penggunaan waktu,klasifikasi juga dapat membuat online shop terlihat rapi karena iklan di klasifikasikan berdasarkan kategori yang sesuai dengan barang atau produk yang diiklankan oleh customer itu sendiri.Hal ini juga dapat membantu customer yang ingin mencari barang atau produk yang diinginkannya secara mudah. 11. Seiring dengan perkembangan teknologi informasi saat ini, jumlah pengguna internet di Indonesia mengalami peningkatan yang cukup pesat dari tahun ke tahun. Hasil survey menunjukkan jumlah pengguna internet di Indonesia pada tahun 2011 mencapai sekitar 40 juta dan saat ini terdapat sekitar 63 juta pengguna internet di Indonesia [9]. 12. Perkembangan internet memang sangat cepat dan memberi pengaruh signifikan dalam segala aspek kehidupan masyarakat. Internet membantu masyarakat untuk berinteraksi, berkomunikasi,serta mendapatkan informasi mengenai apapun dengan mudah dan cepat. Seiring dengan berjalannya waktu serta diiringi perkembangan teknologi, internet kini dapat dimanfaatkan sebagai sarana untuk melakukan transaksi perdagangan yang dikenal dengan istilah jual beli online.Jual beli online pada dasarnya merupakan proses jual beli atau pertukaran produk, jasa, dan informasi melalui jaringan komunikasi termasuk internet [10]. 13. Keberadaan jual beli online merupakan alternatif bisnis yang cukup menjanjikan karena jual beli online memberikan banyak kemudahan baik bagi penjual maupun pembeli dalam melakukan transaksi perdagangan. Dengan jual beli online setiap transaksi tidak memerlukan pertemuan antara penjual dan pembeli baik dalam tahap negosiasi,
pembayaran, ataupun pengiriman barang. Hal inilah yang lama kelamaan membuat kebiasaan masyarakat berbelanja di pusat perbelanjaan berubah menjadi belanja melalui media online. 14. Di Indonesia, bisnis jual beli online sudah mulai banyak dilakukan baik oleh perusahaan - perusahaan besar maupun toko - toko jualan milik pribadi, seperti toko baju, sepatu,tas, parfum, dan lain - lain. Banyak perusahaan dan toko yang pada awalnya hanya menjual produknya secara offline, kini mulai memasarkan dan menjual produknya melalui media online, baik itu website perusahaan atau toko tersebut, media komunikasi, ataupun situs jejaring sosial. Strategi bisnis seperti ini pun seakan mendapat respon positif dari masyarakat. Masih bersumber dari okezone.com, saat ini 57% dari pengguna internet di Indonesia atau sejumlah 36 juta jiwa aktif melakukan belanja online, dan tingkat pertumbuhannya sebesar 15%. Hal ini membuktikan bahwa bisnis online memang merupakan bisnis yang sangat menjanjikan namun di sisi lain bisnis online dapat memperketat persaingan dagang antar perusahaan atau toko. 15. Dalam dunia bisnis online, persaingan yang terjadi lebih ke arah persaingan layanan yang diberikan dibandingkan produk yang dijual.Kualitas layanan yang diberikan menjadi tolak ukur konsumen dalam menilai dan memilih untuk membeli produk pada suatu perusahaan atau toko online tertentu. Inilah yang terkadang menjadi penyebab suatu bisnis online dapat atau tidak dapat bertahan. Oleh karena itu,sangat penting bagi perusahaan atau toko online untuk dapat menerapkan metode pengendalian dan peningkatan kualitas layanan agar mampu bertahan dalam persaingan bisnis online yang semakin ketat. 16. Salah satu metode yang sering digunakan oleh berbagai perusahaan untuk meningkatkan dan mengendalikan kualitas adalah Six Sigma DMAIC (Define Measure - Analyze - Improve - Control) [8]. Pada awalnya,Six Sigma lebih banyak digunakan pada perusahaan manufaktur. Seiring dengan berjalannya waktu, saat ini banyak perusahaan yang sepenuhnya menawarkan jasa sebagai produknya (nonmanufacture) seperti bank, institusi pendidikan, rumah sakit, serta perusahaan transportasi umum juga telah menerapkan metode Six Sigma sebagai sarana untuk meningkatkan dan mengendalikan kualitas
layanan [2]. Berdasarkan hal tersebut,timbul pemikiran bahwa metode Six Sigma pun dapat diterapkan pada bisnis online shop, dimana kualitas jasa / layanan yang diberikan merupakan faktor yang sangat penting, di samping kualitas dan harga produk yang kompetitif.
terdapat variasi imbuhan yang harus dibuang untuk mendapatkan root word (kata dasar) dari sebuah kata. Pada umumnya kata dasar pada bahasa Indonesia terdiri dari kombinasi [1] : 33. 34. Prefiks 1 + Prefiks 2 + Kata dasar + Sufiks 3 + Sufiks 2 + Sufiks 1
17. 17.1Teks Preprosessing Text Preprocessing adalah suatu proses pengubahan bentuk data belum terstruktur menjadi data yang terstruktur sesuai kebutuhannya untuk proses dalam data mining. Tujuan dilakukan preprocessing adalah memilih setiap kata dari dokumen dan merubahnya menjadi kata dasar yang memiliki arti sempit dan proses teks mining akan memberikan hasil yang lebih memuaskan. Tahapan text preprocessing menurut Mooney terbagi menjadi lima tahap, yaitu tokenizing, filtering, stemming, tagging, dan analyzing [6]. Dalam klasifikasi iklan pada online shop, kami memodifikasi tahapan text preprocessing menjadi seperti pada Gambar 1 dibawah ini. 19. 20. 21. TOKENIZING 22. 23. 24. FILTERING 25. 26. 27. STEMMING 28. 29. Gambar 1. Tahap Preprocessing 30. 31. Stemming merupakan suatu proses yang terdapat dalam sistem IR yang mentransformasikan kata - kata yang terdapat dalam suatu dokumen ke kata kata akarnya (root word) dengan menggunakan aturan - aturan tertentu. Sebagai contoh, kata bersama, kebersamaan, menyamai, akan distem ke root wordnya yaitu “sama”. 32. Stemming Bahasa Indonesia dengan Algoritma Nazief dan Andriani.Algoritma stemming untuk bahasa yang satu berbeda dengan algoritma stemming untuk bahasa lainnya. Sebagai contoh bahasa Inggris memiliki morfologi yang berbeda dengan bahasa Indonesia sehingga algoritma stemming untuk kedua bahasa tersebut juga berbeda. Proses stemming pada teks berbahasa Indonesia lebih rumit/kompleks karena
35.
18.
Algoritma Nazief & Adriani yang dibuat oleh Bobby Nazief dan Mirna Adriani ini memiliki tahap - tahap sebagai berikut [4] :
1.
Pertama cari kata yang akan di sistem dalam kamus kata dasar. Jika ditemukan maka diasumsikan kata adalah root word. Maka algoritma berhenti. 2. Inflection Suffixes (“-lah”, “-kah”, “-ku”, “-mu”, atau “-nya”) dibuang. Jika berupa particles (“lah”, “-kah”, “-tah” atau “-pun”) maka langkah ini diulangi lagi untuk menghapus Possesive Pronouns (“-ku”, “-mu”, atau “-nya”), jika ada. 3. Hapus Derivation Suffixes (“-i”, “-an” atau “kan”). Jika kata ditemukan di kamus, maka algoritma berhenti. Jika tidak maka ke langkah 3a. a. Jika “-an” telah dihapus dan huruf terakhir dari kata tersebut adalah “-k”, maka “-k” juga ikut dihapus. Jika kata tersebut ditemukan dalam kamus maka algoritma berhenti. Jika tidak ditemukan maka lakukan langkah 3b. b. Akhiran yang dihapus (“-i”, “-an” atau “kan”) dikembalikan, lanjut ke langkah 4 4. Hilangkan derivation prefixes DP {“di-”,“ke-”,“se-”,“me-”,“be-”,“pe”, “te-”} dengan iterasi maksimum adalah 3 kali : a. Langkah 4 berhenti jika: Terjadi kombinasi awalan dan akhiran yang terlarang seperti pada Tabel 1. Awalan yang dideteksi saat ini sama dengan awalan yang dihilangkan sebelumnya. Tiga awalan telah dihilangkan. 36. 37.
Aw alan
39. 41. 43. 45.
bedikeme -
38.
Akhiran yang tidak Diizinkan 40. -i 42. -an 44. -i,-kan 46.
-an
47. se48. -i,-kan 49. te50. -an 51. Tabel 1. Kombinasi Awalan Akhiran yang Tidak Diijinkan
b.
Identifikasikan tipe awalan dan hilangkan. Awalan ada tipe: - Standar: “di-”, “ke-”, “se-” yang dapat langsung dihilangkan dari kata. - Kompleks: “me-”, “be-”, “pe”, “te-” adalah tipe-tipe awalan yang dapat bermorfologi sesuai kata dasar yang mengikutinya. Oleh karena itu, gunakan aturan pada Tabel 2 untuk mendapatkan pemenggalan yang tepat. 52.
53. At
54. Format Kata
55. Pemengg alan
56. 1 59. 2
57. berV... 60. berCA P
62. 3
63. berCA erV
65. 4 68. 5
66. belajar
58. ber-V...| ber-rV... 61. berCAP...di manaC! =’r’&P! =’er 64. BerCaerV...d imana C! =’r’ 67. bel-ajar
71. 6 74. 7
72. terV
77. 8
80. 9
83. 10 86. 11 89. 12
69.
beC1er C2
75. terCer V...
78. terCP
81. teC1er C2
84. me{l|r| w| y}V... 87. mem{b |f|v}... 90. mempe {r|l}...
70. beC1erC2... dimana C1! ={‘r’|’l’} 73. ter-V...| te-rV... 76. terCerV...di mana C! =’r’ 79. terCP...dim ana C! =’r’ dan P!=’er’ 82. teC1erC2... dimana C1!=’r’ 85. me-{l|r| w|y}V... 88. mem-{b| f|v}... 91. mempe...
92. 13
93. mem{r V|V}...
95. 14 98. 15 101. 16
96. men{c| d|j|z}... 99. menV...
104. 17
102.meng{ g|h| q}... 105.mengV. ..
107. 18 110. 19
108.menyV. .. 111. memp V...
113. 20 116. 21 119. 22
114.pe{w| y}V... 117.perV... 120.perCA P
122. 23
123.perCA erV...
125. 24 128. 25
126.pem{b| f|V}... 129.pem{r V|V}...
131. 26 134. 27 137. 28 140. 29
132.pen{c| d|j|z}... 135.penV... 138.peng{g |h|q}... 141.pengV.. .
143. 30 146.
144.penyV.. . 147.pelV...
94. mem{rV| V}...|mep{rV| V}... 97. men-{c| d|j|z}... 100.me-nV...| me-tV 103.meng-{g| h|q}... 106.mengV...| mengkV... 109.menysV... 112.mempV...dim ana V! =’e’ 115.pe-{w| y}V... 118.per-V...| pe-rV... 121.perCAP...di mana C! =’r’ dan P!=’er’ 124.perCaerV...d imana C! =’r’ 127.pem-{b|f| V}... 130.pe-m{rV| V}...|pep{rV| V}... 133.pen-{c|d| j|z}... 136.pe-nV...| pe-tV... 139.peng-{g| h|q}... 142.pengV...| pengkV... 145.penysV... 148.pe-
31
lV...kecu ali “pelajar” yang menghas ilkan “ajar” 149. 150.peCerV 151.per32 ... erV...dim ana C! ={r|w|y|l| m|n} 152. 153.peCP... 154.pe33 CP...dim ana C! ={r|w|y|l| m|n} dan P!=’er’ 155.Tabel 2. Aturan Pemenggalan Awalan Stemmer Nazief dan Adriani
163.f
(w k , j ) pada kategori 164.f
165.
162.Dimana :
|b|
ci
adalah jumlah keseluruhan kata
yang digunakan 166. 167.
Dimana variabel C merepresentasikan kelas, sementara variabel F1, Fn merepresentasikan karakteristik - karakteristik petunjuk yang dibutuhkan untuk melakukan klasifikasi. Maka rumus tersebut menjelaskan bahwa peluang masuknya sampel dengan karakteristik tertentu dalam kelas C (posterior) adalah peluang munculnya kelas C (sebelum masuknya sampel tersebut, seringkali disebut prior), dikali dengan peluang kemunculan karakteristik sampel pada kelas C (disebut juga likelihood), dibagi dengan peluang kemunculan karakteristik - karakteristik sampel secara global (disebut juga evidence) [5]. 168. 169.
P(C | F1 ...Fn )
P (C ) P( Fi | C ) Z i 1
170.
3. SKENARIO UJI COBA 171. 172.
f ( wkj , ci ) 1
f (ci ) | W |
160.
161.
ci
c i adalah jumlah keseluruhan kata
pada kategori
155.1 Naïve Bayes Classifier 156. Naïve Bayes Classifier adalah metode pengklasifikasian dengan model peluang, dimana diasumsikan bahwa setiap atribut contoh (data sampel) bersifat saling lepas satu sama lain berdasarkan atribut kelas. Metode klasifikasi ini diturunkan dari penerapan teorema Bayes dengan asumsi independence (saling bebas). 157. 158. Naïve Bayes Classifier merupakan sebuah metode klasifikasi yang berakar pada teorema Bayes. Ciri utama dari Naïve Bayes Classifier ini adalah asumsi yang sangat kuat (naif) akan independensi dari masing - masing kondisi/kejadian. Sebelum menjelaskan Naïve BayesClassifier ini, akan dijelaskan terlebih dahulu Teorema Bayes yang menjadi dasar dari metode tersebut. Pada teorema Bayes, bila terdapat dua kejadian yang terpisah (misalkan A dan B), maka teorema Bayes dirumuskan sebagai berikut : 159.
p ( wkj | ci )
(w k , j ) adalah nilai kemunculan kata
Dalam penelitian ini kami menggunakan metode Naïve Bayes. Skenario yang digunakan adalah dengan melakukan proses training dan testing secara berkesinambungan pada beberapa rasio atau perbandingan data yang dipilih secara acak. Dari beberapa kali uji coba tiap sekenario kami mengamati berapa rata - rata akurasi dari progam kami. Berikut detail dari skenario yang digunakan. Pemilihan data training dan data testing secara random Rasio perbandingan data training dan testing yang digunakan adalah [80:20], [70:30], [60:40], [50:50] dan [40:60] dalam satuan persen (%). Pada proses testing data ditampilkan probabilitas kelas untuk setiap iklan testing, Dan akurasi untuk tiap sekenario. 173. Hasil mapping data dokumen Iklan ini awalnya hanya memanfaatkan
fitur frekuensi munculnya kata pada tiap dokumen. akibatnya banyak dari beberapa dokumen tersebut memiliki nilai fitur yang sama, sehingga hasil visualisasi mapping titik datanya terlihat saling overlap. Dengan menggunakan metode Naïve Bayes diharapkan mampu untuk menempatklan data iklan tersebut kedalam kelas yang tepat.
225. 226.
Skenario 1 102% 100% 98% 96% 94% 92%
174. 4. HASIL UJI COBA 175. 176.
Pada uji coba yang pertama, yaitu dengan variasi rasio perbandingan data training dan testing. Hal ini kami lakukan untuk menguji apakah metode yang digunakan tersebut tetap bisa handal pada berbagai situasi data keluhan. Berikut beberapa hasil proses pelatihan yang didapatkan. Dengan rumus :
177.
dtBenar x100% Dt
178. Akurasi 179. Kita dapat menentukan akurasi dari total data testing yang diuji dengan :
dtBenar
180.
= data jumlah dari semua data yang kelasnya sesuai.
Dt 181.
227.Gambar 2. Grafik Akurasi Hasil Uji Coba Skenario 1 228. 229. Dari gambar 2 kita bisa lihat untuk skenario pertama ini data testing yang digunakan adalah 80% dari total data ternyata cukup untuk memberikan training terhadap data testing sehingga didapatkan rata - rata yang paling kecil adalah 94%. 230. 231.
Skenario 2 102% 100% 98% 96% 94% 92%
= jumlah dari keseluruhan data testing
182.
197. 70:30,
186. perc obaa n1 192. 100 % 198. 100 %
203. 60:40,
204. 95%
209. 40 : 60,
210. 91%
215. 20 : 80,
216. 83%
183. Skenario
191. 80:20,
221.
222.Tabel 3. Akurasi Hasil Uji Coba 223. 224. Dari tabel 3 bisa kita lihat semakin menurunnya akurasi berbanding lurus dengan menurunnya perbandingan data training terhadap data testing, hal ini disebabkan karena semakin sedikitnya fitur kata atau term yang diolah oleh naïve bayes untuk membandingkan dan mengklasifikasikan iklan pada data testing secara tepat dan akurat.
232.Gambar 3. Grafik Akurasi Hasil Uji Coba Skenario 2 233. 234. Dari gambar 3 untuk skenario kedua ini data testing yang digunakan adalah 70% dari total data ternyata hasilnya lebih bagus dengan minium ketepatan kelasnya adalah 96% lebih besar dari pada skenario 1 94%. 235.
236.
Skenario 3 102% 100% 98% 96% 94% 92%
237.Gambar 4. Grafik Akurasi Hasil Uji Coba Skenario 3 238. 239. Dari gambar 4 untuk skenario ketiga ini data testing yang digunakan adalah 60% dari total data ternyata hasilnya masih bisa diatas 90% dengan minium ketepatan kelasnya adalah 95% namun hanya 2 percobaan yang mampu menghasilkan akurasi 100%. 240. 241.
Skenario 4 98% 96% 94% 92% 90% 88%
Gambar 5. Grafik Akurasi Hasil Uji Coba Skenario 4 242. 243. Dari gambar 5 kita bisa lihat untuk skenario ke empat ini data testing yang digunakan adalah 40% dari total data. Dari 5 kali percobaan tidak ada akurasi yang mencapai 100% namun minimum akurasinya masih 91% yang terdapat pada percobaan pertama. 244. 245.
Skenario 5 85% 80% 75% 70% 65%
246.Gambar 6. Grafik Akurasi Hasil Uji Coba Skenario 5 247. 248. Dari gambar 6 kita bisa lihat untuk skenario kelima ini data testing yang digunakan adalah 20% dari total data. Dari 5 kali percobaan tidak ada akurasi yang mencapai 100% dan nilai akurasi minimum dari skenario ini adalah 72%. Hal ini dikarenakan jumlah data training yang kurang memadai sehiingga metode naïve bayes belum bisa mengenali pola dengan baik. 249. 251.Rata 250.Data testing : data training Rata 254.80::20 255.98% 256.70::30 257.98% 258.60::40 259.97% 260.40::60 261.94% 262.20::80 263.77% 264.Rata - rata Global 265.93% 266.Tabel 4 Rata - Rata Akurasi Tiap Percobaan 267. 268. Dari tabel 4 rata - rata terbaik berada pada sekenario uji 80 : 20 dan 70 : 30. Hal ini menunjukkan bahwa semakin banyak jumlah data training yang dimasukkan pada naïve bayes maka kemampuan naïve bayes mengenali iklan traning semakin baik. Dari tabel tersebut kita bisa membuat grafik rata - rata akurasi pada gambar 7. 269. 270.
Rata - rata akurasi 20::80
77%
40::60
94%
60::40
97%
70::30
98%
80::20
98%
0%
50%
100%
150%
271.Gambar 7. Grafik Akurasi Hasil Uji Coba 272. 273. Bila melihat dari gambar 7 diatas maka bisa dilihat bahwa prosentasi banyaknya data testing harus lebih banyak dari pada data training dikarenakan semakin banyaknya data training yang di
masukkan maka metode naïve bayes dapat lebih akurat untuk menentukan kelas masing - masing data testing. 274.
5. KESIMPULAN DAN SARAN 275. 276. Dari beberapa skenario percobaan diatas maka dapat kita simpulkan beberapa hal yaitu,Naïve Bayes termasuk salah satu metode klasifikasi teks yang cukup akurat hal ini bisa dilihat dari akurasi global yang didapatkan 93%,banyaknya data training sangat berpengaruh pada proses klasifikasi. Oleh karena itu data training di masukkan sebanyak mungkin untuk membantu menambah akurasi naïve bayes dalam klasifikasi data testing.Proses stemming dengan confix stemming steamer termasuk akurat untuk menghilangkan kata - kata yang tidak berhubungan dan mengambil kata dasar. Pengembangan lebih lanjut dapat diharapkan dapat menghasilkan sistem yang lebih baik dan kompleks dengan memperbaiki fitur dengan contohnya sebagai berikut,menambahkan fitur selain banyaknya kata untuk membantu proses klasifikasi dan menyempurnakan metode stemming agar bisa lebih akurat dalam mengambil kata dasar. 277.
6. DAFTAR PUSTAKA 278. 279. [1] Agusta, L.2009. “Perbandingan Algoritma Stemming Porter Dengan Algoritma Nazief dan Adriani Untuk Stemming Dokumen Teks Bahasa Indonesia”. Konferensi Nasional Sistem dan Informatika 2009. 280. 281. [2] Antony, J. (2006), “Six Sigma for Service Processes,Business Process Management Journal”,Vol.12, 234-248. 282. 283. [3] Han, J. & Kamber, M.2001. “Data Mining : Concepts and Techniques”. San Francisco: Morgan Kaufmann. 284. 285. [4] Mahendra,K.,2008, “Penggunaan Algoritma Semut dan Confix Stripping Stemmer untuk Klasifikasi Dokumen Berita Berbahasa Indonesia”,Tugas Akhir,Institut Teknologi Sepuluh November, Surabaya. 286. 287. [5] Marmudi.2007.”Tentang Naïve Bayes Classifier”.Andi,Yogyakarta. 288. 289. [6] Mooney, Raymond J. 2006. “Mining Text Mining with Information Extraction”. Austin : University of Texas. 290. 291. [7] Pramudiono,Iko.2003.”Pengantar Data Mining : Menambang Permata Pengetahuan di Gunung Data”.http://ilmukomputer.com.
292. 293. [8] Pyzdek, T. 2003.” The Six Sigma Handbook: A Complete Guide for Green Belts, Black Belts,and Managers at All Levels. Revised and Expanded”.The McGraw-Hill Companies, Inc.,United States of America. 294. 295. [9] Sektor Riil : 36 Juta Jiwa Aktif Menggunakan 296. Bisnis Online [online].http:// economy.
okezone.com/read/2013/04/01/320/784483/re direct.html, diakses 24 Juni 2013. 297. 298. [10] Suyanto, M. 2003. “Strategi Periklanan pada Ecommerce Perusahaan Top Dunia”. Andi, Yogyakarta. 299. 300. [11] Wenyuan Dai, et all.1997.”Transferring Naïve Bayes Classifiers for Text Classifications”. 301. 302. 303. 304. 305. Danny Septiawan. Lahir di Surabaya pada tanggal 7 September 1991. Peneliti telah menyelesaikan pendidikan SMK di SMK Farmasi Sekesal Surabaya 2006-2009. Saat ini peneliti aktif sebagai mahasiswa di jurusan Teknik Informatika Program Teknologi dan Ilmu Komputer (PTIIK) Universitas Brawijaya (UB) Malang Angkatan 2010. Motto : “Hidup adalah pilihan”. 306.
307. Dwi Aries Suprayogi. Lahir di Surabaya pada tanggal 19 April 1992. Peneliti telah menyelesaikan pendidikan SMA di SMA N 8 Surabaya 2007-2010. Saat ini peneliti aktif sebagai mahasiswa di jurusan Teknik Informatika Program Teknologi dan Ilmu Komputer (PTIIK) Universitas Brawijaya (UB) Malang Angkatan 2010. 308. Motto : “Just luck and the power of Allah that could beat me”. 309. Abdul Malik Mukhtar. Lahir di Pancor pada tanggal 27 November 1991. Peneliti telah menyelesaikan pendidikan SMA di MAN 1 Selong 2007-2010. Saat ini peneliti aktif sebagai mahasiswa di jurusan Teknik Informatika Program Teknologi dan Ilmu Komputer (PTIIK) Universitas Brawijaya (UB) Malang Angkatan 2010.
310. Motto : “Sebaik - baiknya manusia adalah manusia yang berguna bagi orang lain”. 311. Wahyudi Hatiyanto. Lahir di Pamekasan pada tanggal 25 july 1992. Peneliti telah menyelesaikan pendidikan SMA di SMA 1 Galis 2007-2010. Saat ini peneliti aktif sebagai mahasiswa di jurusan Teknik Informatika Program Teknologu dan Ilmu Komputer (PTIIK) Universitas Brawijaya (UB) Malang Angkatan 2010. 312. Motto : Menjadi yang terbaik.
313.
314. 315.