BAB I PENDAHULUAN
1.1 Latar Belakang Analisis sentimen merupakan proses dalam mengolah, memahami, dan mengekstrak data dalam bentuk teks terhadap suatu topik, kejadian ataupun individu untuk mendapatkan informasi sentimen yang terkandung dalam suatu kalimat opini secara otomatis (Rozi, dkk., 2012). Analisis sentimen memungkinkan untuk melacak produk, merek, maupun orang yang menentukan apakah hal tersebut dilihat sebagai suatu hal positif, negatif, atau netral. Hal ini memungkinkan bisnis untuk melacak persepsi produk baru, persepsi merek, manajemen reputasi, dan sebuah pandangan tentang suatu opini pada skala global. Penelitian di bidang analisis sentimen dari suatu data merupakan hal yang penting dan dibutuhkan di era big data seperti saat ini. Sentimen positif menyatakan pemberian nilai yang baik, sentimen negatif menyatakan pemberian nilai yang buruk pada konteks dalam bentuk teks, sedangkan sentimen netral menyatakan pemberian nilai yang tidak berpihak pada baik maupun buruk dan biasanya kalimat dengan sentimen ini tidak mengandung opini di dalamnya. Analisis sentimen dapat diaplikasikan pada perusahaan yang mengeluarkan suatu produk dan menyediakan layanan untuk menerima pendapat (feedback) dari konsumen untuk produk tersebut. Analisis sentimen diaplikasikan untuk mengelompokkan feedback positif, negatif, dan netral dari konsumen sehingga mempercepat dan mempermudah tugas perusahaan untuk meninjau kembali kekurangan produk mereka. Apabila ditemukan adanya sentimen negatif, maka perusahaan dapat dengan cepat mengambil tindakan untuk menanggulanginya. Sebaliknya, jika sentimen positif yang lebih dominan, perusahaan dapat meningkatkan produksi dan distribusi produk. Salah
satu
perusahaan
yang
memerlukan
adalah
provider
telekomunikasi seperti Telkomsel, Indosat Oredoo, dan XL Axiata.
1
Banyaknya jumlah pengguna dari provider telekomunikasi membuat perusahaan tersebut harus menyediakan layanan berupa feedback untuk penggunanya agar memudahkan dalam meninjau kembali produknya. Mengingat ketatnya persaingan antara provider satu dengan provider lainnya membuat perusahaan tersebut harus mempertahankan promo yang disukai oleh pelanggan dan mengganti atau memperbaiki promo dan layanan yang tidak disukai dengan cepat dan tepat. Salah satu media yang digunakan sebagai layanan feedback adalah Twitter. Twitter
menurut
statistiknya
adalah
jejaring
sosial
dengan
pertumbuhan tercepat sejak tahun 2006. Jejaring sosial yang dibatasi 140 karakter ini mengirim 250 juta tweet tiap harinya. Menurut MIT Technology Review (2013), Indonesia menempati Negara ketiga penyumbang tweet terbanyak dengan jumlah 1 milyar tweet, di bawah Amerika Serikat (3,7 milyar) dan Jepang (1,8 milyar). Jakarta menjadi Twitter Capital City yaitu kota dengan jumlah tweet terbanyak dan teraktif di dunia. Analisis sentimen berguna untuk menganalisis komentar-komentar di Twitter menjadi pengetahuan yang lebih bermakna. Sehingga pengetahuan tersebut dapat dimanfaatkan oleh perusahaan salah satunya adalah provider telekomunikasi dalam memantau penerimaan produk mereka di masyarakat. Beberapa metode yang pernah digunakan pada analisis sentimen adalah Entropy Weighted Genetic Algorithm dan SVM Weight. EWGA menunjukkan performansi yang lebih baik dari SVM Weight (Ahmed dkk, 2007). Selain itu, terdapat Structural Correspondence Learning (SCL), SCLMI dan Baseline, dengan hasil SCL-MI menunjukkan performansi yang lebih baik untuk adaptasi domain (Blitzer dkk, 2007). Pada penelitian Saraswati (2011), dalam mengklasifikasikan opini dalam bentuk paragraf yang terdiri dari beberapa kalimat menggunakan metode Support Vector Machine dan Naïve Bayes Classifier memberikan hasil yang tepat. Namun, metode Support Vector Machine memiliki kelemahan dalam waktu pemrosesan yang cukup lama untuk data yang besar. Sehingga dalam penelitian ini digunakan metode Naïve Bayes Classifier (NBC).
2
Metode Naïve Bayes Classifier dipilih karena metode ini sederhana atau mudah diaplikasikan, memiliki proses komputasi yang cepat, dan akurasi yang tinggi (Korde & Mahender, 2012). Metode Naïve Bayes Classifier untuk klasifikasi atau kategorisasi teks menggunakan fitur n-gram kata yang muncul dalam suatu dokumen sebagai dasar klasifikasinya. Rish (2001) menunjukkan bahwa meskipun asumsi independensi antar kata dalam dokumen tidak sepenuhnya dapat dipenuhi, tetapi kinerja Naïve Bayes Classifier dalam klasifikasi relatif sangat bagus. Berdasarkan hasil eksperimen, Naïve Bayes Classifier terbukti dapat digunakan secara efektif untuk mengklasifikasikan berita secara otomatis dengan akurasi mencapai 90.23% (Wibisono, 2005). Sedangkan untuk penelitian di bidang analisis sentimen dengan objek provider telekomunikasi pernah dilakukan oleh Boy Utomo Manalu (2014). Namun, pada penelitian tersebut belum menggunakan seleksi fitur sehingga didapatkan hasil akurasi 88% dengan jumlah data training masing-masing 1000 data untuk sentimen positif, negatif, dan netral. Tahap pre-processing dalam penelitian ini akan menemukan banyaknya fitur yang diambil dari data Twitter. Fitur tersebut terdiri dari puluhan atau ratusan term unik yang tidak saling berhubungan. Permasalahan yang muncul akibat banyaknya fitur adalah dapat mengurangi kinerja dari klasifikasi. Untuk mengatasi permasalahan tersebut, fitur yang di ekstrak harus di filter sebelum memasuki tahap klasifikasi untuk mendapatkan fitur yang paling relevan dan yang terbaik untuk mewakili dokumen. Oleh sebab itu, diperlukan suatu metode untuk memilih fitur penting yang mewakili dokumen dan dapat mengurangi dimensi ruang fitur karena dapat meningkatkan kinerja klasifikasi. Seleksi fitur adalah proses pemilihan sebuah subset term yang muncul dalam himpunan training. Mutual Information adalah salah satu metode seleksi fitur yang menggunakan informasi kelas dalam data latih, sehingga untuk menggunakan seleksi fitur ini harus tersedia sebuah set pre-classied. Mutual Information digunakan sebagai seleksi fitur dalam penelitian ini karena fungsinya yang cocok untuk menilai term dari isi informasi dalam proses klasifikasi. Hal tersebut disebabkan karena Mutual Information dapat
3
mengukur dependensi acak antar variabel (Battiti, 1994). Penelitian dalam bidang klasifikasi sentimen menggunakan seleksi fitur Mutual Information pernah dilakukan sebelumnya oleh Narayanan. Hasil penelitian menunjukkan bahwa adanya peningkatan akurasi dari 73,77% untuk penggunaan algoritma Naïve Bayes dengan Laplacian Smoothing menjadi 88,80% setelah ditambahkannya seleksi fitur pada algoritma Naïve Bayes (Narayanan dkk., TT). Oleh sebab itu, pada penelitian ini akan diterapkan Mutual Information untuk penyeleksian fitur sebelum diklasifikasi dengan Naïve Bayes Classifier sehingga diharapkan hasil analisis sentimen menjadi lebih akurat.
1.2 Rumusan Masalah Berdasarkan latar belakang di atas, maka dapat dirumuskan beberapa permasalahan sebagai berikut. 1) Bagaimana pengaruh seleksi fitur Mutual Information dalam upaya meningkatkan akurasi dari analisis sentimen dengan Naïve Bayes Classifier? 2) Bagaimana akurasi yang dihasilkan dalam analisis sentimen setelah penambahan seleksi fitur Mutual Information pada metode Naïve Bayes Classifier ?
1.3 Batasan Masalah Adapun batasan masalah dalam penelitian ini adalah : 1) Pada penelitian ini dataset yang digunakan adalah tweet yang ditujukan kepada provider telekomunikasi di Indonesia. Tweet tersebut mengandung @ (mention) dan # (hastag) yang diikuti dengan nama provider antara lain, #telkomsel, @simpati, #AS, @indosat, dan lain-lain. 2) Proses stopword hanya berlaku pada kata-kata berbahasa Indonesia saja. 3) Menggunakan metode n-gram kata dengan jumlah n =1, 2, 3, 4 sebagai fitur.
4
1.4 Tujuan Penelitian Adapun tujuan dalam penelitian ini adalah : 1) Untuk mengetahui pengaruh seleksi fitur Mutual Information dalam upaya meningkatkan akurasi dari analisis sentimen dengan Naïve Bayes Classifier. 2) Untuk mengetahui akurasi yang dihasilkan dalam analisis sentimen setelah penambahan seleksi fitur Mutual Information pada metode Naïve Bayes Classifier.
1.5 Manfaat Penelitian Adapun manfaat dalam penelitian ini adalah : 1) Sebagai
landasan
untuk
penelitian
selanjutnya
yang
ingin
mengembangkan penelitian mengenai analisis sentimen. 2) Sebagai bahan referensi untuk perusahaan provider telekomunikasi yang ingin memanfaatkan hasil penelitian untuk mendapatkan feedback dengan mudah tanpa menggunakan cara manual atau mendata opini masyarakat satu persatu. 3) Hasil penelitian ini dapat digunakan oleh pihak produsen yaitu pihak perusahaan provider telekomunikasi dalam memantau penerimaan produk dan layanan mereka di masyarakat secara real time. Sehingga berdampak pula pada investasi saham dari perusahaan tersebut untuk menentukan kapan terjadinya aktivitas jual dan beli saham terhadap akumulasi hasil sentimen dari data Twitter melalui sistem ini.
1.6 Metodologi Penelitian Pada bagian metode penelitian menjelaskan langkah-langkah yang dilakukan untuk menerapkan seleksi fitur Mutual Information dalam metode Naïve Bayes Classifier pada sentimen analisis provider telekomunikasi. Adapun sub bahasan langkah-langkah yang akan dijadikan pedoman dalam penelitian ini adalah desain penelitian, pengumpulan data, pengolahan data awal, dan metode yang digunakan.
5
1.6.1 Desain Penelitian Penelitian ini tergolong ke dalam penelitian eksperimental. Objek dalam penelitian ini yaitu sentimen dari tweet pengguna provider telekomunikasi. Sedangkan metode yang digunakan adalah Naïve Bayes Classifier dengan seleksi fitur Mutual Information. Penelitian diawali dengan mengumpulkan data tweet pada Twitter. Setelah data dikumpulkan kemudian data tersebut disimpan ke dalam database. Selanjutnya tahap pre-processing (toLowerCase, penghapusan URL, @mention, #hashtag, tokenisasi, dan menghapus stopword). Tahap penyeleksian fitur dengan seleksi fitur Mutual Information, klasifikasi menggunakan metode Naïve Bayes Classifier. Kemudian hasil dari metode di uji tingkat akurasi dan kecepatan pemrosesannya. 1.6.2 Pengumpulan Data Data yang digunakan pada penelitian ini adalah data primer yaitu tweet yang ditujukan kepada provider telekomunikasi di Indonesia dari sosial media Twitter. Pengumpulan data menggunakan Twitter Search API dengan memasukkan
keyword-keyword
yang
berhubungan
dengan
Provider
Telekomunikasi yang dikombinasikan dengan kata-kata sentimen. Langkah dalam
mengumpulkan
data
mengikuti
penelitian
sebelumnya
yaitu
menggunakan emoticon dan kata sentimen yang digabungkan dengan nama provider telekomunikasi (Manalu, 2014). Dalam penelitian ini, data terdiri dari 2 bagian yaitu data tweet dan data stopword. 1.6.3 Pengolahan Data Awal Teks dokumen yang telah dimasukkan ke dalam database dirubah semua karakter huruf menjadi huruf kecil melalui proses toLowerCase. Kemudian dilakukan penghapusan URL, seperti @mention dan #hashtag yang ada pada tweet tersebut. Tokenisasi (pemotongan string input berdasarkan kata yang menyusunnya) dan menghapus stopword (kata-kata yang tidak berpengaruh terhadap proses klasifikasi). Dalam penelitian ini sistem mempunyai 2 tahapan proses pengolahan data yaitu tahap pembelajaran (training) dan tahap pengujian (testing).
6
Tujuan dari tahap pembelajaran adalah untuk mencari n-gram kata beserta frekuensinya yang nantinya akan digunakan pada proses testing. Sedangkan untuk tahap pengujian bertujuan untuk mengklasifikasikan tweet yang belum diketahui kategorinya.
1.6.4 Metode yang Digunakan Tahap seleksi fitur menggunakan metode Mutual Information. Seleksi fitur adalah proses pemilihan sebuah subset term yang muncul dalam himpunan training. Penggunaan seleksi fitur bermanfaat agar metode pengklasifikasian lebih efisien dengan mengurangi ukuran vocabulary. Selain itu, dapat meningkatkan akurasi klasifikasi dengan membuang fitur yang noise. Sedangkan pada tahap klasifikasi menggunakan Naïve Bayes Classifier yaitu suatu metode klasifikasi yang menggunakan perhitungan probabilitas. Dalam penelitian ini yang menjadi data uji adalah dokumen tweet.
Dalam
algoritma
Naïve
Bayes
Classifier
setiap
dokumen
direpresentasikan dengan pasangan atribut “x1, x2, x3, … xn” dimana x1 adalah kata pertama, x2 adalah kata kedua dan seterusnya. Sedangkan V adalah himpunan kategori tweet. Pada saat klasifikasi algoritma akan mencari probabilitas tertinggi dari semua kategori dokumen yang diujikan (Vj).
7