1
BAB I PENDAHULUAN 1.1 Latar Belakang Pesatnya perkembangan media sosial menawarkan pengguna kesempatan untuk bisa mengeluarkan pendapat dan ekspresi secara bebas. Itu artinya perusahaan tidak lagi memiliki kontrol atas konten yang sudah dimuat di dunia maya (Kaplan dan Haenlein, 2010). Pelanggan atau klien yang merasa tidak puas dengan layanan atau produk yang ditawarkan oleh sebuah perusahaan biasanya akan menuliskan keluhannya di media sosial. Di sisi lain, ada juga pelanggan yang merasa puas, yang mengekspresikan sikap positif mereka terhadap sebuah produk di media sosial. Disadari atau tidak, opini-opini pelanggan yang dituliskan di media sosial, sedikit atau pun banyak, akan memberikan pengaruh pada calon pelanggan. Seperti yang kita ketahui, seseorang biasanya akan terlebih dahulu mencari tahu bagaimana tanggapan orang lain mengenai suatu produk tertentu, sebelum akhirnya memutuskan untuk membeli produk tersebut. Oleh sebab itu, penting bagi sebuah perusahaan untuk mengetahui dan memantau bagaimana opini publik terhadap produk yang ditawarkan oleh perusahaan. Dari berbagai opini tersebut, perusahaan dapat mengetahui sentimen dari masyarakat terhadap produk yang ditawarkan. Hal ini akan berguna sebagai salah satu parameter analisis, misalnya untuk memprediksi angka penjualan dan menentukan jumlah produksi. Akan tetapi, memantau dan mengorganisasi opini dari masyarakat juga bukanlah hal yang mudah. Opini yang dimuat di media sosial jumlahnya terlalu banyak untuk diproses secara
2
manual. Oleh sebab itulah, diperlukan sebuah metode atau teknik khusus yang mampu mengkategorikan review-review tersebut secara otomatis, apakah termasuk positif atau negatif, berdasarkan sebuah properti. Analisis sentimen adalah salah satu cabang bidang studi text mining yang mempelajari tentang sentiment, emotion, dan attitude seseorang yang terkandung dalam teks opini. Prinsip dasar dari analisis sentimen adalah melakukan klasifikasi polaritas dari teks yang diberikan dan menentukan apakah opini yang dikemukakan dalam bentuk teks tersebut bernilai positif atau negatif. Seperti yang kita ketahui, indikator yang paling penting dalam menentukan sentiment sebuah teks adalah sentiment words. Sentiment words adalah kata-kata yang umum digunakan untuk mengekspresikan sentiment. Contohnya “good”, “wonderful”, dan “amazing”adalah kata-kata yang biasanya digunakan untuk menyatakan sesuatu yang sifatnya positif, sedangkan “bad”, “poor”, dan “terrible” digunakan untuk menyatakan sesuatu yang sifatnya negatif. Meskipun sentiment words penting dalam menentukan sentiment dari sebuah teks, akan tetapi menggunakan sentiment words saja masih belum cukup. Permasalahannya jauh lebih kompleks. Sentiment words yang sifatnya positif atau negatif bisa saja memiliki orientasi yang berlawanan jika digunakan pada domain yang berbeda. Misalnya kata “suck” biasanya mengindikasikan sesuatu yang negatif, seperti pada kalimat ”This camera sucks”, akan tetapi kata “suck” juga dapat mengindikasikan sesuatu yang positif jika digunakan pada domain yang berbeda, misalnya pada kalimat “This vacuum cleaner really sucks”. Untuk menghindari permasalahan tersebut, pada penelitian ini hanya digunakan satu domain, yaitu sistem
3
operasi Windows Phone. Pemilihan Windows Phone sebagai domain pada penelitian ini didasarkan pada beberapa alasan. Alasan pertama, Windows Phone (WP) adalah sistem operasi untuk perangkat bergerak (mobile device) yang masih terbilang baru jika dibandingkan dengan sistem operasi yang lain. Dengan statusnya sebagai sistem operasi baru tentunya rasa ingin tahu masyarakat akan sistem operasi ini masih tinggi. Alasan yang kedua, pada kuartal ketiga tahun 2013, Gartner melaporkan bahwa WP memegang pangsa pasar dunia sebesar 3.6%, yang mana angka tersebut meningkat sebesar 123% dari periode sebelumnya di tahun 2012 dan melampaui angka pertumbuhan Android (Gralla 2013). Hal ini menunjukkan bahwa antusiasme masyarakat terhadap sistem operasi ini sangatlah tinggi. Dalam analisis sentimen terdapat dua pendekatan yang umum digunakan, yaitu pendekatan berdasarkan kamus (lexicon based) dan pendekatan berdasarkan machine learning. Hasil eksperimen yang dilakukan oleh Pak dan Paroubek (2010) mengungkapkan bahwa machine learning methods, seperti Naïve Bayes Classifier (NBC) dan Support Vector Machine (SVM) menunjukkan hasil yang baik dalam hal klasifikasi teks. 1.2 Perumusan Masalah Masalah yang dirumuskan berdasarkan penjelasan latar belakang adalah menganalisis unjuk kerja dari penggunaan metode Support Vector Machine (SVM) dalam mengklasifikasikan teks review pengguna sistem operasi Windows Phone.
4
1.3 Batasan Masalah Beberapa batasan yang dilakukan dalam penelitian ini adalah: 1. batasan subyek penelitian, menggunakan kumpulan teks review pengguna sistem operasi Windows Phone yang berbahasa Inggris sebagai dataset, 2. batasan sistem, penelitian menggunakan Weka versi 3.6.10 untuk pengolahan dan analisis data. Metode klasifikasi yang digunakan adalah Support Vector Machine (SVM) dengan kernel polinomial. Metode evaluasi yang digunakan dalam penelitian adalah metode 10 fold cross validation. 1.4 Pertanyaan Penelitian 1. Bagaimana penerapan metode SVM dalam proses klasifikasi teks review? 2. Bagaimana pengaruh penggunaan metode undersampling dan oversampling pada hasil klasifikasi teks review? 3. Apakah penggunaan metode tokenisasi dan algoritme stemmer yang berbeda dapat mempengaruhi proses klasifikasi teks review? 4. Apakah penggunaan metode tokenisasi, algoritme stemmer, dan nilai C yang berbeda berpengaruh pada tingkat akurasi yang diperoleh? 1.5 Tujuan Penelitian Tujuan yang ingin dicapai dari penelitian ini adalah sebagai berikut. 1. Mempelajari penerapan metode klasifikasi SVM (Support Vector Machine) dalam analisis sentimen, khususnya pada teks review pengguna sistem operasi Windows Phone.
5
2. Melakukan analisis performa dan mengetahui tingkat akurasi dari metode SVM (Support Vector Machine) dalam analisis sentimen. 3. Mengetahui efek dari penggunaan metode tokenisasi, algoritme stemmer, dan nilai C yang berbeda terhadap tingkat akurasi yang dihasilkan. 1.6 Manfaat Penelitian Penelitian ini diharapkan dapat menjadi dasar dalam pengembangan aplikasi untuk analisis sentimen. Keberadaan aplikasi untuk analisis sentimen diharapkan dapat memberikan kemudahan dalam proses klasifikasi teks opini, sehingga dapat mempersingkat waktu proses klasifikasi. 1.7 Keaslian Penelitian Penelitian mengenai analisis sentimen telah banyak dilakukan oleh penelitipeneliti sebelumnya dengan menggunakan berbagai macam metode. Support Vector Machine (SVM) dan Naïve Bayes Classifier (NBC) merupakan metode yang paling populer dan paling sering digunakan dalam analisis sentimen. Sejumlah peneliti mengklaim bahwa mereka mendapatkan tingkat akurasi yang lebih baik dengan menggunakan metode SVM. (Pang, dkk, 2002; Pak dan Paroubek, 2010; Saraswati, 2011). Beberapa penelitian mengenai analisis sentimen yang pernah dilakukan sebelumnya dapat diringkas seperti pada Tabel 1.1.
6
Tabel 1.1 Ringkasan Penelitian tentang Analisis Sentimen No.
Author
Judul Penelitian
Hasil / Output Pang
menggunakan
Naïve
Bayes
(NBC),
dan
(2002)
Entropy
Support
Machine
1
Classification
Maximum
(ME),
Pang, dkk.
metode
Vector
(SVM)
untuk
Thumbs up? Sentiment
mengklasifikasikan review film
Classification Using Machine
ke dalam kelas positif dan
Learning Techniques.
negatif. Hasil eksperimen Pang menunjukkan
metode
SVM
memiliki tingkat akurasi yang paling tinggi dibanding dengan metode lainnya, yakni sebesar 82,7%. Yang
melakukan
mengenai
penelitian
analisis
sentimen
dengan menggunakan metode SVM dan CRF (Conditional Random Field). Dari penelitian Yang, dkk.
Emotion Classificatin Using
(2007)
Web Blog Corpora
2
tersebut opini
disimpulkan yang
bahwa
terdapat
pada
kalimat terakhir suatu dokumen, berperan menentukan dokumen,
penting kelas apakah
untuk suatu dokumen
tersebut tergolong positif atau negatif.
7
Tabel 2.1 Ringkasan Penelitian tentang Analisis Sentimen (Lanjutan) Pak
dan
Paroubek
mengungkapkan
3
Pak dan
Twitter as a Corpus for
Paroubek.
Sentiment Analysis and Opinion
machine
Mining.
learning
methods,
seperti Naïve Bayes Classifier (NBC)
(2010)
bahwa
dan
Support
Vector
Machine (SVM) menunjukkan hasil yang baik dalam hal klasifikasi teks.
Text Mining dengan Metode Saraswati.
Naive Bayes Classifier dan
4
Saraswati menyatakan bahwa metode SVM memiliki tingkat akurasi
(2011)
Support Vector Machines untuk Sentiment Analysis
yang
lebih
tinggi
daripada metode NBC untuk pengujian data opini positif. Mierzwa menggunakan metode SVM
untuk
melakukan
klasifikasi terhadap sentimen Mierzwa
Measuring Customer Sentiment
(2012)
on Twitter
5
pelanggan yang dieksperikan melalui
Twitter
dan
memperoleh nilai presisi sebesar 82% untuk kelas objektif, 59% untuk kelas positif, dan 54% untuk kelas negatif.
Sebagian besar dari penelitian-penelitian di atas menunjukkan bahwa penggunaan metode SVM dalam analisis sentimen menunjukkan hasil yang baik. Oleh sebab itu, penelitian ini menggunakan metode SVM untuk menentukan kategori dari teks review, apakah review tersebut bernilai positif atau negatif.
8
1.8 Sistematika Penulisan BAB I : PENDAHULUAN Bab ini menjelaskan latar belakang, rumusan masalah, batasan, tujuan, manfaat, dan keaslian dari penelitian yang dilakukan. BAB II : TINJAUAN PUSTAKA DAN DASAR TEORI Bab ini menjelaskan mengenai teori-teori dan penelitian-penelitian terdahulu yang digunakan sebagai acuan dan dasar dalam penelitian. BAB III : METODE PENELITIAN Bab ini menjelaskan mengenai metode yang digunakan dalam penelitian meliputi langkah kerja, alat dan bahan, serta alur penelitian. BAB IV : HASIL DAN PEMBAHASAN Bab ini memaparkan hasil penelitian beserta dengan pembahasannya. BAB V : KESIMPULAN DAN SARAN Bab ini berisikan kesimpulan akhir dari penelitian yang dilakukan dan juga saran untuk perkembangan penelitian lebih lanjut.