BAB I PENDAHULUAN 1.1
Latar Belakang Perkembangan
media
dan
teknologi
informasi,
terutama
pada
perkembangan internet dan media sosial, menjadikan fungsi internet dari suatu ‘media’ informasi biasa, bertambah menjadi media ‘distribusi’ penawaran dan permintaan sebuah produk dan jasa [1]. Dapat dikatakan bahwa pada saat ini penggunaan internet dan media sosial telah menjadi kebutuhan. Dengan adanya media sosial, pengguna dapat bertukar pikiran, mengeluarkan ide, pendapat atau mengulas mengenai suatu produk atau jasa. Opini yang dituangkan ke dalam media sosial dapat dijadikan bahan acuan untuk melihat segmentasi pasar terhadap suatu produk atau jasa. Salah satu media sosial yang sering digunakan untuk mengeluarkan pendapat atau opini adalah Twitter. Twitter merupakan salah satu media sosial yang berkembang dengan pesat sejak tahun 2006. Media sosial ini menyediakan layanan microblogging dengan panjang karakter 140, dimana semua pengguna dapat memposting tulisan pendek secara online untuk membagi informasi atau opini kepada orang-orang yang terhubung dengan akun penggunaan. Semua tulisan yang diposting baik itu informasi atau opini akan ditampilkan pada tampilan Twitter secara online atau dapat dicari dan diekstrak dengan menggunakan Twitter search Application Programming Interface (API). Dengan memanfaatkan API yang telah tersedia, tweet-tweet dari Twitter secara teknik lebih mudah diambil jika dibandingkan dengan mengambil data dari blog, sehingga lebih mudah digunakan untuk riset [2]. Indonesia menempati peringkat pertama untuk benua Asia, sebagai negara terbanyak di dunia dalam menulis tweet, yakni sebesar 44,48% sejak tanggal 1 November 2010 [3]. Dengan jumlah informasi yang banyak, dari data tweets tersebut dapat diolah menjadi suatu informasi yang berguna, salah satunya adalah
1
informasi mengenai sentimen masyarakat terhadap suatu topik tertentu. Proses pencarian informasi dapat memanfaatkan metode Analisis Sentimen. Analisis sentimen adalah sebuah proses yang digunakan untuk menjelaskan pandangan, opini atau emosi yang diungkapkan oleh seseorang mengenai suatu topik. Untuk melakukan proses identifikasi dan mengolah informasi subjektif dari sumber data, analisis sentimen dibantu dengan menggunakan metode dari Natural Language Processing (NLP) dan analisis teks [4]. Dalam penelitian lainnya disebutkan bahwa analisis sentimen merupakan bidang interdisipliner antara NLP, kecerdasan buatan dan text mining. Kunci utama dari analisis sentimen adalah klasifikasi polaritas, yaitu menentukan apakah sentimen tersebut bersifat positif atau negatif [1]. Salah satu pemanfaatan media sosial sebagai ajang kampanye telah dilakukan oleh Presiden Barack Obama pada kampanye Pemilihan Presiden Amerika Serikat tahun 2008 [5]. Selain itu, pada Pemilihan Umum Presiden tahun 2014 silam, informasi pada media sosial mengenai calon presiden, yaitu Jokowi dan Prabowo sangat mudah ditemukan terutama pada Twitter. Baik itu opini yang positif, negatif atau netral untuk kedua calon tersebut. Dinyatakan dalam penelitian Tsumajan, et.al bahwa beberapa minggu sebelum pemilihan umum dilakukan, isu mengenai politik dan siapa calon terpilih menjadi topik hangat dalam masyarakat [6]. Penelitian untuk analisis sentimen dalam bidang politik dengan menggunakan Bahasa Indonesia dan memanfaatkan media sosial serta blog telah dilakukan oleh beberapa peneliti, diantaranya [7][8][9][10]. Seperti telah disebutkan, bahwa kunci utama dari analisis sentimen adalah penentuan polaritas, yaitu menentukan apakah sentimen tersebut negatif atau positif. Proses penentuan polaritas dari suatu sentimen bukan hal yang mudah, seringkali penelitian sebelumnya menentukan polaritas sentimen secara manual. Penentuan polaritas secara manual memanfaatkan manusia. Cara ini masih memiliki kekurangan yaitu memerlukan waktu yang lama dan tenaga ahli yang banyak, sehingga diperlukan suatu teknik untuk mempermudah dalam proses penentuan nilai polaritas dari sentimen. Untuk mengatasi permasalahan tersebut
2
penelitian [7][11][12][13][14] memanfaatkan metode berbasis kamus (lexicon based), dimana kata-kata dikelompokan berdasarkan polaritas sentimennya, yaitu positif dan negatif. Salah satu implementasi metode berbasis kamus dalam Bahasa Indonesia adalah penelitian yang dilakukan oleh Saputra [7] dalam bidang analisis sentimen mengenai manajemen reputasi pada tokoh Jokowi. Penelitian ini menggunakan pemetaan pada setiap kata berdasarkan polaritas kata. Dari penelitian tersebut masih memiliki kekurangan bahwa penanganan negasi masih belum dapat tertangani. Penelitian lainnya mengenai analisis sentimen pada Bahasa Indonesia telah melibatkan penanganan negasi, namun pada penelitian tersebut tidak dijelaskan bagaimana cara penanganan negasi yang dilakukan [15] dan [16]. Penanganan negasi dalam Bahasa Indonesia menjadi hal yang masih kurang dipertimbangkan dalam analisis sentimen, berbeda dalam Bahasa Inggris, yang menjadikan negasi sebagai sesuatu yang harus ditangani, karena negasi adalah salah satu cara linguistik yang paling umum yang dapat mengubah polaritas dari suatu kalimat atau teks [17]. Penelitian penanganan negasi dalam Bahasa Inggris telah dilakukan oleh [18][14][17][19]. Penelitian tersebut membahas mengenai cara penanganan negasi dalam Bahasa Inggris dengan menggunakan algoritme berbasis kamus. Mengingat pentingnya penanganan negasi pada analisis sentimen, maka penelitian ini mengajukan suatu algoritme penanganan negasi dalam Bahasa Indonesia berbasis kamus yang dirujuk dari Bahasa Inggris dengan dilakukan penyesuaian dalam Bahasa Indonesia. Diharapkan dengan adanya penanganan negasi dalam Bahasa Indonesia penentuan polaritas dari suatu sentimen berbasis kamus menjadi lebih baik dibandingkan tanpa menggunakan penanganan negasi. 1.2
Perumusan masalah Penanganan negasi belum menjadi fokus utama dalam analisis sentimen
Bahasa Indonesia, sehingga kalimat yang memiliki kata negasi belum dapat ditentukan polaritasnya secara optimal.
3
1.3
Keaslian Penelitian Penelitian ini didasarkan pada beberapa hasil penelitian yang memfokuskan
pada proses penangan kata-kata negasi sebagai upaya penentuan polaritas (pelabelan) ari kalimat peningkatan hasil klasifikasi analisis sentimen. Pada kasus analisis sentimen, kemunculan kata-kata atau kalimat-kalimat negasi tidak dapat dielakan. Negasi merupakan bagian dari linguistik yang sangat umum yang akan mengubah nilai dari polaritas teks [17]. Dengan berubahnya nilai dari polaritas suatu kalimat, maka perlu dilakukan proses untuk menangani kasus negasi ini. Beberapa penelitian terdahulu yang terkait dengan proses penanganan negasi pada bidang analisis sentimen antara lain adalah penelitian yang dilakukan oleh Prollochs, dkk [11], yang melakukan penelitian untuk menentukan cakupan negasi dengan menggunakan dua pendekatan, yaitu pendekatan berbasis aturan dan machine learning dengan menggunakan algoritme Hidden Markov Model (HMM). Data yang digunakan adalah berita finansial Jerman. Hasil penelitian tersebut menunjukan bahwa deteksi negasi dengan berbasis aturan memiliki nilai akurasi tertinggi dibandingkan dengan HMM yaitu sebesar 89.87%. Nilai akurasi tertinggi dari HMM adalah 84.37%. Kemudian, penelitian Sun, dkk [12] melakukan penelitian untuk mengembangkan pendekatan preprocessing yang efektif untuk menghilangkan kata-kata dan simbol-simbol yang tidak memiliki informasi. Proses perbaikan preprocessing melibatkan 5 tahapan NLP yang telah dilengkapi dengan proses penanganan ekspresi negasi. Data yang digunakan pada penelitian ini adalah forum stok GKP (Gulf Keystone Petroleum), IFS (Irish Financial Sentiment dataset), dan ST Apple (Senders-Twitter financial sentiment Corpus). Proses penanganan negasi dilakukan berbasis kamus (lexicon based) dari WordNet dan menggunakan part of speech tagged untuk menentukan kata yang bergantung pada kata negasi. Hasil dari penelitian ini memiliki tingkat akurasi sebesar 78.08%. Padmaja [13] mencoba menguji beberapa metode dalam proses penanganan negasi yang diterapkan pada dataset berita politik yang berasal dari The Hindu dan NDTV. Untuk proses pelabelan dari opini dan penentuan negasi dilakukan secara
4
manual oleh dua orang annotator. Untuk proses pendeteksian negasi, Padmaja memanfaatkan part of speech tagged yang berfungsi untuk menguraikan fitur ketergantungan (dependency feature). Sedangkan untuk menentukan lingkup negasi memanfaatkan 3 pendekatan, pendekatan pertama dengan memanfaatkan Rest of the Sentence (RoS), kedua, memanfaatkan Fixed Window Length (FWL) dengan window length = 4 kata disekitar dan setelah kata negasi. Setiap kata akan ditandai sebagai positif, negatif atau negasi berdasarkan kamus. Terakhir, penelitian ini melakukan pendekatan dengan menggunakan scoring function, jika penjumlahan level kata penilaian sentimen pada kalimat menghasilkan nilai kurang dari 0 akan diklasifikasikan sebagai negatif, dan sebaliknya. Untuk nilai sama dengan 0 dalam penelitian ini diabaikan karena hanya untuk kasus 2 kelas klasifikasi. Penelitian mengenai algoritme penanganan negasi berbasis kamus dilakukan oleh Hogenboom [19]. Dalam penelitiannya Hogenboom menggunakan algoritme RoS, First Sentiment Word (FSW), Next non-adverb following a negation keyword (NNA) dan FWL. Algoritme penanganan negasi ini digunakan pada data review film yang berasal dari dataset Pang dan Lee. Algoritme ini digunakan untuk penentuan lingkup negasi pada penentuan level dari kalimat. penentuan level dari kalimat didapatkan dengan menghitung skor dari kata-kata sentimen yang terdapat dalam review film. Jika skor = 1 maka dikategorikan kelas positif, dan jika -1 akan dikategorikan kelas negatif. Penelitian selanjutnya dilakukan oleh Lapponi, et. al [14] melakukan penanganan negasi dengan menggunakan model conditional random field untuk proses pelabelan secara terurut yang menggunakan kumpulan fitur leksikal dan sintaktis yang dapat menangkap perilaku dari setiap token. Sistem yang dibangun mendapatkan masukan negasi dari cue (tanda) yang diberikan pada setiap token dari kalimat menggunakan part of speech dan lematisasi dari NLP toolkit, selanjutnya akan
dihitung
informasi
sintaksisnya
(analisis
ketergantungan)
dengan
menggunakan MaltParser. Dataset yang digunakan adalah dataset novel Conan Doyle dan review produk. Councill, et. al [20] dalam penelitiannya melakukan deteksi otomatis untuk
5
negasi untuk teks bebas. Sama dengan penelitian yang disebutkan sebelumnya, pada penelitian ini juga memanfaatkan metode model conditional random field menggunakan fitur dari dependency parser berbahasa Inggris. Selain untuk melakukan pendeteksian negasi, sistem ini juga melibatkan analisis sentimen, yang dimaksudkan untuk membangun sistem negasi secara benar yang dapat mendeteksi ada atau tidaknya negasi dalam suatu teks. Data yang digunakan adalah data mengenai produk review yang diambil secara bebas dari web, kemudian hasil dari penelitian akan dibandingkan pada dataset BioScope untuk mengetahui performa dari sistem yang dibangun. Tabel 1.1 menunjukan perbedaan penelitian yang dilakukan dengan penelitian sebelumnya. Tabel 1.1 Keaslian Penelitian Penulis
Judul
Dataset
Prollochs,dkk Enhanching Sentiment Berita [11] Analysis of Financial finansial News by Detecting Jerman Negation Scope.
6
Metode Penelitian untuk menentukan cakupan negasi dengan menggunakan dua pendekatan, yaitu pendekatan berbasis aturan dan machine learning dengan menggunakan algoritme Hidden Markov Model (HMM).
Tabel 1.1 Keaslian Penelitian – Lanjutan 1 Penulis
Judul
Dataset
Metode
Sun,dkk [12]
Pre-processing Online Financial Text for Sentiment Classification: A Natural Language Processing Approach.
GKP (Gulf Keystone Petroleum), IFS (Irish Financial Sentiment dataset), dan ST Apple (SendersTwitter financial sentiment Corpus)
Proses penanganan negasi dilakukan berbasis kamus (lexicon based) dari WordNet dan menggunakan POS tag untuk menentukan kata yang bergantung pada kata negasi.
Padmaja, dkk [13] Comparison of the Berita politik (The Scope of Negation Hindu dan in Online News NDTV) Articles.
Proses deteksi negasi dilakukan dengan tiga proses, pertama dengan menggunakan Rest of the Sentence (RoS), kedua menggunakan fixed window length, dan terakhir menggunakan conditional random fields.
Lapponi, dkk [14]
Deteksi negasi dengan menggunakan model conditional random fields untuk proses pelabelan secara terurut yang menggunakan kumpulan fitur leksikal dan sintaktis.
Representing and Novel Conan Resolving Doyle dan Produk Negation for Review Sentiment Analysis.
7
Tabel 1.1 Keaslian Penelitian – Lanjutan 2 Penulis
Judul
Dataset
Metode
Hogenboom,dkk [19]
Determining Dataset Negation Scope film and Strength in Sentiment Analysis
Councill,dkk [20]
What’s Great and Produk Review What’s Not: dan BioScope Learning to Classify the Scope Negation for Improved Sentiment Analysis.
Review Deteksi negasi menggunakan algoritme RoS, First Sentiment Word (FSW), Next non-adverb following a negation keyword (NNA) dan FWL. Deteksi negasi dengan menggunakan model conditional random fields dan dependency parser berbahasa Inggris.
Penelitian ini mengacu pada penelitian sebelumnya yang telah disebutkan. Penelitian ini berfokus pada penanganan negasi dalam Bahasa Indonesia, karena penanganan negasi dalam Bahasa Indonesia masih kurang mendapatkan perhatian dari peneliti yang bergerak pada bidang analisis sentimen. Adapun pada penelitian dalam Bahasa Indonesia telah menggunakan penanganan negasi namun cara penanganannya tidak dijelaskan secara detail. Penelitian ini menggunakan algoritme penanganan negasi berbasis kamus yang diadaptasi dari penanganan negasi dalam Bahasa Inggris untuk menentukan cakupan negasi. Algoritme penanganan negasi yang digunakan yaitu First Sentiment Word (FSW), Rest of Sentence (RoS) dan Fixed Window Length (FWL) dengan panjang window (n) = 1-5 setelah kata negasi. Algoritme penanganan negasi ini dilakukan beberapa penyesuaian dalam Bahasa Indonesia, seperti cakupan penegasian menuju ke arah kanan, maksudnya kata negasi akan menegasi kata sentimen yang berada di sebelah kanannya [21], sedangkan dalam Bahasa Inggris cakupan negasi bisa berada di sebelah kiri atau kanan kata negasi.
8
Selain itu dalam Bahasa Indonesia terdapat negasi ganda, yaitu proses penengasian yang dilakukan dengan menggunakan lebih dari satu kata negasi dalam posisi yang berurutan [21] oleh karena itu algoritme ini disesuaikan agar dapat menangani negasi ganda dalam Bahasa Indonesia. Implementasi penanganan negasi ini dilakukan pada proses penentuan pelabelan tweet secara otomatis untuk Bahasa Indonesia berbasis kamus. Proses pelabelan otomatis didapatkan berdasarkan hasil jumlahan dari nilai sentimen yang ada pada tweet. Kata-kata sentimen didapatkan dari ekstraksi fitur dengan menggunakan Part of Speech (POS) Tag. Penelitian ini memanfaatkan kamus negasi, positif dan negatif yang dibuat oleh Nurfalah [22] untuk mengecek keberadaan kata sentimen. Untuk menguji performa dari algoritme penanganan negasi akan dilakukan proses perbandingan dengan data yang tidak dilakukan proses penanganan negasi, kemudian hasil dari pelabelan kelas otomatis akan dibandingkan dengan pelabelan manual yang telah dilakukan. Tujuan yang ingin dicapai dalam penelitian ini adalah menganalisis pengaruh algoritme penanganan negasi dalam Bahasa Indonesia pada analisis sentimen Twitter. 1.4
Tujuan Penelitian Tujuan yang ingin dicapai dalam penelitian ini adalah menganalisis
pengaruh algoritme penanganan negasi dalam Bahasa Indonesia pada analisis sentimen Twitter. 1.5
Manfaat Penelitian Hasil penelitian ini diharapkan dapat memberikan manfaat bagi peneliti
dalam bidang sentimen analisis Bahasa Indonesia khususnya dalam menganalisis polaritas kalimat yang memiliki kata negasi.
9