JURNAL
SENTIMENT ANALYSIS TOKOH POLITIK PADA TWITTER SENTIMENT ANALYSIS POLITICAL LEADERS IN TWITTER
Oleh: AGUNG PRAMONO PUTRO 12.1.03.03.0276
Dibimbing oleh : 1. NURSALIM, S.Pd,. MH 2. ARIE NUGROHO, S.Kom., M.M
PROGRAM STUDI SISTEM INFORMASI FAKULTAS TEKNIK UNIVERSITAS NUSANTARA PGRI KEDIRI 2017
Artikel Skripsi Universitas Nusantara PGRI Kediri
AGUNG PRAMONO PUTRO | 12.1.03.03.0276 Fakultas Teknik – Prodi Sistem Informasi
simki.unpkediri.ac.id || 1||
Artikel Skripsi Universitas Nusantara PGRI Kediri
SENTIMENT ANALYSIS TOKOH POLITIK PADA TWITTER AGUNG PRAMONO PUTRO 12.1.03.03.0276 Fakultas Teknik – Prodi Sistem Informasi Email :
[email protected] NURSALIM, S.Pd,. MH ARIE NUGROHO, S.Kom., M.M UNIVERSITAS NUSANTARA PGRI KEDIRI
ABSTRAK Sentiment analysis atau opinion mining untuk menganalisis opini publik kepada tokoh politik bersasarkan data yang sudah di dapat dari twitter. Penguna twitter sering kali melakukan posting atau tweet tentang pendapat mereka kepada tokoh politik. Oleh sebab itu data tweet dapat digunakan sebagai sumber data untuk menilai sentimen kepada tokoh politik. Permasalahan adalah (1) Bagaimana cara kerja metode Naïve Bayes Classifier dalam mengklasifikasikan teks berbahasa Indonesia ? (2) Bagaimana mengklasifikasikan Sentiment Analysis menggunakan metode Naïve Bayes Classifier ? (3) Bagaimana akuratnya metode Naïve Bayes Classifier dalam melakukan klasifikasi Sentiment Analysis ?. Penelitian ini menggunakan metode Naïve Bayes Classifier untuk melakukan klasifikasi pada twitter untuk menggetahui sutu sentiment atau opinion pada tweet dan dikelompokan menjadi positif , negatif atau netral. Kesimpulan adalah (1) Proses pengklasifikasian metode Naïve Bayes Classifier ada beberapa tahap. Tahap pertama Proses Pembelajaran Naïve Bayes Classifieri tahap kedua Proses Klasifikasi Naïve Bayes Classifieri. (2) Dalam proses mengklasifikasikan Sentiment Analysis Berdasarkan nilai Vmap tersebut kemudian diambil nilai terbesar yang menjadi kategori dari tweet tersebut kelas positif, negatif dan netral. (3) Dalam proses klasifikasi akan semakin akurat tergantung banyaknya data latih dan saat menggunakan data latih positif 100, negatif 100 dan netral 100 dengan menggunakan data test 100 akurasinya 61% dan error 39% dan saat menggunakan data latih positif 700, negatif 700 dan netral 700 dengan menggunakan data test 100 akurasinya 91% dan error 9%. Berdasarkan simpulan direkomendasikan : (1) Diharapkan penelitian berikutnya dapat menggunakan bahasa daerah atau bahasa asing. (2) Diharapkan untuk penelitian berikutnya dapat mengklasifikasi tentang produk atau tentang hal yang lain. (3) Diharapkan untuk penelitian berikutnya mengklasifikasi tweet yang terdapat singkatan.
KATA KUNCI : Sentiment Analysis, Opinion Mining, Naïve Bayes Classifier, Twitter (yaitu,
A. LATAR BELAKANG Text Mining merupakan subjek riset yang tergolong baru. Text Mining dapat memberikan
solusi
dari
pembelajaran
hubungan
antara
entitas). Dalam penelitian ini akan melakukan
permasalahan
proses atau mengkategorikan komentar
seperti pemrosesan, pengorganisasian atau
(tweet) berdasarkan kelas positif, negatif
pengelompokkan
dan netral dalam text mining yang disebut
dan
menganalisa
unstructured text dalam jumlah besar.
sentiment analysis. Sentiment analysis
Proses text mining yang khas meliputi
adalah studi komputasi mengenai sikap,
kategorisasi teks, text clustering, ekstraksi
emosi, pendapat, penilaian, pandangan dari
konsep atau entitas, produksi taksonomi
sekumpulan
granular, sentiment analysis, penyimpulan
mengekstraksi,
dokumen, dan pemodelan relasi entitas
menemukan karakteristik sentimen. Tugas
AGUNG PRAMONO PUTRO | 12.1.03.03.0276 Fakultas Teknik – Prodi Sistem Informasi
simki.unpkediri.ac.id || 2||
teks
yang
fokus
pada
mengindentifikasi
atau
Artikel Skripsi Universitas Nusantara PGRI Kediri
dasar dari analisis sentimen itu sendiri
penambahan
adalah mengelompokkan polaritas dari teks
turunan
yang ada dalam dokumen, kalimat dan lain
diantaranya, dan penyisipan subsequent ke
sebagainya,
dalam database), menentukan pola dalam
apakah
pendapat
yang
beberapa
dan
fitur
linguistik
penghilangan
beberapa
dikemukakan dalam dokumen, kalimat
data
tersebut bersifat positif , negatif atau
mengevaluasi dan menginterpretasi output.
netral.
text
Untuk
menentukan
apa
komentar
terstruktur,
mining
juga
dan
dapat
akhirnya
didefinisikan
sebagai proses pengetahuan intensif di
(tweet) tersebut bersifat positif, negatif
mana
pengguna
berinteraksi
dengan
atau netral diperlukan proses klasifikasi.
koleksi dokumen dari waktu ke waktu
Metode yang banyak digunakan untuk
dengan menggunakan seperangkat alat
klasifikasi adalah metode Naive Bayes
analisis.
yaitu Naive Bayes Classifier (NBC).
Pada penelitian ini memerlukan proses
Metode ini merupakan salah satu metode
ektrasi data menjadi data yang siap
yang digunakan pada text mining yang
digunakan. Karena komentar (tweet) pada
sederhana tetapi memiliki keakuratan yang
twitter mengandung beragam jenis data
tinggi dalam mengklasifikasi. Naive Bayes
seperti teks, angka, emoticon, hastag,
Classifikasi (NBC) merupakan metode
mention
yang cepat
klasifikasi.
komentar tersebut memiliki tipe yang
Metode Naive Bayes Classifier (NBC)
komplek. Maka dari itu diperlukan adanya
juga merupakan salah satu metode yang
penanganan yang ekstra pada saat tahap
digunakan untuk menyelesaikan masalah
preprocessing atau tahap persiapan data.
dalam proses
sentiment analysis.
dan
lain-lain
menjadikan
Tahap preprocessing data merupakan
B. METODE PENELITIAN
proses untuk mempersiapkan data mentah
1. Text Mining
sebelum
Text mining adalah proses mengambil
dilakukan
preprocessing
sangat
proses
lain.
penting
dalam
informasi berkualitas tinggi dari teks.
melakukan analisis sentimen, terutama
Informasi
biasanya
untuk media sosial yang sebagian besar
diperoleh melalui peramalan pola dan
berisi kata-kata atau kalimat yang tidak
kecenderungan
seperti
formal dan tidak terstruktur serta memiliki
biasanya
noise yang besar. Preprocessing terdiri
berkualitas
pembelajaran
tinggi
melalui pola
sarana
statistik
melibatkan proses penataan teks input
dari beberapa tahapan:
(biasanya
dengan
tokenizing / parsing, filtering. Berikut
AGUNG PRAMONO PUTRO | 12.1.03.03.0276 Fakultas Teknik – Prodi Sistem Informasi
simki.unpkediri.ac.id || 1||
parsing,
bersama
case folding,
Artikel Skripsi Universitas Nusantara PGRI Kediri
adalah
diagram
alir
mengenai
yang
cukup
preprocessing.
menggunakan
2. Sentiment Analysis
Classifier
Sentiment Analysis adalah bidang studi yang
menganalisis
opini
seseorang,
tinggi. metode
adalah
Keuntungan Naïve
metode
ini
Bayes hanya
membutuhkan data penelitian (training data) yang tidak terlalu banyak untuk
sentimen, evaluasi, penilaian, sikap, dan
menentukan
etimasi
parameter
emosi terhadap entitas seperti produk, jasa,
diperlukan dalam proses klasifikasi.
organisasi, individu, masalah, peristiwa,
4. Pengumpulan Data Training
yang
topik, dan atribut mereka. Ini merupakan
Data Latih atau training data yang
ruang masalah besar. Sentiment analysis
digunakan dalam penelitian ini diambil
atau opinion mining mengacu pada bidang
dari
yang luas dari pengolahan bahasa alami,
pencarian tentang pendapat para pengguna
komputasi linguistik dan text mining.
twitter tentang tokoh politik. Data Latih
Secara
untuk
yang didapatkan dengan memanfaatkan
atau
API (Application Programming Interface)
penulis berkenaan dengan topik tertentu.
yang disediakan oleh Twitter. Data Latih
Ada juga banyak nama dan tugas yang
yang diperoleh dari twitter kemudian
sedikit
sentiment
disimpan kedalam Database. Skema dari
opinion
proses pengambilan Tweet dapat dilihat
umum,
menentukan
attitude
berbeda,
analysis,
bertujuan
opinion
pembicara
misalnya, mining,
extraction, sentiment mining, subjectivity
twitter
yang
berdasarkan
hasil
pada gambar 1.
analysis, affect analysis, emotion analysis, Server
review mining, dll.
Mengambil Tweet dari Twitter
3. Naïve Bayes Classifier Naïve Bayes Classifier Sebuah bayes classifier adalah classifier probabilistik
Menyimpan Tweet Ke Database
User
Data base
sederhana berdasarkan penerapan teorema
Gambar 1. Skema proses pengambilan
Bayes (dari statistik Bayesian) dengan
tweet
asumsi independen (naif) yang kuat.
Data yang di ambil dari twitter untuk
Dalam penggunaan metode Naïve Bayes
data training adalah sebanyak 2100 data
Classifier didasarkan karena metode Naïve
tweet. Dimana data yang di ambil adalah
Bayes
Classifier
suatu
metode
yang
data tweet yang mengandung sentimen
mempunyai performansi yang cepat dalam
terhadap tokoh politik untuk data training
proses klasifikasi dan memiliki keakuratan
akan dikategorikan secara manual yang
AGUNG PRAMONO PUTRO | 12.1.03.03.0276 Fakultas Teknik – Prodi Sistem Informasi
simki.unpkediri.ac.id || 2||
Artikel Skripsi Universitas Nusantara PGRI Kediri
dilakukan oleh user dan memilih sentimen
melakukan tweet tentang tokoh politik.
yang terkandung di dalam tweet tersebut
User tinggal mencari dengan memasukan
dan menandai tweet tersebut menjadi 3
Keyword tokoh politik mana yang akan di
kategori sentimen yaitu
klasifikasi
tweet yang
mengandung sentimen positif, negatif dan netral.
b. Preprocessing Data Preprocessing merupakan tahapan awal
Tabel 1. Sentiment Tweet Data Training
dalam mengolah data Input sebelum
Jenis Tweet Positif Sentiment Tweet 700 Tentang Tokoh Politik
memasuki
Negatif Netral 700
700
tahapan
utama.
Preprocessing text dilakukan untuk tujuan penyeragaman. Preprocessing terdiri dari beberapa tahapan: case folding, tokenizing
Data Latih yang sudah diperoleh ini akan disimpan dalam
proses
database
yang
nantinya akan digunakan untuk data
/ parsing, filtering, Stemming. Berikut adalah
diagram
alir
mengenai
preprocessing.
training.
Case Folding
5. Desain Sistem Tokenizing
Desain sistem yang akan dibangun dalam penelitian terbagi menjadi beberapa
Filtering
langkah seperti pada gambar 2.
Stemming
New Data
Gambar 3 Preprocessing Preprocessing Data
1) Case Folding Case folding merupakan tahapan yang Trainin g Data
Classification
mengubah semua huruf dalam dokumen menjadi huruf kecil. Hanya huruf „a‟
Hasil Classification
sampai dengan „z‟ yang diterima.
Gambar 2 Diagram Alir Kerja
2) Tokenizing / Parsing
a. Pengambilan Data Baru
Tokenizing / parsing adalah tahap
Pengambilan Data tweet baru Dalam Proses ini dimana user mengambil data dari twitter yang akan di test dengan memanfaatkan Programming memanfaatkan
API
(Application
Interface) pengguna
twitter
pemotongan string Input berdasarkan tiap kata yang menyusunnya. Pada prinsipnya proses ini adalah memisahkan kalimat atau dokumen menjadi kata perkata.
dan yang
AGUNG PRAMONO PUTRO | 12.1.03.03.0276 Fakultas Teknik – Prodi Sistem Informasi
simki.unpkediri.ac.id || 3||
Artikel Skripsi Universitas Nusantara PGRI Kediri
1. Proses
3) Filtering Filtering pada tahap ini akan dilakukan pembersihan tweet dari spesial karakter,
Pembelajaran
Naïve
Bayes
Classifier Perhitungan ( )
URL link, username, serta emoticon.
Pada tahap ini melakukan perhitungan
Contoh stopword adalah “yang”, “dan”,
pada setiap kelas yang ada. Rumusnya
“di”, “dari” dan lain – lain.
sebagai berikut:
4) Stemming
( )
Stemming merupakan suatu proses yang terdapat
dalam
sistem
IR
( ) Probalitas kelas yang dimiliki
yang
Jumlah dari kelas yang ada
mentransformasi kata-kata yang terdapat
Jumlah dari data training
dalam suatu dokumen ke kata-kata akarnya (root word) dengan menggunakan aturanaturan tertentu. Stemming kebanyakan digunakan pada teks berbahasa inggris dikarenakan
teks
berbahasa
inggris
memiliki struktur imbuhan yang tetap dan
Perhitungan Tahap
ini
dimana
melakukan
perhitungan pada kata yang terdapat pada data test dan rumusnya adalah sebagai berikut
mudah untuk diolah. Sementara Stemming untuk proses bahasa Indonesia memiliki struktur imbuhan
yang rumit
atau
kompleks sehingga agak lebih sulit untuk diolah. pada penelitian ini proses Stemming menggunakan algoritma porter
Pada tahap tahap klasifikasi ini adalah penetuan
seberapa
adalah kata dalam data test dan
jauh
yang ada. Tahap ini menggunakan sebuah yang disebut
, kelas
yang ada seperti positif, negatif dan netral
kelas : Jumlah data training pada kata : Jumlah semua kata dari
keterhubungan antar kata-kata pada data
algoritma
pada kelas
: Junlah kata yang terdapat pada setipa
c. Classification
tahap
: Probalitas
Naïve Bayes
Classifier. Naïve Bayes Classifier terdiri dari 2 proses dalam proses klasifikasi datanya. Kedua proses itu adalah proses pembelajaran Naïve Bayes Classifier dan proses klasifikasi Naïve Bayes Classifier. AGUNG PRAMONO PUTRO | 12.1.03.03.0276 Fakultas Teknik – Prodi Sistem Informasi
semua kategori 2. Proses
Klasifikasi
Naïve
Bayes
Classifier Secara umum proses ini menentukan kelas dari data test dengan menggunakan rumus sebagai berikut: ∏ simki.unpkediri.ac.id || 4||
Artikel Skripsi Universitas Nusantara PGRI Kediri
d. Hasil Classification Berdasarkan
nilai
Vmap
tersebut
kemudian diambil nilai terbesar yang menjadi kelas dari tweet tersebut. Pada contoh ini didapatkan nilai Vmap positif adalah
nilai
Vmap
yang
Gambar 4. Pengujian Sistem
terbesar
dibandingkan dengan hasil klasifikasi yang lain maka atau oleha karena itu tweet contoh tadi diklasifikasikan sebagai kelas positif. C. HASIL DAN PEMBAHASAN 1. Proses Klasifikasi Berdasarkan
metodologi
penelitian,
Gambar 5. Perhitungan Naïve Bayes Classifier
maka akan dilakukan implementasi sistem klasifikasi sentiment analysis pada twitter dengan
metode
text
mining
yang
menggunakan naïve bayes classifier dalam
Proses klasifikasi adalah proses dimana menetukan sebuah kalimat (tweet) sebagai anggota kelas opini positif, negatif dan berdasarkan
nilai
perhitungan
2. Pengujian Sistem Pada Pengujian Sistem / Testing akan pengujian
terhadap
sistem
sentiment analysis yang berfungsi untuk menggtahui kinerja program dan untuk menggtahui berapa persen (%) error testing
dalam
menggetahui error pada saat melakukan
melakuakn
klasifikasi,
dilakuakan
dengan
menguji data testing pada beberapa kali proses klasifikasi dengan mengunakan data latih 100 sampai 1000 tweet dengan menggunakan 100 tweet untuk testing Tabel 2. Hasil Pengujian
probabilitas Bayes yang lebih besar.
melakukan
Pada pengujian ini dilakuan untuk
proses
proses klasifikasi tweet.
netral
3. Hasil Pengujian
proses
klasifikasi tweet dengan menggunakan 100 tweet untuk data test
Data Latih Data Aku Erro Posit Neg Netr Testin rasi r g if atif al 100 100 100 100 61% 39% 200 200 200 100 70% 30% 300 300 300 100 72% 28% 400 400 400 100 72% 28% 500 500 500 100 77% 23% 600 600 600 100 87% 13% 700 700 700 100 91% 9% Dari tabel hasil pengujian dapat diketahui bahwa metode Naïve Bayes Classifier, semakin banyak data latih yang
AGUNG PRAMONO PUTRO | 12.1.03.03.0276 Fakultas Teknik – Prodi Sistem Informasi
simki.unpkediri.ac.id || 5||
Artikel Skripsi Universitas Nusantara PGRI Kediri
digunakan akan semakin tinggi akurasinya.
menggunakan data latih positif 700,
Dapat dilihat dari tabel hasil pengujian
negatif 700 dan netral 700 dengan
tersebut saat menggunakan data latih
menggunakan data test 100 akurasinya
positif 100, negatif 100 dan netral 100
91% dan error 9%.
dengan
menggunakan
data
test
100
2. Saran untuk Tidakan Selanjutnya
akurasinya 61% dan error 39% dan saat
Penulis
menyarankan
menggunakan data latih positif 700, negatif 700 dan netral 700 dengan menggunakan data test 100 akurasinya 91% dan error 9%.
pengembangan
penelitian
lebih
lanjut
sistem pengklasifikasian Tweet sebagai berikut:
D. PENUTUP 1. Dalam
1. Simpulan Kesimpulan
yang
diambil
dari
pembahasan yang telah dikemukakan pada
penelitian
mengklasifikasi Indonesia
ini
hanya
bisa
tweet
berbahasa
diharapkan
penelitian
bab sebelumnya adalah sebagai berikut : 1. Proses pengklasifikasian metode Naïve Bayes Classifier ada beberapa tahap. Tahap pertama Proses Pembelajaran
berikutnya dapat menggunakan bahasa daerah atau bahasa asing seperti bahasa Inggris dan bahasa asing lainnya.
Naïve Bayes Classifieri tahap kedua Proses
Klasifikasi
Naïve
Bayes
penelitian
ini
hanya
bisa
mengklasifikasi sentimen tokoh politik
Classifieri. 2. Dalam
2. Dalam
proses
mengklasifikasikan
diharapkan untuk penelitian berikutnya
Sentiment Analysis Berdasarkan nilai Vmap tersebut kemudian diambil nilai terbesar yang menjadi kategori dari tweet tersebut kelas positif, negatif dan
tidak hanya menggklasifikasi sentimen tokoh politik saja tetapi juga bisa mengklasifikasi tentang produk atau
netral. 3. Dalam proses klasifikasi akan semakin akurat tergantung banyaknya data latih dan saat menggunakan data latih positif
tentang hal yang lain. 3. Dalam
penelitian
ini
hanya
mengklasifikasi teks bahasa Indonesia
100, negatif 100 dan netral 100 dengan menggunakan data test 100 akurasinya 61%
dan
error
39%
dan
saat
AGUNG PRAMONO PUTRO | 12.1.03.03.0276 Fakultas Teknik – Prodi Sistem Informasi
baku belum dapat mengklasifikasi tweet yang terdapat singkatan. simki.unpkediri.ac.id || 6||
Artikel Skripsi Universitas Nusantara PGRI Kediri
E. DAFTAR PUSTAKA Liu, Bing. (Ed.). 2012. Sentiment Analysis and Opinion Mining. Graeme Hirst, University of Toronto Retnawiyati, Eka / Fatoni, M.M.,M.Kom., / Surya, Edi Negara, M.Kom. Analisis Sentimen Pada Data Twitter dengan Menggunakan Text Mining terhadap Suatu Produk. Nurhuda, Faishol / Widya, Sari Sihwi / Doewes, Afrizal. Analisis Sentimen Masyarakat terhadap Calon Presiden Indonesia 2014 berdasarkan Opini dari Twitter Menggunakan Metode Naive Bayes Classifier. Fahrur, Imam Rozi / Hadi, Sholeh Pramono / Achmad, Erfan Dahlan. Implementasi Opinion Mining (Analisis Sentimen) untuk Ekstraksi Data Opini Publik pada Perguruan Tinggi Agusta, Ledy. 2009. Perbandingan Algoritma Stemming Porter Dengan
AGUNG PRAMONO PUTRO | 12.1.03.03.0276 Fakultas Teknik – Prodi Sistem Informasi
Algoritma Nazief & Adriani Untuk Stemming Dokumen Teks Bahasa Indonesia. Kini, Mahesh M / Devi, Saroja H / G Desai, Prashant / Chiplunkar, Niranjan. 2016. Text Mining Approach to Classify Technical Research Documents using Naïve Bayes Wayan, Ni Sumartini Saraswati. 2011. Text Mining Dengan Metode Naïve Bayes Classifier Dan Support Vector Machines Untuk Sentiment Analysis. Nomleni, Petrix / Hariadi, Mochamad / Ketut, Eddy, I Purnama Sentiment Analysis Berbasis Big Data. Feldman, Ronen / James, Israel Sanger. 2007. The Text Mining Handbook Advanced Approaches in Analyzing Unstructured Data. Cambridge University Press Mujilahwati, Siti. 2016. Pre-Processing Text Mining Pada Data Twitter. Raschka, Sebastian. 2014. Naive Bayes and Text Classification I
simki.unpkediri.ac.id || 7||