SISTEM ANALISIS SENTIMEN POSITIF DAN NEGATIF MENGGUNAKAN ALGORITMA KLASIFIKASI NAIVE BAYES PADA KASUS TOKOH PUBLIK CAPRES INDONESIA 2014
Oleh Yosafat Gerald Montalili NIM : 612006047
Skripsi Untuk melengkapi syarat-syarat memperoleh Ijazah Sarjana Teknik Elektro FAKULTAS TEKNIK JURUSAN TEKNIK ELEKTRO UNIVERSITAS KRISTEN SATYA WACANA SALATIGA Januari 2014
i
i
i
i
INTISARI
Tulisan yang terdapat pada berita dapat mengubah pandangan masyarakat luas yang membacanya. Sangatlah besar pengaruh sentimen berita terhadap perubahan persepsi masyarakat kepada tokoh yang diberitakan. Biasanya tokoh yang menarik untuk diberitakan adalah tokoh politik seperti calon gubernur, calon presiden, dsb. Dalam menyongsong tahun 2014, dimana Indonesia mengadakan Pil-Pres (Pemilihan Presiden), tentu tokoh-tokoh Capres (Calon Presiden) gencar diberitakan dan dibicarakan. Pada skripsi ini dirancang dan direalisasikan suatu Sistem Analisis Sentimen Positif dan Negatif Menggunakan Algoritma Klasifikasi Naive Bayes Pada Kasus Tokoh Publik Capres Indonesia 2014. Naive bayes sudah terbukti mampu melakukan analisis sentimen dengan baik dalam beberapa penelitian. Pada perancangan skripsi ini, proses analisis terdiri dari 3 bagian utama subsistem, yaitu : Subsistem Praproses, Subsistem Pembelajaran Mesin dan Subsistem Analisis Sentimen. Dokumen yang digunakan adalah dokumen berita yang diperoleh dari internet, berupa dokumen utuh. Umumnya sebuah dokumen berita berisikan 300400 buah kata. Dengan total keseluruhan kata unik yang diproses pada pelatihan naive bayes mencapai 2225 kata, menjadikan nilai Probabilitas kata dalam suatu sentimen bernilai
sangat
kecil
hanya
berkisar
antara
0,000165125495376486
sampai
0,0137054161162483. Sistem yang dirancang mampu melakukan analisis sentimen dokumen-dokumen berita uji sesuai dengan inputan dari user kedalam 2 sentimen (hard classification), yaitu sentimen positif dan negatif. Tingkat akurasi dari pengujian sebesar 82%. Tujuan dari perancangan sistem ini adalah mempermudah user untuk mencari berita sesuai dengan sentimennya.
i
ABSTRAK
News can change public opinion and the news sentiment to change the public perception of the reported figures.Usually the figure reported is interesting to political figures such as a candidate for governor, presidential candidate, and so on. In the 2014, which Indonesia held Pil-Pres (Presidential Election), The Candidates (Presidential Candidate) heavily reported and discussed. This thesis is design and realize a “Sentiment Analysis System Using Positive and Negative Naive Bayes Classification Algorithm In the case of candidates Indonesian Public Figures 2014”. Naive Bayes has been proven to perform well in sentiment analysis of several research. In this thesis analysis process consists of three main parts subsystems, namely: preprocessing Subsystem, Machine Learning Subsystem and Sentiment Analysis Subsystem. Documents that used is news documents which obtained from the Internet, such as intact documents. Generally a news document containing 300-400 word pieces. With a total of unique words that are processed on training Naïve Bayes reach 2225 words, making the word-probability value of sentiment become very small, ranges between 000165125495376486 to 0.0137054161162483. System that designed is able to perform sentiment analysis test news documents according to the input from the user, into two sentiments (hard classification), that is positive and negative sentiment. The accuracy level of the test is 82%.The purpose this system designed is to make easier for a user to find the news according to their sentiment.
ii
KATA PENGANTAR
Puji syukur kepada Tuhan Yesus Kristus atas segala kasih, anugerah dan kemurahan-Nya sehingga penulis dapat menyelesaikan skripsi yang berjudul “Sistem Analisis Sentimen Positif dan Negatif Menggunakan Algoritma Klasifikasi Naive Bayes Pada Kasus Tokoh Publik Capres Indonesia 2014”. Skripsi ini disusun untuk memenuhi salah satu persyaratan yang telah ditetapkan dalam meraih gelar Sarjana Strata I di Fakultas Teknik Elektronika dan Komputer Universitas Kristen Satya Wacana, Salatiga. Keberhasilan penulisan skripsi ini tidak lepas dari bantuan berbagai pihak. Oleh sebab itu, pada kesempatan ini penulis ingin mengucapkan terima kasih kepada: 1. Bapak Hartanto Kusuma Wardana M.T., selaku pembimbing pertama yang telah berkenan menyediakan banyak waktu untuk membimbing, serta memberikan benyak saran dan pengarahan dalam penyelesaian skripsi ini. 2. Bapak Drs. Harsono, selaku pembimbing kedua yang telah berkenan menyediakan banyak waktu untuk membimbing, serta memberikan benyak saran dan pengarahan dalam penyelesaian skripsi ini. 3. Dr. Iwan Setiawan, selaku Dekan Fakultas Teknik Elektronika dan Komputer, Universitas Kristen Satya Wacana, Salatiga. 4. Para Dosen, pegawai dan staff yang telah membantu penulis dalam menyelesaikan studi. 5. Papa, Mama dan kedua kakakku yang senantiasa memberikan dukungan moril, semangat dan doa. 6. Istri dan anakku tercinta yang selalu menjadi semangat dalam menyelesaikan studi. 7. Angling, Bonus, Chandra dan teman-teman yang sudah banyak membantu dalam penyelesaian skripsi ini. 8. Teman – teman elektro dari semua angkatan yang tak dapat penulis sebut satu per satu.
iii
Penulis menyadari bahwa masih banyak kekurangan dalam menyelesaikan skripsi ini, sehingga kritik dan saran yang membangun sangat penulis harapkan. Akhir kata semoga skripsi ini dapat bermanfaat bagi semua pihak. Apabila terdapat banyak kesalahan dalam proses penyelesaian skripsi ini, penulis mohon maaf yang sebesarbesarnya.
Salatiga, Januari 2014
Penulis
iv
DAFTAR ISI
INTISARI
. ........................................................................................................................ i
ABSTRACT . ....................................................................................................................... ii KATA PENGANTAR .......................................................................................................... iii DAFTAR ISI ........................................................................................................................ v DAFTAR GAMBAR ........ .................................................................................................. vii DAFTAR TABEL..... ........................................................................................................ viii BAB I
PENDAHULUAN ......................................................................................... 1 1.1. Tujuan .................................................................................................. 1 1.2. Latar Belakang Masalah ....................................................................... 1 1.3. Batasan Masalah................................................................................... 3 1.4. Perincian Tugas .................................................................................... 4 1.5. Sistematika Penulisan........................................................................... 4
BAB II
DASAR TEORI ............................................................................................ 6 2.1. Berita .................................................................................................. 6 2.2. Sentimen Analisis................................................................................. 7 2.3. Machine Learning ................................................................................ 7 2.4. Text Preprocessing ............................................................................... 8 2.4.1. Tokenisasi ................................................................................. 8 2.4.2. Filtering .................................................................................... 9 2.5. Naive Bayes .......................................................................................... 9
BAB III
PERANCANGAN ...................................................................................... 12 3.1. Gambaran Umum Sistem ................................................................... 12 3.2. Data
................................................................................................ 13
3.2.1. Pengambilan Dokumen ........................................................... 13 3.2.2. Pengambilan Data ................................................................... 17 v
3.3. Subsistem Praproses ......................................................................... 18 3.4. Subsistem Pembelajaran Mesin ........................................................ 20 3.5. Subsistem Analisis Sentimen ........................................................... 23 BAB IV
PENGUJIAN DAN ANALISIS ................................................................. 25 4.1. Hasil Subsistem Praproses ................................................................. 25 4.2. Hasil Subsistem Pembelajaran Mesin ................................................ 26 4.3. Hasil Subsistem Analisis Sentimen .................................................... 30 4.4. Hasil Percobaan ................................................................................. 38 4.4.1. Pengujian Sistem Aplikasi ..................................................... 38 4.4.2. Pengujian Akurasi Sistem ...................................................... 41
BAB V
KESIMPULAN DAN SARAN .................................................................. 43 5.1. Kesimpulan ........................................................................................ 43 5.2. Saran Pengembangan ......................................................................... 43
DAFTAR PUSTAKA .......................................................................................................... 44
vi
DAFTAR GAMBAR
Gambar 2.1
Tokenisasi dan Filtering ................................................................................ 8
Gambar3.1
Gambaran umum sistem .............................................................................. .12
Gambar 3.2
Penyimpanan dokumen latih positif ............................................................ .16
Gambar 3.3
Penyimpanan dokumen latih negatif ........................................................... .17
Gambar 3.4
Diagram alir subsistem praproses ............................................................... .19
Gambar 3.5
Diagram alir subsistem pembelajaran naive bayes. ..................................... 22
Gambar 3.6
Diagram alir subsistem analisis sentimen. ................................................... 24
Gambar 4.1
Sampel tabel kata. ........................................................................................ 25
Gambar 4.2
Sampel tabel data ......................................................................................... 26
Gambar 4.3
Sampel tabel pelatihan naive bayes. ............................................................. 27
Gambar 4.4
Tampilan awal program. .............................................................................. 38
Gambar 4.5
Form input manual. .............................................................................
Gambar 4.6
Hasil input manual. ...................................................................................... 39
Gambar 4.7
Tampilan pencarian data. ............................................................................. 40
Gambar 4.8
Tampilan analisis positif-negatif. ................................................................. 41
vii
39
DAFTAR TABEL
Tabel 1.1
Perbedaan dengan penelitian-penelitian sebelumnya. .................................... 2
viii