KLASIFIKASI SENTIMEN PADA REVIEW FILM DENGAN METODE NAIVE BAYES MENGUNAKAN SELEKSI DOKUMEN BERDASARKAN TERM OBJECTS KEYWORDS HALAMAN JUDUL
TUGAS AKHIR
Sebagai Persyaratan Guna Meraih Gelar Sarjana Strata 1 Teknik Informatika Universitas Muhammadiyah Malang
Oleh : HAFIZ HARIADI NIM. 09560057
JURUSAN TEKNIK INFORMATIKA FAKULTAS TEKNIK UNIVERSITAS MUHAMMADIYAH MALANG 2013
LEMBAR PERSETUJUAN
KLASIFIKASI SENTIMEN PADA REVIEW FILM DENGAN METODE NAIVE BAYES MENGUNAKAN SELEKSI DOKUMEN BERDASARKAN TERM OBJECTS KEYWORDS
TUGAS AKHIR
Diajukan Untuk Memenuhi Persyaratan Guna Meraih Gelar Sarjana Strata 1 Teknik Informatika Universitas Muhammadiyah Malang
Menyetujui
Pembimbing I
Pembimbing II
(Yuda Munarko, S.Kom., M.Sc.) NIP: 108.0811.0443
(Nur Hayatin, S.ST.) NIP: 108.0907.0476
LEMBAR PENGESAHAN KLASIFIKASI SENTIMEN PADA REVIEW FILM DENGAN METODE NAIVE BAYES MENGUNAKAN SELEKSI DOKUMEN BERDASARKAN TERM OBJECTS KEYWORDS
TUGAS AKHIR Sebagai Persyaratan Guna Meraih Gelar Sarjana Strata 1 Teknik Informatika Universitas Muhammadiyah Malang
Disusun Oleh : HAFIZ HARIADI NIM. 09560057
Tugas Akhir Ini Telah Diuji Dan Dinyatakan Lulus Melalui Sidang Majelis Penguji Pada Tanggal 12 Desember 2013 Menyetujui,
Penguji I
Penguji II
Diah Risqiwati, S.T., M.T.
Wahyu Andhyka Kusuma, S.Kom., M.Kom. NIDN : 0720068701
Mengetahui, Ketua Jurusan Teknik Informatika
Eko Budi C, S.Kom., MT. NIP : 10895040330
LEMBAR PERNYATAAN Yang bertanda tangan di bawah ini: Nama Tempat / Tgl Lahir NIM Fakultas / Jurusan
: Hafiz Hariadi : Malang, 02 Mei 1987 : 09560057 : Teknik / Informatika
Dengan ini saya menyatakan bahwa Tugas Akhir dengan judul “KLASIFIKASI SENTIMEN PADA REVIEW FILM DENGAN METODE NAIVE BAYES MENGUNAKAN
SELEKSI
DOKUMEN
BERDASARKAN
TERM
OBJECTS KEYWORDS” beserta seluruh isinya adalah karya saya sendiri dan bukan merupakan karya tulis orang lain, baik sebagian maupun seluruhnya, kecuali dalam bentuk kutipan yang telah disebutkan sumbernya. Demikian surat pernyataan ini saya buat dengan sebenar-benarnya. Apabila kemudian ditemukan adanya pelanggaran terhadap etika keilmuan dalam karya saya ini, atau ada klaim dari pihak lain terhadap keaslian karya saya ini maka saya siap menanggung segala bentuk resiko/sanksi yang berlaku.
Malang, 12 Desember 2013 Yang Membuat Pernyataan,
(Hafiz Hariadi)
Mengetahui, Pembimbing I
Pembimbing II
(Yuda Munarko, S.Kom., M.Sc.) NIP : 108.0811.0443
(Nur Hayatin, SST.) NIP : 108.0907.0476
ABSTRAK Analisis sentimen atau opinion mining merupakan prosesmengelompokkan polaritas dari teks yang ada dalam dokumen, kalimat, atau fitur secara otomatis untuk mendapatkan informasi. Beberapa hal yang biasa didapatkan dari opinion mining adalah dapat memberikan suatu peringatan serta informasi kepada para penggunanya akan suatu hal yang berkembang. Pada penelitian ini membahas sistem sentimen analisis pada review film. Sistem ini menangani pemisahan dokumen yang memiliki sentimen positif dan negatif dan keywords yang berkaitan dengan sentimen positif dan negatif tersebut. Dokumen yang dikenali sebagai opini selanjutnya diklasifikasikan ke dalam opini positif dan negatif menggunakan naïve bayes . Dari hasil uji coba yang dilakukan Proses klasifikasi menggunakan perhitungan rata-rata pada dataset dan hasil dari evaluasi data yang diklasifikasikan didapatkan sesuai class negatif sebesar 83,35% dan 1.667 fitur dan data yang diklasifikasikan tapi tidak sesuai dengan class yang seharusnya merupakan kelompok class negatif tetapi dimasukkan ke class positif sebesar 16,65% dan 333 fitur. Kata Kunci: Naive Bayes, Sentimen Analisis, Text Mining, Confusion Matrix, Recall And Precision.
i
ABSTRACT Sentiment analysis or opinion mining is the process of classifying the polarity of the existing text in the document , sentence , or feature to automatically get information . Some of the things that goes on opinion mining is to give a warning and information to users will be a growing thing . In this study discusses sentiment analysis system at movie reviews . The system handles the separation documents that have positive and negative sentiment and keywords associated with the positive and negative sentiment . Documents that are recognized as opinion further classified into positive and negative opinion using Naive Bayes . From the results of experiments performed using the classification process of calculating the average of the results of the evaluation dataset and classified data obtained in accordance negative class by 83.35 % and 1,667 features and data are classified according to the class but not the class group should be negative but inserted into the positive class by 16.65 % and 333 features . Keywords: Naive Bayes, Sentiment Analysis, Text Mining, Confusion Matrix, Recall And Precision
ii
LEMBAR PERSEMBAHAN Puji syukur kepada Allah SWT atas rahmat dan karunia-nya sehingga penulis dapat meyelesaikan tugas akhir ini. Penulis menyampaikan ucapan terima kasih yang sebesar-besarnya kepada : 1. Bapak Yudha Munarko dan Ibu Nur Hayatin selaku pembimbing tugas akhir. 2. Bapak Wahyu Andhyka Kusuma, S.Kom., M.Kom. dan Ibu Diah Risqiwati, S.T., M.T. selaku penguji tugas akhir penelitian ini. 3. Bapak atau Ibu Dekan Fakultas Teknik Universitas Muhammadiyah Malang. 4. Bapak atau Ibu Ketua Jurusan Teknik Informatika Universitas Muhammadiyah Malang. 5. Kedua orang tua yang selalu mendo’a-kan semua anaknya. 6. Kakak- kakak ku yang selalu mendukung dalam pengerjaan tugas akhir ini. 7. Sahabat-sahabatku Wahyu Siplink, Agung Bengkong, Rachmad Ramadhan, Dimas Pe2k, Cecep, Reza Agustian CCD, Bayu Adi Hartanto CCD, Azis CCD, Hakim CCD, Rania Pramudita CCD, Wahyu Rizki Mutiara CCD, Gunarno, Yasir, Septian, Mavis, Romzi Fadach, Ratri, Silvie, Lina PGSD, Pak Moley, Pak Yunus, Pak Sugianto, Pak Imam, Pak Windi, Pak Ali Wahyudi, Pak Jaino, Fatchur Rahman, Om Moko, Crew FOH dan BOH PH Malang, Staff Fikes, Staff BPS Batu, 8. Dan semua rekan-rekan yang telah mendukung dan mendo’akan dalam pengerjaan tugas akhir ini.
iii
KATA PENGANTAR Dengan kehadirat Allah SWT, yang telah memberikan kenikmatan berupa Insan, Iman, dan Ihsan. Serta junjungan kita Nabi Besar Muhammad S.A.W yang telah membawa kita dari zaman kegelapan hingga zaman yang terang benderang ini. Syukur Alhamdulillah berkat kebesaran dan izin-Nya penulis dapat menyelesaikan penyusunan skripsi ini yang berjudul : “KLASIFIKASI SENTIMEN PADA REVIEW FILM DENGAN METODE NAIVE BAYES MENGUNAKAN SELEKSI DOKUMEN BERDASARKAN TERM OBJECTS KEYWORDS” Dengan segala kemauan dan kemampuan yang penulis miliki, Skripsi ini dapat selesai seperti yang diharapkan oleh penulis sendiri. Namun keberhasilan ini tidak terlepas dari bantuan berbagai pihak baik langsung maupun tidak langsung. Penulis sadar bahwa dalam skripsi ini masih banyak kekurangan dan jauh dari kualitas yang sesungguhnya. Untuk itu penulis mengharapkan masukan baik kritik maupun saran yang bersifat membangun. Agar penulisan selanjutnya dapat lebih dipertanggung jawabkan. Penulis mengharapkan skripsi ini dapat lebih bermanfaat bagi kawan-kawan di Universitas Muhammadiyah Malang terutama Jurusan Informatika.
Malang, 12 Desember 2013
(Hafiz Hariadi)
iv
DAFTAR ISI HALAMAN JUDUL................................................................................................ i LEMBAR PERSETUJUAN................................................................................... iii LEMBAR PENGESAHAN ................................................................................... iii LEMBAR PERNYATAAN KEASLIAN .............................................................. iii ABSTRAK ............................................................................................................... i ABSTRACT ............................................................................................................ ii LEMBAR PERSEMBAHAN ................................................................................ iii KATA PENGANTAR ........................................................................................... iv DAFTAR ISI ........................................................................................................... v DAFTAR GAMBAR ........................................................................................... viii DAFTAR TABEL ................................................................................................... x DAFTAR GRAFIK ................................................................................................ xi BAB I PENDAHULUAN ...................................... Error! Bookmark not defined. 1.1 Latar Belakang ..................................... Error! Bookmark not defined. 1.2 Rumusan Masalah ................................ Error! Bookmark not defined. 1.3 Tujuan Penelitian.................................. Error! Bookmark not defined. 1.4 Batasan Masalah ................................... Error! Bookmark not defined. 1.5 Metodologi ........................................... Error! Bookmark not defined. 1.6 Sistematika Penulisan ........................... Error! Bookmark not defined. BAB II LANDASAN TEORI ................................ Error! Bookmark not defined. 2.1
Data Mining ...................................... Error! Bookmark not defined.
2.2
Text Mining ...................................... Error! Bookmark not defined.
2.3
Koleksi Dokumen ............................. Error! Bookmark not defined.
2.3.1 Representasi Feature Pada Dokumen ......... Error! Bookmark not defined. 2.4
Machine Learning Untuk Analisa Opini ......... Error! Bookmark not
defined. 2.4.1 Supervised Learning ..................... Error! Bookmark not defined. 2.5
Opini dan Sentiment Analysis .......... Error! Bookmark not defined.
2.6
Text Preprocessing ............................ Error! Bookmark not defined.
v
2.7
Pendekatan Lexicon Based ............... Error! Bookmark not defined.
2.8
Stemming ........................................... Error! Bookmark not defined.
2.9
Analisis Sentiment Berdasarkan Fitur Dari Obyek Error! Bookmark
not defined. 2.10 Fitur dan Pembobotan ....................... Error! Bookmark not defined. 2.11 Naïve Bayes Classifier (NBC) .......... Error! Bookmark not defined. 2.12 Evaluasi Akurasi ............................... Error! Bookmark not defined. 2.13 Java ................................................... Error! Bookmark not defined. 2.14 Java Library ...................................... Error! Bookmark not defined. 2.15 Weka (Waikato Environment for Knowledge Analysis) ........... Error! Bookmark not defined. 2.15.1 Weka Java Library ...................... Error! Bookmark not defined. BAB III ANALISA DAN PERANCANGAN SISTEM ...... Error! Bookmark not defined. 3.1
Gambaran Proses Klasifikasi ............ Error! Bookmark not defined.
3.2
Data ................................................... Error! Bookmark not defined.
3.3
Persiapan Dokumen .......................... Error! Bookmark not defined.
3.3.1 Converting .................................... Error! Bookmark not defined. 3.3.2 Filtering ........................................ Error! Bookmark not defined. 3.4
Cross Validation ............................... Error! Bookmark not defined.
3.5
Implementasi Naïve Bayes Classifier ............. Error! Bookmark not
defined. 3.6
Gambaran Sistem .............................. Error! Bookmark not defined.
3.7
Analisis Use Case ............................. Error! Bookmark not defined.
3.8
Diagram Activity .............................. Error! Bookmark not defined.
3.8.1 Diagram Activity Dataset............. Error! Bookmark not defined. 3.9
Sequence Diagram ............................ Error! Bookmark not defined.
3.10 Class diagram .................................... Error! Bookmark not defined. 3.11 Entitiy Relational Diagram (ERD) ... Error! Bookmark not defined. 3.12 Desain Database ................................ Error! Bookmark not defined. 3.13 Perancangan User Interface .............. Error! Bookmark not defined. BAB IV IMPLEMENTASI DAN PENGUJIAN ... Error! Bookmark not defined.
vi
4.1
Analisis ............................................. Error! Bookmark not defined.
4.2
Implementasi ..................................... Error! Bookmark not defined.
4.2.1 Implementasi Design Graphic User Interface ... Error! Bookmark not defined. 4.3
Data ................................................... Error! Bookmark not defined.
4.4
K-Fold Cross Validation ................... Error! Bookmark not defined.
4.5
Evaluasi ............................................. Error! Bookmark not defined.
4.6
Hasil .................................................. Error! Bookmark not defined.
BAB V KESIMPULAN DAN SARAN................................................................ Error! Bookmark not defined. 5.1 Kesimpulan........................................... Error! Bookmark not defined. 5.2 Saran ..................................................... Error! Bookmark not defined. DAFTAR PUSTAKA ........................................................................................... xii BIOGRAFI PENULIS ........................................... Error! Bookmark not defined.
vii
DAFTAR GAMBAR Gambar 2.1.Tahapan Proses Text Mining.............. Error! Bookmark not defined. Gambar 2.2. Proses Case Folding ......................... Error! Bookmark not defined. Gambar 2.3. Proses Tokenizing ............................. Error! Bookmark not defined. Gambar 2.4. Proses Filtering.................................. Error! Bookmark not defined. Gambar 2.5. Proses Stemming ............................... Error! Bookmark not defined. Gambar 2.6. Alur Pendekatan Lexicon Based ....... Error! Bookmark not defined. Gambar 2.7. Proses Compiling dan Executing Pada Program Java............... Error! Bookmark not defined. Gambar 3.1.Testing dan Training .......................... Error! Bookmark not defined. Gambar 3.2. Format ARFF .................................... Error! Bookmark not defined. Gambar 3.3. Flow Chart Tahap Pembelajaran Sistem ......... Error! Bookmark not defined. Gambar 3.4. Flow Chart Klasifikasi ...................... Error! Bookmark not defined. Gambar 3.5. Diagram Use Case ............................. Error! Bookmark not defined. Gambar 3.6. Diagram Activity Dataset .................. Error! Bookmark not defined. Gambar 3.7. Diagram Activity Build Model ......... Error! Bookmark not defined. Gambar 3.8. Diagram Activity Test Data .............. Error! Bookmark not defined. Gambar 3.9. Diagram Activity Searching Berdasarkan Keyword ................. Error! Bookmark not defined. Gambar 3.10. Sequence Diagram Filtering ............ Error! Bookmark not defined. Gambar 3.11. Sequence Diagram Build Model ..... Error! Bookmark not defined. Gambar 3.12. Sequence Diagram Proses Data Test ............. Error! Bookmark not defined. Gambar 3.13. Sequence Diagram Searching.......... Error! Bookmark not defined.
viii
Gambar 3.14. Class Diagram ................................. Error! Bookmark not defined. Gambar 3.15. ER Diagram ..................................... Error! Bookmark not defined. Gambar 3.14 Form Utama...................................... Error! Bookmark not defined. Gambar 4.1. Form Utama (Main Form) ................. Error! Bookmark not defined. Gambar 4.2. Tab panel Model................................ Error! Bookmark not defined. Gambar 4.3. Tab panel Test Akurasi .................... Error! Bookmark not defined. Gambar 4.4. Tab panel Result List......................... Error! Bookmark not defined. Gambar 4.5. Tab panel Pencarian Kata .................. Error! Bookmark not defined.
Gambar 4.6. CrossValidation Process .................... Error! Bookmark not defined. Gambar 4.7. Hasil Evaluasi .................................... Error! Bookmark not defined. Gambar 4.8. Pengujian Confusion Matrix ............. Error! Bookmark not defined. Gambar 4.9. Detail Akurasi Class .......................... Error! Bookmark not defined.
ix
DAFTAR TABEL Tabel 2.4. Ilustrasi Proses Penentuan Kategori ...... Error! Bookmark not defined. Tabel 2.5. Term Dokumen Matrix ......................... Error! Bookmark not defined. Tabel 2.6. Model Probabilistik ............................... Error! Bookmark not defined. Tabel 4.1. Dataset ................................................... Error! Bookmark not defined. Tabel 4.2. Hasil Klasifikasi Sesuai Class Menggunakan Filtering ................ Error! Bookmark not defined.
x
DAFTAR GRAFIK Grafik 4.1. Pengaruh Filtering Terhadap Dataset . Error! Bookmark not defined. Grafik 4.2. Kurva ROC ......................................... Error! Bookmark not defined. Grafik 4.3. Hasil Berdasarkan Persentase Klasifikasi Tertinggi Sesuai Class ................................................................................ Error! Bookmark not defined.
xi
DAFTAR PUSTAKA [1]
Gaurav Dubey, Ajay Rana & Jayanthi Ranjan (2013). Summarizing and computing Orientation of user reviews using Bayesian Classification. International Journal of Emerging Technologies in Computational and Applied Sciences (IJETCAS).
[2]
Wibisono, Y. 2005. Klasifikasi Berita Berbahasa Indonesia menggunakan Naïve Bayes Classifier. [Online]. Tersedia di: http://fpmipa. upi. edu/staff/yudi/yudi_0805.pdf. [diunduh: 12 Maret 2013].
[3]
Turban, E., dkk. 2005. Decision Support Systems And Intelligent Systems. Yogyakarta:Andi Offset.
[4]
Liu, B. (2010). Sentiment Analysis: A Multi-Faceted Problem. IEEE Intelligent Systems, 76-80.
[5]
Imam Fahrur Rozi, Sholeh Hadi Pramono dan Erfan Achmad Dahlan .”Implementasi Opinion Mining (AnalisisSentimen) untuk Ekstraksi Data Opini Publik pada Perguruan Tinggi”.Jurnal EECCIS Vol. 6, No. 1, Juni 2012.
[6]
Naive
Bayes
Text
Classification.http://www.nlp.standford.edu/IR-
book/html/htmledition/naive-bayes-text-classification-1.html.
Diakses
tanggal 08 januari 2013. [7]aa http://www2.cs.uregina.ca/~dbd/cs831/notes/confusion_matrix/confusion_ matrix.html. Diakses tanggal 12 Maret 2013. xii
[8]
http://meilisdasari.blogspot.com/2012/04/apa-itu-use-case-activitydiagram-dan.html diakses tanggal12 Maret 2013.
[9]
http://mrofiuddin.blogspot.com/2011/11/pengertian-class-diagram.html. Diakses tanggal12 Maret 2013.
[10] http://fairuzelsaid.wordpress.com/2010/03/16/sistem-basis-dataentityrelationship-diagram-erd/. Diakses tanggal12 Maret 2013. [11] http://www.cs.waikato.ac.nz/~ml/weka/arff.html.
Diakses
tanggal
13
Desember 2013.
[12] Joyce
Jackson.
(2002).
Data
Mining:
A
Conceptual
Overview.
Communications of the Association for Information Systems (Volume 8, 2002)
267-296.
Tersedia
di
http://faculty.wiu.edu/c-
amaravadi/is524/res/dm_c_ov.pdf. Diakses 13 Desember 2013. [13] Payam Refaeilzadeh, Lei Tang, Huan Liu. (2008).Cross Validation.Arizona State University. [14] Fitriyah,Yuni. 2013. Implementasi Agglomerative Hierarchical Clustering Pada Sistem Promosi Katalog Buku Baru Untuk Member Berpotensi Berdasarkan Judul Buku. [15] Kurniawan, Bambang.2012. Klasifikasi Konten Berita Dengan Metode Text Mining. Jurnal Dunia Teknologi Informasi (volume.1, 2012) 14-19. [16] Wen Zhu, Nancy Zeng, And Ning Wang. (2010). Sensitivity, Specificity, Accuracy, Assocoated, Confidence Interval And ROC Analysis With Practical SAS Implementation. Octagon Research Solution, Inc :USA. [17] Eldira, Hervilorra.2010.Web Mining Untuk Pencarian Dokumen Bahasa InggrisMenggunakan Hill Climbing Automatic Cluster. [online]. Tersedia dihttp://repo.eepis-its.edu/733/1/1011.pdf [di unduh 14 Desember 2013]. [18] Anonymous..http://thesis.binus.ac.id/doc/TSA-2012-0002%202.pdf. [diunduh 14 Desember 2013]. [19] The Porter Stemming Algorithm. http://tartarus.org/martin/PorterStemmer/def.txt. [Online]. Diakses tanggal 17 Desember 2013
xiii
xiv