Kode/Nama Rumpun Imu : 123/ Ilmu Komputer
USULAN PENELITIAN DOSEN PEMULA
PENERAPAN ALGORITMA K-MEANS DENGAN SELEKSI FITUR INFORMATION GAIN UNTUK OPTIMASI ANALISIS SENTIMEN MOVIE REVIEW
TIM PENGUSUL
SETYO BUDI, M.KOM
0615097602
DWIYONO ARIFIANTO, S.KOM
0602128104
FAKULTAS ILMU KOMPUTER UNIVERSITAS DIAN NUSWANTORO SEMARANG APRIL 2015 i
HALAMAN PENGESAHAN PENELITIAN DOSEN PEMULA
i
DAFTAR ISI
HALAMAN PENGESAHAN .....................................................................................................i DAFTAR ISI................................................................................................................................i DAFTAR GAMBAR .................................................................................................................iv DAFTAR TABEL ....................................................................................................................... v DAFTAR LAMPIRAN ..............................................................................................................vi RINGKASAN .......................................................................................................................... vii BAB 1. PENDAHULUAN ........................................................................................................ 1 1.1
Latar Belakang ............................................................................................................ 1
1.2
Rumusan Masalah ....................................................................................................... 3
1.3
Batasan Masalah .......................................................................................................... 3
1.4
Tujuan Penelitian......................................................................................................... 3
1.5
Manfaat Penelitian....................................................................................................... 4
1.6
Kontribusi .................................................................................................................... 4
BAB 2. TINJAUAN PUSTAKA ................................................................................................ 4 2.1
Penelitian Terkait ........................................................................................................ 4
2.2
Landasan Teori ............................................................................................................ 7
2.2.1
Analisis Sentimen ................................................................................................ 7
2.2.2
Text Mining .......................................................................................................... 7
2.2.3
Rapid Miner ......................................................................................................... 8
2.2.4
Teknik Clustering ................................................................................................ 9
2.2.5
Algoritma K-Means ........................................................................................... 12
2.2.6
Tentang Movie Review ....................................................................................... 13
2.3
Preprocessing ............................................................................................................ 13
2.4
Seleksi Fitur............................................................................................................... 15
2.5
Pembobotan TF-IDF ................................................................................................. 17
2.6
Cosine similarity ....................................................................................................... 17
BAB 3. METODE PENELITIAN ............................................................................................ 18 3.1
Kerangka pemikiran .................................................................................................. 18 i
3.2
Metode Penelitian ...................................................................................................... 18
BAB 4. BIAYA DAN JADWAL PENELITIAN ..................................................................... 18 4.1
Anggaran Biaya ......................................................................................................... 18
4.2
Jadwal Penelitian ....................................................................................................... 18
DAFTAR PUSTAKA ............................................................................................................... 30
ii
DAFTAR GAMBAR
Gambar 1 : Tampilan area kerja RapidMiner ............................................................................ 9 Gambar 2 : Analisis clustering pada gambar kotak berdasarkan warna .................................. 11 Gambar 3 : Tahapan preprocessing secara umum ................................................................... 14 Gambar 4 : Kerangka Pemikiran.............................................................................................. 18 Gambar 5 : Metode Penelitian ................................................................................................. 18 Gambar 6 : Model yang diusulkan ........................................................................................... 19
iv
DAFTAR TABEL Tabel 1 : Anggaran Biaya ........................................................................................................ 18
v
DAFTAR LAMPIRAN
Lampiran 1 : Justifikasi Anggaran Penelitian .......................................................................... 33 Lampiran 2: Susunan Organisasi Tim Peneliti dan Pembagian Tugas ................................... 34 Lampiran 3: Biodata Ketua dan Anggota ............................................................................... 35 Lampiran 4: Surat Pernyataan Ketua Peneliti ......................................................................... 26
vi
RINGKASAN Website memberikan kemudahan dan kebebasan untuk menyampaikan informasi dan pendapat, kemudian selanjutnya akan disimpan didalam sebuah kumpulan dokumen Dalam kurun waktu yang lama kumpulan dokumen akan semakin bertambah besar, hingga akhirnya ada pemikiran untuk melakukan penambangan dokumen. Penambangan dokumen dari website yang berisi komentar, pendapat, feedback, kritik dan review merupakan hal penting, karena dokumen tersebut berisi informasi yang sangat bermanfaat untuk membantu individu atau organisasi didalam pengambilan sebuah keputusan. Analisis sentimen merupakan suatu proses memahami, mengekstrak, dan mengolah informasi tekstual secara otomatis. Banyak algoritma yang digunakan untuk analisis sentimen movie review namun belum diketahui algoritma yang paling baik kinerjanya, maka dalam penelitian ini akan melakukan penerapan algoritma K-Means dengan seleksi fitur information gain untuk optimasi analisis sentimen movie review.
vii
BAB 1. PENDAHULUAN 1.1 Latar Belakang Website merupakan salah satu media yang tepat sebagai pusat layanan informasi global untuk berbagai informasi (Jiawei & Kamber, 2006). Website memberikan kemudahan dan kebebasan untuk menyampaikan informasi dan pendapat, kemudian selanjutnya akan disimpan didalam sebuah kumpulan dokumen. Dalam kurun waktu yang lama kumpulan dokumen akan semakin bertambah besar, hingga akhirnya ada pemikiran untuk melakukan penambangan dokumen. Penambangan dokumen dari website yang berisi komentar, pendapat, feedback, kritik dan review merupakan hal penting, karena dokumen tersebut berisi informasi yang sangat bermanfaat untuk membantu individu atau organisasi didalam pengambilan sebuah keputusan. Namun kumpulan dokumen yang berasal dari website masih dinyatakan didalam bahasa alami atau natural, sehingga bagi yang membutuhkan memungkinkan untuk membaca dan menganalisis kembali semua review atau kumpulan dokumen yang ada (Li & Liu, 2010). Saat ini, teknik yang berkembang untuk menganalisis kumpulan dokumen adalah analisis sentimen atau opinion mining. Analisis sentimen merupakan suatu proses memahami, mengekstrak, dan mengolah informasi tekstual secara otomatis. Pentingnya analisis sentimen sekarang sangat terasa bagi manusia atau organisasi, hal itu ditandai dengan banyaknya penelitian dan pesatnya perkembangan analisis sentimen, terbukti di Amerika Serikat kurang lebih 20-30 perusahaan menfokuskan pada layanan analisis sentimen, ini membuktikan bahwa mengumpulkan informasi dan selalu mencari tahu tentang hal apa yang orang lain pikirkan merupakan sesuatu hal yang penting (Liu B. , 2010) baik melalui review situs online dan blog pribadi. Ada dua arah penelitian dalam analisis sentimen, yang pertama adalah untuk mengklasifikasikan polaritas suatu teks yang diberikan, apakah yang diungkapkan merupakan opini positif, negatif atau netral, penelitian ini sebelumnya dipelopori oleh (Pang, Lee, & Shivakumar, 2002). Arah penelitian yang kedua adalah identifikasi subjektivitas atau objektifitas, penelitian ini umumnya mengklasifikasikan sebuah teks kedalam satu dari dua kelas yaitu tujuan atau subyektif. Beberapa contoh penelitian yang berhubungan dengan analisis sentimen dan opinion mining, antara lain menganalisa rating movie review dapat digunakan untuk mengetahui tingkat pendapatan dari pemutaran suatu film (Pang, Lee, & Shivakumar, 2002). Review movie dapat dimanfaatkan para penikmat film untuk memutuskan film apa yang akan ditonton, bagi produser film dapat memanfaatkan opini untuk mengetahui penilaian yang 1
diberikan oleh para penikmat film tentang film-film yang paling banyak dikritik. Selain review movie, review sebuah produk dapat membantu perusahaan untuk mempromosikan produk mereka. Dalam bidang politik, opini kebijakan politik dapat membantu politisi untuk memperjelas strategi politik mereka,
dan dengan review twitter dapat digunakan untuk
mengidentifikasi sentimen tentang pariwisata di Thailand selama kerusuhan di awal tahun 2010 (Claster, Cooper, & Sallis, 2010). Tetapi sampai saat ini belum ada teknik supervised learning dan unsupervised learning yang paling akurat untuk analisis sentimen review sebuah film, hal ini seperti yang disampaikan oleh Kucuktunc et al. (Kucuktunc & Bambazoglu, 2012) dalam A Large-Scale Sentiment Analysis for Yahoo! Answers. Dalam perkembangannya, banyak penelitian dengan menggunakan metode atau algoritma yang berbeda, hal ini disebabkan karena masing-masing metode atau algoritma mempunyai perbedaan, baik tingkat akurasi maupun tingkat kecepatannya dalam melakukan proses clustering atau klasifikasi sebuah dokumen. Pada penelitian sebelumnya banyak digunakan teknik supervised learning seperti algoritma SVM (Stylios, 2010;Abbasi, Chen, & Salem, 2008; O’Keefe & Koprinska, 2009; Somayajulu, Reddy, & Dani, 2010; Chen & Chang, 2011) dan algoritma Naive Bayes (Stylios, 2010; Keefe & Koprinska, 2009), algoritma ini digunakan untuk klasifikasi dokumen. Sedangkan teknik unsupervised learning dengan metode clustering, seperti penelitian yang dilakukan oleh Gang Li dan Fei Liu (Li & Liu, 2010)
yaitu suatu metode dimana didalam mengelompokkan dokumen dengan
menggunakan persamaan topik yang dimiliki oleh masing-masing dokumen, dengan tujuan untuk memudahkan pengguna dalam menemukan dokumen yang diinginkan. Penelitian-penelitian terdahulu yang terkait tentang analisis sentimen baik menggunakan teknik supervised learning maupun unsupervised learning adalah (Pang, Lee, & Shivakumar, 2002) melakukan penelitian untuk mengetahui rating film dengan cara melihat dan mengklasifikasikan review ke label positif atau negatif, dataset diambil dari Internet Movie Database (IMDb), menggunakan metode Naïve Bayes Clasifier (NBC), Maximum Entropy (ME) dan Suport Vector Machine (SVM) serta menggunakan pemilihan fitur Unigram, NGram dan Part-of-Speech (POS), hasil penelitian ini menyatakan bahwa algoritma terbaik dan efektif untuk klasifikasi teks adalah SVM sedangkan algoritma terburuk untuk klasifikasi adalah NBC. Christopher et al. (Christopher, Wong, & Chih-Ping, 2009) melakukan penelitian untuk menganalisis klasifikasi review opini pembeli produk di website, metode yang digunakan adalah Class Association Rule, NBC Information Gain dan NBC Chi Square, dengan hasil penelitian bahwa akurasi Class Association Rules adalah 73%, NBC dan Information Gain 2
adalah 76,12% sedangkan NBC Gang Li dan Fei Li (Li & Liu, 2010), melakukan
penelitian
menggunakan
algoritma K-Means dengan menerapkan metode pembobotan TF-IDF, Voting Mechanism dan Importing Term Score. Dataset yang digunakan adalah movie review sebanyak 600 dokumen yang terbagi menjadi 300 dokumen positif dan 300 dokumen negatif. Dalam penelitian ini hasil yang diperoleh adalah bahwa clustering dokumen dengan menggunakan algoritma
K-Means memiliki keunggulan lebih baik dibanding jenis pendekatan symbolic
techniques dan metode supervised learning, dengan akurasi 77.17% - 78.33%. Berdasarkan kenyataan-kenyataan yang telah dipaparkan diatas, banyak metode atau algoritma yang digunakan untuk analisis sentimen, namun belum diketahui
algoritma
supervised learning atau unsupervised learning yang paling akurat untuk analisis sentimen, maka
dalam
penelitian
ini akan melakukan
analisis
sentimen movie review
menggunakan algoritma K-Means dengan seleksi fitur Information Gain. 1.2 Rumusan Masalah Berdasarkan uraian latar belakang diatas dirumuskan suatu permasalahan yaitu banyak metode atau algoritma yang digunakan untuk analisis sentimen, namun belum diketahui tingkat akurasi algoritma K-Means dengan seleksi fitur Information Gain, maka penelitian ini akan melakukan
didalam
penerapan algoritma K-Means dengan seleksi fitur
information gain untuk optimasi analisis sentimen movie review. 1.3 Batasan Masalah Batasan masalah dalam penelitian ini adalah sebagai berikut :
Konsentrasi pada penelitian analisis sentimen movie review untuk mengetahui kinerja algoritma K-Means dengan seleksi fitur information gain pada proses clustering dokumen movie review.
Dataset yang digunakan adalah dalam bentuk dokumen inggris.
Menggunakan dataset movie review dalam bahasa inggris, yang terdiri dari 300 dokumen berkategori positif dan 300 berkategori dokumen negatif yang diunduh dari http://www.cs.cornell.edu/people/pabo/movie-review-data/.
1.4 Tujuan Penelitian Berdasarkan latar belakang dan rumusan masalah diatas, maka tujuan penelitian ini adalah melakukan penerapan algoritma K-Means dengan seleksi fitur information gain
untuk
optimasi analisis sentimen movie review , sehingga diketahui tingkat akurasi algoritma K-Means. 3
1.5 Manfaat Penelitian Manfaat dari penelitian ini adalah sebagai berikut: 1. Diharapkan dapat bermanfaat bagi penelitian selanjutnya tentang analisis sentimen movie review. 2. Diharapkan dapat memberikan sumbangan pengetahuan yang berhubungan dengan seleksi fitur untuk sentimen analisis. 3. Diharapkan dapat memberikan sumbangan pengetahuan yang berkaitan dengan clustering dokumen tentang analisis sentimen. 1.6 Kontribusi Kontribusi yang diperoleh dari penelitian ini adalah diketahui tingkat akurasi algoritma K-Means dengan menggunakan seleksi fitur Information Gain untuk analisis sentimen movie review, sehingga dapat dijadikan referensi untuk penelitian-penelitian selanjutnya. BAB 2. TINJAUAN PUSTAKA 2.1 Penelitian Terkait Bertambahnya dokumen di website dari waktu ke waktu semakin bertambah tanpa melihat besarnya dokumen. Hal ini menyebabkan banyaknya penelitian untuk menggali dokumen agar dapat diambil manfaatnya. Metode dan algoritma yang digunakan juga berbeda-beda antara satu peniliti dengan peneliti lainnya, tujuannya adalah untuk mendapatkan algoritma atau metode yang paling baik kinerjanya baik itu untuk teknik clustering maupun teknik klasifikasi. Selain metode dan algoritma yang berbeda, dataset yang digunakan peneliti juga berlainan, ada yang menggunakan movie review (Reddy, Somayajulu, & Dani, 2010; Chaovalit & Zhou, 2005; Kucuktunc & Bambazoglu, 2012), data blog dan media sosial (Vidhya & Aghila, 2010; Al-Subaihin, Al-Khalifa, & Al-Salman, 2011; Boiy, Hens, Deschacht, & Moens, 2007). Berikut ini adalah beberapa penelitian yang terkait tentang analisis sentimen yang diambil dari beberapa jurnal dan artikel, secara garis besar tinjauan studi dalam tesis ini yaitu penelitian yang dilakukan oleh Pang et al. (Pang, Lee, & Shivakumar, 2002) yang berjudul Thumbs up? Sentiment Classification using Machine Learning Techniques,
membahas
tentang penelitian untuk mengetahui rating sebuah film dengan mengklasifikasikan review ke label positif atau negatif dari sebuah film, dataset yang digunakan adalah Internet Movie Database (IMDb). Penelitian ini memanfaatkan metode klasifikasi machine learning Naïve Bayes Clasifier (NBC), Maximum Entropy (ME) dan Support Vector Machine (SVM) serta
4
menggunakan seleksi fitur unigram, n-gram dan Part-of-Speech (POS). Dari pengukuran kinerja yang dilakukan, diketahui bahwa algoritma terbaik dan efektif untuk klasifikasi teks adalah SVM, sedangkan NBC adalah algoritma yang terbutuk untuk klasifikasi. Songbo Tan dan Zhang Jin (Tan & Zhang, 2007),
melakukan penelitian tentang
sentimen corpus bahasa china sebanyak 1.021 dokumen, menggunakan 4 metode feature selection tradisional (DF, CHI, MI, IG) dan 5 metode machine learning (Centroid Classifier, K-Nearest Neighbor (K-NN), Naïve Bayes, Winnow Classifier, SVM classifier,
hasil
penelitian ini menunjukkan bahwa Information Gain (IG) melakukan yang terbaik dalam seleksi fitur dan SVM menunjukkan kinerja terbaik untuk klasifikasi sentimen. Selanjutnya Abasi et al. (Abbasi, Chen , & Salem , 2008) mereka melakukan penelitian tentang klasifikasi sentiment berbagai bahasa dengan menggunakan pendekatan SVM dan pemilihan fitur Entropy Weighted Genetic Algorithm (EWGA), Information Gain (IG) dan Genetic Algorithm (GA), mereka mengembangkan feature selection EWGA dengan memanfaatkan informasi yang dihasilkan dari IG. Dataset untuk klasifikasi yang mereka gunakan adalah bahasa inggris dan bahasa arab. Akurasi tertinggi yang mereka dapatkan adalah sebesar 91,7% untuk EWGA. Penelitian Jingnian et al. (Chen, Huang, Tian, & Qu, 2009) mereka melakukan penelitian dengan menkomparasi beberapa metode feature selection seperti information gain (IG), Multi-class Odds Ratio (MOR) dan Class Discriminating Measure (CDM), Extended Odds Ratio (EOR), Weighted Odds Ratio (WOR) dan MC-OR. Menggunakan multikelas dataset yaitu dataset routers dan dataset bahasa china. Akurasi tertinggi yang mereka dapatkan adalah dengan pemilihan fitur CMD dengan akurasi sebesar 85,60 %. Adapting Naive Bayes to Domain Adaptation for Sentiment Analysis 2009 dilakukan oleh Songbo Tan et al. (Tan & Zhang,2009). Membahas tentang sentiment analysis dengan menggunakan teknik supervised learning. Teknik ini masih memiliki kekurangan yaitu melakukan pekerjaan sangat buruk ketika dipindahkan ke domain lain atau yang disebut dengan Frequently Co-Occurring Entropy. Penelitian mereka menggunakan dataset 3 dominan dalam bahasa cina yaitu pertama : ulasan pendidikan dengan jumlah dokumen negatif sebanyak 1.012 dan jumlah dokumen positif sebanyak 254, kedua: ulasan stok barang dengan jumlah dokumen negatif sebanyak 683 dan jumlah dokumen positif sebanyak 364, dan ketiga : ulasan tentang berita komputer dengan jumlah dokumen negatif sebanyak 390 dan jumlah dokumen positif sebanyal 544. Metode yang digunakan adalah Adaptation Naïve Bayes (ANB) dan Naïve Bayes Transfer Classifier (NTBC), hasil penelitian menerangkan
5
bahwa ANB meningkatkan kinerja klasifikasi secara dramatis bahkan memberikan kinerja yang jauh lebih baik dibanding Naïve Bayes Transfer Classifier (NTBC). Kemudian Tim O’Keefe dan Irena Koprinska (O’Keefe & Koprinska, 2009), melakukan penelitian sentiment analysis dengan mengevaluasi seleksi fitur dan metode pembobotan, tetapi banyak potensi aplikasi sentiment analysis saat ini yang tidak layak karena ditemukan fitur dengan jumlah yang besar dalam standar corpora. Mereka memperkenalkan dua metode feature selection yaitu SentiWordNet Subjectivity Scores (SWNSS) dan SentiWordNet Proportional Difference(SWNPD), serta tiga metode pembobotan fitur yaitu SentiWordNet Word Score Groups (SWN-SG), SentiWordNet Word Polarity Groups (SWN-PG) dan SentiWordNet Word Polarity Sums (SWN-PS), kemudian dibandingkan dengan metode FF, FP and TF-IDF, dengan menggunakan dua metode pengklasifikasi yaitu NB dan SVM dengan dataset movie review yang menjadi standar untuk analisis sentimen. Hasil dari penelitian mereka bahwa metode yang mereka usulkan mempu mempertahankan state-of-theart dengan keakuratan klasifikasi dokumen 87.15%. Siva et al. (Reddy, Somayajulu, & Dani, 2010) melakukan penelitian klasifikasi movie review dengan dataset dari IMDb, empat metode klasifikasi digunakan yaitu Naïve Bayes (NB), Support Vector Machine (SVM), Complemented Naïve Bayes (CNB) dan Discriminative Using Bayesian Networks (DPBN) dengan seleksi fitur Information Gain (IG). Hasil penelitian mereka bahwa akurasi Complemented Naïve Bayes classifier (CNB) adalah (94,85%), NB (89.25%), Discriminative Partitioning Using Bayesian Networks (DPBN) (93.25) dan SVM (88.55%). Gang Li dan Fei Li (Li & Liu, 2010), melakukan penelitian menggunakan algoritma KMeans dengan menerapkan metode pembobotan TF-IDF, Voting Mechanism dan Importing Term Score. Dataset yang digunakan adalah review film sebanyak 600 dokumen yang terbagi menjadi 300 dokumen positif dan 300 dokumen negatif. Dalam penelitian ini hasil yang diperoleh adalah bahwa clustering dokumen dengan menggunakan algoritma
K-Means
memiliki keunggulan lebih kompetitif dibanding jenis pendekatan symbolic techniques dan metode supervised learning, dengan akurasi 77.17% - 78.33%, lebih efesiensi waktu dan tidak ada partisipasi manusia. Selanjutnya Bruno et al. (Ohana & Brendan, 2011) melakukan penelitian tentang klasifikasi sentiment dengan pendekatan SVM berbasis fitur seleksi yang digunakan untuk menambah kecepatan klasifikasi berdasarkan perhitungan bobot atribut.
Dataset yang
digunakan sama seperti (Pang, Lee, & Shivakumar, 2002) validasi dan evaluasi mereka menggunakan teknik 10-fold cross validation. Penelitian ini memperoleh rata-rata akurasi 6
sebesar 85,39% untuk SVM menggunakan semua fitur, setelah penghapusan fitur mereka membatasi data yang diambil nilai terbaik yang ditemukan selama pengujian parameter berjumlah 1800 fitur disimpan menggunakan bobot berbasis korelasi, yang menghasilkan akurasi 85,49%. 2.2 Landasan Teori 2.2.1 Analisis Sentimen Analisis sentimen atau juga bisa disebut opinion mining adalah suatu proses memahami, mengekstrak, dan mengolah data tekstual secara otomatis, atau merupakan studi komputasi pendapat, perasaan dan emosi yang dinyakan dalam bentuk teks.
Informasi tekstual
dikategorikan menjadi dua : fakta dan opini. Fakta merupakan ekpresi obyektif mengenai suatu entitas, kejadian atau sifat, sedangkan opini adalah ekspresi subyektif yang menggambarkan sentimen orang, pendapat atau perasaan tentang sebuah entitas, kejadian atau sifat (Liu B. , 2010). Analisis Sentimen bertujuan untuk mengekstrak atribut dan komponen dari objek yang telah dikomentari di dalam setiap dokumen dan untuk menentukan apakah komentar tersebut positif, negatif atau netral (Lee & Pang, 2008). Ada dua cara untuk pertambangan pendapat yaitu dengan machine learning dan semantic orientation (Al-Subaihin, Al-Khalifa, & AlSalman, 2011). Machine learning dilakukan dengan cara mengumpulkan dan menyeleksi opini yang ada di web, kemudian opini-opini tersebut diberikan label positif dan negatif, sedangkan semantic orientatition merupakan kebalikan dari machine learning dan digunakan secara realtime. 2.2.2 Text Mining Seringkali studi data mining diprioritaskan pada pengolahan data yang terstruktur antara lain data relasioanal, transaksional dan data warehouse. Tetapi pada kenyataanya banyak data yang berupa informasi dan dokumen yang tersimpan didalam basis teks atau basis dokumen. Banyaknya data ini bisa berasal dari berbagai sumber seperti review, opini, berita, paper, buku, perpustakaan digital, pesan e-mail dan halaman web. Sehingga untuk mengambil intisari dari kumpulan teks dan dokumen dibutuhkan suatu teknik yang disebut text mining. Teknik ini merupakan suatu proses pengambilan intisari dari dokumen teks sehingga didapatkan hasil yang berguna untuk tujuan tertentu (Witten, Frank, & Hall, 2011). Text mining merupakan riset yang tergolong baru dan merupakan salah satu bidang dari data mining yang saat ini terus berkembang. Sesuai dengan buku The Text Mining Handbook 7
(Francis & Flynn, 2010), text mining dapat didefinisikan sebagai suatu proses menggali informasi dimana seorang user berinteraksi dengan sekumpulan dokumen menggunakan tools analisis yang merupakan komponen-komponen dalam data mining yang salah satunya adalah kategorisasi. Perbedaan antara data mining dengan text mining adalah terletak pada dataset yang digunakan, didalam data mining dataset yang digunakan bersifat terstruktur tetapi didalam text mining data yang digunakan bersifat tidak terstruktur (Francis & Flynn, 2010). Karena data yang tidak tersetruktur inilah diperlukan text mining yang dapat memberikan solusi baru dalam hal pemrosesan, pengelompokan atau pengorganisasian dan analisis teks untuk kumpulan dokumen yang sangat besar. Kegiatan riset untuk text mining antara lain ekstraksi dan penyimpanan teks, preprocessing akan konten teks, pengumpulan data statistic, indexing dan analisa konten. Proses text mining meliputi kategori teks, text clustering, ekstraksi konsep/entitas, produksi taksonomi granular, sentiment analisys, penyimpulan dokumen dan pemodelan relasi entitas. Tujuan yang akan dicapai didalam text mining adalah untuk menemukan pola yang berguna dalam sebuah kumpulan dokumen. 2.2.3 Rapid Miner Tools yang digunakan didalam penelitian ini adalah framework RapidMiner. Perangkat lunak ini dibuat oleh Dr. Markus Hofmann dari Institute of Technology Blanchardstown dan Ralf Klinkenberg dari rapid-i.com dengan tampilan yang menarik dan sudah menggunakan GUI (Graphical User Interface). RapidMiner menyediakan software, solusi dan layanan di bidang analisis prediktif, data mining, dan text mining. RapidMiner akan memudahkan pengguna dalam menggunakan perangkat lunak ini. Gambar 1 merupakan tampilan area kerja RapidMiner.
Perangkat lunak ini bersifat open source dan dibuat dengan menggunakan
bahasa Java di bawah lisensi GNU Public License dan RapidMiner dapat dijalankan di sistem operasi manapun. Dengan menggunakan RapidMiner, tidak dibutuhkan kemampuan khusus harus bisa membuat program, karena semua fasilitas sudah disediakan. Model yang disediakan juga cukup lengkap, seperti model Clustering, Fitute Selection, Bayesian Modelling, Tree Induction, Neural Network dan lain-lain. Banyak metode yang disediakan oleh RapidMiner mulai dari klasifikasi, Clustering, asosiasi dan lain-lain. Di antara pengguna perusahaan terkenal seperti Ford, Honda, Nokia, Miele, Philips, IBM, HP, Cisco, Merrill Lynch, BNP Paribas, Bank of America, Mobilkom Austria, Akzo Nobel, Aureus Pharma, PharmaDM, Cyprotex, Celera, Revere, LexisNexis, Mitre dan masih banyak model bisnis open-source dari Rapid-I. 8
Gambar 1 : Tampilan area kerja RapidMiner
2.2.4 Teknik Clustering Dalam “Data Mining Cluster Analysis: Basic Concepts and Algorithms “, Tan et al. membagi clustering menjadi dua kelompok, yaitu hierarchical and partitional clustering. Partitional Clustering disebutkan sebagai pembagian obyek-obyek data ke dalam kelompok yang tidak saling overlap sehingga setiap data berada tepat di satu cluster. Hierarchical clustering adalah sekelompok cluster yang bersarang seperti sebuah pohon hirarki. William (Williams, 2006) membagi algoritma clustering ke dalam kelompok besar adalah sebagai berikut: 1. Partitioning algorithms merupakan kelompok Algoritma yang membentuk bermacam partisi dan kemudian mengevaluasinya dengan berdasarkan beberapa kriteria. 2. Hierarchy algorithms merupakan kelompok algoritma dengan proses pembentukan dekomposisi hirarki dari sekumpulan data menggunakan beberapa kriteria. 3. Density-based merupakan kelompok algoritma dengan pembentukan cluster berdasarkan pada koneksi dan fungsi densitas. 4. Grid-based merupakan kelompok algoritma dengan proses pembentukan cluster berdasarkan pada struktur multiple-level granularity 5. Model-based: sebuah model dianggap sebagai hipotesa untuk masing-masing cluster dan model yang baik dipilih diantara model hipotesa tersebut. Clustering dapat dianggap suatu proses yang penting didalam metode unsupervised learning 9
(Jain, Murty, & Flynn, 1999) yaitu proses pengelompokan dokumen berdasar pada kesamaan topik (Al-Mubaid & Umair, 2006) antara cluster yang satu dengan yang lainnya. Xu dan Wunsch (Xu & Wunsch, 2009) menyatakan bahwa pengelompokan clustering objek kedalam beberapa kelompok (cluster) yang mempunyai sifat homogen atau dengan variasi sekecil mungkin adalah diperlukan karena dapat memudahkan analisis data. Tujuan utama dari clustering dokumen adalah untuk membagi dokumen menjadi beberapa kelompok dimana dokumen didalam kelompok yang sama mempunyai kemiripan satu dengan yang lainnya berdasarkan kemiripan dari kemunculan term. Keuntungan yang diperoleh dari proses clustering adalah dapat menarik pola dan struktur secara langsung yang ditemukan dari dataset yang sangat besar (Velmurugan & Santhanam, 2010), dengan clustering maka dapat dilakukan analisis pola-pola, mengelompokkan, membuat keputusan dan machine learning termasuk data mining, document retrieval, segmentasi citra serta klasifikasi pola. Metodologi clustering cocok untuk eksplorasi hubungan antar data untuk membuat penilaian terhadap suatu struktur. Contoh hasil analisis clustering ditampilkan
pada gambar kotak yang dikelompokkan menjadi tiga
berdasarkan warna seperti yang disajikan pada Gambar 2.1. Teknik clustering dokumen merupakan teknik yang lebih spesifik dari pengorganisasian unsupervised dokumen, otomatis ekstraksi topik serta pengambilan dan penyaringan informasi secara cepat (Boiy, Hens, Deschacht, & Moens, 2007; Zamir, Oren, Madani, & Karp, 1997). Contoh pemakaian teknik clustering adalah digunakan pada search engine web untuk mengelompokkan dokumen secara otomatis pada sebuah daftar kategori yang memudahkan untuk memperoleh keterkaitan informasi yang relevan, dibidang pemasaran clustering dapat membantu penjual menemukan kelompok yang berbeda dari pusat pelanggan mereka kemudian menggunakan ilmu pengetahuan untuk mengembangkan program penjualan sehingga penjualan dapat dipenuhi, dibidang perencanaan kota metode clustering dapat digunakan untuk mengidentifikasi kelompok rumah sesuai dengan tipe rumah, harga dan lokasi geografis.
10
Gambar 2 : Analisis clustering pada gambar kotak berdasarkan warna Terdapat dua pendekatan atau tipe pada teknik clustering yaitu partitional clustering dan hirerarchical clustering. Dalam partitional clustering kita kelompokkan objek x1,x2,......,xn kedalam sebuah k cluster. Hal ini bisa dilakukan dengan menentukan pusat cluster awal, kemudian dilakukan relokasi objek berdasarkan kriteria tertentu sampai dicapai pengelompokan yang maksimal, sedangkan pada hirerarchical clustering dimulai dengan membuat m cluster, dimana setiap cluster beranggotakan satu objek, dan berakhir dengan satu cluster dimana anggotanya adalah m objek. Pada setiap tahap dalam prosedurnya, satu cluster digabung dengan satu cluster lainnya. Kita bisa memilih berapa jumlah cluster yang diinginkan dengan menentukan pemotongan untuk berhenti pada tingkat tertentu. Dasar dari tahapan dalam clustering dokumen adalah preprocessing, term weighting baru kemudian penerapan algoritma clustering yang kita tentukan. Tahap preprocessing akan menghasilkan kumpulan term yang nantinya akan diberikan bobot atau nilai dimana bobot tersebut mengindikasikan pentingnya sebuah term terhadap dokumen. Semakin sering term muncul pada koleksi dokumen, maka semakin tinggi nilai atau bobot term tersebut, maka kemudian pemberian bobot dapat disebut term weighting. Hasil dari pemberian bobot atau term weighting adalah menghasilkan sebuah matrik term dokumen dengan dimensi mxn, dimana m adalah jumlah term dan n adalah jumlah dokumen, maka model ini bisa disebut model ruang vektor atau vector space model. Beberapa algoritma untuk clustering telah diusulkan oleh para peneliti (Berkhin, 2002; Xiong, 2009; Borah & Ghose, 2009; Rakhlin & Caponnetto, 2007), contoh aplikasi yang menerapkan clustering adalah pengenalan pola, analisis data spatial, pemrosesan gambar, aplikasi ilmu ekonomi (terutama riset pasar), aplikasi web meliputi klasifikasi dokumen dan weblog cluster. 11
2.2.5 Algoritma K-Means Metode K-Means diperkenalkan oleh James B Mac Queen pada tahun 1967 dalam Proceding of the 5th Berkeley Symposium on Mathematical Statistics and Probability (MacQueen, 1967). K-Means merupakan suatu metode untuk menganalisa data atau metode data mining dimana dalam melakukan proses pemodelan tanpa supervisi (unsupervised) dan merupakan salah satu metode yang melakukan pengelompokan data dengan sistem partisi. K-Means adalah salah satu teknik unsupervised learning yang paling sederhana dan baik untuk memecahkan masalah clustering (Velmurugan & Santhanam, 2010). Prinsip utama dari algoritma K-Means adalah mengelompokkan dokumen dalam beberapa cluster. Banyaknya centroid menentukan jumlah cluster yang akan dihasilkan. Tujuan dari algoritma ini adalah meminimalkan tujuan suatu fungsi, dalam hal ini adalah sebuah kuadrat kesalahan fungsi. Berikut adalah pseudocode dari algoritma K-Means. Algoritma K-Means Clustering Input : Koleksi Dokumen D={d1, d2, d3, … dn}; Jumlah cluster (k) yang akan dibentuk; Output : k cluster; Proses : 1. Memilih k dokumen untuk dijadikan centroid (titik pusat cluster) awal secara random; 2. Hitung jarak setiap dokumen ke masing-masing centroid menggunakan persamaan cosines similarity (persamaan 3) kemudian jadikan satu cluster untuk tiap-tiap dokumen yang memiliki jarak terdekat dengan centroid; 3. Tentukan centroid baru dengan cara menghitung nilai rata-rata dari data-data yang ada pada centroid yang sama; 4. Kembali ke langkah 2 jika posisi centroid baru dan centroid lama tidak sama; 2.2.5.1 Keunggulan K-Means Ada beberapa keunggulan dari algoritma K-Means antara lain K-Means memiliki kelebihan yaitu relatif lebih efesien dan mempunyai kemampuan lebih cepat dalam memproses dataset yang besar dan K-Means mudah dipahami dan diimplementasikan, mampu mengelompokan objek yang besar dan noise
dengan sangat cepat sehingga mempercepat proses
pengelompokan.
12
2.2.5.2 Kelemahan K-Means Algoritma K-Means mempuanyai beberapan kelemahan yaitu dalam iterasinya algoritma ini akan berhenti dalam kondisi optimum lokal (Williams, 2006), mengharuskan didalam menentukan banyaknya cluster yang akan dibentuk, hanya dapat digunakan dalam data meannya, dan tidak mampu menangani data yang mempunyai noise atau outlier. 2.2.6 Tentang Movie Review Internet Movie Database atau IMDb adalah situs yang diciptakan Col Needham 20 tahun lalu. Needham adalah seorang pencinta film yang pada waktu bekerja di salah produsen hardware komputer yaitu Hewlett Packard, diluncurkan pada tahun 1990. Tahun 1999, IMDb.com memenangkan Webby Award dan kemudian miliki oleh Amazon.com. Kini, IMDb adalah salah satu situs yang paling besar dan paling lengkap untuk segala hal yang berhubungan dengan film dan produksi film. The Internet Movie Database adalah database film terbesar di Website, menampilkan film terbaik, berita film, movie review, trailer film, jadwal pemutaran film, review film DVD, profil selebriti, dll. Internet Movie Database (IMDb) benar-benar merupakan tempat penyimpanan terbesar tentang informasi film. Sehingga dengan populernya IMDb, maka dalam penelitian ini dataset yang digunakan adalah
movie
review
dalam
teks
berbahasa
inggris
http://www.cs.cornell.edu/people/pabo/movie-review-data/.
yang
Dataset
diambil tersebut
dari sudah
dikelompokkan didalam dua kelompok yaitu kelompok movie review yang berkategori positif dan kelompok movie review yang berkategori negatif, jumlah masing-masing kelompok ada 1000 dokumen. 2.3 Preprocessing Dalam pengolahan text mining salah satu langkah awal yang perlu dilakukan
adalah
preprocessing. Preprocessing merupakan tahapan untuk mengukur struktur isi dari suatu dokumen kedalam format yang sesuai yaitu berupa kumpulan term (Suanmali, Salim, & Binwahlan, 2008) untuk selanjutnya diproses kedalam algoritma clustering. Preprocessing biasanya dilakukan dengan menghilangkan stopword ( term yang tidak signifikan ) dan proses stemming (Wajeed & Adilakshmi, 2005 - 2009). Preprocessing digunakan untuk menghasilkan data training yang menghasilkan sejumlah tuple (record) dan class, sehingga dapat digunakan untuk menggolongkan nilai suatu opini kedalam kategori positif dan negatif. Tahapan umum preprocessing adalah seperti pada Gambar 2.
13
Tokenizing
Filtering
Analysing
Stemming
Tagging
Gambar 3 : Tahapan preprocessing secara umum 1.
Tokenizing Tokenizing merupakan proses pemenggalan susunan term dari suatu kalimat menjadi kumpulan token, menghilangkan karakter selain huruf seperti angka dan tanda baca, serta karakter angka dan tanda baca dianggap sebagai delimiter atau pemisah. Proses tokenizing dapat dilihat pada contoh dibawah ini. Teks Input : “Studying the Text Mining “ studying the text mining
Hasil Tokenizing
2.
Filtering Stopword Dalam tahap stopword, kata-kata yang tidak relevan dalam suatu topik, atau kata-kata yang tidak mendeskripsikan suatu dokumen akan dihilangkan, contohnya antara lain kata-kata : “a”,”and”,”are”,”the” dan yang lainnya. Contoh stopword sebagai berikut. Teks Input : “Studying the text mining “ studying
3.
Hasil Filtering
text
Stopword
mining
Stemming Filtering Steming merupakan bagian dari preprocessing yang digunakan untuk mencari kata dasar dengan cara mengubah kata berimbuhan menjadi kata dasarnya, dengan tujuan untuk meningkatkan kualitas informasi. Kualitas informasi yang dimaksud adalah hubungan diantara kata itu sendiri, misalnya “writing”, “write”, “writed”, yang semula adalah kata yang berbeda, tetapi dengan adanya stemming, kata tersebut menjadi ‘write’, sehingga
14
ada hubungan antara ketiga kata tersebut. Selain itu, space yang digunakan untuk penyimpanan juga menjadi lebih kecil, contoh stemming sebagai berikut :
4.
Hasil Stopword
Hasil Stemming
studying
study
text
text
mining
mine
Tagging Tagging adalah tahap mencari bentuk awal / root dari tiap kata lampau atau kata hasil stemming. Tagging biasanya dipakai untuk bahasa inggris. Contoh stemming sebagai berikut.
Was used stori 5.
Be Use story
Analysing
Tahap analysing merupakan tahap akhir untuk menentukan seberapa jauh kedekatan atau kemiripan antar kata-kata atau antar dokumen yang ada. Pada tahap ini dilakukan representasi nilai numerik yaitu dengan melakukan pembobotan tf-idf dan model ruang vector (vector space model ). Setelah itu dari vektor yang sudah diukur kemiripannya (similarity) dengan menghitung cosines sudut antar vector query, sehingga diperoleh nilai dengan range antara 0 sampai 1. Nilai semakin mencapai angka 1 maka dokumen tersebut semakin sama. 2.4 Seleksi Fitur Feature Selection adalah salah teknik terpenting dan sering digunakan dalam pre- processing data mining (Kira & Rendel, 1992), khususnya untuk knowledge discovery maupun discovery scince. Tujuan dari feature selection adalah untuk mengurangi jumlah fitur yang terlibat dalam hal untuk menentukan suatu nilai kelas target, mengurangi fitur yang tidak sesuai, fitur yang berlebihan dan data yang menyebabkan salah pengertian terhadap menentukan kelas target yang mempunyai efek mempercepat proses aplikasi. Hasil yang didapat dari seleksi fitur adalah untuk mempercepat dan meningkatkan kinerja proses mining, contohnya adalah proses prediksi. Feature adalah seluruh kata yang muncul dalam training set. Set ini biasanya
15
sangat besar yaitu satu dimensi untuk setiap kata unik sehingga memiliki feature space yang sangat besar. Feature selection adalah metode untuk mereduksi dimensi feature space dengan cara memilih kata-kata yang paling berkualitas. Salah satu metode yang terbukti sangat efektif dalam melakukan supervised feature selection diantaranya adalah Information Gain (IG) dan Chi Square (CHI) (Liu at al., 2003). Didalam penelitian ini seleksi fitur yang digunakan adalah Information Gain (IG). Pada tahap ini, atribut yang akan diolah harus diminimalisasi terlebih dahulu dengan tujuan untuk membuang atribut yang tidak perlu sehingga hanya atribut yang mempunyai relevansi kuat yang akan diproses, sehingga efisiensi space dan waktu dapat dicapai dan kualitas data yang dihasilkan lebih baik. Salah satu cara untuk mereduksi atribut adalah dengan information gain. Information gain adalah pengukuran yang dilakukan untuk menyeleksi atribut. Info(D)=-
log2 pi
(1)
Dalam hal ini pi adalah probabilitas sebuah tuple pada D masuk ke kelas Ci dan diestimasi dengan |Ci,D|/|D|. Fungsi log diambil berbasis 2 karena informasi dikodekan berbasis bit. Misal S adalah himpunan beranggotakan s data. Misalkan label atribut yang mendefinisikan kelas memiliki m nilai berbeda yang mendefinisikan m kelas Ci (untuk i=1,2,..,m) berbeda. Misalkan Si adalah jumlah sampel S yang masuk ke dalam kelas Ci. Berdasarkan (1) maka informasi yang diharapkan perlu untuk mengklasifikasi suatu sampel yang diberikan adalah: (S1,S2,.....,Sm)= -
log2 pi
(2)
Yang mana pi adalah peluang suatu sampel sembarang yang masuk ke kelas ci dan ditaksir dengan si / s. Misalkan atribut A yang bukan atribut suatu kelas, memiliki v buah nilai yang berbeda yaitu {a1, a2, …,av}. Atribut A dapat digunakan untuk memisahkan S ke dalam v subset Sj yaitu {S1, S2, …,Sv}, dalam hal ini Sj memuat sampel-sampel didalam S yang memiliki nilai aj dari A. Jika atribut A dipilih sebagai atribut uji maka subset-subset tersebut akan berhubungan dengan cabang-cabang yang turun dari simpul yang memuat himpunan S. Misalkan Sij adalah jumlah sampel dari kelas Ci di dalam suatu subset Sj. Entropi atau informasi harapan berdasarkan pemisahan ke dalam subset-subset A dihitung dengan: E(A) =
/ (S1j,S2j...,Smj)
(3)
, bentuk ini bertindak sebagai pemberat dari subset j dan merupakan jumlah sampel di dalam subset tersebut (yang memiliki nilai aj dari A) dibagi dengan jumlah total sampel di dalam S. Semakin kecil nilai entropi maka semakin murni pemisahan subset.. 16
2.5 Pembobotan TF-IDF Sering munculnya term dalam dokumen dapat digunakan sebagai proses untuk melakukan perhitungan sehingga diketahui penting atau tidaknya suatu kalimat. Proses perhitungan bisa dilakukan setelah dokumen direpresentasikan kedalam bentuk nilai numerik dokumen oleh Vector Space Model dan TF-IDF. Skor kalimat dapat dihitung sebagai jumlah dari skor/nilai kata dalam kalimat tersebut (Suanmali, Salim, & Binwahlan, 2008). Salah satu algoritma yang dipakai untuk menghitung skor atau pembobotan sebuah term dalam suatu dokumen adalah TF-IDF (Term Frequency-Inversed Document Frequency) (Yates & Neto, 1999). TF (Term Frekuency) adalah banyaknya kemunculan suatu term dalam dokumen. IDF (Inverse Document Frequency) adalah perhitungan logaritma antara pembagian jumlah total dokumen dengan cacah dokumen yang mengandung term, dan TF-IDF adalah perkalian antara TF dengan IDF. Semakin besar bobot TF-IDF pada suatu term, maka semakin penting term tersebut untuk bisa digunakan pada tahapan klasifikasi atau clustering dokumen. TF-IDF weighting menghitung term dari dokumen yang diwujudkan sebagai sebuah vector dengan elemen sebanyak term yang berhasil dideteksi pada proses penghilangan stopword dan stemming. Vector tersebut beranggotakan bobot dari tiap term yang dihitung berdasarkan metode ini. Formula yang digunakan untuk menghitung bobot adalah seperti persamaan dibawah ini:
wij = tf ij × ( log (D /df j ) + 1 )
(4)
D
= total dokumen
df
= banyak dokumen yang mengandung kata yang dicari
tf
= banyaknya kata yang dicari pada sebuah dokumen
2.6 Cosine similarity Cosine similarity salah satu metode untuk mengukur kemiripan teks yang sering digunakan adalah cosine similarity (Tata & Patel M, 2007 ). Ukuran ini menghitung nilai cosinus sudut antara dua vektor. Jika terdapat dua vektor dokumen dj dan query q, serta term diekstrak dari koleksi dokumen maka nilai cosinus antara dj dan q didefinisikan pada persamaan 5 dan 6.
(5)
Similiraty (Q,Di )
=
(6)
17
BAB 3. METODE PENELITIAN 3.1 Kerangka pemikiran Permasalahan yang ada dalam sebuah penelitian akan menimbulkan cara bagaimana menyelesaikan masalah tersebut. Permasalahan didalam penelitian ini adalah belum diketahuianya kinerja algoritma K-Means dengan seleksi fitur untuk analisis sentimen movie review. Adapun tools yang digunakan untuk eksperimen ini adalah RapidMiner, hasil yang diperoleh adalah Precission, Recall dan tingkat akurasi algoritma K-Means. Gambaran singkat penelitian ini ada pada kerangka pemikiran yang tersaji pada gambar 3. PROBLEM Belum diketahui akurasi algoritma K-Means dengan Seleksi Fitur untuk analisis sentimen movie review.
PENGUMPULAN DATA & PREPROCESSING 300 dokokumen movie review negatif dan dokumen movie review positif . - Case folding - Stopword - Tokenizing - Stemming
TOOL PENELITIAN
Penerapan Algoritma K-Means dengan seleksi fitur
Framework RapidMiner
MEASUREMENT
RESULT Diketahui akurasi K-Means dengan Seleksi Fitur
Confusion Matrix, Precision, Recall
Gambar 4 : Kerangka Pemikiran 3.2 Metode Penelitian Metode penelitian yang dilakukan adalah metode penelitian eksperimen, dengan tahapan penelitian sebagai berikut: Pengumpulan Data
Preprocessing
Model / Metode yang diusulkan
Eksperimen dan Pengujian Metode
Evaluasi
Gambar 5 : Metode Penelitian
18
1. Pengumpulan Data Dataset yang digunakan didalam penelitian ini adalah dataset movie review yang diambil dari http://www.cs.cornell.edu/People/pabo/movie-review-data/. Movie review ini sudah dikelompokkan oleh para ahli kedalam 1000 kelompok dokumen yang mempunyai label positif dan 1000 kelompok dokumen label negatif. Dataset ini sudah populer karena pernah digunakan oleh (Pang, Lee, & Shivakumar, 2002; Chaovalit & Zhou, 2005; Keefe & Koprinska, 2009), Movie review mining and summarization (Li & Liu, 2010) dan sudah siap dijadikan corpus untuk penelitian. Dataset tersebut dikumpulkan dari IMDb (Internet Movie Database) (Chaovalit & Zhou, 2005), Contoh dokumen yang digunakan termasuk ke kategori sentiment negatif dan positif. 2 Preprocessing Preprosesing merupakan tahapan untuk mengubah struktur isi dari suatu dokumen kedalam format yang sesuai, berupa kumpulan term atau kata, agar dapat diproses oleh algoritma clustering (Suanmali, Salim, & Binwahlan, 2008). Tahapan preprocessing akan menghasilkan kumpulan term atau kata yang nantinya akan diberikan bobot atau nilai, dimana bobot atau nilai tersebut akan menjadi indikator penting tidaknya sebuah term terhadap dokumen. Semakin banyak term yang muncul pada koleksi dokumen, semakin tinggi nilai atau bobot term tersebut, yang kemudian pemberian bobot sebuah term disebut dengan term wighting. Pada penelitian ini algoritma yang digunakan untuk pemberian bobot suatu term adalah algoritma TF-IDF. 2. Model / Metode yang diusulkan Model yang diusulkan adalah seperti gambar 5.
Dataset Movie Review
Preprocessing Case folding Tokenizing Stopword Stemming
Pembobotan TF-IDF
Evaluasi Confusion Matrix, Precision, Recall
Gambar 6 : Model yang diusulkan
19
Feature Selection Information Gain ( IG )
Clustering Algoritma K-Means
3. Eksperimen dan Pengujian Metode Pada bagian ini dijelaskan tentang langkah-langkah eksperimen, meliputi cara pemilihan arsitektur yang tepat dari model atau metode yang diusulkan sehingga didapatkan hasil yang dapat membuktikan bahwa metode yang digunakan adalah tepat. 4. Evaluasi Evaluasi dilakukan dengan mengamati kinerja algoritma K-Means dengan seleksi fitur information gain untuk optimasi analisis sentimen dokumen Movie review.
20
BAB 4. BIAYA DAN JADWAL PENELITIAN 4.1 Anggaran Biaya No
Jenis Pengeluaran
Biaya yang Diusulkan
1
Gaji dan upah
Rp.10.560.000,00
2
Bahan habis pakai dan peralatan
Rp. 1.320.000,00
3
Lain-lain
Rp. 1.500.000,00 Jumlah
Rp. 13.380.000,00
Tabel 1 : Anggaran Biaya
4.2 Jadwal Penelitian
Waktu Kegiatan ( Bulan ) No
Jenis Kegiatan 3
1
Studi Pustaka
2
Pengumpulan Data
3
Eksperimen
4
Analisis Eksperimen
5
Penyempurnaan
6
Evaluasi Hasil
4
18
5
6
7
8
9
10
11
DAFTAR PUSTAKA Abbasi, A., Chen , H., & Salem , A. (2008). Sentiment analysis in multiple languages : Feature selection for opinion clasification in web forums. ACM Transactions on Information Systems , 26 (3), 1-34. Al-Mubaid, H., & Umair, S. A. (2006). A New Text Categorization Technique Using Distributional Clustering and Learning Logic. IEEE Transactions on Knowledge and Data Engineering , 18 (9), 1156-1165 . Al-Subaihin, A. A., Al-Khalifa, H. S., & Al-Salman, A. S. (2011). A Proposed Sentiment Analysis Tool for Modern Arabic Using Human-Based Computing. iiWAS '11 Proceedings of the 13th International Conference on Information Integration and Web-based Applications and Services, (pp. 543-546). Berkhin, P. (2002). Survey of Clustering Data Mining Techniques. (Accrue Software, Inc.) Retrieved from http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.145.895. Boiy, E., Hens, P., Deschacht, K., & Moens, M. F. (2007, June ). Automatic Sentiment Analysis in On-line Text. Proceedings ELPUB2007 Conference on Electronic Publishing , 349-360. Borah, S., & Ghose, M. K. (2009). Performance Analysis of AIM-K-means & K-means in Quality Cluster Generation. JOURNAL OF COMPUTING , 1 (1). Chaovalit, P., & Zhou, L. (2005). Movie Review Mining: a Comparison between Supervised and Unsupervised Classification Approaches. Proceedings of the 38th Hawaii International Conference on System Sciences. IEEE. Chen, J., Huang, H., Tian, S., & Qu, Y. (2009). Feature selection for text classification with Naïve Bayes. In Expert Systems with Applications (pp. 5432-5435). Beijing, China: Elsevier Ltd. Chen, L. S., & Chang, C. W. (2011). A New Term Weighting Method by Introducing Class Information for Sentiment Classification of Textual Data. Proceeding of International MultiConference of engineers and Computer Scientists, IMECS , 1, 1-4. Christopher, C. Y., Wong, Y., & Chih-Ping, W. (2009). Classifying Web Review Opinions for Consumer Product Analysis. ICEC '09 Proceedings of the 11th International Conference on Electronic Commerce , (pp. 57-63). New York. Claster, W. B., Cooper, M., & Sallis, P. (2010). Thailand –Tourism and Conf ict. Modeling Sentiment from Twitter Tweets using Naïve Bayes and Unsupervised Artificial Neural Nets. CIMSIM '10 Proceedings of the 2010 Second International Conference on Computational Intelligence, Modelling and Simulation, (pp. 89-94). Colas, F., & Brazdil, P. Comparison of SVM and Some Older Classification Algorithms in Text Classification Tasks. Francis, L., & Flynn, M. (2010). Text Mining Handbook. Spring. 30
Jain, A., Murty, M., & Flynn, P. (1999). Data Clustering: A Review. ACM Computing Surveys , 31. Jiawei, H., & Kamber, M. (2006). Data Mining: Concepts and Techniques 2nd. San Francisco: Morgan Kaufmann. Keefe, T. O., & Koprinska, I. (2009, Desember 4). Feature Selection and Weighting Methods in Sentiment Analysis. Proceedings of the 14th Australasian Document Computing Symposium , 1-8. Kira, K., & Rendel, L. A. (1992). The Feature Selection Problem : Traditional Methods and a New Algoritmh. AAAI Press . Kucuktunc, O., & Bambazoglu, B. B. (2012, February). A Large-Scale Sentiment Analysis for Yahoo! Answers. Lee, L., & Pang, B. (2002). A Sentimental Education: Sentiment Analysis Using Subjectivity Summarization Based on Minimum Cuts. Lee, L., & Pang, B. (2008). Opinion mining and sentiment analysis (Vol. Volume 2). Li, G., & Liu, F. (2010). A Clustering-based Approach on Sentiment Analysis. Intelligent Systems and Knowledge Engineering (ISKE), 2010 International Conference on, (pp. 331 337). Liu, B. (2010). (N. Indurkhya, & F. J. Damerau, Eds.) Sentiment Analysis and Subjectivity,Handbook of Natural Language Processing . Liu, T., & al., a. (2003). An Evaluation on Feature Selection for Text Clustering. Proceedings of the Twentieth International Conference on Machine Learning. Washington DC. MacQueen. (1967). Some Methods For Classification And Analysis Of Multivariate Observations. Proceedings of 5th Berkeley Symposium on Mathematical Statistics and Probability (pp. 281–297). University of California Press. O’Keefe, T., & Koprinska, I. (2009). Feature Selection and Weighting Methods in Sentiment Analysis. Proceedings of the 14th Australasian Document Computing. Sydney, Australia. Ohana, B., & Brendan, T. (2011, June). Supervised Learning Methods for Sentiment Classification with RapidMiner. RapidMiner Community Meeting And Conference, RCOMM , 1-8. Pang, B., Lee, L., & Shivakumar, V. (2002). Thumbs up? Sentiment Classification using Machine Learning Techniques. Rakhlin, A., & Caponnetto, A. (2007). Stability of K-Means Clustering. Reddy, S. R., Somayajulu, D. V., & Dani, A. R. (2010). Classification of Movie Reviews Using Complemented Naive Bayesian Classifier. International Journal of Intelligent Computing Research (IJICR) , 1 (4).
31
Somayajulu, Reddy, S. R., & Dani, A. (2010). Classification of Movie Reviews Using Complemented Naive Bayesian Classifier. International Journal of Intelligent Computing Research (IJICR) , 1, 162-167. Stylios, G. a. (2010). Public Opinion Mining for Governmental Decisions. Electronic Journal of e-Government , 8 (2), 203-214. Suanmali, L., Salim, N., & Binwahlan, M. S. (2008, Desember). Automatic Text Summarization Using Feature Based Fuzzy Extraction. Jurnal Teknologi Maklumat . Tan, S., & Zhang, J. (2009). Adapting Naive Bayes to Domain Adaptation for Sentiment Analysis. ECIR '09 Proceedings of the 31th European Conference on IR Research on Advances in Information Retrieval , 337 - 349 . Tan, S., & Zhang, J. (2007). An empirical study of sentiment analysis for chinese documents. Expert Systems with Applications: An International Journal , 34 (4), 2622-2629 . Tan, Steinbach, & Kumar. (2004). Data Mining Cluster Analysis: Basic Concepts and Algorithms. In Introduction to Data Mining. Tata, S., & Patel M, J. (2007 ). Estimating the Selectivity of tf-idf based Cosine Similarity Predicates. ACM SIGMOD , 36 (2), 7-12. Velmurugan, T., & Santhanam, T. (2010). Computational Complexity between K-Means and K-Medoids Clustering Algorithms for Normal and Uniform Distributions of Data Points. Journal of Computer Science 6 , 363-368. Vidhya, K., & Aghila, G. (2010). A Survey of Naïve Bayes Machine Learning approach in Text Document Classification. International Journal of Computer Science and Information Security (IJCSIS) , 7. Wajeed, M. A., & Adilakshmi, D. (2005 - 2009). Text Classification Using Machine Learning. Journal of Theoretical and Applied Information Technology . Williams, G. (2006). Data Mining Algorithms Cluster Analysis. Witten, I. H., Frank, E., & Hall, M. A. (2011). Data Mining,Practical Machine Learning Tools and Techniques 3rd Edition. Burlington: Morgan Kaufmann. Xiong, H. (2009). K-means Clustering Versus Validation Measures: A Data Distribution Perspective. IEEE TRANSACTIONS ON SYSTEMS, MAN, AND CYBERNETICS , 318-331. Xu, R., & Wunsch, D. C. (2009). Clustering. (D. B. Fogel, Ed.) IEEE Computational Intelligence Society. Yates, R. B., & Neto, B. R. (1999). Modern Information Retrieval . Zamir, O., Oren, E., Madani, O., & Karp, R. M. (1997). Fast and Intuitive Clustering Web Document.
32
Lampiran 1 : Justifikasi Anggaran Penelitian Honor Ketua Anggota 1
Honor/Jam (Rp) 20000 15000 Sub Total
Waktu (jam/minggu) 3 2
Minggu 32 25
Honor per Tahun (Rp) Tahun 1 1.920.000 750.000 2.670.000
2. Peralatan Penunjang
Material
Pustaka Jurnal
Justifikasi
Kuantitas
Pemakaian Referensi Sub Total
1 paket
Harga Satuan (Rp.) 1500000
Harga Peralatan Penunjang Tahun 1 1.500.000 1.500.000
3. Bahan Habis Pakai Material
Kertas kuarto ATK Cartridge
Justifikasi
Kuantitas
Pemakaian Dokumentasi Administrasi Administrasi Sub Total
12 1 paket 8
Harga Satuan (Rp.) 75000 710000 450000
Biaya per tahun (Rp.) Tahun 1 900.000 710.000 3.600.000 5.210.000
4. Perjalanan Material
Justifikasi
Kuantitas
Perjalanan Perjalanan dalam kota
1 paket
Harga Satuan (Rp.) 2000000
Sub Total
Biaya per tahun (Rp.) Tahun 1 2.000.000 2.000.000
5. Lain-lain Kegiatan
Penggandaan Publikasi Ilmiah Penyajian Konferensi Monev
Justifikasi
Kuantitas
Pemakaian Penggandaan laporan Biaya publikasi biaya seminar monitoring & evaluasi Sub Total
33
8 1 1 1
Harga Satuan (Rp.) 50000 300000 300000 1000000
Biaya per tahun (Rp.) Tahun 1 400.000 300.000 300.000 1.000.000 2.000.000
Lampiran 2: Susunan Organisasi Tim Peneliti dan Pembagian Tugas No NAMA/NIDN
Instansi Asal
Bidang Ilmu
1
Setyo Budi /0615097602
UDINUS
Ilmu Komputer
2
Dwiyono Arifianto, S.Kom /0602128104
UDINUS
Ilmu Komputer
34
Alokasi Uraian Tugas waktu (jam/minggu) 7 1. Implementasi Metode dan sesuai dengan referensi 2. Melakukan eksperimen 3. Melakukan evaluasi metode atau model yang diusulkan 4 1. Penentuan kelompok keilmuwan tentang clustering 2. Mencari referensi metode-metode yang digunakan.
Lampiran 3 : Biodata Ketua dan Anggota A. Identitas Diri Ketua 1 Nama Lengkap ( dengan gelar ) 2 Jenis Kelamin 3 Jabatan Fungsional 4 NIP/NIK/Identitas lainnya 5 NIDN 6 Tempat Tanggal Lahir 7 e-mail 8 Nomor Telepon / HP 9 Alamat Kantor 10 Nomor Telepon/Faxs 11 Lulusan yang telah dihasilkan 12 Mata Kuliah
Setyo Budi, M.Kom Laki-laki 0686.12.2000.192 0615097602 Pati, 15 September 1976
[email protected] 085325012955 Jl. Nakula 1 No. 5 – 11 Semarang 024-3569684 S-1 = … orang, S-2 = … Orang, S-3 = … Orang 1. Manajemen Database 2. 3.
Sistem Operasi Pemrograman Aplikasi
B. Riwayat Pendidikan Nama Perguruan Tinggi Bidang Ilmu Tahun Masuk – Lulus Judul Skripsi/Tesis/Disertasi
Nama Pembimbing / Promotor
S-1 UDINUS Semarang Ilmu Komputer 2000 – 2002 Sistem Informasi Barang Habis Pakai di Fakultas Kesehatan Universitas Dian Nuswantoro Semarang Purwanto, Ph.D
S-2 UDINUS Semarang Ilmu Komputer 2011-2013 Komparasi Algoritma KMeans dan K-Medoids untuk Analisis Sentimen Movie Review Dr. Ing. Vincent Suhartono
C. Pengalaman Penelitian Dalam 5 Tahun Terakhir ( Bukan Skripsi, Tesis, maupun desertasi ) No
Tahun
Judul Penelitian
Sumber
Pendanaan Jml ( Juta Rp )
Dst Tuliskan sumber pendanaan baik dari skema penelitian DIKTI maupun dari sumber lainnya D. Pengalaman Pengabdian Kepada Masyarakat dalam 5 tahun Terakhir Pendanaan No Tahun Judul Penelitian Sumber Jml ( Juta Rp ) Dst Tuliskan sumber pendanaan baik dari skema penelitian DIKTI maupun dari sumber lainnya 35
E. Publikasi Artikel Ilmiah dalam Jurnal dalam 5 tahun terakhir No Judul Artikel Nama Jurnal Volume/Nomor/Tahun Ilmiah dst F. Pemakalah Seminar Ilmiah ( Oral Presentation) dalam 5 tahun terakhir No Nama Pertemuan Nama Artikel Ilmiah Waktu dan Tempat Ilmiah / Seminar dst G. Karya Buku dalam 5 Tahun Terakhir No Judul Buku
Tahun
Jumlah halaman
Penertbit
Jumlah halaman
Penertbit
dst H. Perolehan HKI dalam 5-10 tahun terakhir No Judul Buku Tahun dst I. Pengalaman Merumuskan Kebijakan Publik/Rekayasa Sosial lainnya dalam 5 Tahun terkahir No Judul/Tema/Jenis Rekayasa Sosial Tahun Tempat Respon Lainnya yang telah diterapkan Penerapam Masyarakat dst J. Penghargaan dalam 10 tahun Terakhir (dari pemerintah, asosiasi atau institusi lainnya) No Jenis Penghargaan Institusi Pemberi Penghargaan Tahun Dst
36
37
A. Identitas Diri Anggota 1 Nama Lengkap ( dengan gelar ) 2 Jenis Kelamin 3 Jabatan Fungsional 4 NIP/NIK/Identitas lainnya 5 NIDN 6 Tempat Tanggal Lahir 7 e-mail 8 Nomor Telepon / HP 9 Alamat Kantor 10 Nomor Telepon/Faxs 11 Lulusan yang telah dihasilkan 12 Mata Kuliah
Dwiyono Arifiyanto, S.Kom Laki-laki 0686.12.2010.393 0602128104 Grobogan, 02 Desember 1981
[email protected]
085691159362 Jl. Nakula 1 No. 5 – 11 Semarang 024-3569684 S-1 = … orang, S-2 =… Orang, S-3 = …Orang 1. Streaming 2. Video Editing 1 3. Audio
a. Riwayat Pendidikan Nama Perguruan Tinggi Bidang Ilmu Tahun Masuk – Lulus Judul Skripsi/Tesis/Disertasi Nama Pembimbing / Promotor
S-1 UDINUS Semarang Ilmu Komputer 1999 –2006 Sistem Informasi Pemesanan Tiket Kereta Api pada Stasiun Besar Semarang Tawang Berbasis Web Dr. Y. Tyas Catur Pramudi, S.Si., M.Kom
b. Pengalaman Penelitian Dalam 5 Tahun Terakhir ( Bukan Skripsi, Tesis, maupun desertasi ) No
Tahun
Judul Penelitian
Sumber
Pendanaan Jml ( Juta Rp )
Dst Tuliskan sumber pendanaan baik dari skema penelitian DIKTI maupun dari sumber lainnya c. Pengalaman Pengabdian Kepada Masyarakat dalam 5 tahun Terakhir Pendanaan No Tahun Judul Penelitian Sumber Jml ( Juta Rp ) Dst Tuliskan sumber pendanaan baik dari skema penelitian DIKTI maupun dari sumber lainnya d. Publikasi Artikel Ilmiah dalam Jurnal dalam 5 tahun terakhir No Judul Artikel Nama Jurnal Volume/Nomor/Tahun Ilmiah 38
dst e. Pemakalah Seminar Ilmiah ( Oral Presentation) dalam 5 tahun terakhir No Nama Pertemuan Nama Artikel Ilmiah Waktu dan Tempat Ilmiah / Seminar dst f. Karya Buku dalam 5 Tahun Terakhir No Judul Buku Tahun
Jumlah halaman
Penertbit
Jumlah halaman
Penertbit
dst I. Perolehan HKI dalam 5-10 tahun terakhir No Judul Buku Tahun dst J. Pengalaman Merumuskan Kebijakan Publik/Rekayasa Sosial lainnya dalam 5 Tahun terkahir No Judul/Tema/Jenis Rekayasa Sosial Tahun Tempat Respon Lainnya yang telah diterapkan Penerapam Masyarakat dst K. Penghargaan dalam 10 tahun Terakhir (dari pemerintah, asosiasi atau institusi lainnya) No Jenis Penghargaan Institusi Pemberi Penghargaan Tahun Dst
39
40
Lampiran 4 : Surat Pernyataan Ketua Peneliti
26