HERU SUSANTO 2209 105 030
Dosen Pembimbing : 1. Dr. Surya Sumpeno, ST., M.Sc. 2. Reza Fuad Rachmadi, ST., MT.
LATAR BELAKANG • Peran media jejaring sosial pada perkembangan teknologi komunikasi dan informasi; • Twitter merupakan salah satu media jejaring sosial telah menjadi bagian dari pola komunikasi masyarakat; • Sentimen berhubungan dengan penilaian terhadap suatu konteks atau wacana; • Melihat kecenderungan pola sentimen pada data menggunakan teknik visualisasi.
PERMASALAHAN • Kalimat-kalimat pada tweet yang dapat berisi berita maupun sentimen seringkali mengandung banyak simbol dan unsur kata tidak baku; • Kesulitan pengguna untuk melakukan interpretasi secara manual pada puluhan ribu data tweet.
TUJUAN Memberikan kemudahan pembacaan data tentang pola komunikasi di masyarakat terkait topik tertentu melalui visualisasi berdasarkan data masukan berupa tweet sehingga dapat diketahui kecenderungan pola sentimennya.
BATASAN MASALAH 1. Data yang digunakan dalam proses visualisasi data ini adalah data teks bahasa indonesia. 2. Topik sentimen yang diteliti pada Twitter adalah Pemilu 2014.
METODE
PENGUMPULAN DATA TWEET
PRA PEMROSESAN DATA TWEET 1. 2. 3.
4. 5. 6.
Inisialisasi data input berupa masukan data dari pengguna berdasarkan hasil pengunduhan data tweet sebelumnya. Case folding, yakni proses penyetaraan kapitalisasi karakter dalam isi dokumen. Filtering simbol dan karakter, yakni penghilangan karakterkarakter selain huruf (a,b,..,z | A,B,..,Z), yakni karakter angka (0-9) dan simbol-simbol. Pembakuan Kata, yakni proses mengubah kata-kata tidak baku dalam tweet menjadi kata baku sesuai KBBI. Stopword removal, yakni penghilangan kata-kata yang tergolong sebagai stopword pada isi suatu dokumen. Stemming, yakni proses pengembalian suatu kata ke bentuk kata dasarnya. Pada aplikasi ini, pilihan algoritma stemming yang digunakan adalah CS stemmer.
PENGKLASTERAN DATA TWEET 1. Inisialisasi data input berupa masukan data dari pengguna berdasarkan hasil pra pemrosesan data tweet sebelumnya. 2. Baca fitur (load term) merupakan proses pencarian kata yang termasuk dalam fitur yang diperhitungkan ke dalam dokumen input. 3. Pembobotan Kata, yakni proses pembobotan term-term pada tiap dokumen. Pembobotan dilakukan dengan menggunakan metode TF-IDF. 4. Pengklasteran data, yakni proses pengelompokan data berdasarkan fitur dan atau jumlah kelompok masukan. Proses ini menggunakan 3 (tiga) pilihan algoritma yaitu : K-Means, Cascade K-Means dan Self-Organizing Map Kohonen.
KINERJA CLUSTER 1. Sum Squared Error (SSE) • Error merupakan jarak tiap titik diukur ke cluster yang terdekat. • Nilai SSE dapat dirumuskan sebagai berikut ini :
2. Dunn Index (DI) • Pengukuran kualitas klaster secara internal. • Nilai DI dapat dirumuskan sebagai berikut ini :
REDUKSI DIMENSI • • •
Teknik reduksi dimensi adalah menemukan transformasi yang memenuhi ketentuan/kriteria tertentu; Pendekatan yang sederhana adalah Principal Component Analysis (PCA); Tujuan dari PCA adalah mengurangi dimensi data dengan mempertahankan variasi data yang ada.
PENGUJIAN Pengujian dilakukan terhadap proses-proses berikut : • Pengujian Sistem Pengumpulan Data Tweet • Pengujian Sistem Pra Pemrosesan Data Tweet • Pengujian Sistem Pengklasteran Data Tweet : Pada variasi 3 (tiga) pilihan algoritma yaitu : K-Means, Cascade K-Means dan Self-Organizing Map Kohonen. Analisa Kinerja Pengklasteran. Jenis Sentimen. • Pengujian Sistem Visualisasi Data Tweet : Visualisasi Data Tweet Asli Visualisasi Pengklasteran Data Tweet Visualisasi Pengklasteran Data Tweet Pada Peta
Pengujian Sistem Pengumpulan Data Tweet Hasil melakukan scrapping data pada kurun waktu bulan Juli 2013 sampai Oktober 2013 pada situs scraperwiki.com menggunakan kata kunci “Pemilu 2014”, didapat data dengan ukuran 57294 tweet.
Pengujian Sistem Pra Pemrosesan Data Tweet Dalam proses ini, data masukan dilakukan case folding, filtering, pembakuan kata (KBBI), stopword removal dan stemming. No. 1.
Data Tweet Asli
Data Hasil Pra Pemrosesan
Parpol mana yang akan meraih suara terbanyak PEMILU 2014? Mari ikutan pollingnya
parpol meraih suara pemilu mari ikut pollingnya
2.
Partai Hanura hari ini tengah melakukan pembekalan kepada 560 caleg DPR RI yang akan maju di Pemilu 2014.
partai hanura bekal caleg dpr ri maju pemilu
3.
RT @Yusrilihza_Mhd: Pemilu 2014 sdh dekat, mari kita kampanyekan Pemilu Bersih, Jujur dan Adil. Jauhkan kecurangan dari Pemilu
pemilu mari kampanye pemilu bersih jujur adil jauh kecurangan pemilu
4.
#Web: Ada Indikasi Ke#curangan #Pemilu 2014, ungkap Komisi II #DPR http://t.co/nIzHsmWjNT
web indikasi kecurangan pemilu komisi ii dpr
5.
KPU sosialisasikan teknis pencoblosan pemilu 2014 http://t.co/GSTnlA6urR
kpu sosialisasi teknis coblos pemilu
Pengujian Sistem Pengklasteran Data Tweet Sistem pengklasteran data pada data uji coba sebanyak 57294 tweet dilakukan dengan menggunakan algoritma K-Means, Cascade K-Means dan Self-Organizing Map (SOM) Kohonen. Data Hasil Pengklasteran Algoritma
Cluster
Evaluasi Klaster SSE Dunn (Sum of Index Squared Error)
Full Data
0 ()
1 ()
2 ()
3 ()
4 (▀)
K-Means
57294 (100%)
271 (0,47%)
33973 (59,30%)
23050 (40,23%)
-
-
52885
0,16
Cascade K-Means
57294 (100%)
26332 (45,96%)
7912 (13,81%)
23050 (40,23%)
-
-
7073
0,67
SOM Kohonen
57294 (100%)
23688 (41,34%)
7907 (13,80%)
2520 (0,23%)
129 (4,40%)
23050 (40,23%)
9843
0,46
Pengujian Sistem Visualisasi Data Tweet • • • • • • •
Pengujian sistem visualisasi data tweet sejumlah 57294 tweet; Divisualisasikan berdasarkan desain sistem yang telah dipaparkan; Visualisasi data tweet asli; Visualisasi data tweet hasil pengklasteran pada diagram scatter; Visualisasi data tweet hasil pengklasteran pada peta geografi; Visualisasi atribut fitur utama melalui word cloud; Visualisasi evaluasi kluster yang telah terbentuk.
Visualisasi Data Tweet Asli
1
2
3
4
Visualisasi Data Tweet dengan Cascade K-Means
Visualisasi Data Tweet Hasil Pengklasteran Pada Peta Geografi Dari total seluruh data tweet berjumlah 57294, sebanyak 384 tweet memiliki nilai lat dan lng Jumlah Tweet pada Peta Algoritma K-Means Cascade K-Means SOM Kohonen
Cluster 0 ( )
Cluster 1 ( )
Cluster 2 ( )
Cluster 3 ( )
Cluster 4 ( )
0
223
161
-
-
143
80
161
-
-
136
80
3
4
161
Visualisasi Data Tweet Hasil Pengklasteran Pada Peta Geografi (3)
3
Visualisasi Data Tweet Hasil Pengklasteran Pada Peta Geografi (5) No.
Kota
Jumlah Tweet
Sentimen
1.
Jakarta
142
Positif
2.
Bandung
109
Positif
3.
Semarang
6
Negatif
4.
Yogyakarta
45
Positif
5.
Surabaya
12
Positif
6.
Denpasar
10
Negatif
KESIMPULAN 1.
2.
3.
Algoritma Cascade K-Means menghasilkan nilai SSE terkecil yaitu 7073 dan nilai Dunn Index tertinggi yaitu 0,67 dengan perolehan sentimen positif berjumlah 26332, negatif berjumlah 7912, dan netral berjumlah 23050; SOM menghasilkan nilai SSE 9843 serta nilai 0,46 untuk Dunn Index yang terbilang lebih rendah kualitasnya daripada Cascade K-Means sebelumnya, meskipun memiliki jumlah cluster yang lebih banyak yaitu 5 cluster. Hasil visualisasi data tweet terhadap hasil pengklasteran pada 3 variasi algoritma telah berhasil diimplementasikan pada diagram scatter menggunakan konfigurasi evaluator Analisa Komponen Utama dengan variabel korelasi pada parameter input sebesar 0.95 dan penyertaan seluruh attribut dengan nilai -1 pada variabel attributes include.
REFERENSI 1. 2. 3. 4.
5. 6. 7. 8.
Sumpeno, Surya, Destuardi. 2009. Klasifikasi Emosi Untuk Teks Bahasa Indonesia Menggunakan Metode Naive Bayes. Seminar Nasional Pascasarjana ITS. Surabaya Prasetyo, Eko. 2012. Data Mining : Konsep dan Aplikasi menggunakan Matlab. Andi : Yogyakarta. Santoso, Budi. 2011. Text Mining dan Web Mining. Fakultas Teknik Informatika UKDW : Yogyakarta. Santoso, Budi. 2006. StudiEM : Sebuah Program Email Mining. http://budsus.blogspot.com/2006/06/studiem-sebuah-program-email-mining.html. Diakses pada tanggal 3 Juni 2013. Asian, Jelita. 2007. Effective Techniques for Indonesian Text Retrieval. PhD thesis School of Computer Science and Information Technology RMIT University Australia. Nurfalah, Adiyasa. 2011. Analisis Sentimen Pada Opini Berbahasa Indonesia Menggunakan Pendekatan Lexicon-Based. Fakultas Pascasarjana Intitut Teknologi Telkom. Bandung. Mahendra, I Putu Adhi Kerta. 2008. Penggunaan Algoritma Semut dan Confix Stripping Stemmer Untuk Klasifikasi Dokumen Berita Berbahasa Indonesia. Tugas Akhir. ITS. Surabaya. R.A. Johnson & D.W. Wichern. 1988. Applied Multivariate Statistical Analysis. Prentice Hall. USA.