Visualisasi Data Teks Twitter Berbasis Bahasa Indonesia Menggunakan Teknik Pengklasteran Heru Susanto1, Dr. Surya Sumpeno, ST., M.Sc.2, Reza Fuad Rachmadi, ST., MT.2 1
Mahasiswa S1 Teknik Elektro – Institut Teknologi Sepuluh Nopember Staf Pengajar, Teknik Elektro – Institut Teknologi Sepuluh Nopember Jurusan Teknik Elektro Fakultas Teknologi Industri Institut Teknologi Sepuluh Nopember Kampus ITS Sukolilo, Surabaya 60111, Indonesia 2
ABSTRAK : Kebutuhan pengelompokan sentimen didorong oleh suatu pemikiran bahwa informasi berupa sentimen dari suatu data merupakan hal yang penting dan dibutuhkan. Pengklasteran terhadap data sentimen ini akan memberikan gambaran tentang pola komunikasi di masyarakat. Seringkali hasil pengolahan data tersebut masih belum mampu ditafsirkan oleh pengguna karena model visualisasi yang kurang komunikatif. Visualisasi ini merupakan hal yang penting untuk pengambilan keputusan selanjutnya, karena di dalamnya dapat dilihat pola data yang sedang diteliti apakah berkecenderungan positif atau negatif. Perkembangan jejaring sosial Twitter dapat memberikan informasi mengenai sentimen ini. Penelitian ini menggunakan topik isu Pemilu 2014 sebanyak 57294 tweet. Algoritma pengklasteran yang digunakan adalah K-Means, Cascade K-Means dan Self-Organizing Map Kohonen. Hasil yang didapat menunjukkan bahwa Cascade K-Means mampu menghasilkan nilai konvergensi kelompok terkecil SSE sebesar 7073 dan Dunn Index 0,67 dengan distribusi sentimen positif berjumlah 26332 tweet, negatif berjumlah 7912 tweet, dan netral berjumlah 23050 tweet. Visualisasi menggunakan grafik dua dimensi dengan evaluator Analisa Komponen Utama (PCA) pada variabel korelasi input 0,95. Kata kunci : Visualisasi, Twitter, Pengklasteran, K-Means, Cascade K-Means, Self-Organizing Map Kohonen.
I. PENDAHULUAN Media jejaring sosial memberikan peran yang sangat besar bagi perkembangan teknologi khususnya pada teknologi komunikasi dan informasi. Salah satu dampak yang paling terlihat adalah manusia menjadi lebih terbuka dalam menyatakan pendapat. Twitter yang merupakan salah satu media jejaring sosial sudah menjadi bagian dari pola komunikasi masyarakat. Media ini dikenal sangat populer terutama pada jumlah pengguna dan posting tweet yang tergolong besar pada setiap harinya. Media jejaring sosial ini erat kaitannya dengan sentimen pengguna. Sentimen tersebut didapat ketika pengguna melakukan tweet. Sentimen berhubungan dengan penilaian terhadap suatu konteks atau wacana. Sentimen positif menyatakan pemberian nilai yang baik pada konteks dalam teks dan sentimen negatif menyatakan kebalikannya. Pengelompokan sentimen diaplikasikan untuk mengelompokkan sentimen positif, negatif dan netral. Pola data tweet yang besar tersebut memiliki kecenderungan sifat yang berbeda-beda. Untuk melihat pola data yang ada maka harus digunakan teknik visualisasi. Secara visual, pengguna akan mendapatkan kemudahan untuk melihat kecenderungan data berkorelasi positif atau negatif serta informasi pada setiap kategori tersebut sehingga mempercepat dan mempermudah tugas organisasi untuk memantau dan mengevaluasi kinerjanya. Visualisasi data
tweet tersebut tidak hanya berdasarkan pola kemiripan data semata, namun yang tidak kalah penting adalah mengenai pola sentimen regional. Sentimen regional dimaksud adalah sentimen-sentimen pengguna yang dikelompokkan berdasarkan lokasi tempat tweet tersebut dikirim. Lokasi ini menggambarkan sentimen kewilayahan terhadap isu-isu tertentu tersebut. Pada penelitian ini, penulis mengambil studi kasus pada situs jejaring sosial Twitter dengan topik sentimen ‘Pemilu 2014’. Tweet dapat berisi sentimen maupun kalimat berita biasa. Data tweet ini kemudian akan divisualisasikan berdasarkan pola sentimen dan lokasinya sehingga akan terlihat pola data sesungguhnya secara cepat dan tepat menggunakan teknik pengelompokan data. II. DESAIN SISTEM Alur visualisasi data twitter dalam Tugas akhir ini secara umum ditunjukkan pada Gambar 1 di bawah ini : Pengumpulan Data Tweet
Pra Pemrosesan Data Tweet
Pengklasteran Data Tweet
Visualisasi Data Tweet Gambar 1 Gambaran Umum Sistem
Dari Gambar 1 diatas, terlihat bahwa sistem dibagi menjadi 4 (empat) tahap besar yaitu; tahap pengumpulan data tweet, tahap pra perosesan data tweet, tahap pengklasteran data tweet dan tahap visualisasi data tweet. Keseluruhan dari tahap tersebut dibangun dengan menggunakan dibuat dengan menggunakan bahasa pemrograman Java pada platform Java Development Kit 1.6.0 dan IDE Netbeans 6.7. Sistem pengumpulan data tweet pada Tugas Akhir ini menganut sistem scrapping dengan menggunakan web scrapper yaitu scrapperwiki.com. Prosesnya didahului dengan registrasi pengguna lalu dapat diperoleh fasilitas mencari dan menyimpan data tweet tersebut sesuai dengan kata kunci yang dimasukkan. Dengan menggunakan web scrapper, data tweet akan secara otomatis tersimpan pada server web tersebut dari waktu ke waktu sampai pengguna mengakses dan mengunduhnya. Dari sisi pengguna, berikut
blok diagram pada Gambar 2 tentang penggunaan scrapperwiki.com dalam mengumpulkan data tweet :
Gambar 2 Sistem Pengumpulan Data Tweet
Secara umum, tahap pra pemrosesan data tweet tampak pada Gambar 3 (a) dan proses pengklasteran data tweet pada Gambar 3 (b) dapat dilihat pada diagram alir di bawah ini :
berkaitan dengan isu yang dibahas dalam Tugas Akhir ini yakni Pemilu 2014. 2. Data hashtag paling sering muncul, merupakan data hashtag atau kata kunci dari tweet yang didahului karakter tanda pagar (#) atau hash yang paling sering digunakan para pengguna twitter dalam posting mereka. 3. Data volume tweet, merupakan data jumlah tweet yang dihitung dalam kurun waktu bulanan berdasarkan data kolom created_at. 4. Data pengguna paling sering di-mention, merupakan data pengguna yang dalam posting tweet-nya mencantumkan nama pengguna lain sebagai bentuk mention agar orang atau user yang di-mention tersebut tahu dan membacanya. Para pengguna yang di-mention oleh pengguna lain ini ditampilkan dalam format grafik.
(a)
(b)
(a) (b) Gambar 3 Diagram Alir Sistem Pra Pemrosesan dan Pengklasteran Data Tweet
Sistem visualisasi dibagi menjadi dua macam yaitu visualisasi data tweet asli dan visualisasi data tweet hasil pengklasteran. Berikut blok diagram beserta penjelasan masing-masing tipe visualisasi yang digunakan :
Gambar 4 Blok Diagram Visualisasi Data Tweet Asli
Dari Gambar 4 di atas, visualisasi tipe pertama adalah visualisasi dengan menggunakan data tweet asli. Data tweet asli yang dimaksud adalah data asli hasil pengunduhan langsung dari scraperwiki.com. Berikut penjelasan masingmasing data yang digunakan : 1. Data pengguna paling aktif, merupakan data pengguna twitter yang paling banyak melakukan post tweet
(c) Gambar 5 Desain Antarmuka Visualisasi Data Hasil Pengklasteran
Dari Gambar 5 di atas, visualisasi tipe kedua adalah visualisasi dengan menggunakan data hasil pengklasteran. Secara umum, visualisasi jenis ini dibagi dalam tiga sesi yaitu sesi scatter diagram, sesi peta geografi dan sesi evaluasi klaster. Pada sesi scatter diagram berdasarkan Gambar 5 (a), data hasil klaster yang terdiri dari ratusan fitur menyebabkan dimensi data menjadi sangat tinggi. Dimensi data yang tinggi tersebut harus direduksi menggunakan fungsi seleksi atribut dengan evaluator Analisa Komponen Utama. Analisa ini akan menghasilkan pemeringkatan atribut-atribut utama yang akan diambil. Pada sesi peta geografi berdasarkan Gambar 5 (c), setiap data tweet yang memiliki nilai untuk kolom lat dan lng dapat dilakukan plotting pada peta. Tidak semua tweet memiliki data lat dan lng tersebut karena data ini biasanya akan dikirim ketika pengguna melakukan posting tweet dari sebuah mobile gadget seperti handphone atau smartphone. Dari sesi scatter diagram dan peta geografi, nilai klaster akan direpresentasikan melalui sebuah word cloud berdasarkan Gambar 5 (b). Word cloud merupakan kumpulan kata yang merepersentasikan atau mewakili makna dari klaster. Teknik ini sudah juga sering digunakan dalam melakukan tweet statistic.
III. TEKNIK PENGKLASTERAN A. Algoritma K-Means K-Means merupakan salah satu metode pengelompokan data nonhierarki yang berusaha mempartisi data yang ada ke dalam bentuk dua atau lebih kelompok. Tujuan pengelompokan data ini adalah meminimalkan fungsi objektif yang diset dalam proses pengelompokan, yang pada umumnya berusaha meminimalkan variasi di dalam suatu kelompok dan memaksimalkan variasi antarkelompok [2]. Berikut merupakan algoritma dari k-means : 1. Menentukan jumlah klaster k 2. Menentukan titik pusat klaster (centroid) secara acak. 3. Menemukan centroid terdekat setiap dataset dengan menghitung jarak setiap data pada masing-masing centroid. Persamaannya adalah: D(x1,x2) = ||x2-x1||2 = ∑
|
−
|
(1)
4. Hitung kembali objek pada pusat klaster dengan anggota klaster yang baru. 5. Ulangi lagi sampai menemukan pusat klaster yang tidak berubah. B. Algoritma Cascade K-Means Algoritma Cascade K-Means pada dasarnya tidak berbeda dengan algoritma K-Means sebelumnya. Nilai K akan diperoleh melalui hasil perulangan algoritma K-Means pada data sehingga akan dicari variasi kelompok K terbaik menggunakan sistem skor Calinski-Harabasz dengan persamaan sebagai berikut : ∑
=∑
|| ∑ ∈ ||
||
(
||
×(
) )
(2)
Keterangan dari persamaan 2 adalah : k : nomor kluster N : angka Observasi mi : centroid dari cluster i x : data poin ci : cluster ke-i C. Algoritma Self-Organizing Map Kohonen Self-Organizing Map (SOM) merupakan perluasan dari jaringan kompetitif yang sering disebut sebagai jaringan Kohonen. Adapun prosedur yang ditempuh dalam melakukan clustering dengan SOM adalah sebagai berikut [2] : 1. Tentukan weight dari input data secara random. 2. Pilih salah satu input data. 3. Hitung tingkat kesamaan (dengan Eucledian) antara input data dan weight dari input data tersebut, dan pilih input data yang memiliki kesamaan dengan weight yang ada. 4. Perbaharui weight dari input data dengan mendekatkan weight tersebut ke BMU dengan rumus: Wv(t+1) = Wv(t) + Theta(v, t) x Alpha(t) x (D(t) – Wv(t)) (3) Dimana : Wv(t) : Weight pada saat ke-t Theta (v, t) : Fungsi neighbourhood yang tergantung pada Lattice distance antara BMU dengan neuron v. Umumnya bernilai 1 untuk neuron yang cukup dekat dengan BMU, dan 0 untuk yang sebaliknya. Penggunaan fungsi Gaussian juga memungkinkan. Alpha (t) : Learning Coefficient yang berkurang secara monotonic D(t) : Input data
5. Tambah nilai t, sampai t < Lambda, dimana Lambda adalah jumlah iterasi. Kinerja pada setiap cluster diukur dengan menghitung SSE (Sum Squared Error). Error merupakan jarak tiap titik diukur ke cluster yang terdekat. Semakin kecil SSE menunjukkan instance lebih seragam pada klaster yang dikelompokan. Nilai SSE dapat dirumuskan sebagai berikut ini [8] : =∑ ∑ ∈ ( , ) (4) Nilai dist diperoleh dengan menghitung rata jarak anggota atribut cluster ke pusat cluster. Selain SSE, evaluasi kualitas klaster juga diukur menggunakan Dunn Index (DI). Prinsip kerja metode ini adalah dengan mengukur perbandingan kerapatan data interklaster (diameter) dan jarak antarklaster data. = min
,
min
,
∆
(5)
dimana , adalah jarak anggota tiap klaster dan ∆ adalah jarak antar pusat klaster. IV.
TEKNIK VISUALISASI
Gambar 6 Proses Reduksi Dimensi Data [10]
Dari Gambar 6 di atas, data set dapat memiliki sejumlah besar fitur. Pada sekumpulan dokumen yang setiap dokumennya direpresentasikan oleh sebuah vektor memiliki komponen berupa frekuensi kata yang muncul dalam dokumen. Dalam kasus demikian, terdapat ribuan atau bahkan puluhan ribu atribut (komponen). Analisa Komponen Utama atau Principal Component Analysis (PCA) adalah teknik yang digunakan untuk menyederhanakan suatu data, dengan cara mentransformasi linier sehingga terbentuk sistem koordinat baru dengan variansi maksimum. PCA dapat digunakan untuk mereduksi dimensi suatu data tanpa mengurangi karakteristik data tersebut secara signifikan. Diberikan dataset matrik X berukuran (n × X) yang terdiri dari n observasi ( ∈ {1,2, … , }) dengan D dimensi. Algoritma dari analisis komponen utama adalah sebagai berikut [12] : 1. Hitung vektor rata-rata ̅ ( ∈ {1,2, … , }) dengan ∑
̅ = (6) 2. Hitung matriks kovariansi C atau cov(X) dengan ∑
(
̅ )(
̅ )
= , = (7) 3. Hitung nilai eigen λ dan vektor eigen V yang memenuhi persamaan: | − λI| = 0 (8) ( − λI) = 0 (9) 4. Vektor eigen yang didapatkan merupakan komponen utama untuk membentuk variabel baru. Variabel-variabel baru merupakan perkalian antara vektor eigen V dengan
matriks Xa, yaitu matriks X yang telah dinormalisasi (adjusted) yang dihitung dengan rumus : ( ̅) = (10) 5. Sedangkan variansi yang dapat dijelaskan oleh variabel baru ke-i tergantung persentase kontribusi pi dari masingmasing nilai eigen, yang dihitung dengan rumus : =∑ 100% (11) Sedangkan penentuan jumlah variabel baru yang digunakan tergantung persentase kontribusi kumulatif dari kumulatif nilai eigen yang telah diurutkan dari nilai yang terbesar. Nilai persentase kontribusi kumulatif sampai komponen ke – r dihitung dengan rumus : ∑
=∑
100%
dengan λ > λ > λ > ⋯ λ
(12)
membaca tweet bersangkutan. Pada panel tersebut ditampilkan 5 (lima) nama pengguna yang paling sering dimention yaitu @TrioMacan2000 (75%), @PemiluCom (23%), @junhyungcola(1%), @suaramerdeka (1%) dan @TuitSemarang (1%). Panel antarmuka keempat menunjukkan jumlah data tweet yang diunduh berdasarkan satuan waktu bulan. Pada penelitian ini, penulis melakukan pengunduhan data tweet pada bulan Juli 2013 sampai Oktober 2013 pada situs scraperwiki.com menggunakan kata kunci “Pemilu 2014”, dan data dengan ukuran 57294 tweet. Untuk bulan Juli sejumlah 12072 tweet, bulan Agustus 14712 tweet, bulan September 16569 tweet dan bulan Oktober 13941 tweet. B. Hasil Visualisasi Pengklasteran Data Tweet
V. PENGUJIAN DAN ANALISA A. Hasil Visualisasi Data Tweet Asli
Gambar 8 Hasil Visualisasi Data dengan K-Means
Gambar 7 Antarmuka Visualisasi Data Tweet Asli
Pada Gambar 7 di atas terdapat 4 buah grafik visualisasi hasil pembacaan data tweet asli yaitu data pengguna paling aktif, data hashtag paling sering muncul, data volume tweet dan data pengguna paling sering di-mention. Panel antarmuka pertama menunjukkan pengguna dengan nama ‘@kabarPemilu2014’ adalah pengguna yang paling aktif melakukan tweet tentang pemilu 2014 yakni sebanyak 5238 tweet. Disusul oleh pengguna ‘@AyaVallensha’ sebanyak 3711 tweet dan ‘@JokowiMendengar’ sebanyak 1126 tweet serta ‘@OllaTasya’ sebanyak 842 tweet. Data pada panel ini ditampilkan sebanyak 10 nama pengguna yang paling aktif. Panel antarmuka kedua menunjukkan data hashtag atau topik yang sering muncul dalam tweet pengguna. Hashtag dengan nama ‘#Pemilu2014’ menempati jumlah tertinggi yakni 1250 tweet. Disusul oleh ‘#Pemilu’ sebanyak 569 tweet dan ‘#politik’ berjumlah 379 tweet. Untuk ‘#Tuit’ sebanyak 249 tweet dan ‘#SEBHEUPDATE’’ sebanyak 197 tweet. Pada panel ini ditampilkan 5 hashtag teratas dengan ukuran huruf menggambarkan dominasi atau jumlah sebenarnya. Panel antarmuka ketiga menunjukkan persentase data pengguna paling sering di-mention. Dalam suatu tweet dimungkinkan pengguna dapat melakukan mention agar pengguna yang di-mention tersebut mengetahui dan
Gambar 9 Hasil Visualisasi dengan Cascade K-Means
Gambar 10 Hasil Visualisasi Data dengan SOM Kohonen
Sistem pengklasteran data pada data uji coba sebanyak 57294 tweet dilakukan dengan menggunakan algoritma KMeans (gambar 8), Cascade K-Means (gambar 9) dan Self-
Organizing Map (SOM) Kohonen (gambar 10). Data uji coba tersebut sebelumnya telah dilakukan pra pemrosesan yang meliputi proses case folding, filtering, pembakuan kata (KBBI), stopword removal dan stemming. Percobaan diawali dengan menghitung vektor kata pada setiap kalimat tweet menggunakan metode pembobotan TF-IDF. Hasilnya kemudian digunakan sebagai data masukan proses pengklasteran. Tabel 1 Hasil perbandingan cluster algoritma pengelompokan
Tweet
dengan
C. Hasil Visualisasi Pengklasteran Data Tweet Pada Peta
variasi
Data Hasil Pra Pemrosesan Algoritma
Full Data
0 ()
1 ()
2 ()
3 ()
4 (▀)
K-Means
57294 (100%)
271 (0,47%)
33973 (59,30%)
23050 (40,23)
-
-
Cascade K-Means
57294 (100%)
26332 (45,96%)
7912 (13,81%)
23050 (40,23%)
-
-
SOM Kohonen
57294 (100%)
23688 (41,34%)
7907 (13,80%)
2520 (0,23%)
129 (4,40%)
23050 (40,23%)
Cluster
Gambar 11 Hasil Visualisasi Pada Peta dengan Algoritma K-Means
Tabel 2 Hasil perbandingan evaluasi hasil klaster Evaluasi Klaster SSE Dunn Index (Sum of Squared Error)
Algoritma K-Means
52885
0,16
Cascade K-Means
7073
0,67
SOM Kohonen
9843
0,46
Berdasarkan Tabel 1 dan Tabel 2 di atas, dapat diketahui bahwa pada percobaan menggunakan Algoritma Cascade KMeans didapat nilai SSE terkecil yakni 7073 dengan rincian cluster 0 sebesar 26332 tweet, cluster 1 sebesar 7912 tweet dan cluster 2 sebesar 23050 tweet. Variasi percobaan dengan menggunakan algoritma SOM dengan learning rate 0.02 ternyata dihasilkan 5 buah cluster meski hasil SSE-nya tidak menunjukkan kualitas cluster yang relatif baik yakni 9843 jika dibandingkan dengan algoritma Cascade K-Means. Hasil evaluasi kualitas klaster yang sama juga ditunjukkan melalui pengukuran internal Dunn Index pada Tabel 2 Percobaan menghasilkan nilai tertinggi yakni 0,67 pada variasi algoritma Cascade K-Means. Hal ini menunjukkan kualitas terbaik diantara dua variasi algoritma lainnya. Tabel 3 Hasil perbandingan jenis sentimen cluster Tweet dengan variasi algoritma pengelompokan Algoritma
Cluster 0
Cluster 1
Sentimen Cluster 2
K-Means
Positif
Positif
Netral
-
-
Positif
Negatif
Netral
-
-
Positif
Positif
Negatif
Negatif
Netral
Cascade K-Means SOM Kohonen
Cluster 3
Cluster 4
Gambar 12 Hasil Visualisasi Pada Peta dengan Algoritma Cascade K-Means
Gambar 13 Hasil Visualisasi Pada Peta dengan Algoritma SOM
Dari total seluruh data tersebut, sebanyak 384 tweet memiliki nilai lat dan lng. Gambar 11, 12 dan 13 merupakan hasil visualisasi pada peta terhadap hasil pengklasteran dengan pola warna titik seperti pada Tabel 4 menggunakan algoritma K-Means, Cascade K-Means dan SOM Kohonen. Tabel 4 Hasil perbandingan jumlah Tweet pada Peta untuk Setiap cluster dengan variasi algoritma pengelompokan Algoritma
Penafsiran analisa sentimen pada Tabel 3 di atas adalah hasil dari visualisasi word cloud sebagai vektor kata pembentuk cluster. Penafsiran positif berarti kata-kata yang muncul pada word cloud berkategori positif, dan sebaliknya. Pada sentimen netral, kata-kata yang membentuk cluster tidak dijumpai fitur sentimen yang telah ditentukan.
K-Means Cascade KMeans SOM Kohonen
Cluster 0 ( ) 0
Jumlah Tweet pada Peta Cluster 1 Cluster 2 Cluster 3 ( ) ( ) ( ) 223 161 -
Cluster 4 ( ) -
143
80
161
-
-
136
80
3
4
161
Berdasarkan wilayah tweet di-posting, analisa sentimen dapat dilakukan pada setiap bagian daerah. Analisa sentimen ini untuk mengetahui isu kewilayahan terkait topik yang diteliti yaitu ‘Pemilu 2014’.
Gambar 14 Visualisasi Data Tweet Wilayah Kota Jakarta
Pada Gambar 14 di atas, panel visualisasi menunjukkan sentimen wilayah kota Jakarta pada 142 tweet dengan pilihan kata fitur utama yang bermuatan positif pada kata ‘pilih’, ‘ok’ dan ‘cinta’ dengan total persentase kemunculan sebesar 79%. Berikut Tabel 5 yang menunjukkan data teknis fitur kata wilayah kota Jakarta. Tabel 5 Fitur Kata Sentimen Wilayah Kota Jakarta No 1. 2. 3. 4. 5. 6. 7. 8. 9. 10.
Fitur Kata pilih ok cinta buka sesuai cocok dukun bingung dukung salam
Bobot 0.3285795915492959 0.22478174647887317 0.22374387323943662 0.10424895774647888 0.09422159154929578 0.09008858450704225 0.06937138028169014 0.06562292957746478 0.06381019014084507 0.06347278873239436
Kemunculan ( % ) 81 73 71 22 4 4 2 2 2 2
Berdasarkan analisa sentimen daerah terhadap isu nasional “Pemilu 2014”, berikut hasil rekap data tweet pada beberapa wilayah di Indonesia dalam Tabel 6. Tabel 6 Rekap Analisa Sentimen Berdasarkan Wilayah No. Kota Jumlah Tweet Sentimen 1. Jakarta 142 Positif 2. Bandung 109 Positif 3. Semarang 6 Negatif 4. Yogyakarta 45 Positif 5. Surabaya 12 Positif 6. Denpasar 10 Negatif
VI. KESIMPULAN Berdasarkan aplikasi yang telah dibuat dan hasil uji coba yang telah dilakukan, maka dapat ditarik beberapa kesimpulan sebagai berikut: 1. Cascade K-Means menghasilkan nilai SSE terkecil yaitu 7073 dan nilai Dunn Index tertinggi yaitu 0,67 sehingga algoritma ini menghasilkan cluster terbaik dengan perolehan sentimen positif berjumlah 26332, negatif berjumlah 7912, dan netral berjumlah 23050. 2. SOM menghasilkan nilai SSE 9843 yang terbilang masih lebih tinggi daripada Cascade K-Means, hal yang sama
juga ditunjukkan pada pengukuran Dunn Index yang menunjukkan nilai 0,46 meskipun memiliki jumlah cluster yang lebih banyak yaitu 5 cluster. 3. Hasil visualisasi data tweet terhadap hasil pengklasteran pada 3 variasi algoritma telah berhasil diimplementasikan pada diagram scatter menggunakan konfigurasi evaluator Analisa Komponen Utama dengan variabel korelasi pada parameter input sebesar 0.95 dan penyertaan seluruh attribut dengan nilai -1 pada variabel attributes include. DAFTAR PUSTAKA [1] Sumpeno, Surya, Destuardi. 2009. Klasifikasi Emosi Untuk Teks Bahasa Indonesia Menggunakan Metode Naive Bayes. Seminar Nasional Pascasarjana ITS. Surabaya. [2] Prasetyo, Eko. 2012. Data Mining : Konsep dan Aplikasi menggunakan Matlab. Andi : Yogyakarta. [3] Santoso, Budi. 2011. Text Mining dan Web Mining. Fakultas Teknik Informatika UKDW : Yogyakarta. [4] Santoso, Budi. 2006. StudiEM : Sebuah Program Email Mining. http://budsus.blogspot.com/2006/06/studiemsebuah-program-email-mining.html. Diakses pada tanggal 3 Juni 2013. [5] Asian, Jelita. 2007. Effective Techniques for Indonesian Text Retrieval. PhD thesis School of Computer Science and Information Technology RMIT University Australia. [6] Nurfalah, Adiyasa. 2011. Analisis Sentimen Pada Opini Berbahasa Indonesia Menggunakan Pendekatan Lexicon-Based. Fakultas Pascasarjana Intitut Teknologi Telkom. Bandung. [7] Mahendra, I Putu Adhi Kerta. 2008. Penggunaan Algoritma Semut dan Confix Stripping Stemmer Untuk Klasifikasi Dokumen Berita Berbahasa Indonesia. Tugas Akhir. ITS. Surabaya. [8] R.A. Johnson & D.W. Wichern. 1988. Applied Multivariate Statistical Analysis. Prentice Hall. USA. [9] Salton G., 1989. Automatic Text Processing. Cornell University Chapter 9. [10] Midshipman David G. 2007. Exploring Dimensionality Reduction For Text Mining. United States Naval Academy Annapolis. Maryland. [11] Sri Mulyana, Edi Winarko. 2009. Teknik Visualisasi Dalam Data Mining. Seminar Nasional Informatika. Yogyakarta. [12] Ronny Susetyoko, Elly Purwantini. 2009. Teknik Reduksi Dimensi Menggunakan Komponen Utama Data Partisi Pada Pengklasifikasian Data Berdimensi Tinggi dengan Ukuran Sampel Kecil. Jurnal. PENS. [13] Harianja, Henri. 2008. Visualisasi K-Means Clustering Pada Data Potensi Pertanian Desa Di Bogor Menggunakan Mapserver. Skripsi. Institut Pertanian Bogor. [14] Indrawati, Nur. 2008. Natural Language Processing (NLP) Bahasa Indonesia Sebagai Preprocessing Pada Text Mining. Jurnal Institut Tinggi Teknologi Telkom. Bandung. [15] Adiwijaya, Igg. 2006. Texi Mining dan Knowledge Discovery. Komunitas Data mining Indonesia & Softcomputing Indonesia.