Penggunaan Text Mining pada Analisis Sentimen Masyarakat terhadap Perubahan Harga Bahan Pokok melalui Twitter Muthia Szami Naffisah, Isti Surjandari Departemen Teknik Industri, Fakultas Teknik, Universitas Indonesia, Depok, 16424
[email protected] ,
[email protected]
Abstrak Peningkatan jumlah data digital secara signifikan telah mendorong peningkatan kebutuhan teknik penggalian informasi dalam data tersebut. Data digital, yang berasal dari media sosial, sebagian besar adalah dalam bentuk tidak terstruktur dan sulit untuk diproses. Di sisi lain, media sosial telah menciptakan data dalam jumlah besar, yang termasuk di dalamnya adalah aspirasi masyarakat mengenai apa yang terjadi di sekitar mereka. Data ini sangat potensial untuk dapat diutilisasi oleh perusahaan maupun pembuat kebijakan. Maka dari itu, penelitian ini menganalisis respon masyarakat melalui akun twitter mereka mengenai topik harga bahan pokok dan mengklasifikasikan respon tersebut menjadi dua kelompok; respon positif dan negatif. Penelitian ini menggunakan metode text mining untuk memperoleh data dan mengekstraksi informasi, sedangkan asosiasi antara jenis bahan pokok dengan sentiment respon diukur menggunakan uji Chi Square dan Prosedur Marascuilo. Hasil penelitian menunjukkan bahwa Harga Susu, Harga Telur dan Harga Bawang Merah berasosiasi paling signifikan terhadap munculnya sentimen negative dibandingkan komoditas lain. Penemuan ini dapat digunakan oleh pemangku kepentingan untuk mengetahui komoditas apa yang paling berpengaruh kepada sentimen negatif masyarakat saat ini. Kata Kunci: Bahan Pokok; Harga Pangan; Prosedur Marascuilo; Sentiment Analysis; Text Mining. Application of Text Mining in Analyzing Sentiment of Staple Foods Price Changes in Twitter Abstract As the number of digital data has been increasing significantly, the need of techniques in mining the information in the data is rising as well. Digital data, which comes from the social media, are mostly in form of unstructured textual data which are difficult to handle. On the other hand, social media creates a large pool of data consisting of people’s aspiration on what happen around them, making it very potential to be utilized by corporate or even policy makers. Therefore, this research seek to analyze people’s responses through their twitter account on staple food prices topic and attempt to classify them into sentiment classes; positive and negative tweets. Research will be done using text mining methods to both gather and extract the information, and the association between types of staple foods and tweets’ sentiments will be analyzed using Chi Square Test and Marascuilo Procedure. The result reveals that Milk price, Egg Price and Red Onion price associate with the occurrence of negative sentiment tweets most significantly than other commodities. These findings could help stakeholders to determine what commodities matters most to people in this period of time. Keyword: Food Prices, Marascuilo Procedure, Sentiment Analysis, Staple Foods, Text Mining.
1
Penggunaan text…, Muthia Szami Naffisah, FT UI, 2014
Pendahuluan Jumlah data di dunia meningkat secara signifikan, dan diestimasi telah dalam satuan zettabyte dan terus tumbuh sebesar 40% setiap tahunnya (Fan & Biffet, 2012). Sayangnya, hanya kurang dari 3% data dunia digital tersebut yang dimanfaatkan untuk analisis, dengan kapasitas analisis pada tahun 2012 mencapai 23% dari keseluruhan data digital yang tersedia (Fan & Biffet, 2012). Analisis data dalam jumlah sangat besar ini dapat dilakukan dengan metodologi Data Mining, yang memiliki kapabilitas mengekstraksi informasi berguna dari set data dengan jumlah dan kompleksitas yang tinggi (Fan & Biffet, 2012). Text Mining, sebagai salah satu jenis dari Data Mining merupakan metodologi yang menganalisis data tekstual yang tidak mudah untuk diproses secara algoritmik, tidak terstruktur, namun merupakan bentuk data yang paling umum dalam proses pertukaran informasi (Witten, 2005). Data ini berasal dari media sosial, email, dan lainnya (Fico, 2013) dan maraknya pemakaian media sosial di masyarakat dapat menjadi peluang bagi analis data untuk memperoleh gambaran mengenai kondisi masyarakat melalui data/pesan yang masyarakat sampaikan melalui media sosial mereka. Media sosial sebagai akses cepat bagi pemerintah dalam pemantauan kondisi masyarakat sangat beralasan karena Indonesia memiliki sekitar 55 juta pengguna internet (Dibley, 2012) dan resmi menjadi negara pengguna twitter kelima terbesar di dunia (Semiocast, 2012). Menurut Timmer pada tahun 1996, tidak ada satupun negara yang dapat mempertahankan pertumbuhan ekonominya tanpa terlebih dahulu memecahkan masalah pangan (Amang dan Sawit, 2001). Yang dimaksud dengan masalah pangan salah satunya ialah mengenai ketahanan pangan. Ketahanan pangan suatu negara dihitung dengan suatu indeks keamanan pangan. Berdasarkan data Global Food Security Index 2012 yang dirilis oleh Economic Intelligent Unit, indeks keamanan pangan Indonesia berada di bawah 50 dalam skala 0-100. Keadaan tersebut juga merupakan salah satu akibat dari kecenderungan peningkatan hargaharga komoditas pangan dunia dalam beberapa tahun terakhir, dimana Indonesia tidak mampu menghindari dampak dari keadaan tersebut. Keadaan harga pangan dunia perlu dicermati mengingat besarnya porsi pendapatan masyarakat Indonesia yang dihabiskan untuk konsumsi pangan. Menurut data triwulan III tahun 2012 milik Badan Pusat Statistik (BPS), masyarakat Indonesia pada tahun 2012 rata-rata membelanjakan 47.71% dari total pendapatan per kapitanya untuk membeli makanan (BPS, 2013) Masalah pada penelitian ini adalah rentannya masyarakat Indonesia terhadap perubahan harga bahan pokok, sehingga dilakukan analisis mengenai jenis bahan pokok apa yang paling 2
Penggunaan text…, Muthia Szami Naffisah, FT UI, 2014
berpengaruh terhadap munculnya sentiment negatif pada pesan yang disampaikan secara real time melalui twitter. Data dari twitter sebagai real time database akan diolah menggunakan text mining dan data sentiment analysis. Tinjauan Teoritis Bahan Pokok Bahan pokok menurut Food and Agriculture Organization (FAO) adalah bahan yang dikonsumsi secara rutin dalam jumlah tertentu, dan mengambil porsi dominan dalam komponen nutrisi masyarakat. Keputusan Menteri Perindustrian dan Perdagangan Republik Indonesia (Kepmenperindag RI) Nomor 115/MPP/Kep/2/1998 menyatakan bahwa bahan pokok adalah jenis barang yang dikategorikan sebagai kebutuhan pokok masyarakat. Barangbarang yang termasuk bahan pokok tersebut pun sebagian besar merupakan bahan pangan (Tabel 1), yang jenisnya dikonsumsi secara rutin untuk menunjang hidup. Tabel 1 Bahan pokok masyarakat 1 2 3 4 5
Barang Kebutuhan Pokok Masyarakat Beras 6 Susu Gula pasir 7 Jagung Minyak goreng dan mentega 8 Minyak tanah Daging sapi dan ayam 9 Garam Telur ayam (sumber : Kepmenperindag, 1998) (telah diolah kembali)
Pusat Penelitian dan Pengembangan Sosial Ekonomi Pertanian (PPPSEP, 2014) menyatakan bahwa saat ini telah terjadi fenomena pergeseran jenis bahan pangan pokok yang dibutuhkan masyarakat. Bahan pangan yang sebelumnya tidak termasuk ke dalam kelompok bahan pokok, saat ini mungkin telah dapat dikategorikan sebagai bahan pangan pokok. Hal ini dapat disebabkan oleh beberapa faktor, salah satunya ialah kenaikan harga pangan (PPPSEP, 2014). Kenaikan harga pangan juga memberikan pengaruh pada tekanan inflasi tahun 2013 (Bank Indonesia, 2013), yang dikategorikan sebagai faktor inflasi komponen bergejolak (volatile food). Tahun 2013 lalu, inflasi komponen volatile food mencapai angka 11.8% yang dipengaruhi kenaikan harga aneka bumbu, sayur dan buah, serta berlanjutnya kenaikan harga daging sapi (Bank Indonesia, 2013). Angka inflasi ini disebabkan oleh berkurangnya pasokan akibat gangguan cuaca, kebijakan kuota impor, dan produksi domestik yang minim. Bahanbahan pangan penyusun komponen volatile food 2013 ditunjukkan pada Tabel 2.
3
Penggunaan text…, Muthia Szami Naffisah, FT UI, 2014
Tabel 2 Bahan Penyumbang Inflasi Volatile Food Komoditas Kontribusi (%) 1. Bawang Merah 0.4 2. Cabai Merah 0.3 3. Beras 0.2 4. Jeruk 0.1 5. Daging Ayam Ras 0.1 6. Daging Sapi 0.1 (sumber : Bank Indonesia, 2013) (telah diolah kembali)
Media Sosial dan Twitter Media sosial adalah media bersosialisasi antar pengguna internet yang dilakukan secara online dimana pengguna dapat berinteraksi satu sama lain secara virtual tanpa terbatas ruang dan waktu (Rustian, 2012). Perkembangan media sosial yang pesat saat ini memunculkan beragam jenis media sosial yang dapat digunakan pengguna internet. Salah satunya ialah microblog yakni media sosial untuk pengguna menuliskan keseharian mereka, pikiran, opini seperti halnya pada blog namun dalam bentuk pesan pendek yang memiliki jumlah karakter terbatas, misalnya Twitter. Ward & Ostrom (2006) melihat adanya kecenderungan masyarakat menggunakan media sosial jenis ini untuk menyampaikan keluhan atau ketidakpuasannya terhadap suatu produk ataupun kebijakan. Penelitian ini menggunakan media sosial twitter sebagai sumber perolehan data berupa opini masyarakat mengenai topik yang diangkat. Twitter dipilih karena reputasinya sebagai microblog terpopuler di dunia (Pudyastomo, 2009) dan juga di Indonesia (Invonesia, 2014).
Text Mining Analysis Proses penggalian informasi dari sekumpulan dokumen data berupa teks yang mengandung informasi yang tidak terstruktur dengan menggunakan alat analisis tertentu adalah definisi dari Text Mining (Feldman and Sanger, 2007). Pekerjaan yang dilakukan dalam konsep Text Mining secara garis besar adalah penggalian deskriptif (descriptive mining) dan penggalian prediktif (predictive mining). Pekerjaan predictive mining meliputi klasifikasi dokumen ke dalam kategori-kategori, lalu menggunakan informasi tersebut untuk membuat keputusan (SAS Institute, 2010). Misalnya, pada dokumen komentar pelanggan mengenai kepuasan pelanggan terhadap suatu produk, komentar pada pembelian yang telah terjadi dapat digunakan untuk membangun model prediktif sehingga komentar pelanggan di pembelian yang akan datang dapat diprediksi. Pada penggalian deskriptif, informasi seperti 4
Penggunaan text…, Muthia Szami Naffisah, FT UI, 2014
frase, istilah dan entitas lain dalam teks diperoleh. Misalnya pada laporan komentar pelanggan suatu perusahaan melalui website, email maupun pusat pelayanan pelanggan, descriptive mining dapat membantu perusahaan dalam hal ini pengguna data untuk melakukan pengelompokkan dokumen berdasarkan konsep tertentu (SAS Institute, 2010). Kelompok dokumen dapat terbentuk berdasarkan frase tertentu yang sering muncul, ataupun kemunculan bersamaan kata-kata tertentu pada seluruh dokumen yang tersedia. Untuk memperoleh informasi akhir yang berguna bagi pemiliki data, Text Mining harus melalui beberapa tahap, diilustrasikan dalam diagram sistem Text Mining pada Gambar 1.
Gambar 1 Diagram sistem Text Mining (Sumber: Miner, et.al., 2012)
1. Fase pra-proses (pre-processing task) Fase ini menggambarkan seluruh metode untuk mempersiapkan data agar dapat dimengerti oleh sistem operasi Text Mining. Fase ini mengkonversi informasi menjadi dalam format yang dapat diproses, dengan tahapan sebagai berikut (Miner, et.al., 2012): •
Pemilihan lingkup dokumen yang akan dianalisis
•
Tokenization yakni memisahkan teks dalam dokumen menjadi potongan kalimat dan kata. Potongan kata ini disebut token.
•
Tahap selanjutnya ialah tahap filtering dimana kata-kata yang bermakna tidak signifikan harus dibuang, seperti mention (@), hashtag (#), RT (retweet), dll.
5
Penggunaan text…, Muthia Szami Naffisah, FT UI, 2014
•
Tahap stemming yakni mengambil akar kata dan memperbaiki/mengeliminasi kata yang tidak baku dalam kalimat. Tahap stemming banyak dipakai pada dokumen berbahasa inggris, sedangkan penerapan dalam bahasa Indonesia lebih sulit (Triawati, 2009).
•
Tahap deteksi batas kalimat, untuk menentukan bagian akhir dari setiap kalimat pada dokumen.
•
Case folding. Tahap ini mengubah semua huruf kapital dalam dokumen menjadi huruf kecil atau sebaliknya. Pengubahan huruf juga termasuk memastikan hanya huruf a hingga z yang terdapat dalam dokumen.
2. Fase Penyusunan Vektor Untuk dapat dipahami oleh sistem operasi text mining, sebuah vector representasi atas token-token kata perlu dibuat berdasarkan kemunculan kata tersebut dalam dokumen (Miner, et.al., 2012). Memasukan kata sebagai vektor perlu melalui proses pembobotan berdasarkan frekuensi kemunculan kata, yang dikenal dengan istilah term frequency-inverse document frequency. Konsep ini tergambarkan pada persamaan 1,2, dan 3 berikut ini (Miner, et.al., 2012). (1) (2) (3) Matriks yang berisikan term sebagai kolom dan dokumen tweet sebagai baris akan diperoleh, dan matriks ini memiliki dimensi yang sangat tinggi. Untuk mereduksi noise dalam data, teknik Singular Value Decomposition (SVD) digunakan (Miner et.al., 2012). SVD mereduksi jumlah variabel dengan operasi aljabar linier (Miner et.al.,
2012)
dengan
mentransformasi
variabel-variabel
berkorelasi
menjadi
sekumpulan variabel tidak berkorelasi yang lebih mengungkap hubungan yang terdapat dalam data asli (Baker, 2013). Variabel tidak berkorelasi tersebut selanjutnya akan disebut konsep. 3. Fase Ekstraksi Informasi Informasi dalam bentuk pola atau tren menurut waktu dapat diamati menggunakan term-document matrix yang terstruktur dengan baik (Miner, et.al., 2012). Metode ekstraksi informasi yang digunakan dalam penelitian ini adalah klasifikasi yang membagi objek ke dalam kategori yang telah ditentukan (supervised 6
Penggunaan text…, Muthia Szami Naffisah, FT UI, 2014
method). Pendekatan model klasifikasi yang digunakan adalah teknik statistik dan/atau teknik machine learning. Pendekatan machine learning akan dipakai dalam penelitian ini dimana mesin akan mengoperasikan model yang belajar dari contoh dokumen yang telah terklasifikasi. Analisis Sentimen Salah satu bagian penting dalam pencarian informasi adalah mengetahui apa yang orang lain pikirkan, dan saat ini semakin banyak orang menyampaikan pikiran dan opini mereka secara bebas melalui internet kepada orang lain yang tidak mereka kenal (Pang dan Lee, 2008). Teknologi informasi kini memberikan peluang untuk mengembangkan sistem yang dapat memahami opini orang lain secara otomatis, dan memberikan evaluasi mood pada opini seseorang di internet. Analisis mood pada opini disebut Analisis Sentimen, yang merujuk kepada analisis secara otomatis mengenai teks yang evaluatif dengan berfokus kepada klasifikasi teks berdasarkan polaritas yang dimilikinya (Pang dan Lee, 2008). Klasifikasi data pada kelompok sentimen tertentu (positif atau negatif) dilakukan dengan membangun model probabilitas kemunculan suatu kata dalam dokumen yang telah dikelompokkan sebelumnya (Mashape, 2013). Klasifikasi dan Algoritma Penggolong Kategorisasi teks dilakukan dengan melakukan studi klasifikasi. Pertama, kumpulan data training yang telah terklasifikasi akan dianalisis menggunakan algoritma machine learning. Machine learning akan mempelajari model latihan (training model) sesuai dengan algoritma yang telah ditentukan, dan setelah proses latihan selesai, sisa dokumen yang belum terklasifikasi dapat dikategorikan menggunakan model yang telah dilatih tersebut. Beberapa algoritma yang umum digunakan pada kategorisasi teks adalah Support Vector Machine (SVM), Decision Tree dan Naïve Bayes.
Uji Chi Square, Monte Carlo Simulation dan Marascuilo Procedure Data pada penelitian ini akan dikelompokkan ke dalam dua kategori, yakni sentimen negatif dan sentimen positif. Teknik analisis data kategorikal telah dikembangkan dalam ilmu statistik, misal uji independensi chi square untuk data kategorikal (Scheaffer, 1999). Uji independensi chi square adalah uji yang memberikan informasi mengenai adanya perbedaan 7
Penggunaan text…, Muthia Szami Naffisah, FT UI, 2014
antar proporsi beberapa populasi dalam data kategorikal tersebut. Dengan menggunakan uji chi square, akan didapatkan informasi mengenai ada atau tidaknya perbedaan proporsi sentimen negatif antar berbagai bahan pokok yang diamati, sehingga dapat diketahui apakah terdapat hubungan antara perbedaan jenis bahan pokok dengan kemunculan sentimen negatif. Namun, populasi atau jenis bahan pokok yang berkontribusi terhadap perbedaan proporsi tidak dapat diketahui. Pada data kategorikal, dikenal konsep Marascuilo Procedure untuk mengetahui populasi tersebut. Jika Uji Chi Square memberikan hasil yang menunjukkan adanya perbedaan proporsi antar populasi, maka prosedur Marascuilo akan dilakukan. Konsep Marascuilo Procedure adalah membandingkan nilai mutlak selisih kombinasi proporsi berpasangan yang mungkin terjadi antar populasi (Persamaan 4) dengan kisaran kritis yang didapat dari perhitungan Persamaan 5 (National Institute of Standards and Technology, 2014). Perbedaan proporsi yang signifikan ditandai dengan lebih besarnya nilai selisih mutlak proporsi berpasangan daripada nilai
. (4) (5)
Uji Chi Square adalah uji yang lebih baik tidak digunakan ketika jumlah pada kategori-kategori terlalu banyak memiliki jumlah yang kecil (XLSTAT, 2014). Maka dari itu, simulasi uji disarankan untuk dilakukan (Monte Carlo Simulation). Simulasi ini akan menghasilkan tabel-tabel baru berisi jumlah yang terdapat pada kategori-kategori yang berisikan nilai random dengan jumlah marginal yang sama dengan nilai sebenarnya. Nilai random pada tabel-tabel baru ini akan memberikan nilai Chi Square baru untuk masingmasing tabel sehingga kemungkinan dihasilkannya nilai Chi Square yang lebih rendah dapat diketahui (XLSTAT, 2014).
Metode Penelitian
Tahapan Penelitian Tweet atau pesan masyarakat melalui twitter yang relevan dengan topik bahan pokok dikumpulkan kemudian diolah menggunakan text mining sehingga data tekstual yang tidak terstruktur dapat dianalisis selayaknya data numerik seperti diilustrasikan melalui Gambar 2. 8
Penggunaan text…, Muthia Szami Naffisah, FT UI, 2014
Gambar 2 Metodologi Penelitian Tahap Pengumpulan Dokumen Dokumen teks, dalam hal ini tweet diunduh dari internet menggunakan program terautomasi yang akan memindai halaman twitter untuk menciptakan indeks data yang diinginkan analis (Wisegeek, 2014). Pada penelitian ini, tweet diunduh dengan menggunakan ScraperWiki yang merupakan aplikasi online yang mengumpulkan data dari berbagai sumber di intenet dan menyalin data tersebut ke dalam basis data (Spillane, 2010). Pengunduhan data twitter memiliki batasan, yakni data yang dapat diunduh hanya tweet dalam jangka satu minggu sebelum waktu pengunduhan (Scraperwiki, 2014). Pemindaian halaman twitter dilakukan berdasarkan perintah pencarian yang pengguna isikan pada kolom “pencarian kata”. Perintah berupa kata kunci yang dicari pada penelitian ini dapat dimodifikasi menjadi sangat spesifik sesuai dengan topik yang dianalisis. Data penelitian diunduh selama 7 minggu yakni dari 14 April 2014 hingga 1 Juni 2014.
Tahap Pra-proses Data tekstual tidak terstruktur pada twitter memerlukan serangkaian pemrosesan agar dapat dianalisis dengan text mining. Rangkaian tahap pra-proses (pada fase pra-proses yang dijelaskan di bagian sebelumnya) dapat dijalankan satu per satu oleh analis untuk setiap tweet, 9
Penggunaan text…, Muthia Szami Naffisah, FT UI, 2014
namun karena jumlahnya yang sangat besar, sebuah aplikasi perlu dikembangkan untuk melakukan automasi tahapan pra-proses untuk tweet dalam jumlah yang sangat besar dalam waktu yang sangat singkat. Aplikasi ini dikembangkan menggunakan bahasa pemrograman C++ yang naskahnya dapat dimodifikasi sesuai kebutuhan penelitian. Aplikasi ini akan mengerjakan seluruh langkah pada fase pra-proses kecuali pada langkah penmbuatan termdocument matrix.
Klasifikasi Sentimen Tujuan akhir dari tahap ini adalah untuk mengetahui jumlah pesan di setiap kelompok sentimen pada masing-masing jenis bahan pokok. Konsep machine learning digunakan, dimana pola pada data untuk melakukan klasifikasi akan dipelajari berdasarkan data latihan (data training) yang disiapkan sebelumnya. Data latihan diberikan label sentimen dan jumlah masing-masing sentimen adalah sama (balanced training data) untuk menghindari adanya kecenderungan model latihan untuk mengelompokkan ke satu sentimen dibandingkan sentimen lainnya. Selain data latihan, data uji harus disiapkan untuk menghitung akurasi dari pengelompokkan model. Data uji adalah data yang telah memiliki label sentimen yang digunakan untuk menguji model klasifikasi dari data latihan, bukan untuk melatih model dalam melakukan klasifikasi. Akurasi dari model latihan dihitung dari seberapa berhasil klasifikasi dilakukan dengan benar dengan merujuk kepada label sentimen pada data uji yang ditentukan oleh penulis. Pada tahap akhir klasifikasi, pesan tweet yang belum memiliki label sentimen (data deployment) akan memiliki label sentimen hasil prediksi dari model latihan. Model klasifikasi mengikuti algoritma penggolong SVM, Naïve Bayes dan Decision Tree. Pengamatan akurasi model terdiri dari dua bagian, yakni pengamatan akurasi klasifikasi untuk data yang melalui proses stemming dan data yang tidak melalui proses stemming. Tujuan dari kedua pengamatan tersebut adalah untuk mengetahui apakah tahap stemming pada fase praproses memberikan peningkatan akurasi model klasifikasi. Hasil Penelitian Hasil dari keseluruhan langkah pada fase pra-proses adalah matriks term-document yang terdiri dari tiga jenis matriks; term frequency matrix, inverse document frequency matrix
10
Penggunaan text…, Muthia Szami Naffisah, FT UI, 2014
dan singular value decomposition matrix. Potongan ketiga matriks tersebut disajikan pada Gambar 3, Gambar 4 dan Gambar 5.
Gambar 3 Term Frequency Matrix
Gambar 4 Inverse Document Frequency Matrix
Gambar 5 Singular Value Decomposition Matrix Berdasarkan Tabel 3, dapat diketahui bahwa algoritma SVM memiliki akurasi model klasifikasi paling besar dibandingkan algoritma lainnya. Sedangkan dokumen yang melalui tahap stemming memiliki akurasi yang lebih tinggi dibandingkan dokumen yang tidak melalui tahap stemming. Maka dari itu, algoritma SVM digunakan sebagai algoritma penggolong untuk melakukan klasifikasi selanjutnya pada data deployment yang belum memiliki label sentiment. Algoritma ini diaplikasikan kepada model matriks dengan stemming.
11
Penggunaan text…, Muthia Szami Naffisah, FT UI, 2014
Tabel 3 Akurasi model klasifikasi Algoritma Naïve Bayes SVM Decision Tree
Akurasi Model Klasifikasi tanpa stemming (%) 65.76 75.19 53.99
Akurasi Model Klasifikasi dengan stemming (%) 72.23 80.35 54.22
Pada akhir klasifikasi akan didapatkan label sentimen pada keseluruhan data sehingga total jumlah tweet pada masing-masing kelompok sentimen untuk setiap komoditas dapat diketahui pada Tabel 4.
Tabel 4 Pengelompokkan tweet berdasarkan sentimen pada harga bahan pokok Kode Penamaan 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Komoditas Daging Ayam Jeruk Minyak Goreng Minyak Tanah Garam Jagung Elpiji Gula Cabe Merah Beras Bawang Merah Daging Sapi Susu Telur Mentega Total
Positif 555 212 111 5 57 436 196 394 1088 645 84 267 24 161 0 4235
Negatif 1882 561 104 46 81 480 784 689 526 803 1305 3714 411 2727 0 14113
Secara umum, masyarakat cenderung mengunggah tweet bersentimen negatif dibandingkan positif untuk seluruh jenis bahan pokok. Sentimen negatif menggambarkan adanya kenaikan harga, ketidakstabilan harga, ataupun ketidakmampuan pembelian suatu jenis bahan pokok dengan harga saat ini dan sentiment positif menggambarkan situasi sebaliknya. Pada komoditas mentega, tidak ada tweet yang diunggah oleh masyarakat dengan sentimen positif maupun negatif dapat menggambarkan tidak terjadinya kenaikan maupun penurunan harga mentega yang signifikan yang dilaporkan oleh masyarakat melalui twitter. Pada tahap selanjutnya, komoditas mentega tidak diikutsertakan dalam analisis perbandingan proporsi karena data bahan mentega tidak memiliki proporsi (tidak ada data yang dapat dihitung) sehingga tidak dapat dibandingkan dengan bahan pokok lainnya.
12
Penggunaan text…, Muthia Szami Naffisah, FT UI, 2014
Pembahasan Pengukuran hubungan antara tweet mengenai jenis bahan pokok dengan sentimen tweet tersebut (positif/negatif) dapat diukur dengan uji perbandingan proporsi. Proporsi
pada
penelitian ini adalah jumlah tweet bersentimen negatif/positif dibandingkan dengan jumlah total tweet untuk masing-masing bahan pokok. Uji perbandingan k-proporsi dengan prosedur Marascuilo dilakukan karena jumlah populasi lebih dari dua (jenis bahan pokok) dan perbandingan berpasangan ingin dilakukan secara simultan untuk seluruh kemungkinan perbandingan. Sebelum melakukan prosedur Marascuilo, perlu dilakukan Uji Chi Square untuk mengetahui eksistensi perbedaan proporsi antar populasi. Hasil uji Chi Square terdapat pada Tabel 4.5 dengan interpretasi hasil Ho menunjukkan tidak ada perbedaan antar proporsi dan H1 menunjukkan setidaknya terdapat satu proporsi yang berbeda dengan proporsi lainnya dengan significance level 5%. Ho ditolak ketika nilai P lebih kecil dari 0.05. Maka dapat disimpulkan bahwa proporsi antar populasi memiliki perbedaan setidaknya pada satu populasi yang ditunjukkan oleh nilai P < 0.0001. Tabel 5 Uji Chi Square Chi-square test: Chi-square (Observed value)
4125.624
Chi-square (Critical value)
22.362
DF
13
p-value Alpha
< 0.0001 0.05
Pada uji Monte Carlo, tabel kemungkinan (contingency table) dihasilkan berulang kali (sesuai dengan jumlah simulasi yang ditentukan) secara random namun tetap menghasilkan jumlah marginal yang sama. Hasil simulasi berulang adalah nilai pengamatan dan nilai kritikal Chi Square baru untuk nilai random yang dihasilkan. Pada Tabel 6 disajikan hasil simulasi Monte Carlo dengan nilai pengamatan dan kritikal Chi Square yang hampir sama dengan Uji Chi Square pada Tabel 5. Tabel 6 Uji Monte Carlo Monte Carlo Simulation (Number of simulations = 5000): Chi-square (Observed value)
4125.624
Chi-square (Critical value)
22.631
DF
13
p-value
< 0.0001
Alpha
0.05
13
Penggunaan text…, Muthia Szami Naffisah, FT UI, 2014
Prosedur marascuilo dapat dilakukan setelah uji perbedaan proporsi di atas dilakukan. Prosedur ini dilakukan dengan membandingkan seluruh kombinasi populasi berpasangan untuk melihat adanya perbedaan proporsi pada kombinasi tersebut yang dapat dilihat pada Tabel 7. Tabel 7 Perhitungan Nilai Marascuilo Marascuilo procedure: Perbandingan
Nilai
Nilai kritikal
Signifikansi
|p(1) - p(2)|
0.047
0.086
No
|p(1) - p(3)|
0.289
0.166
Yes
|p(1) - p(4)|
0.130
0.201
No
|p(1) - p(5)|
0.185
0.202
No
|p(1) - p(6)|
0.248
0.088
Yes
|p(1) - p(7)|
0.028
0.073
No
|p(1) - p(8)|
0.136
0.080
Yes
|p(1) - p(9)|
0.446
0.068
Yes
|p(1) - p(10)|
0.218
0.074
Yes
|p(1) - p(11)|
0.167
0.050
Yes
|p(1) - p(12)|
0.161
0.044
Yes
|p(1) - p(13)|
0.173
0.066
Yes
|p(1) - p(14)|
0.172
0.045
Yes
|p(2) - p(3)|
0.242
0.178
Yes
|p(2) - p(4)|
0.176
0.211
No
|p(2) - p(5)|
0.139
0.212
No
|p(2) - p(6)|
0.202
0.109
Yes
|p(2) - p(7)|
0.074
0.097
No
|p(2) - p(8)|
0.090
0.103
No
|p(2) - p(9)|
0.400
0.094
Yes
|p(2) - p(10)|
0.171
0.098
Yes
|p(2) - p(11)|
0.214
0.082
Yes
|p(2) - p(12)|
0.207
0.078
Yes
|p(2) - p(13)|
0.219
0.092
Yes
|p(2) - p(14)|
0.219
0.079
Yes
|p(3) - p(4)|
0.418
0.254
Yes
|p(3) - p(5)|
0.103
0.255
No
|p(3) - p(6)|
0.040
0.179
No
|p(3) - p(7)|
0.316
0.172
Yes
|p(3) - p(8)|
0.152
0.175
No
|p(3) - p(9)|
0.158
0.170
No
|p(3) - p(10)|
0.071
0.173
No
|p(3) - p(11)|
0.456
0.164
Yes
|p(3) - p(12)|
0.449
0.162
Yes
|p(3) - p(13)|
0.461
0.169
Yes
|p(3) - p(14)|
0.461
0.162
Yes
|p(4) - p(5)|
0.315
0.279
Yes
14
Penggunaan text…, Muthia Szami Naffisah, FT UI, 2014
Tabel 7 Perhitungan Nilai Marascuilo (sambungan) Marascuilo procedure: Perbandingan
Nilai
Nilai kritikal 0.378
0.212
Yes
|p(4) - p(7)|
0.102
0.206
No
|p(4) - p(8)|
0.266
0.209
Yes
|p(4) - p(9)|
0.576
0.204
Yes
|p(4) - p(10)|
0.347
0.206
Yes
|p(4) - p(11)|
0.038
0.199
No
|p(4) - p(12)|
0.031
0.198
No
|p(4) - p(13)|
0.043
0.204
No
|p(4) - p(14)|
0.042
0.198
No
|p(5) - p(6)|
0.063
0.213
No
|p(5) - p(7)|
0.213
0.207
Yes
|p(5) - p(8)|
0.049
0.210
No
|p(5) - p(9)|
0.261
0.206
Yes
|p(5) - p(10)|
0.032
0.208
No
|p(5) - p(11)|
0.353
0.201
Yes
|p(5) - p(12)|
0.346
0.199
Yes
|p(5) - p(13)|
0.358
0.205
Yes
|p(5) - p(14)|
0.357
0.199
Yes
|p(6) - p(7)|
0.276
0.099
Yes
|p(6) - p(8)|
0.112
0.104
Yes
|p(6) - p(9)|
0.198
0.096
Yes
|p(6) - p(10)|
0.031
0.100
No
|p(6) - p(11)|
0.416
0.084
Yes
|p(6) - p(12)|
0.409
0.080
Yes
|p(6) - p(13)|
0.421
0.094
Yes
|p(6) - p(14)|
0.420
0.081
Yes
|p(7) - p(8)|
0.164
0.092
Yes
|p(7) - p(9)|
0.474
0.082
Yes
|p(7) - p(10)|
0.245
0.086
Yes
|p(7) - p(11)|
0.140
0.068
Yes
|p(7) - p(12)|
0.133
0.063
Yes
|p(7) - p(13)|
0.145
0.080
Yes
|p(7) - p(14)|
0.144
0.064
Yes
|p(8) - p(9)|
0.310
0.088
Yes
|p(8) - p(10)|
0.082
0.093
No
|p(8) - p(11)|
0.303
0.075
Yes
|p(8) - p(12)|
0.297
0.072
Yes
|p(8) - p(13)|
0.309
0.086
Yes
|p(8) - p(14)|
0.308
0.072
Yes
|p(9) - p(10)|
0.229
0.083
Yes
|p(9) - p(11)|
0.614
0.063
Yes
|p(9) - p(12)|
0.607
0.058
Yes
|p(9) - p(13)|
0.619
0.076
Yes
15
Signifikansi
|p(4) - p(6)|
Penggunaan text…, Muthia Szami Naffisah, FT UI, 2014
Tabel 7 Perhitungan Nilai Marascuilo (sambungan) Marascuilo procedure: Perbandingan
Nilai
Nilai kritikal
Signifikansi
|p(9) - p(14)| |p(10) - p(11)| |p(10) - p(12)| |p(10) - p(13)|
0.618 0.385 0.378 0.390
0.059 0.069 0.065 0.081
Yes Yes Yes Yes
|p(10) - p(14)|
0.390
0.065
Yes
|p(11) - p(12)|
0.007
0.036
No
|p(11) - p(13)|
0.005
0.060
No
|p(11) - p(14)|
0.005
0.036
No
|p(12) - p(13)|
0.012
0.055
No
|p(12) - p(14)|
0.011
0.028
No
|p(13) - p(14)|
0.001
0.056
No
Tabel 7 menunjukkan 91 kombinasi untuk 14 bahan pokok dan perbandingan berpasangannya, serta nilai dan nilai kritikal untuk menginterpretasi adanya signifikansi perbedaan. Jika nilai lebih besar daripada nilai kritikal, maka terdapat perbedaan yag signifikan secara statistik antara kedua populasi tersebut. Terdapat 62 kombinasi yang memiliki proporsi berbeda secara signifikan, dan 29 kombinasi yang tidak signifikan perbedaan proporsinya. Signifikansi ini akan menjadi acuan untuk mengelompokkan bahan pokok berdasarkan perbandingan pengaruhnya pada sentimen tweet dan urutan pengaruh kelompok tersebut terhadap kemunculan sentiment negatif dari suatu jenis bahan pokok. Kelompok ini ditunjukkan pada Tabel 8. Tabel 8 Pengelompokan komoditas berdasarkan signifikansi dan nilai proporsi Kode
Komoditas
Proporsi
9
Cabai Merah
0.326
A
3
Minyak Goreng
0.484
A
6
Jagung
0.524
B
10
Beras
0.555
B
5
Garam
0.587
B
C
8
Gula
0.636
B
C
2
Jeruk
0.726
C
D
1
Daging Ayam
0.772
C
D
7
Elpiji
0.800
D
4
Minyak Tanah
0.902
D
12
Daging Sapi
0.933
E
11
Bawang Merah
0.940
E
14 13
Telur Susu
0.944 0.945
E E
Kelas B
16
Penggunaan text…, Muthia Szami Naffisah, FT UI, 2014
E
Kelas A menunjukkan pengaruh paling kecil terhadap munculnya sentimen negatif masyarakat, diikuti dengan Kelas B, C, D dan Kelas E yang memiliki pengaruh paling besar terhadap munculnya sentimen negatif masyarakat. Pengelompokan satu bahan pokok pada dua kelas berbeda (misal minyak goreng pada kelas A dan B bersamaan) menunjukkan bahwa perbedaan pengaruh antara minyak goreng dengan jagung tidak signifikan (lihat |p(3) - p(6)|), begitupun perbandingan minyak goreng dengan bahan pokok di kelas A yakni cabai merah (lihat |p(3) - p(9)|) sehingga dapat dikelompokkan di kedua kelas tersebut.
Namun
perbandingan antara jagung pada kelas B dan cabai merah pada kelas A menunjukkan adanya signifikansi (lihat |p(6) - p(9)|) sehingga cabai merah akan tetap berada pada kelas yang berbeda dengan jagung. Pada Tabel 4.8 dapat disimpulkan bahwa harga susu, harga telur dan harga bawang merah memiliki pengaruh paling signifikan terhadap munculnya sentimen negatif masyarakat yang juga dapat menggambarkan tingkat kepentingan yang tinggi bagi masyarakat untuk mendapatkan harga yang terjangkau dan stabil pada bahan pokok tersebut. Kesimpulan Bahan pokok memiliki interaksi yang erat dengan masyarakat, sehingga gejolak yang terjadi akan sangat berpengaruh pada kehidupan masyarakat. Gejolak tersebut dapat diartikan sebagai kondisi harga maupun pasokan bahan pokok, dan pemantauannya memerlukan teknik yang lebih efektif dan efisien sehingga reaksi dapat diberikan secara lebih responsif. Pemanfaatan media sosial sebagai alat pemantauan bahan pokok dibahas pada penelitian ini, untuk kemudian diperoleh interpretasi mengenai jenis bahan pokok yang paling berpengaruh dengan diunggahnya tweet bersentimen negatif oleh masyarakat. Hasil interpretasi yang diperoleh adalah berupa pengelompokan bahan pokok sesuai dengan tingkat pengaruhnya pada sentimen negatif masyarakat, dengan Harga Susu, Harga Telur dan Harga Bawang Merah sebagai tiga komoditas utama yang berkontribusi besar pada kemunculan sentimen negatif masyarakat. Hasil penelitian ini dapat digunakan oleh pengusaha bahan pokok maupun pemerintah sebagai alat evaluasi kondisi harga bahan pokok di masyarakat, serta sebagai dasar dalam membuat keputusan/kebijakan baru terkait pemenuhan kebutuhan masyarakat. Suara masyarakat dalam hal ini sebagai pelanggan utama bahan pokok merupakan alat yang tepat untuk mengetahui kemungkinan permintaan di masa yang akan datang, kecenderungan pembelian jenis bahan pokok tertentu dan krisis harga dan pasokan bahan pokok yang terjadi di masyarakat. 17
Penggunaan text…, Muthia Szami Naffisah, FT UI, 2014
Saran Analisis data tekstual berbahasa Indonesia tergolong penelitian yang belum banyak dilakukan, sehingga transformasi data menjadi data terstruktur masih memiliki ruang untuk perbaikan yang sangat besar. Misalnya pada tahap stemming yang bertujuan untuk mengurangi noise pada matriks, hingga saat ini belum ada algoritma stemming Bahasa Indonesia yang memberikan nilai akurasi tinggi. Penelitian selanjutnya di bidang ini dapat menganalisis perbandingan hasil akhir dari beberapa algoritma stemmer sehingga dapat memaksimalkan nilai akurasi dari model text mining. Analisis text mining untuk dokumen berbahasa selain bahasa Inggris juga memerlukan perhatian khusus karena analisis morfologi bahasa tersebut harus dilakukan (Stavrianou, et.al., 2007) sehingga studi semantik atau makna yang terkandung dalam teks dapat lebih tepat diperoleh sesuai dengan morfologi bahasa yang digunakan. Penelitian lebih lanjut dapat dilakukan dengan menggali lebih dalam penyebab dari besarnya pengaruh bahan pokok tersebut sehingga reaksi pemangku kebijakan terhadap kondisi tersebut dapat lebih tepat sasaran. Pengembangan aplikasi pra-proses yang dapat mentrasnformasi data secara real time akan mengurangi waktu pengerjaan penelitian ini sehingga interpretasi yang didapatkan akan sangat menggambarkan kondisi aktual masyarakat tanpa harus tertunda beberapa saat karena lamanya proses transformasi data tekstual. Profil pengguna twitter yang berasal dari masyarakat kelas ekonomi menengah perlu mendapat perhatian khusus jika digunakan sebagai objek penelitian text mining pada topik bahan pokok ini. Penelitian serupa di masa depan dapat mempertimbangkan pemilihan jenis media sosial lain yang mampu mencakup suara masyarakat dari lingkup kelas ekonomi lebih luas sehingga hasil yang didapatkan akan lebih representatif dan sesuai dengan tujuan penelitian yang telah ditetapkan.
Daftar Referensi
Amang, B., & Sawit, M. (2001). Kebijakan Beras dan Pangan Nasional: Pelajaran Orde Baru dan Orde Reformasi (2nd ed.). Bogor: IPB Press. Badan Pusat Statistik. (n.d.). Persentase Pengeluaran Rata-rata per Kapita Sebulan Menurut Kelompok Barang, Indonesia, 1999, 2002-2013. Accessed on May 24, 2014 from http://www.bps.go.id/tab_sub/view.php?tabel=1&daftar=1&id_subyek=05¬ab=7 18
Penggunaan text…, Muthia Szami Naffisah, FT UI, 2014
Baker, K. (2013). Ohio State University, Department of Linguistics. Singular Value Decomposition Tutorial. Accessed on May 20, 2014 from http://www.ling.ohiostate.edu/~kbaker/pubs/Singular_Value_Decomposition_Tutorial.pdf Bank Indonesia. (2013). Laporan Tahunan Perekonomian. Jakarta: Bank Indonesia. Dibley, T. (2012, Oct-Dec). Inside Indonesia. New social media as a tool for activism. Accessed on May 24, 2014 from http://www.insideindonesia.org/feature-editions/new-socialmedia-as-a-tool-for-activism-8 Fair Isaac Corporation (n.d.). Tapping Unstructured Data for Better Predictions and Decisions.
Accessed
on
May
24,
2014
from
http://www.fico.com/en/wp-
content/secure_upload//FICO_Tapping_Unstructured_Data_eBook_3018BK.pdf Fan, W., & Bifet, A. (2012). Mining Big Data: Current Status, and Forecast to the Future. SIGKDD Expolorations , 14, 1-5. Feldman, R., & Sanger, J. (2007) The Text Mining Handbook. New York: Cambridge University Press Invonesia. (2014, March 1). 10 Media Sosial Paling Populer di Indonesia. Accessed on May 25, 2014 from http://www.invonesia.com/10-media-sosial-paling-populer-di-indonesia.html Mashape (2013). mashape.com. List of 20+ Sentiment Analysis APIs. Accessed on May 25, 2014 from http://blog.mashape.com/post/48757031167/list-of-20-sentiment-analysis-apis Miner, et. al., (2012) Practical Text Mining and Statistical Analysis for Non-structured Text Data Applications. Oxford: Elsevier National Institute of Standards and Technology (n.d.). Engineering Statistics Handbook. Comparing multiple proportions: The Marascuillo procedure. Accessed on May 20, 2014 from http://www.itl.nist.gov/div898/handbook/prc/section4/prc474.htm Pang, B., and Lee, L. (2008). Opinion mining and Sentiment Analysis. Foundations and Trends in Information Retrieval, 2(1-2), 1-135. PPPSEP. (n.d.). Pergeseran Pola Pangan Pokok (Daerah). Accessed on May 25, 2014 from http://pustaka.litbang.deptan.go.id/publikasi/wr271059.pdf Pudyastomo, Y. A. (2009). Microblogging Paling Populer! (Gaya Hidup Orang Modern). Yogyakarta: Penerbit MediaKom Rustian, R. S. (2012). Universitas Pasundan. Apa itu Sosial Media. Accessed on May 11, 2014 from http://www.unpas.ac.id/apa-itu-sosial-media/ SAS Institute. (2010). Getting Started with SAS® Text Miner 4.2. North Carolina: SAS Publishing .
19
Penggunaan text…, Muthia Szami Naffisah, FT UI, 2014
Scheaffer, R. L. (1999). NCSSM Statistics Leadership Institute. Categorical Data Analysis. Accessed
on
May
27,
2014
from
http://courses.ncssm.edu/math/Stat_Inst/PDFS/Categorical%20Data%20Analysis.pdf Scraperwiki
(n.d.).
Scraperwiki.com.
Help.
Accessed
on
May
23,
2014
from
https://scraperwiki.com/help/twitter-search/ Semiocast. (2012, July 30). Twitter reaches half a billion accounts, More than 140 millions in the
U.S.
Accessed
on
May
24,
2014
from
http://semiocast.com/en/publications/2012_07_30_Twitter_reaches_half_a_billion_accounts_ 140m_in_the_US Spillane, A. (2010). Online tool helps to create greater public data transparency. May 28, 2014.
Politico.
http://politico.ie/index.php?option=com_content&view=article&id=6906:online-tool-helpsto-create-greater-public-data-transparency&catid=193:science-tech&Itemid=880 Stavrianou, et.al., (2007). Overview and Semantic Issues of Text Mining. SIGMOD Record, 36 (3), 23-34. Triawati, C. (2009). Digital Library Telkom Institute of Technology. Text Mining. Accessed on
May
26,
2014
from
http://digilib.ittelkom.ac.id/index.php?option=com_content&view=article&id=590:textmining&catid=20:informatika&Itemid=14 Ward, J. C., & Ostrom, A. L. (2006). Complaining to the masses: The role of protest framing in customer-created complaint web sites. Journal of Consumer Research, 33(2), 220—230. Wisegeek. (n.d.). What is a Web Crawler? Accessed on May 28, 2014 from http://www.wisegeek.org/what-is-a-web-crawler.htm Witten, I. H. (2005). The Practical Handbook of Internet Computing. In M. P. Singh, The Practical Handbook of Internet Computing Chapter 14 (pp. 1-23). Danvers, MA: Chapman and Hall/CRC Press. XLSTAT (n.d.). Comparing k proportions with XLSTAT. XLSTAT Tutorials. Accessed on May
24,
2014
from
http://www.xlstat.com/en/learning-center/tutorials/comparing-k-
proportions-with-xlstat.html
20
Penggunaan text…, Muthia Szami Naffisah, FT UI, 2014