BAB I PENDAHULUAN
1.1 Latar Belakang Era big data telah menjadi era tantangan bagi semua pihak pengelola data. Dengan semakin besar kapasitas media penyimpanan dan harga yang semakin murah, semakin banyak pula hal yang dapat disimpan. Setiap hari 2,5 triliun byte atau setara 2,5 TB data diproduksi dan 90 persen data di dunia hari ini dibuat pada dua tahun terakhir (Wu, Zhu, Wu, & Ding, 2014). Untuk menangani masalah ini, dibutuhkan pengelolaan data dalam jumlah besar yang cepat, real-time, dan handal. Banyak sekali contoh representasi big data dalam kehidupan sehari-hari. Pada zaman ini media sosial seperti Twitter memegang peranan penting dalam penyaluran informasi. Orang-orang menulis pesan, status hingga berbagi gambar, link, dan opininya melalui media sosial. Setiap detik, beribu-ribu twit yang diposting menumpuk membentuk big data. Data real-time ini dapat menjadi berguna jika saja dapat dianalisis untuk menghasilkan informasi, bahkan dapat diproses lebih lanjut hingga menjadi pengetahuan. Twitter adalah sebuah media sosial yang mengalami pertumbuhan pesat. Dengan waktu relatif singkat, Twitter meraih popularitas di seluruh dunia. Pada 1
2
akhir tahun 2010, Twitter diprediksikan mempunyai 175 juta pengguna terdaftar di seluruh dunia dengan produksi 65 juta twit per harinya (Miller, 2010). Hingga bulan Januari 2013, tercatat lebih dari 500 juta pengguna yang terdaftar di Twitter. Fakta ini menjadikan Twitter sebagai media sosial dengan pertumbuhan tercepat sejak tahun 2006. Setiap harinya pengguna Twitter mengirim rata-rata 250 juta twit, dan menurut MIT Technology Review (2013), Indonesia menduduki peringkat ketiga sebagai penyumbang twit terbanyak di bawah Amerika Serikat dan Jepang. Salah satu tools yang dapat melakukan analisis media sosial adalah Elasticsearch. Elasticsearch adalah sebuah media penyimpanan (storage) dan mesin pencari (search engine) yang mampu menangani data dalam jumlah besar (big data) dengan kemampuan near real-time. Bersama dengan Kibana sebagai tools visualisasinya, Elasticsearch dapat menjadi tools analisis data yang handal; termasuk untuk menangani data Twitter yang bertambah tiap detik. Dari berbagai jalur dan tools input yang tersedia saat ini, terdapat dua cara untuk menginputkan data dari Twitter API (Application Programming Interface) ke dalam Elasticsearch. Cara pertama adalah melalui Twiter River dan cara kedua adalah melalui Logstash yang disebut ELK (Elasticsearch Logstash Kibana) Stack. Faktor input menjadi sangat penting karena output sistem bergantung penuh pada input. Bila data input tidak lengkap dan akurat, dapat dipastikan bahwa output pun tidak akan akurat. Input memegang peranan penting dalam kinerja sistem secara keseluruhan. Jika data input mudah diolah (mudah diproses CPU dengan
3
konsumsi memori minimal) maka sistem dapat bekerja lebih cepat untuk memproses data selanjutnya. Sejalan dengan hal di atas, maka dipandang perlu untuk melakukan sebuah penelitian yang membandingkan kedua metode input Twitter pada Elasticsearch tersebut. Penelitian ini dilakukan untuk membandingkan kinerja Twitter River dan Logstash dalam pemanfaatannya sebagai input Elasticsearch untuk analisis media sosial Twitter. Hal ini menjadi penting dan patut diteliti sebab pengetahuan mengenai kelebihan dan kekurangan kedua metode ini dapat mengoptimalkan kinerja sistem analisis media sosial Twitter secara keseluruhan. 1.2 Rumusan Masalah Berdasarkan latar belakang yang telah dipaparkan di atas, maka rumusan masalah yang diangkat pada penelitian ini adalah bahwa dari berbagai cara input ke Elasticsearch, belum diketahui cara terbaik untuk menginputkan data Twitter dari Twitter API ke Elasticsearch. 1.3 Batasan Masalah Beberapa batasan masalah yang digunakan agar pembahasan skripsi ini fokus dan tidak terlalu meluas antara lain: 1. Perbandingan didasarkan pada kebutuhan sistem untuk memasukkan data Twitter pada Elasticsearch dan menampilkannya pada Kibana dengan kepentingan analisis Twitter tetapi tidak membahas analisis Twitter.
4
2. Meskipun sistem memang dapat selalu dimonitor secara real time, namun data Twitter yang digunakan pada penelitian ini adalah data pelatihan yang diambil melalui Twitter API dalam jangka waktu tertentu. 3. Hal-hal yang dibandingkan dari kedua metode ini adalah: a. Beban Pemrosesan CPU (Central Processing Unit). b. Penggunaan RAM (Random Acces Memory). c. Penggunaan Disk. d. Jumlah data Twitter yang diinputkan ke Elasticsearch. e. Jumlah field Twitter yang diinputkan ke Elasticsearch. 1.4 Manfaat dan Tujuan Penelitian Manfaat yang diharapkan dari penelitian ini adalah mengoptimalkan analisis data Twitter dengan Elasticsearch melalui pengetahuan tentang tools input yang tepat untuk memasukkan data Twitter dari Twitter API ke Elasticsearch. Sedangkan tujuan diadakannya penelitian ini adalah: 1. Membangun sebuah sistem analisis media sosial Twitter menggunakan Elasticsearch dan Kibana dengan input Twitter River dan Logstash. 2. Membandingkan kinerja Twitter River dan Logstash sebagai input Elasticsearch untuk analisis media sosial Twitter.
5
1.5 Sistematika Penulisan Sistematika penulisan skripsi ini adalah sebagai berikut. BAB I: PENDAHULUAN Bab ini menjelaskan latar belakang penelitian, rumusan masalah, batasan masalah, manfaat dan tujuan penelitian, serta sistematika penulisan. BAB II: DASAR TEORI Bab ini menjelaskan penelitian-penelitian lain yang sudah dilakukan dalam rangka analisis media sosial Twitter dan penelitian mengenai Elasticsearch. Selain itu dijelaskan juga landasan teori mengenai analisis media sosial, Twitter, Elasticsearch, Twitter River, Logstash, Kibana dan Marvel, Kopf. Bab ini juga menjelaskan dasar teori mengenai parameter-parameter pengujian yang akan digunakan. BAB III: METODE PENELITIAN Bab ini menjelaskan alat dan bahan yang dibutuhkan dalam penelitian, diagram alir penelitian, metode perancangan hingga metode implementasi. Metode implementasi mencakup instalasi, konfigurasi, pengambilan data hingga metode pembandingan kinerja. BAB IV: HASIL DAN PEMBAHASAN
6
Bab ini menjelaskan hasil penelitian dengan dua skenario serta pembahasannya. BAB V: KESIMPULAN DAN SARAN Pada bab ini ditulis kesimpulan akhir dari penelitian yang menjawab tujuan penelitian serta saran untuk penelitian selanjutnya