BAB I PENDAHULUAN
1.1. Latar Belakang Salah satu faktor penting penunjang globalisasi ialah internet. Semakin majunya teknologi internet menyebabkan banyaknya pengembang perangkat lunak membuat berbagai macam aplikasi online, salah satunya yakni sosial media. Banyak sosial media yang saat ini sedang digandrungi, baik itu dari luar negeri maupun dalam negeri. Salah satu contoh sosial media yang sedang trend saat ini, yakni Twitter. Pada jejaring sosial Twitter terdapat berbagai macam fitur, salah satu fitur yang paling sering digunakan ialah Trending Topic.
Trending Topic
merupakan fitur yang menampilkan beberapa hashtag yang berisi topik yang sedang trend saat ini di Twitter. Jika pengguna ingin mengetahui informasi atau berita mengenai salah satu trending topic tadi, pengguna bisa mengklik salah satu hashtag dan barulah muncul beberapa tweet terkait dengan hashtag tersebut. Hal tersebut tentulah merepotkan pengguna dan membuang waktu jika harus membaca beberapa tweet terlebih dahulu hanya untuk mengetahui informasi atau berita yang akurat pada suatu trending topic. Kalaupun hanya membaca tweet teratas atau terbaru mengenai trending topic tadi, belum tentu tweet tersebut mewakili berita atau informasi yang ingin disampaikan, karena biasanya beberapa tweet ada yang melenceng dari hashtag atau tema. Berdasarkan permasalahan di atas mengenai fitur trending topic, untuk memudahkan dan menghemat waktu pengguna Twitter dalam mengetahui sebuah informasi atau berita pada salah satu trending topic tanpa perlu membaca beberapa tweet terlebih dahulu, maka dilakukanlah analisa untuk membuat ringkasan otomatis (text summarization) untuk multitweet berdasarkan trending topic Twitter. Text summarization ialah suatu proses yang secara otomatis menghasilkan informasi berupa ringkasan yang berguna untuk user [1]. Berdasarkan literatur “Pembangunan Perangkat Lunak Peringkas Dokumen Dari Banyak Sumber Menggunakan Sentence Scoring Dengan Metode
1
TF-IDF”, bahwa untuk mengoptimalkan pemilihan kalimat yang digunakan sebagai ringkasan, akan lebih baik jika digabungkan dengan metode yang mencari kemiripan antar kata atau kalimat sehingga mengatasi resiko apabila terdapat kemiripan [2]. Biasanya dalam sebuah trending topic ada beberapa tweet yang melenceng dari hashtag, contohnya dalam satu trending topic kemungkinan ada lebih dari 1 sub topik yang dibicarakan, oleh sebab itu sebelum dilakukan peringkasan teks diperlukan klasterisasi data. Clustering adalah suatu teknik pengelompokkan data ke dalam objek yang serupa [3]. Ada dua metode clustering yang kita kenal, yaitu hierarchical clustering dan partitioning. Pada penelitian ini digunakan metode hierarchical clustering karena tidak memerlukan input berapa jumlah cluster data, sebab tidak diketahui berapa jumlah sub topik yang akan muncul pada sebuah trending topic.
1.2. Rumusan Masalah Adapun rumusan masalah dalam penelitian ini sebagai berikut: a. Bagaimana cara melakukan pembobotan kata pada setiap tweet menggunakan TF-IDF? b. Bagaimana
cara
melalukan
klasterisasi
dari
hasil
pembobotan
kata
menggunakan Single Linkage Agglomerative Hierarchical Clustering? c. Bagaimana memilih level cluster yang tepat dengan menggunakan UPGMA (Unweighted Pair Group Method Average)? d. Bagaimana cara mengambil satu kesimpulan dari cluster yang memiliki lebih dari satu anggota menggunakan nilai keterkaitan antar tweet?
1.3. Tujuan Penelitian Penelitian ini bermaksud untuk membuat sebuah sistem yang dapat menghasilkan ringkasan secara otomatis yang sesuai dengan multitweet berdasarkan trending topic Twitter dengan menggunakan algoritma TF-IDF dan Single Linkage Agglomerative Hierarchical Clustering.
2
1.4. Batasan Masalah Dalam penelitian ini, penulis membatasi masalah sebagai berikut: a. Tweet menggunakan bahasa Indonesia. b. Setiap trending topic mengambil sample 50 tweet untuk dilakukan peringkasan. c. Diambil 100 trending topic untuk penelitian, yang dikumpulkan mulai tanggal 2 Februari 2016 – 13 Maret 2016.
1.5. Metodologi Metodologi yang digunakan penulis untuk menyelesaikan penelitian ini adalah: 1. Studi pustaka Tahapan untuk mencari literatur – literatur berupa artikel, tutorial, jurnal, buku referensi, dan sumber summarization,
TF-IDF,
yang terkaitan dengan Twitter, cluster, text Single
Linkage
Agglomerative
Hierarchical
Clustering, dan teknik pengujian. 2. Pengumpulan data Tahapan ini merupakan proses pengumpulan data yang digunakan untuk menyimpan data tweet setiap trending topic. Data tweet diperoleh dengan crawling data melalui web crawler yang dibuat untuk mengakses API dari Twitter. 3. Analisa dan perancangan sistem Pada tahap ini melakukan analisa untuk menghasilkan kebutuhan hardware maupun software. Setelah diketahui kebutuhan hardware dan software yang sesuai, akan dilanjutkan dengan perancangan sistem. Perancangan sistem untuk pra proses data, yang terdiri atas pemecahan tweet, case folding, tokenizing, editing, menghilangkan stopwords, normalisasi, dan stemming. Perancangan sistem untuk proses data, yaitu terdiri atas menghitung TDIDF, klasterisasi dari hasil TD-IDF menggunakan Single Linkage Agglomerative Hierarchical Clustering, memilih level cluster terbaik
3
dengan UPGMA, dan menentukan kesimpulan yang anggota cluster-nya lebih dari satu dengan nilai keterkaitan antar tweet. 4. Skenario pengujian sistem Pengujian pertama yaitu pengujian untuk mengukur tingkat kebenaran cluster dengan precision, recall, dan F-Measure. Pegujian kedua yaitu pengujian untuk mengukur tingkat kemiripan kata yang muncul dalam kalimat yang djadikan sebagai ringkasan.
1.6. Sistematika Penulisan Sistematika penulisan laporan penelitian ini disusun menjadi beberapa bab sebagai berikut: BAB I. PENDAHULUAN Pada bab ini berisi pendahuluan yang menjelaskan latar belakang mengenai sebab dan pentingnya penelitian ini harus dilakukan, merumuskan pokok permasalah yang dihadapi, tujuan dilakukannya penelitian, batasan permasalahan, metodologi penelitian, dan sistematika penulisan tugas akhir. BAB II. LANDASAN TEORI Pada bab ini membahas berbagai konsep dasar dan teori-teori yang berkaitan dengan topik penelitian seperti Twitter, cluster, text summarization, TFIDF, Single Linkage Agglomerative Hierarchical Clustering, dan teknik pengujian. BAB III. ANALISIS DAN PERANCANGAN SISTEM Pada bab ini berisi tentang analisis sistem yang meliputi perancangan tampilan sistem, serta analisis metode TF-IDF dan Single Linkage Agglomerative Hierarchical Clustering untuk diaplikasikan pada tweet summarization. BAB IV. IMPLEMENTASI DAN PENGUJIAN SISTEM Pada bab ini berisi tentang hasil evaluasi sistem dan pengujian untuk hasil peringkas dengan menggunakan metode TF-IDF dan Single Linkage Agglomerative Hierarchical Clustering pada text summarization sehingga dapat ditarik suatu kesimpulan.
4
BAB V. PENUTUP Pada bab ini berisi tentang kesimpulan dan saran berdasarkan hasil implementasi dan pengujian yang telah dilakukan, sehingga dapat digunakan sebagai bahan pertimbangan bagi pihak-pihak yang berkepentingan serta kemungkinan pengembangan untuk masa yang akan datang.
5