UNIVERSITAS INDONESIA
IMPLEMENTASI METODE PEMBENTUKAN GRAPH DAN ANALISA JARINGAN KOMPLEKS UNTUK MENDETEKSI TOPIK PADA TRENDING TOPIC TWITTER: STUDI KASUS BENCANA BANJIR DI JAKARTA
SKRIPSI
MEGA OKTAFIANI PUTRI 0806339250
FAKULTAS TEKNIK UNIVERSITAS INDONESIA DEPARTEMEN TEKNIK ELEKTRO DEPOK JUNI 2012
Implementasi metode..., Mega Oktafiani Putri, FT UI, 2012
UNIVERSITAS INDONESIA
IMPLEMENTASI METODE PEMBENTUKAN GRAPH DAN ANALISA JARINGAN KOMPLEKS UNTUK MENDETEKSI TOPIK PADA TRENDING TOPIC TWITTER: STUDI KASUS BENCANA BANJIR DI JAKARTA
SKRIPSI Skripsi ini diajukan untuk melengkapi sebagian persyaratan menjadi Sarjana Teknik
MEGA OKTAFIANI PUTRI 080633925
FAKULTAS TEKNIK UNIVERSITAS INDONESIA DEPARTEMEN TEKNIK ELEKTRO DEPOK JUNI 2012
Implementasi metode..., Mega Oktafiani Putri, FT UI, 2012
HALAMAN PERNYATAAN ORISINALITAS
Skripsi ini adalah hasil karya saya sendiri, dan semua sumber baik yang dikutip maupun dirujuk telah saya nyatakan dengan benar.
Nama
: Mega Oktafiani Putri
NPM
: 0806339250
Tanda Tangan
:
Tanggal
: 5 Juli 2012
ii
Implementasi metode..., Mega Oktafiani Putri, FT UI, 2012
iii Implementasi metode..., Mega Oktafiani Putri, FT UI, 2012
KATA PENGANTAR
Puji syukur saya panjatkan kehadirat ALLAH SWT, karena atas segala rahmat dan kuasa-Nya, proses penulisan skripsi ini dapat terselesaikan. Penulisan skripsi ini dilakukan dalam rangka memenuhi persyaratan dari mata kuliah Skripsi yang terdapat dalam kurikulum program studi Teknik Komputer Universitas Indonesia. Saya menyadari bahwa skripsi ini tidak akan terselesaikan tanpa bantuan dari berbagai pihak. Mulai dari proses pembelajaran, analisa konsep yang telah dijalani dan proses penyusunan dari buku skripsi, saya ingin mengucapkan terima kasih kepada: 1. Prof. Dr Ir Riri Fitri Sari, MSc. MM, selaku dosen pembimbing yang telah menyediakan waktu, tenaga, dan pikiran untuk mengarahkan saya dalam penyusunan skripsi ini; 2. Prof. Takako Hashimoto, atas saran dan masukannya sehingga skripsi ini dapat berjalan dengan baik; 3. Orang tua dan kedua kakak saya yang telah memberikan bantuan dukungan materiil, moral, dan doa; 4. Teman-teman dari Teknik Komputer angkatan 2008, yang tiada hentinya mendukung saya baik secara langsung maupun tidak langsung. Akhir kata, saya berharap semoga Tuhan Yang Maha Esa berkenan membalas kebaikan semua pihak yang telah membantu. Semoga skripsi ini bermanfaat bagi perkembangan ilmu pengetahuan.
Depok, 5 Juli 2012
Mega Oktafiani Putri
iv Implementasi metode..., Mega Oktafiani Putri, FT UI, 2012
HALAMAN PERNYATAAN PERSETUJUAN PUBLIKASI TUGAS AKHIR UNTUK KEPENTINGAN AKADEMIS
Sebagai sivitas akademika Universitas Indonesia, saya bertanda tangan di bawah ini: Nama
: Mega Oktafiani Putri
NPM
: 0806339250
Program studi : Teknik Komputer Departemen
: Teknik Elektro
Fakultas
: Teknik
Jenis karya
: Skripsi
Demi pengembangan ilmu pengetahuan, menyetujui untuk memberikan kepada Universitas Indonesia Hak Bebas Royalti Nonoksklusif (Non-exclusive Royalty Free Right) atas karya ilmiah saya yang berjudul:
IMPLEMENTASI METODE PEMBENTUKAN GRAPH DAN ANALISA JARINGAN KOMPLEKS UNTUK MEDETEKSI TOPIK PADA TRENDING TOPIC TWITTER: STUDI KASUS BENCANA BANJIR DI JAKARTA Dengan Hak Bebas Royalti Non Eksklusif ini Universitas Indonesia berhak menyimpan, mengalih media / formatkan, mengelola dalam bentuk pangkalan data (database), merawat, dan mempublikasikan tugas akhir saya selama tetap mencantumkan nama saya sebagai penulis/pencipta sebagai pemegang Hak Cipta. Demikian pernyataan ini saya buat dengan sebenarnya. Dibuat di
: Depok
Pada tanggal : 5 Juli 2012 Yang menyatakan,
(Mega Oktafiani Putri)
v Implementasi metode..., Mega Oktafiani Putri, FT UI, 2012
ABSTRAK
Nama
:
Mega Oktafiani Putri
Program Studi
:
Teknik Komputer
Judul
:
Implementasi Metode Pembentukan Graph dan Analisa Jaringan Kompleks untuk Mendeteksi Topik pada Trending Topic twitter: Studi Kasus Bencana Banjir di Jakarta
Pembimbing
:
Prof. Dr. Ir. Riri Fitri Sari Msc. MM.
Media sosial telah menjadi fenomena dunia, lebih dari 80% pengguna Internet adalah penguna media sosial. Ketika terjadi sebuah bencana, kebutuhan informasi akan meningkat. Twitter merupakan salah satu sumber informasi populer terutama di Indonesia yang tercatat sebagai negara pengguna twitter terbanyak di asia. Oleh karena itu dibutuhkan sebuah sistem yang dapat mengekstraksi informasi dari media sosial. Penelitian ini menawarkan sebuah sistem yang dapat mendeteksi topik pada media sosial twitter dengan merepresentasikan konten media sosial twitter ke graph jaringan kompleks menggunakan pengimplentasian metode pembentukan graph (pengolahan bahasa natural dan konsep graph) dan metrik pengkukur jaringan kompleks sebagai acuan analisa. Sistem analisa media sosial pada penelitian ini terdiri dari 3 buah subsistem yaitu crawler dengan mengunakan perangkat lunak the archvist, graph converter berupa perangkat lunak Textttogexf untuk Bahasa Indonesia yang diimplementasikan pada bahasa pemrograman Ruby berdasarkan perangkat lunak Textttogexf untuk Bahasa Jepang, dan perangkat lunak untuk memvisualisasikan graph (gephi dan gvedit). Berdasarkan hasil pengujian, metode pembobotan yang paling baik untuk media sosial twitter adalah pembobotan RIDF dan pendefinisian dokumen berdasarkan kategori (persentase keberhasilan: 89%). Pada penelitian ini, topik umum mengenai pilkada 2012 dan 13 sub topik berhasil diekstraksi dari set data banjir Jakarta. Kata kunci: Analisa Media Sosial, Web Mining, Teori Graph, Pengolahan Bahasa Natural.
vi Universitas Indonesia
Implementasi metode..., Mega Oktafiani Putri, FT UI, 2012
ABSTRACT
Name
:
Mega Oktafiani Putri
Study Program
:
Computer Engineering
Title
:
Implementation of Graph Concept and Complex Network Analysis for Topic Detection on Twitter’s Trending Topic. Case Study Floods in Jakarta
Supervisor
:
Prof. Dr. Ir. Riri Fitri Sari Msc. MM.
Social media had become worldwide phenomena. More than 80% of Internet’s users are social media’s users. When a disaster occurred, information needs will rise. Twitter is one of popular information resource especially in Indonesia. Because of that, twitter’s information extraction system was needed. This research proposes a system that can detect topic in social media twitter by representing its content as a complex network graph using the implementation of natural language processing, graph concept, and complex network analysis. This system consists of 3 subsystems which are crawler, graph converter, and application for graph visualization. The Graph visualization is done using Gephi and Graphviz. From testing result, we reach 89% success rate of keyword extraction using RIDF term weighting method and collecting messages by certain category. General topic about governor election and 13 subtopics was successfully extracted from set data flood in Jakarta. Keyword: Social Media Analysis, Web Mining, Graph theory, Natural Language Processing.
vii Universitas Indonesia
Implementasi metode..., Mega Oktafiani Putri, FT UI, 2012
DAFTAR ISI
HALAMAN JUDUL .............................................................................................. i HALAMAN PERNYATAAN ORISINALITAS ................................................ ii HALAMAN PENGESAHAN...............................................................................iii KATA PENGANTAR .......................................................................................... iv HALAMAN PERNYATAAN PERSETUJUAN PUBLIKASI.......................... v TUGAS AKHIR UNTUK KEPENTINGAN AKADEMIS ............................... v ABSTRAK ............................................................................................................ vi ABSTRACT ......................................................................................................... vii DAFTAR ISI ....................................................................................................... viii DAFTAR GAMBAR ............................................................................................. x DAFTAR TABEL ............................................................................................... xii DAFTAR PERSAMAAN................................................................................... xiii BAB I PENDAHULUAN ...................................................................................... 1 1.1 Latar Belakang .............................................................................................. 1 1.2 Tujuan Penulisan ........................................................................................... 3 1.3 Batasan Masalah ............................................................................................ 3 1.4 Metodologi Penulisan .................................................................................... 3 BAB 2 MEDIA SOSIAL, METODE PEMBENTUKAN GRAPH, DAN ANALISA JARINGAN KOMPLEKS ................................................................ 5 2.1 Media Sosial .................................................................................................. 5 2.1.1 Sejarah Media dan Jejaring Sosial .......................................................... 6 2.1.2 Media Sosial di Indonesia ....................................................................... 7 2.1.3 Klasifikasi Media Sosial ......................................................................... 7 2.3 Metode Pembentukan Graph....................................................................... 12 2.3.1 Pengolahan Bahasa Alami .................................................................... 12 2.3.1.1 Analisa Secara Morfologi dalam Bahasa Indonesia....................... 12 2.3.2.1 Pembobotan Kata ........................................................................... 13 2.3.2. Relasi Kata pada Konsep Grafik .......................................................... 14 2.4 Analisa Jaringan Sosial ............................................................................... 15
viii Universitas Indonesia
Implementasi metode..., Mega Oktafiani Putri, FT UI, 2012
2.5 Modularitas untuk Mendefinisikan Struktur Komunitas ............................. 16 Bahasa pemograman Ruby ................................................................................ 17 2.7 Perangkat Lunak Pendukung ....................................................................... 19 2.7.1 The Achivist .......................................................................................... 19 2.7.2 Perangkat Lunak Yang Mendukung Analisa Berbasis Grafik .............. 19 BAB 3 PERANCANGAN DAN SKENARIO PENELITIAN ......................... 21 3.1 Rancangan Penelitian .................................................................................. 21 3.1.1 Deskripsi ............................................................................................... 21 3.1.2 Aspek Analisa dan Parameter ............................................................... 21 3.2 Skenario Penelitian ...................................................................................... 22 3.2.1 Pengambilan Data ................................................................................. 23 3.2.2 Pengolahan Data ................................................................................... 23 3.2.2.1 Penyaringan data ............................................................................ 23 3.2.2.2 Pengolahan bahasa ......................................................................... 24 3.3.2.3 Perhitungan bobot kata ...................................................................... 28 3.2.3 Visualisasi Grafik ................................................................................. 29 3.2.3.1 Pembentukan Grafik....................................................................... 29 3.2.3.2 Pengukuran ..................................................................................... 31 3.3 Perancangan Sistem ..................................................................................... 32 BAB 4 Deteksi Topik Pada Set data Banjir Jakarta........................................ 34 4.1 Pengukuran Distribusi Bobot Kata terhadap Definisi Dokumen. ............... 35 4.2 Pengujian terhadap Metode Pembobotan Kata............................................ 39 4.3 Deteksi Topik pada Media Sosial ............................................................... 42 4.3.1 Pengukuran terhadap Keseluruhan Graph ............................................ 42 4.3.2 Deteksi topik Berdasarkan Waktu ........................................................ 44 BAB 5 KESIMPULAN ....................................................................................... 57 5.1 Kesimpulan .................................................................................................. 57 5.2 Pengembangan Kedepan ............................................................................. 58 REFERENSI ........................................................................................................ 59 LAMPIRAN 1 ...................................................................................................... 61
ix Universitas Indonesia
Implementasi metode..., Mega Oktafiani Putri, FT UI, 2012
DAFTAR GAMBAR Gambar 2.1 Perkembangan Jejaring Sosial dari Tahun ke Tahun ......................... 6 Gambar 2.3 Konsep web mining........................................................................... 10 Gambar 2.4 Community Tree .............................................................................. 16 Gambar 2.5 Pendeteksian Komunitas dengan Mengoptimasi Modularitas .......... 17 Gambar 3.1 bagan alir penelitian .......................................................................... 22 Gambar 3.2 Kalimat Masukan untuk Textttogexf yang Dijalankan dengan Mecab ............................................................................................................................... 26 Gambar 3.3 Kalimat Masukan untuk Textttogexf Indonesia. ................................ 26 Gambar 3.4 Perbandingan Bagan alir textttogexf dan textttogexf Indonesia ......... 26 Gambar 3.5 Pemograman Ekstraksi Kata Kunci Secara Morfologikal pada textttogexf .............................................................................................................. 27 Gambar 3.6 Pemograman untuk Perhitungan RIDF ............................................. 28 Gambar 3.7 masukan dan keluaran proses visualisasi grafik ................................ 30 Gambar 3.8 Grafik yang terbentuk dari proses visualisasi grafik ......................... 30 Gambar 3.9 Gexf Keluaran dari Txttogexf Indonesia............................................ 31 Gambar 3.10 Sistem Deteksi Topik pada Analisa Media Sosial .......................... 32 Gambar 3.11 Algoritma Textttogexf ...................................................................... 33 Gambar 4.1 Grafik Hasil Pengukuran Distribusi Bobot dengan Variabel Definisi Dokumen yang Berbeda ........................................................................................ 36 Gambar 4.2 Grafik Hasil Pengukuran Distribusi Bobot TF-IDF dengan Variabel Definisi Dokumen yang Berbeda .......................................................................... 38 Gambar 4.3 Matriks Pembanding Hasil Pembobotan Kata .................................. 40 Gambar 4.4 Penyebaran Hasil Ekstraksi Kata Kunci Berbanding dengan Matriks Pembanding ........................................................................................................... 41 Gambar 4.5 Hasil Perbandingan Persentasi Keberhasilan Ekstraksi Kata Kunci dengan Metode Pembobotan ................................................................................. 41 Gambar 4.6 Graph dataset Banjir Jakarta dengan Mengukur Nilai Derajat......... 43 Gambar 4.7 Graph Set data Banjir Jakarta dengan Mengukur Nilai Keantaran Kepusatan .............................................................................................................. 43
x Universitas Indonesia
Implementasi metode..., Mega Oktafiani Putri, FT UI, 2012
Gambar 4.8 Struktur Graph Tanggal 9 Maret 2012 .............................................. 47 Gambar 4.9 Struktur Graph Tanggal 15 Maret 201 .............................................. 48 Gambar 4.10 Struktur Graph Tanggal 17 Maret 201 ............................................ 49 Gambar 4.11 Struktur Graph tanggal 18 Maret 2012 ........................................... 51 Gambar 4.12 Struktur Graph tanggal 19 Maret 2012 ........................................... 52 Gambar 4.13 Struktur Graph tanggal 23 Maret 2012 ........................................... 53
xi Universitas Indonesia
Implementasi metode..., Mega Oktafiani Putri, FT UI, 2012
DAFTAR TABEL Tabel 1.1 Data Kerugian yang Diakibatkan Bencana di Indonesia 1980 – 2010 .. 2 Tabel 2.1 Sepuluh Situs yang Paling Dikunjungi di Indonesia .............................. 7 Tabel 2.2 Klasifikasi dan Jenis Media Sosial ......................................................... 8 Tabel 2.3 Reserved Word pada Ruby .................................................................... 18 Tabel 3.1 Perbandingan Keluaran Textttogexf Indonesia dan Textttogexf ............ 27 Tabel 4.1 Simpul yang Merepresentasikan Topik Umum .................................... 44 Tabel 4.2 Hasil Perhitungan Modularitas terhadap Waktu ................................... 46 Tabel 4.3 Topik yang berhasil diekstraksi dari set data banjir Jakarta ................. 54
xii Universitas Indonesia
Implementasi metode..., Mega Oktafiani Putri, FT UI, 2012
DAFTAR PERSAMAAN
Persamaan 2.1 Persamaan IDF.....................…………………………………...13 Persamaan 2.2 Persamaan TF-IDF.........…………………………………….....14 Persamaan 2.3 Persamaan RIDF.............………………………………………14 Persamaan 2.4 Persamaan Konsep Graph......………….....……………………15 Persamaan 3.1 Persamaan Dokumen..............………….....……………………23 Persamaan 3.2 Persamaan Modularitas...........……………………………........31 Persamaan 4.1 Persamaan Persentase Keberhasilan.....…….....……….....……43 Persamaan 4.2 Persamaan Nilai Threshold................................…………….....43
xiii Universitas Indonesia
Implementasi metode..., Mega Oktafiani Putri, FT UI, 2012
BAB I PENDAHULUAN
1.1 Latar Belakang Berdasarkan Kamus Besar Bahasa Indonesia (KBBI), ‘bencana’ dapat didefinisikan sebagai sesuatu yang dapat menyebabkan kerugian, kesusahan, atau penderitaan [1]. Pada dasarnya bencana dapat terjadi akibat faktor alam yang tidak dapat dihindari seperti gempa bumi, badai, dan tsunami. Namun, adapula bencana yang disebabkan oleh faktor kelalaian manusia seperti kelaparan, pemanasan global dan wabah. Bencana dapat memberikan dampak besar bagi kehidupan manusia terutama di bidang sosial, ekonomi, dan lingkungan. Bencana tidak hanya dapat menyebabkan kerugian secara material serta kerusakan infrastruktur, tetapi juga jatuhnya korban jiwa. Oleh sebab itu, bencana alam menjadi salah satu permasalahan dunia hingga saat ini. Letak geografis Indonesia yang terletak di pertemuan empat lempeng tetonik (lempeng benua Asia, lempeng benua Australia, lempeng samudra Hindia, dan Lempeng samudra Pasifik) menyebabkan Indonesia memiliki resiko gempa bumi dan tsunami yang tinggi. Selain itu morfologi Indonesia yang terdiri dari sabuk vulkanik aktif dan rawa-rawa yang menyebabkan Indonesia memiliki potensi bencana seperti gunung meletus dan tanah longsor. Dilihat dari segi iklim, Indonesia memiliki iklim tropis dengan ciri-ciri perubahan cuaca ekstrim dan angin yang cukup kencang. Oleh karena itu, Indonesia tercatat sebagai negara rawan bencana oleh Badan Pencegahan Bencana PBB atau United Nation International Strategy for Disaster Reduction (UNISDR) pada tahun 2009 [2].
1 Universitas Indonesia Implementasi metode..., Mega Oktafiani Putri, FT UI, 2012
2
Adapun bencana yang terjadi di Indonesia dapat dipaparkan pada tabel berikut: Tabel 1.1 Data Kerugian yang Diakibatkan Bencana di Indonesia 1980 – 2010 [2]
DATA STATISKA BENCANA – INDONESIA data yang berhubungan dengan kerugian ekonomi dan sosial akibat bencana yang terjadi pada tahun 1980 sampai dengan 2010 jumlah kejadian jumlah korban jiwa rata-rata korban jiwa per tahun kerugian ekonomi (US$ x1000) kerugian ekonomi per tahun (US$ x1000)
321 192.474 6.209 698.813 761.344
Dari data diatas dapat diketahui bahwa Indonesia kematian sebesar 6.209 orang dan
memiliki angka
menderita kerugian sebesar 12.601.677
(US$x1000) per tahun akibat bencana alam. Besarnya dampak serta maraknya bencana di Indonesia menyebabkan bencana menjadi salah satu topik yang menarik perhatian massa. Ketika sebuah bencana terjadi, antusias publik terhadap informasi mengenai bencana tersebut meningkat. Namun, media kerap kesulitan mencapai lokasi bencana. Hal ini diperburuk dengan kemungkinan putusnya jaringan komunikasi pada lokasi bencana. Oleh karena itu, media sosial menjadi salah satu sumber informasi yang digunakan masyarakat. Di Indonesia, penggunaan media sosial sebagai sumber informasi telah menjadi fenomena. Hal ini dapat dilihat dari jumlah penguna akun facebook dan twitter di Indonesia. ComScore, inc mencatat Indonesia sebagai negara pengguna facebook terbanyak kedua setelah Amerika dan pengguna twitter tebanyak di Asia (agustus 2010) [3]. Berdasarkan fakta-fakta yang telah dipaparkan diatas, dapat disimpulkan bawah secara tidak langsung informasi dari media sosial akan mempengaruhi penanggulangan bencana di Indonesia. Namun sampai saat ini, tingkat kredibilitas informasi yang disediakan oleh media sosial sangat rendah. Kesalahan informasi
Universitas Indonesia
Implementasi metode..., Mega Oktafiani Putri, FT UI, 2012
3
pada saat terjadi bencana dapat menyebabkan kepanikan masyarakat dan terhambatnya penanggulangannya bencana. Berdasarkan dari permasalahan inilah maka diperlukan sebuah teknologi yang dapat mengekstraksi informasi dan menvisualisasikan pola dari informasi tersebut sehingga kredibilitas dari informasi dapat ditingkatkan.
1.2 Tujuan Penulisan Tujuan penulisan penelitian ini adalah menganalisa trending topic pada media sosial dengan mengunakan teknologi web-mining dan visualisasi grafik jaringan yang dapat dimanfaatkan untuk: 1. Mengekstraksi informasi yang diperlukan melalui media sosial. 2. Mengetahui perilaku penyebaran informasi pada media sosial. 3. Memaksimalkan fungsi media sosial sebagai sumber informasi.
1.3 Batasan Masalah Untuk meningkatkan efektifitas penelitian ini maka analisa akan dilakukan dengan pengambilan contoh dataset. Pada penelitian ini media sosial yang akan dianalisa adalah microblog twitter (https://twitter.com/) dengan mengambil kasus bencana banjir yang kerap terjadi di Jakarta dalam beberapa tahun ini. Adapun pengambilan data dilakukan dari tanggal 9 Maret 2012 – 23 Maret 2012 dengan kata kunci: banjir Jakarta.
1.4 Metodologi Penulisan penelitian yang digunakan dalam penulisan tugas akhir ini adalah studi literatur, membangun sistem dan menganalisa konten media sosial berdasarkan parameter-prameter yang telah ditentukan sebelumnya. Studi literatur dilakukan untuk menemukan permasalahan serta sebagai latar keilmuan dan teknis pengerjaan penelitian ini.
Universitas Indonesia
Implementasi metode..., Mega Oktafiani Putri, FT UI, 2012
4
Penelitian akan dilakukan dengan beberapa tahapan yang dapat dipaparkan sebagai berikut: 1. Pengumpulan data 2. Pengolahan data 3. Visualisasi grafik 4. Analisa grafik 5. Deteksi topik
1.1 Sistematika Penulisan Sistematika penulisan pada penelitian ini adalah sebagai berikut: BAB 1 Pendahuluan Bab Pendahuluan ini
berisi
Latar Belakang, Tujuan Penulisan,
Batasan Penulisan, dan Sistematika Penulisan. BAB 2 Media Sosial, Metode Pembentukan Graph dan Analisa Jaringan
Kompleks Pada bab ini akan dibahas lebih lanjut mengenai web mining, pembobotan kata, konsep grafik sebagai teknologi yang mendukung analisa media sosial. BAB 3 Perancangan dan Skenario Penelitian Dalam bab ini akan dijelaskan rancangan, implementa sistem dan tahapan yang akan dilakukan pada penelitian ini. BAB 4 Deteksi Topik Pada Set data Banjir Jakarta Pada bab ini akan dijelaskan lebih lanjut mengenai
visualisasi dalam
bentuk grafik dan pengolahan data. Bab ini memuat Analisa dan hasil penelitian. BAB 5 Penutup Bab ini berisikan kesimpulan dan pegembangan kedepan dari penelitian ini.
Universitas Indonesia
Implementasi metode..., Mega Oktafiani Putri, FT UI, 2012
BAB 2 MEDIA SOSIAL, METODE PEMBENTUKAN GRAPH, DAN ANALISA JARINGAN KOMPLEKS
2.1 Media Sosial Media sosial merupakan merupakan media yang memungkinkan penggunanya untuk berpartisipasi dan berbagi informasi sehingga tercipta suatu interaksi sosial. Media sosial telah menjadi fenomena dunia. Hal ini ditunjukan dengan fakta bahwa media sosial merupakan situs yang paling dikunjungi dalam penggunaan Internet. Comscore inc. menyatakan bahwa media sosial memimpin aktivitas Internet secara global dengan data-data sebagai berikut [4]: 1. Media sosial merupakan aktifitas Internet terbanyak diseluruh dunia: media sosial diakses oleh 82% pengguna Internet di dunia baik dari komputer kantor maupun rumah. Persentasi ini merepresentasikan 15 milyar pengguna di seluruh dunia (oktober 2011). 2. Pemilik akun facebook tercatat mencapai 55% dari pengguna Internet secara global. Hal ini menunjukkan bahwa facebook memiliki 1 pengguna baru setiap 7 menit. 3. Microbloging diperkirakan akan mengambil alih dunia jaringan sosial: pengguna twitter tercatat mencapai 1 dari 10 pengguna Internet secara global dan berkembang sebesar 59% (Oktober 2011). Begitu pula dengan beberapa website lain seperti sina weibo (berkembang sebesar 181%) dan tumblr (berkembang 172 %). 4. Batas usia pengguna media sosial terus meningkat. Walaupun pengguna media sosial terbesar adalah generasi muda (usia 15-24). Tercatat pengguna sosial dengan usia 55 tahun ke atas meningkat dari 10 % di Juli 2011 menjadi 80% di Oktober 2011. 5. Sebagian besar pengunaan perangkat komunikasi mobile adalah untuk mengakses media sosial: 64 % pengguna smartphone di Amerika Serikat mengakses media sosial setiap hari (Oktober, 2011).
5 Universitas Indonesia
Implementasi metode..., Mega Oktafiani Putri, FT UI, 2012
6
Selain itu, fenomena media sosial ini terlihat dari jumlah pengguna media sosial, sebagai contoh: MySpace (lebih dari 190 juta pengguna), orkut (lebih dari 62 juta pengguna), facebook (lebih dari 350 juta pengguna), twitter (lebih dari 45 juta akun and 18 juta diantaranya adalah akun aktif ) [4]. Berikut akan dipaparkan lebih lanjut mengenai Media sosial.
2.1.1 Sejarah Media dan Jejaring Sosial Sejak ditemukannnya Internet yang memungkinkan sebuah komputer terhubung dengan komputer lainnya, interaksi sosial di dunia maya ikut berkembang. Situs jejaring sosial diawali oleh sixdegrees.com pada tahun 1997 yang mempopulerkan pertemanan di dunia maya dengan mehubungkan pengguna akun dan memungkinkan mengirim pesan. sixdegrees.com berhasil menarik jutaan pengguna namun tidak dapat bertahan dalam persaingan bisnis dan situs ini ditutup pada tahun 2000 [5]. Seiring dengan perkembangan teknologi informasi, inovasi-inovasi pada jejaring sosial mulai bermunculan. Jejaring sosial tidak hanya menjadi media pertemanan di dunia maya. Jejaring sosial kini menawarkan banyak fitur-fitur seperti permainan, multimedia sharing, penyimpanan data pribadi, trending topic, dan keamanan pemilik akun.
Gambar 2.1 Perkembangan Jejaring Sosial dari Tahun ke Tahun [5]
Universitas Indonesia Implementasi metode..., Mega Oktafiani Putri, FT UI, 2012
7
Gambar 2.1 menunjukkan perkembangan jejaring sosial hingga tahun 2006. Beberapa jejaring sosial bahkan telah menjadi fenomena dunia seperti facebook (2005), youtube (2005), dan twitter (2006).
2.1.2 Media Sosial di Indonesia Fenomena media sosial di Indonesia diawali dengan populernya jejaring sosial friendster.com pada tahun 2002 dan diikuti oleh media-media sosial lain. Berdasarkan data web-metric oleh alexa.com, enam dari sepuluh situs yang paling dikunjungi di Indonesia adalah media sosial [6].
Tabel 2.1 Sepuluh Situs yang Paling Dikunjungi di Indonesia [6]
Fenomena media sosial di Indonesia juga menyebabkan kemunculan jejaring sosial lokal di Indonesia. Berikut adalah beberapa jejaring sosial yang dibuat oleh Indonesia seperti: kaskus.us, paseba.com, dan fufei.com
2.1.3 Klasifikasi Media Sosial Media sosial dapat dikategorikan menjadi 6 jenis yaitu sebagai berikut [7]: 1. Blogs dan microblogs Blog merupakan singkatan dari web log. Blog adalah aplikasi berbasis web yang dapat memuat tulisan-tulisan pengguna kemudian mencatat dan menanmpilkan tanggal tulisan tersebut. Sedangkan microblog merupakan suatu
Universitas Indonesia Implementasi metode..., Mega Oktafiani Putri, FT UI, 2012
8
bentuk
blog yang memuat tulisan-tulisan lebih singkat (biasanya berjumlah
kurang lebih 200 kata). Beberapa micro-blog menawarkan beberapa fitur dalam mempublikasi tulisan selain dalan bentuk teks seperti video, gambar, dan emoticon.
2. Situs jejaring sosial Situs jejaring sosial merupakan suatu media yang menghubungkan seorang individu atau organisasi dengan akun pengguna lain melalui hubungan pertemanan, persamaan minat, pengetahuan, dan lain-lain. Situs jejaringan sosial memungkinkan pengguna untuk membuat akun yang berisi informasi pribadi, membuat jaringan pertemanan dan berkirim pesan.
Tabel 2.2 Klasifikasi dan Jenis Media Sosial [7].
kekayaan media Rendah
Cukup situs jejaring
Tinggi
Blogs
sosial (contoh: facebook)
penyingkapan Project
pengguna Rendah
collaborative (contoh: wikipedia)
tinggi dunia sosial virtual (contoh: second life )
content
dunia permainan
communities
virtual (contoh: world
(contoh: youtube)
craft)
3. Dunia sosial virtual Dunia sosial virtual merupakan sebuah aplikasi berbasis website yang menggambarkan kehidupan sosial pada dunia nyata yang disimulasikan ke dalam bentuk hubungan di dunia maya.
4. Project collaborative Project collaborative merupakan salah satu media sosial yang memungkinkan pengguna dari seluruh dunia untuk secara bersama-sama untuk mengisi konten dari media sosial tersebut untuk mencapai tujuan yang sama.
Universitas Indonesia Implementasi metode..., Mega Oktafiani Putri, FT UI, 2012
9
Contoh media sosial Project collaborative adalah wikipedia.org, viki.com, dan lain-lain.
5. Content communities Content communities merupakan jenis media sosial yang memungkinkan pengguna untuk berbagi konten seperti tulisan, audio file, dokumen, dan video file di Internet. Pengguna content communities biasanya tidak memuat informasi pribadi pada akunnya. Dari beberapa sudut pandang, content communities memiliki resiko tinggi untuk digunakan sebagai media berbagi data yang memiliki hak cipta dilindungi.
6. Dunia permainan virtual Dunia permainan virtual merupakan aplikasi permainan berbasis website yang memungkinkan seorang pemain dapat bermain dan berkomunikasi dengan pemain lainnya. Dunia permainan vitual biasanya mereplikasi kehidupan nyata dan mensimulasikan konflik dalam bentuk permainan komputer 2 dimensi maupun 3 dimensi. Pengguna dapat muncul dalam permainan dengan menvirtualisasi dirinya (avatar) dan berinteraksi dengan pengguna lain.
2.2 Web Mining web mining merupakan suatu proses pencarian dan pengumpulan dari informasi dan pengindetifikasikan pola secara otomatis dari sebuah situs. Web mining dapat dikategorikan dalam tiga ruang lingkup yang berbeda yaitu web content mining, web structure mining dan web usage mining.
Universitas Indonesia Implementasi metode..., Mega Oktafiani Putri, FT UI, 2012
10
Web Mining
Web Content Mining
teks
gambar
suara
Web Structure Mining
video
Structure record
Web server logs Hyperlink
Intra document hyperlink
Web Usage Mining
Application server logs
Application level log
Struktur dokumen
Inter document hyperlink
Gambar 2.3 Konsep web mining
2.2.1
Web Content Mining Web Content Mining adalah proses pengumpulan informasi berupa
konten dari halaman situs tersebut [12]. Informasi yang dapat dikumpulkan dari proses web content mining dapat berupa teks, audio, gambar, dan video. Web content mining yang paling umum adalah dalam bentuk teks. Hasil ekstraksi situs dalam bentuk teks dapat berupa data terstruktur (tabel) dan yang belum terstruktrur (teks bebas, dokumen html, dan lain-lain).
2.2.2
Web Structure Mining Web structure mining merupakan proses ekstraksi data yang terkait
dengan struktur. Umumnya Web structure mining mengindetifikasi pola bagaimana sebuah halaman situs terhubung dengan halaman lain pada situs tersebut maupun situs lain. Web structure mining memetakan struktur web dalam sebuah graph dimana sebuah halaman situs adalah sebuah simpul dan link merupakan ikatan [9]. Web structure mining dapat dikategorikan menjadi 2 yaitu: 1. Hyperlink: Web structure mining yang memetakan struktur situs berdasarkan hyperlink baik ikatan tersebut menghubungkan bagian pada halaman yang sama (intra document-hyperlink) ataupun ikatan antar halaman situs (inter document-hyperlink)
Universitas Indonesia Implementasi metode..., Mega Oktafiani Putri, FT UI, 2012
11
2. Document-structure: Web structure mining yang memetakan struktur konten suatu halaman situs.
Web structure mining banyak dimanfaatkan untuk menentukan peringkat dari suatu situs (page rank) atau untuk mengindetifikasi suatu komunitas. Mesin pencari google mengunakan algoritma page-rank yang menyatakan relevansi dari suatu halaman situs akan meningkat sesuai dengan jumlah hyperlink yang menghubungkan situs tersebut dengan situs lainnya yang relevan [10].
2.2.3 Web Usage Mining Web usage mining adalah suatu teknik web mining untuk mengumpulkan informasi dari suatu situs berdasarkan perilaku penggunanya. Web usage mining melakukan pengumpulan data dari server logs, cookies, user sessions, dan data pengguna. Web usage mining dapat dikategorikan menjadi 3 yaitu: 1.
Web server data: Web usage mining melakukan pengumpulan data dari server logs. Data yang berhasil didapatkan berupa alamat IP, refrensi halaman dan waktu akses pengguna.
2.
Application server data: web usage mining melakukan pengumpulan data dari aplikasi-aplikasi server seperti cms.
3.
Application level data: web usage mining melakukan pengumpulan data dari sejarah suatu event tertentu. Pengumpulan data ini dapat dilihat dari sisi server, pengguna, dan proxy.
Dalam pemanfaatannya web usage mining kerap digunakan untuk: 1. kustomisasi halaman situs berdasarkan profil pengguna 2. meningkat peforma dari sebuah situs 3. menentukan ketertarikan pelanggan terhadap produk tertentu, dan menentukan target market yang sesuai 4. Meningkatkan performa navigasi sebuah situs
Universitas Indonesia Implementasi metode..., Mega Oktafiani Putri, FT UI, 2012
12
2.3 Metode Pembentukan Graph Graph, dalam matematika dan ilmu komputer, didefinisikan sebagai kumpulan simpul dan ikatan. Metode pembentukan graph pada media sosial dilakukan dengan cara pengolahan bahasa alami dan konsep graph.
2.3.1 Pengolahan Bahasa Alami Pengolahan bahasa alami adalah suatu bidang dimana tentang bagaimana sebuah mesin dapat memahami bahasa manusia melalui sebuah proses komputasi. Proses pemahaman yang dilakukan dapat dilihat dari segi kata yang digunakan kedudukan kata tersebut dalam sebuah kalimat maupun bagaimana kata-kata tersebut membentuk sebuah kalimat. Pengolahan bahasa natural kerap digunakan untuk pengolahan data berbasis teks.
2.3.1.1 Analisa Secara Morfologi dalam Bahasa Indonesia `Analisa Secara morfologi adalah analisa yang mempelajari bahwa suatu kata dibangun dari kata-kata yang lebih kecil yang disebut morfem. Bahasa Indonesia merupakan bahasa resmi Indonesia yang digunakan oleh 190 juta penduduk Indonesia dan penduduk di belahan dunia lain [17]. Bahasa Indonesia dikatakan sebagai bahasa yang memiliki morfologi yang cukup rumit mengingat kata-kata Bahasa Indonesia dibangun dengan mengunakan imbuhan-imbuhan. Imbuhan dalam Bahasa Indonesia dapat dikategorikan menjadi 4 kategori , yaitu [17]: 1. Awalan yang mendahului kata dasar, seperti: men- , di-, per-, dan ter2. Akhiran yang mengikuti kata dasar, seperti: -kan, -an , dan –i 3. Sisipan yang berada ditengah kata dasar, seperti: -el- , -em-, dan –er4. Imbuhan gabungan yang menjepit kata dasar dan merupakan gabungan awalan dan akhiran
Selain penggunaan imbuhan Bahasa Indonesia juga kata-kata Bahasa Indonesia dibangun dari pengulangan kata dasar (reduplikasi morfem).
Universitas Indonesia Implementasi metode..., Mega Oktafiani Putri, FT UI, 2012
13
2.3.2.1 Pembobotan Kata pembobotan kata merupakan metode yang mengasumsikan sifat kata secara statiska dalam suatu dokumen menunjukkan kemampuan kata tersebut untuk merepresentasikan dokumen dan membedakan dokumen tersebut dari dokumen lainnya. Adapun beberapa metode pembobotan kata dipaparkan sebagai berikut:
1. Inverse Document Frequency (IDF) Inverse Document Frequency (IDF) adalah metode pembobotan yang dikemukakan oleh Spark Jones yang mendasari metodenya dengan asumsi bahwa kata yang jarang muncul tidak berarti memiliki kedudukan tidak penting dalam dokumen tersebut. IDF menyatakan semakin kecil nilai kemunculan suatu kata pada sekumpulan dokumen maka kata tersebut diduga memiliki nilai yang membedakan suatu dokumen dengan dokumen lainnya pada kumpulan tersebut. Secara matematis IDF didefinisikan sebagai berikut: IDF = log2
.......................................................................................(2.1)
Dimana, D = Jumlah dokumen df = Jumlah dokumen yang memiliki kata kunci
2. Term Frequency - Inverse Document Frequency (TF-IDF) Term
Frequency-Inverse
Document
Frequency
(TF-IDF)
merupakan metode pembobotan kata dengan memperhatikan: a. Kata yang jarang muncul tidak berarti tidak penting (asumsi IDF). b. Kata yang yang muncul beberapa kali memiliki peranan lebih penting dari kata yang muncul sekali (asumsi TF). c. TF-IDF secara memberikan nilai kemunculan kata secara proposional.
Universitas Indonesia Implementasi metode..., Mega Oktafiani Putri, FT UI, 2012
14
Secara Matematis TF-IDF didefinisikan sebagai berikut: TF-IDF = tf x log2
........................................................................... (2.2)
Dimana, D = Jumlah dokumen Df = Jumlah dokumen yang memiliki kata kunci TF = jumlah kemunculan kata pada sebuah dokumen
3. Residual Inverse Document Frequency (RIDF) Residual Inverse Document Frequency (RIDF) merupakan varian dari IDF yang memberikan bobot pada kata berdasarkan perbedaan log IDF sebenarnya dengan IDF yang diprediksikan dengan model poisson [19]. RIDF = IDF – log2 ( p ( 0,λt) )................................................................(2.3) Dimana, IDF = Inverse Document Frequency ( log2
)
p ( 0,λt) = problitas poisson kata untuk muncul setidaknya satu dalam dokumen (λt =
2.3.2. Relasi Kata pada Konsep Grafik Untuk mengvisualisasi suatu objek ke dalam sebuah grafik diperlukan suatu konsep atau aturan yang membentuk hubungan dari tiap-tiap objek. Pada objek yang berupa teks, dapat digunakan relasi antar kata untuk membentuk suatu grafik. Hubungan antara dua buah kata bergantung pada konteks dimana kata itu digunakan yang dalam hal ini adalah dokumen. Dengan memperhatikan frekuensi kemunculan kata-kata tersebut maka kita dapat menghitung hubungan hipernim dan hiponim dari kata-kata tersebut. Misal pada seluruh dokumen dalam set data didefinisikan sebagai X. dua buah kata kunci yaitu “u” dan “v” maka hubungan hipernim dan hiponim dapat dikemukakan sebagai berikut:
Df (u; U) > df (v; U).........................................................................................(2.4) Universitas Indonesia Implementasi metode..., Mega Oktafiani Putri, FT UI, 2012
15
Konsep grafik dengan memperhatikan hubungan hipernim dan hiponim ini dikemukan oleh Hirokawa. Dalam konsep ini kata-kata dihubungkan secara langsung dengan hubungan tinggi-rendah (upper- lower relation) .
2.4 Analisa Jaringan Sosial Analisa
jaringan
sosial
merupakan
metodologi
penelitian
yang
dikembangkan untuk memahami hubungan “aktor”, yang disini “aktor” dapat diartikan sebagai orang, organisasi, kejadian dan objek [8][9]. Pada grafik sosial media, terdapat 2 elemen penting yaitu simpul dan hubungan. Simpul merepresentasikan objek individual (pengguna atau organisasi)
yang berupa
“aktor” jaringan sosial. Analisa jaringan sosial memiliki tujuan untuk memetakan dan mengukur ikatan antara simpul dalam jaringan sosial guna memahami hubungan para “aktor”. Berikut adalah beberapa metrik pengukur pada analisa jaringan sosial: 1. Keantaran Keantaran mengukur sejauh mana satu simpul berada diantara simpul-simpul lain di suatu jaringan. Nilai ini menunjukkan berapa banyak simpul lain yang terhubung secara tidak langsung pada suatu simpul melalui simpul yang terhubung secara langsung [9]. 2. Kedekatan Kedekatan mengukur jarak terdekat dari suatu simpul ke simpul lainnya. Suatu simpul dengan nilai kedekatan yang tinggi akan mendapatkan pesan lebih cepat dibanding dengan simpul yg memiliki nilai kedekatan yang lebih rendah [8]. 3. Clustering Coefficient Clustering Coefficient mengukur kemungkinan simpul yang berhubungan terhubung dengan simpul itu sendiri. 4. Derajat Derajat pada teori graph merupakan jumlah nodes ke nodes lain secara langsung. Jika dimplementasikan ke analisa jaringan sosial. Maka derajat dapat digunakan sebagai nilai untuk mengukur tingkat popularitas suatu “aktor” pada jaringan sosial.
Universitas Indonesia Implementasi metode..., Mega Oktafiani Putri, FT UI, 2012
16
5. Kepusatan atau Kekuatan Kepusatan mengukur secara kasar seberapa baik suatu simpul terhubung dengan simpul lain. Keantaran, kedekatan, dan derajat merupakan nilai dalam mengukur kepusatan [10]. 6. Modularitas Modularitas mengukur kekuatan dari pembagian struktur grafik menjadi kumpulan-kumpulan [20]. Modularitas kerap digunakan untuk mendefinisikan komunitas pada analisa jaringan sosial. 7. Jumlah Ikatan Jumlah ikatan mengukur banyaknya ikatan pada suatu jaringan. 8. Jumlah Simpul Jumlah ikatan mengukur banyaknya simpul atau objek pada suatu jaringan.
2.5 Modularitas untuk Mendefinisikan Struktur Komunitas Struktur komunitas pada sebuah jaringan sosial merepresentasikan pengaruh setiap simpul dan lingkup pengaruhnya pada jaringan sosial. Struktur data yang merepresentasikan struktur komunitas dapat disebut sebagai community tree. Pada analisa jaringan sosial, nilai modularitas kerap digunakan untuk menunjukkan struktur komunitas.
Gambar 2.4 Community Tree [14]
Nilai modularitas pertama kali dikemukan oleh Newman dan Girvan Modularitas yang menunjukkan kekuatan dari pembagian suatu jaringan menjadi kumpulan-kumpulan (modul). Hal ini dikarenakan nilai modularitas menunjukkan kekuatan ikatan simpul-simpul yang berada pada satu modul yang lebih kuat dibanding dengan ikatan dengan simpul-simpul yang berasal dari modul lain. Universitas Indonesia Implementasi metode..., Mega Oktafiani Putri, FT UI, 2012
17
Modularitas merefleksikan konsentrasi dari simpul-simpul dalam modul dengan membandingkannya
dengan
memperhatikan modul. Misal
distribusi ii
acak
ikatan-ikatan
simpul
tanpa
mewakili jejak dari pecahan ikatan-ikatan
dalam jaringan yang saling terhubung dalam sebuah modul maka semakin tinggi nilai
ii
maka semakin jelas modul tersebut pada jaringan. Namun nilai ini tidak
cukup baik untuk menunjukkan komunitas karena dengan hanya menempatkan simpul pada sebuah komunitas maka tidak akan memberikan informasi mengenai struktur komunitas. Maka dari itu, diperlukan sebuah nilai yang menunjukkan fraksi dari ikatan-ikatan dalam modul juga ikatan-ikatan didistribusikan secara acak pada null model sebagai nilai pembanding. Dasar dari modularitas dengan membandingkan kumpulan dengan sebuah null model, sebuah jaringan acak yang memiliki ikatan dan derajat yang sama, dengan cara mengeleminasi ikatan yang lemah.Dengan demikinan nilai modularitas akan menunjukkan struktur kumpulankumpulan pada sebuah jaringan.
Gambar 2.5 Pendeteksian Komunitas dengan Mengoptimasi Modularitas [20]
Gambar 2.5 mengambarkan bagaimana nilai modularitas memecah suatu jaringan kompleks menjadi kumpulan node dalam satu modul dengan cara mengeleminasi ikatan-ikatan yang tidak kuat.
Bahasa pemograman Ruby Bahasa pemograman Ruby merupakan bahasa pemograman berorientasi objek yang ditemukan pertama kali oleh yukihiro matsumoto pada tahun 1993.
Universitas Indonesia Implementasi metode..., Mega Oktafiani Putri, FT UI, 2012
18
Ruby menawarkan kemudahan dalam pemograman dengan menyediakan fasilitas interaktif Ruby (IRB) yang menyediakan sarana untuk bereksperimen dengang memberikan hasil secara langsung begitu memasukan perintah baris demi baris. Adapun sintaks-sintaks pada Ruby dapat dipaparkan sebagai berikut: 1. Karakter spasi seperti spasi dan tab akan tidak diperhatikan dalam Ruby kecuali dalam string. 2. Ruby mengenal baris baru sebagai akhir dari sebuah perintah atau karakter kecuali Ruby bertemu dengan operator seperi +, -, atau \ yang menandakan kelanjutan dari sebuah perintah atau karakter. 3. Indetifikasi terhadap nama variable , konstanta dan metode para Ruby adalah case sensitive. Pada Ruby sebuah variabel Ruby berbeda dengan RUBY. 4. Komentar pada Ruby dimulai dengan tanda # dan berakhir jika dimulai sebuah baris baru. 5. Terdapat beberapa kata yang telah menjadi bagian dari reserved word pada bahasa pemrograman Ruby sehingga tidak dapat digunakan untuk penamaan variabel dan konstanta. Kata- kata tersebut dipaparkan pada tabel berikut:
Tabel 2.3 Reserved Word pada Ruby
reserved word pada Ruby Begin do Next Then end else Nill TRUE Alias elseif Not Undef And end Or Unless Begin ensure Redo Until Break FALSE Rescue When Case for Retry While Class If Return While Def In Self _FILE
Universitas Indonesia Implementasi metode..., Mega Oktafiani Putri, FT UI, 2012
19
2.7 Perangkat Lunak Pendukung Dalam proses ekstraksi situs dan analisa jaringan sosial diperlukan suatu tool atau perangkat lunak yang mendukung proses ini. Perangkat lunak yang digunakan pada penelitian ini adalah perangkat lunak open source. Perangkat lunak open source adalah perangkat lunak yang dapat digunakan, dikembangkan, dan didistribusikan ulang secara bebas.
2.7.1 The Achivist Web
crawler
merupakan suatu teknik
pengumpulan data dan
penjelajahan suatu situs. Terdapat beberapa tools berbasis open source yang memungkinkan melakukan crawling dalam proses web mining. The archivist merupakan perangkat lunak yang beroperasi pada sistem operasi windows yang dapat menyimpan ‘tweet’ dari twitter untuk keperluan pengumpulan data dan analisa. The archivist menyimpan hasil ekstraksi ke dalam bentuk xml dan excel.
2.7.2 Perangkat Lunak Yang Mendukung Analisa Berbasis Grafik Untuk memahami suatu jaringan, suatu perangkat lunak untuk mengvisualiasikan grafik berskala besar diperlukan. Berikut adalah perangkat lunak yang mendukung visualisasi graph berskala besar: 1. Gephi Gephi merupakan perangkat lunak open-source yang bertujuan untuk memahami
dan
menjelajahi
suatu
jaringan
dengan
cara
menvisualisasikannya dalam bentuk graph. Dapat dikatakan gephi seperti photoshop, namun untuk data. Pengguna dapat memanipulasi stuktur, bentuk dan warna dari jaringan tersebut. Jaringan yang dapat dibentuk gephi mencapai 50.000 simpul dan 500.000 ikatan. Statiska dan nilai metrik yang ditawarkan gephi merupakan nilai yang paling sering digunakan dalam analisa jaringan sosial seperti keantaran, derajat , dan kedekatan. Gephi mengvisualisasikan graph dalam bentuk jaringan kompleks.
Universitas Indonesia Implementasi metode..., Mega Oktafiani Putri, FT UI, 2012
20
2. Graphviz Graphviz merupakan perangkat lunak open-source berbasis Java yang dapat
mengvisualisasi
graph.
Berbeda
dengan
Gephi
yang
mengvisualisasikan sebuah graph dalam bentuk jaringan kompleks. Graphviz mengvisualisasikan graph dalam bentuk bagan terstruktur.
Universitas Indonesia Implementasi metode..., Mega Oktafiani Putri, FT UI, 2012
BAB 3 PERANCANGAN DAN SKENARIO PENELITIAN
3.1 Rancangan Penelitian 3.1.1 Deskripsi Seperti yang telah dituliskan pada bagian awal tulisan ini, penelitian ini dilakukan untuk mendapatkan informasi mengenai topik yang kerap dibicarakan pada saat terjadi bencana melalui media sosial. Informasi yang diharapkan akan didapatkan pada penelitian ini adalah: 1. Kebutuhan, keluhan, keinginan atau pendapat masyarakat pada saat terjadinya bencana. 2. kondisi pada saat terjadinya bencana. 3. rumor yang beredar di masyarakat pada saat terjadinya bencana. Untuk mencapai informasi tersebut maka pada penelitian ini
akan
dirancang sebuah sistem untuk menganalisa media sosial yang bertujuan untuk mendeteksi topik. Penelitian ini dilakukan dengan cara mengtranformasikan data yang berhasil dikumpulkan dari media sosial ke dalam bentuk graph jaringan kompleks. Kemudian akan dilakukan pengukuran nilai modularitas graph berdasarkan waktu untuk mendefinisikan topik dan distribusinya.
3.1.2
Aspek Analisa dan Parameter Pada penelitian ini hal yang akan dianalisa adalah tweet dari media sosial
twitter. Dengan menganalisa konten dari media sosial ini maka akan didapat informasi yang diinginkan. Percobaan akan dilakukan dengan beberapa pengujian terhadap metode pembobotan untuk mengoptimasi hasil deteksi topik dengan bobot nilai hasil pembobotan dan persentase keberhasilan sebagai parameter pengukur. Pendeteksian topik dilakukan untuk mendefinisi topik secara umum dengan mengunakan nilai derajat dan kepusatan keantaran sebagai parameter
21 Universitas Indonesia
Implementasi metode..., Mega Oktafiani Putri, FT UI, 2012
22
pengukur. Sedangkan untuk mendeteksi distribusi topik terhadap waktu, nilai modularitas akan digunakan sebagai parameter pengukur. 3.2 Skenario Penelitian Penelitian ini dilakukan dengan tiga tahapan yaitu pengambilan data, pengolahan data, dan analisa grafik. Pada pengambilan data akan dilakukan proses crawling dari konten twitter berupa pesan (tweet) yang kemudian akan diolah melalui proses pengolahan bahasa secara morfologikal dan dilakukan ekstraksi keyword dengan pembobotan kata. Kata-kata yang memiliki bobot tinggi akan menjadi masukan untuk tahap visualiasi grafik. Pada tahap visualisasi grafik kata kunci akan merepresentasikan simpul yang saling berikatan dan mebentuk sebuah jaringan. Jaringan ini akan dibagi menjadi kumpulan-kumpulan dengan cara menghitung modularitas. Kumpulan-kumpulan ini yang akan mendefinisikan topik. Untuk lebih jelasnya skenario penelitian dipaparkan oleh bagan alir sebagai berikut: Media sosial
crawling
Pengambilan Data
Penyaringan
Pengolahan Bahasa
Pengolahan Data
Ekstrasi Kata Kunci
Tranformasi Grafik
Pengukuran
Analisa Grafik
Ekstrasi Topik
Informasi
Gambar 3.1 bagan alir penelitian
Universitas Indonesia
Implementasi metode..., Mega Oktafiani Putri, FT UI, 2012
23
3.2.1 Pengambilan Data Pengambilan data pada penelitian dilakukan dengan mengunakan metode web content mining dengan cara melakukan proses crawling. Proses crawling dengan menggunakan perangkat lunak the archivist. Hasil crawling dengan menggunakan the archivist dapat berupa
data berbasis xml dan text. Pada
penelitian ini data yang diambil adalah data berbasis xml yang kemudian dikonversi ke dalam bentuk csv (comma seperated values) dengan bantuan microsoft excel. Data yang didapat dari hasil crawling adalah tanggal, waktu, user id, pesan, dan url gambar profil pengguna. Pada proses crawling ini setiap tweet akan didefinisikan sebagai sebuah dokumen. Secara matematis dokumen pada penelitian ini dapat di definisikan sebagai berikut. D = { id, date, cat, user id, message }.......................................................... (3.1) Dimana, D = dokumen Id = angka unik yang membedakan setiap pesan User id = user id penggunan penulis pesan Cat = kategori pesan Date = tanggal saat pesan ditulis Message = pesan berupa tweet yang ditulis oleh pengunna
3.2.2 Pengolahan Data Pengolahan data konten dilakukan dengan mengunakan metode text mining dan pengolahan bahasa alami. Adapun langkah-langkah pengolahan data konten adalah sebagai berikut:
3.2.2.1 Penyaringan data Proses
penyaringan
data
merupakan
upaya
untuk
melakukan
pembersihan pada data hasil ekstraksi dengan cara menghilangkan komponen
Universitas Indonesia
Implementasi metode..., Mega Oktafiani Putri, FT UI, 2012
24
yang tidak diperlukan pada tahapan pengolahan bahasa. Penyaringan data dilakukan dengan memastikan data yang didapat merupakan data yang sesuai dengan kata kunci pencarian dan berlokasi di Indonesia. Penyaringan data juga dilakukan untuk menghilangkan kemungkinan duplikasi data yang disebabkan oleh status ulang (retweet). Keluaran dari proses penyaringan data adalah pesanpesan yang memiliki sifat sebagai berikut: 1. Pesan yang sesuai dengan query. 2. Bukan merupakan pesan percakapan. Pesan percakapan berupa pesan yang sangat pendek (3 kata atau kurang) yang terjadi akibat percakapan seorang pengguna dengan pengguna lain mengunakan fungsi mention (@) pada twitter. 3. Bukan pesan ulang. Pesan ulang (re-tweet) berupa pesan yang merupakan pesan pengulangan pesan sebelumnya tanpa memberikan informasi baru atau memberikan informasi yang terlalu pendek untuk dinyatakan sebagai dokumen (3 kata atau kurang).
3.2.2.2 Pengolahan bahasa Pengolahan bahasa dilakukan dengan tujuan untuk mengambil kata-kata kunci yang memiliki tingkat relevansi tinggi terhadap keseluruhan data yang didapat pada proses pengambilan dan dianggap merepresentasikan isi dari dokumen. Dokumen akan dipisahkan menjadi kumpulan kata dengan tujuan untuk memilah kata-kata yang memiliki peran pokok (contoh: predikat dan objek) dan menghilangkan kata-kata yang memiliki peran pendukung (contoh: kata sambung, pronoun, kata tunjuk dan stopwords). Pengolahan bahasa dilakukan dengan bantuan perangkat lunak textttogexf yang akan mengkonversi dokumen menjadi sebuah grafik. Perangkat lunak textttogexf merupakan sebuah perangkat lunak yang dikembangkan sebagai bagian dari prototype mendeteksi perilaku kosumen (consumer behaviour) [15]. Perangkat lunak ini ditujukan untuk membentuk grafik dari dokumen bebasis teks. Sasaran masukan dari textttogexf adalah dokumen berbahasa Jepang. Oleh karena itu textttogexf dijalankan pada Mecab. Mecab merupakan perangkat lunak yang
Universitas Indonesia
Implementasi metode..., Mega Oktafiani Putri, FT UI, 2012
25
dapat melakukan analisa secara morfologi untuk data berbasis teks dalam bahasa Jepang. Karena sasaran dokumen pada penelitian ini adalah data berbahasa Indonesia, textttogexf dikembangkan agar dapat digunakan untuk sasaran data dengan Bahasa Indonesia dan disesuaikan dengan hasil pengambilan data. Indonesia fungsi mecab digantikan oleh library
Pada textttogexf
berbahasa Indonesia yang integrasikan secara langsung ke dalam aplikasi textttogexf dengan mengunakan bahasa pemrogaman Ruby. Library bahasa Indonesia terdiri dari: 1. Katadenganimbuhan.txt Library
ini
memuat
informasi
mengenai
hubungan
kata-kata
menggunakan imbuhan dan kata-kata dasarnya serta hubungan singkatan dengan kepanjangannya. Tujuan dari library ini adalah untuk mengambil kata dasar. 2. Tandabaca.txt Library ini memuat informasi tanda baca yang nantinya akan dieleminasi pada proses pengolahan bahasa secara morfologikal. 3. Katasambung.txt Library ini memuat kata sambung, kata tunjuk, kata panggilan, kata-kata lain yang memiliki kedudukan pendukung pada kalimat. 4. Stopwordindo.txt Library ini memuat stopword untuk Bahasa Indonesia. Stopword merupakan kata yang memiliki frekuensi tinggi namun tidak memiliki makna seperti: url, emoticon dan lain lain. Pada textttogexf dokumen dipecah dengan memperhatikan penggunaan partikel, sedangkan textttogexf Indonesia dokumen dipecah berdasarkan spasi. Gambar 3.4 menunjukan perbandingan alur kerja textttogexf dan textttogexf Indonesia dengan mengambil beberapa contoh kalimat (Gambar 3.2 dan 3.3). 私の名前はMEGAです。私は飴が好きです。 ( my name is mega . i like candy) 飴が甘いですから私は飴を食べます。 ( i eat candy because candy is sweet)
Universitas Indonesia
Implementasi metode..., Mega Oktafiani Putri, FT UI, 2012
26
Gambar 3.2 Kalimat Masukan untuk Textttogexf yang Dijalankan dengan Mecab Nama saya adalah mega. Saya menyukai permen. ( my name is mega . i like candy) Saya memakan permen karena permen itu manis. ( i eat candy because candy is sweet) Gambar 3.3 Kalimat Masukan untuk Textttogexf Indonesia. Texttogexf
Texttogexf Indonesia
私の名前はMEGAです。私は飴が好 きです。飴が甘いですから私は飴を 食べます
masukan
masukan
Nama saya adalah mega . Saya menyukai permen. Saya memakan permen karena permen itu manis
私 の 名前 は MEGA です 私 は 飴 が 好き です 飴 が 甘い です から 私 は 飴 を 食べ ます
Memecahkan kata partikel dan imbuhan
Memecahkan kata berdasarkan spasi
nama, adalah , mega ,saya menyukai, permen , memakan , karena , itu,manis
Eleminasi stopword
Eleminasi stopword dan kata sambung
nama, mega , saya menyukai, permen , memakan, manis
Mengambil kata sifat, kata kerja, dan kata benda
Eleminasi kata yang bukan kata kerja, kata sifat, dan kata benda
nama, mega , menyukai, permen , memakan, manis
pembobotan
Menggantikan kata berimbuhan dengan kata intinya
私 名前 MEGA 私 飴 好き 飴 甘 私 飴 食べ
名前, MEGA 私 好き 飴 甘 食べ
nama, mega ,suka , permen ,makan, manis
pembobotan
Gambar 3.4 Perbandingan Bagan alir textttogexf dan textttogexf Indonesia
Universitas Indonesia
Implementasi metode..., Mega Oktafiani Putri, FT UI, 2012
27
... @option_str = options.join(' ') if options @stop_words = Set.new File.foreach(stop_words_indo || STOP_WORDS_INDO) { |w| @stop_words.add(w.chomp)
... words = doc.split( ) words = words.find_all { |word| if not @stop_words.include?(word.tosjis)
... File.open(KATA_DENGAN_IMBUHAN) do |kata| kata.each do |line| from, value1, to, value2 = line.chomp.split(", ") hash[from] = value1 hash[to] = value2 words.each {|word| word.gsub!(hash[from], hash[to] )}
... Gambar 3.5 Pemograman Ekstraksi Kata Kunci Secara Morfologikal pada textttogexf
Textttogexf
Indonesia
akan
melakukan
proses
tokenisasi
dan
menghilangkan stopword kemudian dilakukan proses pengambilan inti kata. Maka keluaran textttogexf dibandingkan dengan keluaran textttogexf Indonesia adalah sebagai berikut: Tabel 3.1 Perbandingan Keluaran Textttogexf Indonesia dan Textttogexf Textttogexf
textttogexf Indonesia
名前
Nama Mega Suka Permen Manis Makan
MEGA
私 好き 飴 甘 食べ
Pada textttogexf Indonesia kata “saya” didefinisikan sebagai kata ganti orang sedangkan pada mecab kata 私 (saya) didefinisikan sebagai kata benda. Dalam Bahasa Indonesia Kata ganti orang tidak memiliki kedudukan penting
Universitas Indonesia
Implementasi metode..., Mega Oktafiani Putri, FT UI, 2012
28
dalam kalimat sehingga pada Textttogexf Indonesia akan kata ganti orang akan mengalami eleminasi.
3.3.2.3 Perhitungan bobot kata Hasil dari pengolahan bahasa merupakan kata-kata yang memiliki kemungkinan relevansi tinggi dilihat dari peran kata tersebut dalam sebuah kalimat. Namun suatu kata memiliki bobot informasi lebih tinggi dibanding kata lainnya. Dengan menvisualisasikan hasil pengolahan bahasa ke dalam bentuk grafik berdasarkan bobotnya, maka akan dapat terlihat pola informasi dari dataset. Perhitungan bobot dapat dilakukan dengan bantuan perangkat lunak text togexf. Dengan menghitung frekuensi sebuah kata pada sebuah dokumen dan kemunculan kata tersebut pada beberapa dokumen.Perhitungan bobot dapat dilakukan dengan metode pembobotan seperti tf-idf dan RIDF. Hingga saat ini, nilai yang dianggap menunjukkan topik dari suatu dokumen pada sosial media adalah RIDF [15].Pengujian akan dilakukan untuk membuktikan bahwa RIDF merupakan metode yang sesuai untuk menganalisa media sosial.
Id, date, cat2, user, doc = row words = @ws.getWords(doc) .... t = Date.strptime(date, "%Y/%m/%d") d_dt[id]= t.strftime("%Y%m%d") ...
d_wc.each do |w,c2f| # term, cat => freq c2f.each do |c,f| v2 = Math.exp(-(f.to_f/csize.to_f)) v = -log2(c2f.size.to_f/csize.to_f) + log2(1-v2.to_f) tfidf[w][c]=v.to_f if v.to_f >= @lower_ridf Gambar 3.6 Pemograman untuk Perhitungan RIDF
Gambar 3.6 menunjukan pemograman untuk RIDF. Frekuensi setiap kata dilakukan dengan mengambil variabel kata kunci dari hasil pengolahan bahasa secara morfologikal kemudian menghitung frekuensi kata kunci tersebut melalui
Universitas Indonesia
Implementasi metode..., Mega Oktafiani Putri, FT UI, 2012
29
proses looping. Kemudian setiap kata kunci akan dihitung Bobot RIDF dan TFIDF. Karena itu kata-kata yang akan divisualisasikan ke dalam graph adalah kata-kata yang memiliki nilai RIDF diatas nilai treshold yang ditetapkan berdasarkan distribusi bobot nilai dan kata. Adapun keluaran dari tahapan pembobotan ini adalah dokumen yang berisi array dari kata-kata yang memiliki nilai RIDF diatas nilai treshold. Secara matematis output dari tahap ini dapat dipaparkan sebagai berikut: D = { id, date, cat, user id, [w] }........................................................................(3.2) Dimana [w] adalah kata-kata yang memiliki bobot tinggi
3.2.3 Visualisasi Grafik Pada proses visualisasi grafik akan dilakukan tahapan pembentukan grafik dan pengukurannya.
3.2.3.1 Pembentukan Grafik Pada tahapan ini keluaran dari tahap pengolahan data yang berupa dokumen dengan kata-kata yang memiliki nilai bobot tinggi divisualisasi dalam bentuk grafik dengan mengunakan konsep graph Hirokawa yaitu dengan mehubungkan dua buah kata kunci dengan hubungan hipernim dan hiponimnya. Jika target keseluruhan dokumen adalah D, maka X adalah bagian dari D. Dalam penelitian ini nilai D mewakili keseluruhan pesan yaitu pesan dari tanggal 9 Maret 2011 hingga 23 Maret 2011. Sedangkan nilai X adalah kumpulan dokumen yang dikumpul berdasarkan waktu. Nilai X dapat dikumpulkan berdasarkan jam, hari, minggu, atau bulan. Pada penelitian ini nilai X merupakan sekumpulan dokumen yang dikumpulkan berdasarkan hari sehingga graph yang terbentuk merupakan graph yang memiliki perwaktuan. Hubungan antara dua buah kata kunci (misal: u dan v) dalam X dinyatakan dengan melihat frekuensi kemunculan kata tersebut pada dokumen. df(u,X) merepresentasikan jumlah dokumen dalam X yang mengandung kata kunci u sedangkan df(v,X) merepresentasikan jumlah dokumen
Universitas Indonesia
Implementasi metode..., Mega Oktafiani Putri, FT UI, 2012
30
dalam X yang mengandung kata kunci v. Jika df(u*v,X) > 0 maka kata kunci u dan v memiliki hubungan yang memenuhi query atau dalam penelitian ini menunjukkan isi dari dokumen dan jika df(u,X) > df(v,X) maka kata kunci u memiliki kedudukan sebagai upper dan kata kunci v memiliki kedudukan sebagai down. Dengan meletak kata kunci yang kedudukan lebih tinggi disebelah kiri dan dihubungkan dengan kata kunci berkedudukan lebih rendah disebelah kanan maka akan dapat terbentuk sebuah grafik. Adapun output dari proses ini adalah sebagai berikut:
Gambar 3.7 masukan dan keluaran proses visualisasi grafik
Gambar 3.8 Grafik yang terbentuk dari proses visualisasi grafik
Hasil keluaran dari proses ini adalah gexf yang nantinya akan menjadi masukan dari tahap pengukuran. graph exchange XML format (gexf) merupakan bahasa yang mendiskripsi grafik, jaringan, dan sistem yang kompleks dengan mengunakan XML.
Universitas Indonesia
Implementasi metode..., Mega Oktafiani Putri, FT UI, 2012
31
<nodes> <node id="1" label="a" /> ... <edges> <edge id="1" source="1" target="3" label="kalimat1:1"> ... <edge id="2" source="2" target="3" label="kalimat1:1"> <slices> ... Gambar 3.9 Gexf Keluaran dari Txttogexf Indonesia
Sedangkan untuk mengvisualisasikan graph dalam satuan hari, digunakan bahasa Dot. Dot merupakan bahasa yang dapat mengvisualisasikan graph dalam bentuk bagan terstruktur.
3.2.3.2 Pengukuran perangkat lunak Gephi akan men-generate gexf menjadi sebuah graph visual. Pengukuran dilakukan untuk mengukur nilai modularitas. Graph dengan nilai modularitas tinggi menunjukkan bahwa simpul-simpulnya memiliki ikatan yang kuat dengan simpul-simpul yang berada pada satu modul dan memiliki dan memiliki ikatan yang lemah dengan simpul-simpul yang berada pada modul yang berbeda. Pada penelitian ini modularitas didefinisikan sebagai berikut: Q=
(eii – (
eij )2) =
(eii – (ai)2)..................................................(3.2)
Dimana eii adalah jumlah jejak ikatan antar simpul pada satu modul dan ai merupakan jejak ikatan pada jaringan secara keseluruhan yang didistribusikan secara
acak.
Nilai
modularitas
pada
penelitian
ini
dilakukan
dengan
menghilangkan ikatan pada simpul-simpul diluar modul secara acak sehingga modul dapat terdefinisi. Pengukuran dilakukan dengan mengukur nilai modularitas dinamik terhadap waktu dengan menggunakan plugin gephi yang
Universitas Indonesia
Implementasi metode..., Mega Oktafiani Putri, FT UI, 2012
32
dikembangkan oleh nantoka [16]. Keluaran dari pengukuran ini adalah nilai modularitas berdasarkan waktu (yang dalam penelitian ini adalah hari). Hari yang memiliki nilai modularitas tinggi dapat diasumsikan sebagai graph memiliki struktur topik yang jelas. Dengan nilai modularitas, grafik (dalam satuan hari) akan dipecah kembali menjadi modul-modul sehingga topik dapat terdeteksi.
3.3 Perancangan Sistem Sistem yang dirancang untuk mengikuti skenario penelitian yang telah dipaparkan sebelumnya dapat digambarkan sebagai berikut:
The archivist
xml
Microsoft excel
csv
Media Sosial
Topik
gephi
gexf
Texttogexf Indonesia
Gambar 3.10 Sistem Deteksi Topik pada Analisa Media Sosial
Textttogexf Indonesia merupakan aplikasi inti dalam sistem deteksi topik pada analisa media sosial. Textttogexf men-generate data berbasis teks kedalam bentuk grafik jaringan kompleks. Adapun algoritma dari textttogexf Indonesa dipaparkan sebagai berikut:
Universitas Indonesia
Implementasi metode..., Mega Oktafiani Putri, FT UI, 2012
33
Masukan: Input, opsi keluaran Error no input
Ada input ?
Ekstrasi kata kunci
Pembobotan kata kunci
Perhitungan relevansi antarkunci
gexf
Opsi output
ridf
dot
Cetak grafik seluruh dokumen
Cetak grafik dokumen per satuan waktu
Cetak hasil pembobotan kata
Gambar 3.11 Algoritma Textttogexf
Textttogexf akan membaca opsi masukan dan keluaran kemudian akan membaca masukan perbaris yang kemudian akan dimasukan kedalam dua variabel. Variabel pertama adalah untuk melalui proses ekstraksi kata kunci sedangkan variabel kedua merupakan dokumen utuh. Dengan melakukan proses mapping kata kunci dengan dokumen utuh maka dokumen frekuensi dapat dihitung kemudian melalui proses pembobotan kata untuk bobot setiap kata. Hasil keluaran pada textttogexf disesuaikan dengan opsi keluaran pilihan pengguna.
Universitas Indonesia
Implementasi metode..., Mega Oktafiani Putri, FT UI, 2012
BAB 4 Deteksi Topik Pada Set data Banjir Jakarta
Analisa graph jaringan kompleks pada penelitian ini dilakukan dengan menguji set data banjir Jakarta. Set data banjir Jakarta berisi pesan-pesan pada media sosial twitter yang dipublikasikan oleh para pemilik akun dari tanggal 9 Maret 2012 sampai 23 Maret 2012. Dengan mengeleminasi duplikasi data yaitu pesan berulang (retweet) dengan tambahan pesan baru kurang dari 3 kata, berhasil didapat 666 pesan yang menuhi query banjir Jakarta. Penelitian ini dilakukan dengan melakukan pengukuran sebagai berikut: 1. Pengukuran statistik bobot
kata terhadap
definisi
dokumen dengan
menggunakan set data banjir Jakarta. Konten pada media sosial sedikit berbeda dengan data basis teks lain karena media sosial berisi pesan-pesan singkat yang cenderung berulang-ulang. Karena itu dilakukan pengukuran distribusi bobot kata berdasarkan parameter definisi dokumen yang diubah-ubah dengan metode pembobotan RIDF dan TF-IDF untuk menemukan definisi dokumen terbaik dalam penelitian ini. 2. Pengukuran persentase keberhasilan ekstraksi kata kunci terhadap metode pembobotan kata set data banjir Jakarta. Terdapat beberapa metode pembobotan kata dalam menentukan kata-kata kunci yang merepresentasikan isi dari keseluruhan dokumen. Maka dari itu, dilakukan pengujian terhadap tingkat keberhasilan ekstraksi kata kunci untuk mengetahui metode pembobotan kata yang sesuai untuk menganalisa media sosial twitter. 3. Deteksi topik pada Media Sosial. Tujuan pembentukan konten media sosial menjadi graph dalam bentuk jaringan kompleks adalah agar konten media sosial dapat dianalisa dan memberikan informasi yang bermanfaat. Salah satunya adalah informasi topik. Dengan menggunakan nilai modularitas, derajat dan struktur graph maka topik dapat
diketahui.
Begitu
juga
dengan
distribusinya
terhadap
waktu.
Universitas Indonesia
Implementasi metode..., Mega Oktafiani Putri, FT UI, 2012
35
4.1 Pengukuran Distribusi Bobot Kata terhadap Definisi Dokumen. Pengukuran ini dilakukan dengan cara mengubah definisi dokumen dan melihat pengaruhnya terhadap nilai modularitas dan distribusi bobot kata secara statistik. Adapun definisi dokumen yang digunakan pada penelitian ini adalah sebagai berikut: 1. Dokumen per id: mendefinisikan bahwa satu pesan pada set data banjir Jakarta mewakili satu dokumen. 2. Dokumen per jam: mendefinisikan bahwa semua pesan yang dipublikasikan pada jam sama merupakan satu dokumen. 3. Dokumen per menit: mendefinisikan bahwa semua pesan yang dipublikasikan pada menit yang sama merupakan satu dokumen. 4. Dokumen per 5 pesan: mendefinisikan bahwa sebuah dokumen berisi 5 pesan yang dipilih secara acak. 5. Dokumen per 10 pesan: mendefinisikan bahwa sebuah dokumen berisi 10 pesan yang dipilih secara acak 6. Dokumen per 20 pesan: mendefinisikan bahwa sebuah dokumen berisi 20 pesan yang dipilih secara acak. 7. Dokumen per hari: mendefinisikan bahwa sebuah dokumen berisi pesanpesan yang diplubikasikan dalam jangka waktu 1 hari. 8. Dokumen per kategori: mendefinisikan dokumen berdasarkan kategori yang telah didefinisikan sebelumnya. Kategori dapat berupa produk, tema, tujuan, judul, dan lain-lain yang menghubungkan satu pesan dengan pesan lainya.
Pengukuran dilakukan dengan 2 jenis pembobotan yaitu dengan mengunakan metode RIDF dan TF-IDF untuk mendapatkan kombinasi metode pembobotan dan definisi dokumen yang memberikan hasil terbaik. Pengukuran dilakukan dengan memperhatikan distribusi bobot nilai secara statistik. Hasil pengukuran dapat dilihat pada Gambar 4.1.
Universitas Indonesia
Implementasi metode..., Mega Oktafiani Putri, FT UI, 2012
36
Bobot Nilai
6.00 4.00 2.00 0.00 -2.00 -4.00 -6.00 -8.00 -10.00 dok per id
dok per jam
dok per hari
dok per 5 pesan
dok per 10 pesan
dok per 20 pesan
dok per kateg ori
Bobot Maksimal
1.99
2.96
2.78
1.90
1.95
1.91
4.19
Bobot Minimal
-7.78
-6.78
-3.95
-6.09
-6.00
-5.02
-3.92
Rata-rata
-2.89
-2.10
-0.97
-2.30
-2.11
-1.80
-0.66
Gambar 4.1 Grafik Hasil Pengukuran Distribusi Bobot dengan Variabel Definisi Dokumen yang Berbeda
Pendefinisian dokumen berdasarkan id merupakan pendefinisian murni. Hal ini karena dokumen berdasarkan id merupakan pesan murni yang tidak mengalami pengelompokan tertentu. Pada dasarnya dokumen berdasarkan id merupakan definisi dokumen yang sebenarnya. Namun pada media sosial twitter merupakan media sosial berjenis micro-blog yang memiliki pesan yang terlalu singkat untuk menjadi sebuah dokumen. Hal ini mempengaruhi penyebaran kata dalam sebuah dokumen. Pembobotan dengan menggunakan RIDF memperhatikan selisih kemunculan dokumen yang memiliki kata kunci dan banyaknya dokumen yang diperkirakan memiliki kata kunci dengan distribusi poisson. Distribusi poisson merupakan distribusi peristiwa yang jarang terjadi, dalam hal ini adalah penyebaran frekuensi kata dalam sebuah dokumen berbanding dengan dokumen secara keseluruhan. Adapun distribusi poisson yang pada pengolahan bahasa natural secara statistik memiliki ciri-ciri sebagai berikut: 1. Probabilitas satu kejadian kemunculan dari kata dalam sub-dokumen dari teks sebanding panjang keseluruhan dokumen. 2.
Kemungkinan lebih dari satu kejadian dari kata dalam sub-dokumen diabaikan.
Universitas Indonesia
Implementasi metode..., Mega Oktafiani Putri, FT UI, 2012
37
Percobaan terhadap set data new york times oleh Manning Schuetze menyatakan bahwa distribusi poisson menunjukkan kata yang merepresentasikan konten dengan mengasumsikan kata tersebut akan muncul kembali sesuai dengan panjang dokumen. Karena itu jika dokumen terlalu singkat maka persebaran kata pada dokumen tidak akan terlihat dan cenderung memiliki kemunculan sekali di panjang dokumen yang singkat. Maka dari itu pendefinisian dokumen berdasarkan id menghasilkan pembobotan RIDF yang kurang baik. Dengan memperbesar range definisi dokumen maka nilai pembobotan semakin meningkat. Namun definisi dokumen dengan pengelompokan secara acak memberikan hasil yang kurang baik, hal ini dikarenakan pengelompokan secara acak tidak memenuhi kaidah dokumen sebagai kumpulan kata yang saling terhubung. Sedangkan pengelompokan dokumen berdasarkan waktu memberikan hasil yang lebih baik dibandingkan dengan pengelompokan secara acak. Hal ini disebabkan karena pada media sosial ketika suatu tema menjadi trending topic maka masyarakat akan cenderung menulis pesan mengenai hal tersebut selama hal itu masih dihitung ramai dibicarakan (kurun waktu tertentu). Namun, tidak semua pesan yang dipublikasikan pada kurun waktu itu adalah pesan yang sesuai dengan tema. Karena itu dapat disimpulkan pada pemboboton RIDF, definisi dokumen terbaik adalah dengan pengelompokan terhadap kategori tertentu. Sedangkan dalam metode pembobotan TF-IDF hasil pengukuran distribusi bobot terhadap pendefinisian dokumen dapat dipaparkan dengan Gambar 4.2.
Universitas Indonesia
Implementasi metode..., Mega Oktafiani Putri, FT UI, 2012
38
Bobot Nilai
200 180 160 140 120 100 80 60 40 20 0 dok per dok per dok per dok per id jam hari 5 pesan
dok per dok per dok per 10 20 kategor pesan pesan i
Bobot Maksimal
37.5
78.1
110.46
28.2
24.1
20.1
181
Bobot Minimal
0
0
0
0
0
0
0
6.97
6.85
3.7
4.8
4.12
3.3
6.97
Rata-rata
Gambar 4.2 Grafik Hasil Pengukuran Distribusi Bobot TF-IDF dengan Variabel Definisi Dokumen yang Berbeda
Berbeda dengan pembobotan dengan metode RIDF yang mengunakan distribusi poisson, TF-IDF menggunakan pembobotan dengan memperhatikan asumsi TF-IDF, yaitu: 1. Kata yang jarang muncul bukan tidak penting (asumsi IDF) 2. Kata yang sering muncul bukan tidak penting (asumsi TF) 3. Pembobotan untuk pencocokan kata dengan bobot dengan kedua asumsi. Sehingga panjang definisi dokumen tidak terlalu mempengaruhi pembobotan pada TF-IDF karena ketika sebuah dokumen diasumsikan singkat secara tidak langsung memiliki tf yang lebih kecil (asumsi TF) tetapi hal ini menyebabkan tingkat kemunculan df yang lebih tinggi. Karena itu nilai rata-rata pembobotan pada TF-IDF cenderung dinamis pada pendefinisian dokumen yang berbeda. Karena penggunaan dua asumsi ini, pembobotan TF-IDF dapat memberikan nilai bobot yang sama untuk proposi dokumen yang berbeda [21]. Karena dari itu, pada TF-IDF nilai rata-rata bobot tertinggi ada pada dokumen berdasarkan id yang merupakan pendefinisian murni dan kategori yang menyerupai pendefinisian murni. Namun jika dilihat dari nilai bobot maksimal dan minimal pengelompokan dokumen terhadap tema tertentu (waktu dan kategori) memberikan variasi pembobotan yang jelas dalam menentukan kata-kata
Universitas Indonesia
Implementasi metode..., Mega Oktafiani Putri, FT UI, 2012
39
penting dan tidak penting. Hal ini terjadi karena dengan mengelompokan dokumen berdasarkan tema tertentu akan memberikan variasi nilai yang lebih baik dibanding dengan tanpa pengelompokan ataupun pengelompokan secara acak. Pada pembobotan TF-IDF pembobotan Sebagaimana dengan pembobotan RIDF, pada
pembobotan TF–IDF definisi
dokumen terbaik
adalah
dengan
mendefinisikan pesan dengan kategori tertentu. Berdasarkan hasil kedua percobaan diatas maka dapat disimpulkan bahwa pendefinisian dokumen murni pada media sosial twitter memberikan hasil pembobotan yang kurang baik dikarenakan pesan pada twitter terlalu singkat untuk didefinisikan sebagai sebuah dokumen. Maka dari itu, pendefinisian dokumen yang paling baik untuk media sosial twitter adalah dengan pengelompokan dengan kategori tertentu karena memberikan panjang dokumen dan hubungan antar kata dalam dokumen yang sesuai dengan definisi dokumen yang sebenarnya. Kategori dapat berupa produk, tema, gambar atau sesuatu yang mehubungkan sebuah pesan dengan pesan lain (misal: pada media sosial youtube, kategori dapat berdasarkan video). Dalam hal penelitian ini dokumen dikategorikan berdasarkan hipotesis topik. Jika tidak memungkinkan definisi dengan pengkategorian dokumen maka pengelompokan pesan berdasarkan waktu dapat menjadi alternatif pengelompokan.
4.2 Pengujian terhadap Metode Pembobotan Kata Pengujian ini dilakukan untuk menemukan metode yang paling sesuai untuk ekstraksi kata kunci pada media sosial twitter. Adapun perbandingan dilakukan dengan membandingkan hasil ekstraksi dengan hasil ekstraksi yang sudah ditentukan secara sebagai acuan (matriks pembanding). Sepuluh (10) buah contoh kalimat diambil dari set data sebagai variabel pembanding. Kata kunci yang dianggap sebagai kata yang merepresentasikan topik ditentukan secara manual dan didistribusikan dalam bentuk matriks sebagaimana dipaparkan pada Gambar 4.3.
Universitas Indonesia
Implementasi metode..., Mega Oktafiani Putri, FT UI, 2012
40
Gambar 4.3 Matriks Pembanding Hasil Pembobotan Kata
Gambar 4.3 merupakan matriks pembanding dari 10 kalimat yang diambil secara acak dari keseluruhan dataset. Pada Matriks, baris ini merupakan pesan dan kolom merupakan kata. Nilai x menunjukan kata kunci yang merepresentasikan dokumen. Dari sepuluh contoh kalimat yang terdiri dari 152 kata, didapat 49 kata kunci yang merepresentasikan dokumen dan 103 kata yang kurang merepresentasikan dokumen. Maka persentasi keberhasilan dapat diperhitungkan sebagai berikut: ................................. (4.1) Sedangkan nilai treshold ditentukan untuk mengambil kumpulan kata dengan nilai-nilai tertinggi. Secara matematis nilai treshold dapat ditulis sebagai berikut: Bobot rata-rata + 0.5 = treshold ..................................................................... (4.2) Dengan mengambil kata kunci yang memiliki nilai bobot diatas sekitar 1200 kata kunci berhasil diekstraksi dari 2376 kata kunci. Maka penyebaran kata kunci pada sepuluh sampel kalimat dengan kedua metode pembobotan dan perbandingannya dapat digambarkan pada Gambar 4.4 sebagai berikut:
Universitas Indonesia
Implementasi metode..., Mega Oktafiani Putri, FT UI, 2012
41
Gambar 4.4 Penyebaran Hasil Ekstraksi Kata Kunci Berbanding dengan Matriks Pembanding
Dengan menghitung jumlah nilai x yang tidak sesuai dengan tabel pembanding maka persentase keberhasilan dapat diukur. Adapun hasil percobaan dapat dilihat pada Gambar 4.5 berikut:
90%
Persentase Keberhasilan
88% 86% 84% 82% 80% 78% TF-IDF
RIDF
Gambar 4.5 Hasil Perbandingan Persentasi Keberhasilan Ekstraksi Kata Kunci dengan Metode Pembobotan
Dari grafik diatas, dapat dilihat bahwa pembobotan dengan metode RIDF memberikan hasil ekstraksi kata kunci yang lebih baik. Hal ini karena pembobotan dengan metode RIDF tidak hanya bergantung pada nilai kemunculan
Universitas Indonesia
Implementasi metode..., Mega Oktafiani Putri, FT UI, 2012
42
kata tersebut (frekuensi) namun juga dengan memperhatikan distribusi kata tersebut sepanjang dokumen.
4.3 Deteksi Topik pada Media Sosial Pada percobaan ini dilakukan penguraian terhadap graph jaringan kompleks yang terdiri dari ikatan simpul dari konten media sosial twitter dengan menggunakan set data banjir Jakarta mengunakan beberapa metrik pengukur seperti nilai modularitas, derajat dan kepusatan dan struktur graph. Terdapat dua tahapan pengukuran pada penelitian ini pertama dilakukan pengukuran pada keseluruhan graph untuk mendeteksi topik umum dan kemudian dilakukan pengukuran terhadap waktu untuk mendapatkan struktur yang jelas mengenai topik. Ekstraksi dilakukan dengan metode pembobotan RIDF dan definisi dokumen berdasarkan kategori. Untuk mendapatkan struktur graph yang baik, kata kunci yang diektrasi adalah kumpulan kata kunci teratas. Untuk itu nilai treshold ditentukan dengan 0.2 sehingga 307 kata kunci berhasil diekstraksi dari 2376 kata kunci. Visualisasi kedalam bentuk graph dilakukan dengan menggunakan konsep graph yang dikemukakan oleh Hirokawa yaitu dengan menghubungkan kata yang berada dalam satu pesan berdasarkan nilai frekuensinya.
4.3.1 Pengukuran terhadap Keseluruhan Graph Pengukuran terhadap keseluruhan dengan menggunakan nilai kepusatan. Nilai kepusatan pada analisa jaringan sosial menunjukkan seberapa penting pengaruh sebuah simpul pada sebuah jaringan sosial. Sehingga simpul yang memiliki nilai kepusatan tinggi diperkirakan memiliki pengaruh tinggi pada konten media sosial yang sedang dianalisa. Nilai kepusatan yang digunakan dalam percobaan ini adalah nilai derajat (menunjukkan nilai popularitas simpul), dan keantaran kepusatan (menunjukkan nilai sumber).
Universitas Indonesia
Implementasi metode..., Mega Oktafiani Putri, FT UI, 2012
43
Gambar 4.6 Graph dataset Banjir Jakarta dengan Mengukur Nilai Derajat
Pada Gambar 4.6
diatas besar simpul ditentukan oleh nilai derajat.
Semakin tinggi nilai derajat maka semakin besar ukuran simpul. Nilai derajat diukur dari banyaknya ikatan yang dimiliki simpul. Karena itu simpul yang memiliki nilai derajat tinggi memiliki nilai popularitas tinggi dan sering muncul dalam setiap pesan dalam jangka waktu penelitian.
Gambar 4.7 Graph Set data Banjir Jakarta dengan Mengukur Nilai Keantaran Kepusatan
Universitas Indonesia
Implementasi metode..., Mega Oktafiani Putri, FT UI, 2012
44
Pada analisa jaringan sosial nilai keantaran kepusatan menunjukkan nilai simpul yang berada tepat ditengah graph sehingga dapat disinyalir sebagai sumber. Dalam penelitian ini simpul yang menunjukkan nilai keantaran kepusatan tinggi dapat dianggap sebagai kata yang mempunyai pengaruh penting pada penyebaran topik pada media sosial. Hal ini karena simpul dengan nilai keantaran kepusatan tinggi memiliki ikatan tidak langsung dengan banyak pesan yang tersebar di media sosial sehingga dapat dikatakan sebagai kata kunci penting. Dengan menganalisa graph secara kesuluruhan dengan metrik-metrik tersebut maka dapat diketahui kata kunci yang menrepresentasikan topik umum pada set data sebagai berikut: Tabel 4.1 Simpul yang Merepresentasikan Topik Umum
parameter pengukuran simpul dengan nilai keantaran kepusatan tinggi
Simpul DKI, atasi, gubernur, macet, bebas,foke, pilih, janji, jokowi, hujan, mau, calon, tahun, Cuma
simpul dengan nilai derajat tinggi
DKI,atasi, gubernur, janji, macet, foke, bebas, pilih, jual, menang, calon, hujan, mau, cuma, timur
simpul dengan nilai derajat dan keantaran kepusatan tinggi
DKI, atasi, gubernur, janji, macet, foke, bebas, pilih, hujan, mau, calon, Cuma
Tabel 4.1 diatas menunjukan sebagian besar simpul yang memiliki nilai keantaran kepusatan tinggi juga memiliki nilai derajat tinggi. Hal ini menunjukkan bahwa semakin tinggi nilai popularitas suatu simpul maka semakin besar pengaruhnya terhadap graph. Dalam penelitian ini, simpul-simpul penting ini merupakan kata-kata yang merepresentasikan topik umum. Maka dari itu, dapat disimpulkan bahwa topik umum pada set data banjir Jakarta adalah mengenai masalah pemilihan umum kepala daerah DKI Jakarta dan Fauzi Bowo (foke) merupakan calon gurbenur yang paling dibicarakan.
4.3.2 Deteksi topik Berdasarkan Waktu Untuk mendeteksi distribusi topik berdasarkan waktu dilakukan dengan mengukur nilai modularitas terhadap waktu. Nilai modularitas digunakan pada analisa jaringan sosial untuk mendeteksi komunitas. Sifat komunitas menyerupai
Universitas Indonesia
Implementasi metode..., Mega Oktafiani Putri, FT UI, 2012
45
sifat topik pada graph jaringan kompleks yaitu cenderung berkumpul dan menpunyai ikatan yang lebih kuat terhadap simpul lain yang berada pada satu topik atau komunitas dibanding dengan simpul diluar. Karena itu, nilai modularitas dapat menunjukkan distribusi topik pada media sosial. Berikut adalah hasil pengukuran nilai modularitas terhadap waktu:
Gambar 4.7 Nilai Modularitas terhadap Waktu Dari grafik diatas dapat dilihat bahwa nilai modularitas cenderung tinggi pada fase-fase tertentu. Fase dengan nilai modularitas tinggi menunjukkan struktur topik yang jelas sehinga fase-fase tersebut dapat disimpulkan sebagai fase dimana terdapat topik yang hangat dibicarakan dari banjir Jakarta. Karena itu struktur graph dengan modularitas tertinggi pada setiap fase akan menunjukkan topik yang dibicarakan pada fase tersebut. Tabel 4.3 menunjukkan nilai modularitas terhadap waktu dengan nilainilai tertinggi setiap fase akan dilakukan pengecekan topik. Pembagian topik terhadap fase-fase tertentu dikarenakan pola kebiasaan pengguna yang cenderung membicarakan topik tertentu jika terdapat pemicu topik. Ketika topik tersebut sudah tidak menjadi bahan pembicaraan maka pengguna pun semakin jarang menulis pesan mengenai topik tersebut pada media sosial, Karena itu nilai modularitas terhadap waktu pada media sosial akan cenderung naik turun. Sehingga jangka waktu dimana nilai modularitas tinggi dapat dikatakan sebagai fase dimana sebuah topik menjadi bahan pembicaraan. Pada Fase 3 nilai
Universitas Indonesia
Implementasi metode..., Mega Oktafiani Putri, FT UI, 2012
46
modularitas cenderung tinggi dan stabil. Hal ini menunjukkan bahwa pada fase 3 terdapat topik yang menjadi pembicaraan dalam waktu yang lama. Tabel 4.2 Hasil Perhitungan Modularitas terhadap Waktu
fase A
B
C
D
tanggal 09-Mar-12 10-Mar-12 11-Mar-12 12-Mar-12 13-Mar-12 14-Mar-12 15-Mar-12 16-Mar-12 17-Mar-12 18-Mar-12 19-Mar-12 20-Mar-12 21-Mar-12 22-Mar-12 23-Mar-12
nilai modularitas 0.712 0.628 0.388 0 0.649 0.637 0.671 0 0.709 0.711 0.704 0.522 0.523 0.61 0.639
Universitas Indonesia
Implementasi metode..., Mega Oktafiani Putri, FT UI, 2012
47
Gambar 4.8 Struktur Graph Tanggal 9 Maret 2012
Universitas Indonesia
Implementasi metode..., Mega Oktafiani Putri, FT UI, 2012
48
Gambar 4.9 Struktur Graph Tanggal 15 Maret 2012
Universitas Indonesia
Implementasi metode..., Mega Oktafiani Putri, FT UI, 2012
49
Gambar 4.10 Struktur Graph Tanggal 17 Maret 201
Universitas Indonesia
Implementasi metode..., Mega Oktafiani Putri, FT UI, 2012
50
Gambar 4.8 menunjukan struktur graph tanggal 9 Maret 2012. Empat (4) buah topik berhasil terekstraksi. Terdapat topik mengenai pilkada, banjir pasang di muara baru, banjir di Sydney, dan masalah pecemaran lingkungan berupa sampah. Hal ini menunjukan pada saat terjadi bencana, masyarakat akan tertarik untuk membahas mengenai penyebab (sampah dan pencemaran lingkungan), kawasan-kawasan yang terkena bencana (banjir pasang di muara baru), dan daerah lain yang terkena bencana serupa sebagai pembanding (banjir yang melanda Sydney pada tanggal 8 Maret 2012). Pada topik pilkada terlihat struktur mengenai beberapa subtopik yaitu mengenai foke, Alex-Noerdin, dan pendapat masyarakat terhadap janji-janji calon gubernur. Hal ini menunjukkan bahwa pada awal maret 2012 merupakan masa awal kampanye para calon gubernur. Gambar 4.9 menunjukkan graph tanggal 15 maret 2012. Sebagaimana pada graph tanggal 9 maret, masyarakat kembali membicarakan mengenai kawasan di Jakarta dan daerah lain yang dilanda banjir pada tanggal 15 maret 2012. Hal ini menunjukan kebutuhan informasi masyarakat terhadap daerah yang terkena bencana. Selain itu terdapat topik mengenai jual-beli rumah di daerah bebas banjir. Hal ini menunjukan bahwa banjir adalah salah satu pertimbangan masyarakat dalam memilih kawasan tinggal. Selain itu, struktur topik mengenai pilkada memicu topik mengenai pembangunan Jakarta yang menunjukan harapan masyarakat kepada calon gubernur baru untuk membangun Jakarta. Pada Gambar 4.10 yang menunjukkan graph tanggal 17 maret muncul topik baru mengenai siklus 5 tahun banjir Jakarta yang menunjukan ketertarikan masyarakat pada perkiraan banjir besar yang terjadi setiap 5 tahun sekali. Hal ini dipicu dengan asumsi masyarakat bahwa akan terjadi banjir besar pada tahun 2012. Asumsi dikarenakan isu pola siklus banjir 5 tahun dan banjir besar di Jakarta terjadi pada tahun 2007.
Universitas Indonesia
Implementasi metode..., Mega Oktafiani Putri, FT UI, 2012
51
Gambar 4.11 Struktur Graph tanggal 18 Maret 2012
Universitas Indonesia
Implementasi metode..., Mega Oktafiani Putri, FT UI, 2012
52
Gambar 4.12 Struktur Graph tanggal 19 Maret 2012
Universitas Indonesia
Implementasi metode..., Mega Oktafiani Putri, FT UI, 2012
53
Gambar 4.13 Struktur Graph tanggal 23 Maret 2012
Universitas Indonesia
Implementasi metode..., Mega Oktafiani Putri, FT UI, 2012
54
Gambar 4.11 menunjukkan Graph tanggal 18 maret 2012 yang merupakan graph dengan struktur topik paling jelas. Hal ini dibuktikan dengan kumpulan topik yang tidak terhubung satu sama lain. Graph tanggal 18 maret 2012 merupakan graph dengan nilai modularitas tertinggi hal ini menunjukan bahwa nilai memang modularitas merepresentasikan struktur topik yang jelas. Pada graph ini muncul sebuah topik baru yaitu mengenai AHA center yang diresmikan di Jakarta. AHA center menunjukan harapan masyarakat untuk solusi dan pemberian bantuan dalam penanganan banjir di Jakarta. Gambar 4.12 Menunjukkan bahwa terdapat struktur besar mengenai pilkada 2012. Struktur ini diperkirakan akibat penutupan pendaftaran calon gubenur DKI Jakarta pada tanggal 19 Maret 2012. Terdapat struktur topik mengenai kota Jakarta yang berhasil masuk nominasi 7 wonder cities. Namun topik mengenai 7 wonder cities tenggelam oleh maraknya pembicaraan mengenai pilkada 2012. Topik 7 wonder cities dipicu oleh permasalahan Jakarta yang menyebabkan pertanyaan di masyarakat mengenai pantas atau tidaknya Jakarta menjadi salah satu nominasi. Sedangkan Gambar 4.13 yang menunjukkan struktur graph 23 Maret 2012, ditemukan topik mengenai permasalahan kota Jakarta. Namun topik ini tidak dipicu oleh pilkada 2012 seperti pada graph sebelumnya. Topik permasalahan Jakarta ini dipicu oleh isu wabah tomcat yang ramai dibicarakan pada akhir bulan Maret 2012. Selain itu terdapat topik mengenai hutang pemerintah ke bank dunia yang juga dihubung-hubungkan dengan topik mengenai pilkada. Dari hasil pegecekan graph maka topik dapat diekstraksi dengan melihat kumpulan simpul dan simpul-simpul yang berada pada kumpulan tersebut. Dari graph diatas 13 topik dapat terekstraksi dengan penjelasan sebagaimana ditampilkan pada Tabel 4.3 .
Universitas Indonesia
Implementasi metode..., Mega Oktafiani Putri, FT UI, 2012
55
Tabel 4.3 Topik yang berhasil diekstraksi dari set data banjir Jakarta
Topik A
Penjelasan Topik mengenai sampah dan pencemaran lingkungan
B
Topik mengenai pilkada 2012. Pada topik ini ditemukan sub topik mengenai Fauzi Bowo (B1), Alex-noerdin (B2), janji cagub (B3), dan Joko Widodo (B4)
C
Topik mengenai banjir di sydney yang terjadi pada tanggal 9 maret 2012
D E F G H I J K L M
Topik mengenai banjir pasang di muara baru yang terjadi pada tanggal 9 maret 2012 Topik mengenai banjir di bali yang terjadi tanggal 15 maret 2012 Topik mengenai iklan jual rumah di daerah bebas banjir Topik mengenai pembangunan DKI Jakarta Topik mengenai kawasan-kawasan banjir di Jakarta Topik mengenai siklus banjir 5 tahun di Jakarta Topik mengenai Jakarta yang berhasil masuk nominasi 7 wonder cities Topik mengenai permasalahan Jakarta Topik mengenai hutang pemerintah ke bank dunia Topik mengenai peresmian AHA center
Topik-topik yang telah berhasil diekstraksi kemudian didistribusikan terhadap waktu. Tabel berikut menggambarkan distribusi topik terhadap waktu: Tabel 4.4 Distribusi Topik terhadap Waktu
Topik
Fase A 9 10 11
12
Tanggal ( Maret 2012) Fase B Fase C 13 14 15 16 17 18 19
20
21
Fase D 22 23
A B C D E F G H I J K L M
Universitas Indonesia
Implementasi metode..., Mega Oktafiani Putri, FT UI, 2012
56
Pada Fase C dan Fase D distribusi topik cenderung mengenai pilkada DKI Jakarta 2012 hal ini diperkirakan akibat ditutupnya pendaftaran dan ditetapkannya 6 pasang calon gubernur DKI Jakarta pada tanggal 19 Maret 2012. Dari distribusi topik dan nilai modularitas dapat disimpulkan bahwa penyebaran topik pada media sosial cenderung membentuk fase dan cenderung dipicu oleh suatu kejadian tertentu.
Universitas Indonesia
Implementasi metode..., Mega Oktafiani Putri, FT UI, 2012
BAB 5 KESIMPULAN
5.1 Kesimpulan Berdasar penelitian yang dilakukan maka dapat ditarik beberapa kesimpulan yaitu: 1. Untuk melakukan ekstraksi informasi pada konten sosial media dapat dilakukan dengan cara merepresentasikan konten media sosial dalam bentuk graph kompleks yang kemudian dapat diuraikan dengan metrikmetrik pengukur pada analisa jaringan sosial. Metode pembentukan graph dilakukan dengan pengolahan bahasa natural secara statistik dan konsep pembentukan graph. 2. Sistem analisa media sosial twitter ini terdiri dari 3 buah subsistem yaitu crawler
untuk melakukan proses web mining dengan menggunakan
perangkat lunak the archivist, graph converter untuk melakukan pembentukan graph yang ditulis dalam bahasa pemrograman Ruby, dan perangkat lunak yang menvisualisasikan graph (gephi dan graphviz) 3. Dari hasil pengujian, dapat diketahui bahwa pendefinisian dokumen terbaik pada saat melakukan pembobotan kata pada media sosial twitter adalah pengelompokan pesan terhadap kategori tertentu. 4. Dari hasil pengujian dengan cara membandingkan hasil ekstraksi kata setiap metode pembobotan dengan tabel pembanding, dapat diketahui bahwa metode pembobotan RIDF memberikan hasil ekstraksi yang lebih baik pada media sosial twitter dengan nilai presentase keberhasilan sebesar 89% dibanding dengan metode TF-IDF yang hanya memiliki nilai persentase keberhasilan senilai 82%. Hal ini disebabkan metode RIDF mempertimbangkan nilai distribusi kata kunci pada dokumen tidak hanya memprtimbangkan nilai kemunculan kata seperti pada TF-IDF. 5. Dari hasil penelitian bahwa pada set data banjir Jakarta terdapat topik umum mengenai pilkada DKI Jakarta. 13 sub-topik berhasil diekstraksi berikut distribusinya terhadap waktu.
57
Universitas Indonesia
Implementasi metode..., Mega Oktafiani Putri, FT UI, 2012
58
5.2 Pengembangan Kedepan Penelitian ini dapat dikembangkan dengan mengembangkan sistem crawler sehingga retweet murni dapat dieleminasi secara otomatis dan dikelompokan berdasarkan retweet secara otomatis. Selain itu Sistem ini juga dapat dikembangkan sehingga informasi yang dapat diekstraksi tidak hanya topik melainkan informasi lain seperti merk dagang, kebutuhan, pola penyebaran informasi dan sebagainya. Pengembangan sistem sehingga dapat digunakan untuk media sosial lain juga menjadi salah satu alternatif untuk pengembang sistem ini.
Universitas Indonesia
Implementasi metode..., Mega Oktafiani Putri, FT UI, 2012
REFERENSI [1]
Kamus Besar Bahasa Indonesia. Diakses 10 Februari 2012. http://www. bahasa.cs.ui.ac.id/kbbi.
[2]
United Nation International Strategy for Disaster Reduction (UNISDR). Disaster Static Data: Indonesia. Diakses 10 Februari 2012. http://www.unisdr.org
[3]
comscore, inc. 2010. Indonesia, Brazil and Venezuela Lead Global Surge in Twitter Usage. Diakses 10 februari 2012. Comscore.inc: http://www.comscore.com.
[4]
Aquino, Carmela. 2012. It’s a Social World: A Global Look at Social 16 februari 2012. Comscore.inc: Networking. Diakses http://www.comscore.com.
[5]
Boyd, M Danah., dan Ellison, Nicole B.2008. Social Network Sites: Definition, History, and Scholarship.International Communication Association Journal of Computer-Mediated Communication,Artikel 13.
[6]
Alexa: the web information company. Diakses 10 Februari 2012. http://www.alexa.com
[7]
Kaplan, Andreas M., dan Haenlein,Michael. 2010. Users of the world, unite! The challenges and opportunities of Social Media. Business Horizons (2010) 53,p 59-68.
[8]
Teutle, R. M. Abraham. 2010. Twitter: Network Property Analysis. IEEE. Cholula: Electronics, Communication and Computer (CONIELECOMP) 2010 20th Internationa Confrence, 22-24 Februari.
[9]
Wu, Hui Ju., Ting, I-Hsien., dan Wang, Kai yu. 2009. Combining Social Network Analysis and Web Mining Techniques to Discover Interest Group in Blogspace. IEEE. China: Innovative, Computing, Information, and Control International Conference (ICICIC), 7-9 Desember.
[10]
Wasserman, Stanley. Faust, Katherine. 1994. Social Network Analysis: Method and Application. United Kingdom: Cambridge University.
[11]
Jamali, Mohsen., dan Abolhassani, Hassan. 2006. Different Aspect of Social Network Analysis. Hongkong: Proceedings of the 2006 IEEE/WIC/ACM International Conference on Web Intelligence, 18-22 Desember.
59
Universitas Indonesia
Implementasi metode..., Mega Oktafiani Putri, FT UI, 2012
60
[12]
Srivasta, Jaideep., Desikan, Prassana., dan Vipin, Kumar. 1997. Web Mining:Accomplishment and Future direction.United State of America: University of Minnesota.
[13]
Gephi: documentation. http://www.gephi.org
[14]
Qiu, Jiangtao., Lin, Zhangxi., Tang, Changjie., Qiao,. Discovering Organizational Structure in Dynamic Social Network. China: 2009 Ninth IEEE International Conference on Data Mining.
[15]
Hashimoto, Takako., Kuboyama, Tetsuji., dan Shirota, Yukari. 2011. Rumor Analysis Frame in Social Media. Indonesia: 2011 IEEE Region 10 Conference, 21-24 November .
[16]
Hashimoto, Takako., Kuboyama, Tetsuji., dan Shirota, Yukari. 2012. Topic Detection About Great Japan East Earthquake Based on Emerging Modularity. Prague: Europian Japanese Confrence. 4-9 Juni.
[17]
Pisceldo, Femphy., Mahendra, Rahmad., Manurung, Ruli., Arka, I wayan.2008. A Two-Level Morphological Analyser for the Indonesian Language.Australia: In proceeding of 2008 Australasian Language Technology Assocation (ALTA), 8-10 Desember.
[18]
Manning, Christopher D. and Schütze, Hinrich.2009. Foundations of Statistical Natural Language Processing.United kingdom: Cambridge.
[19]
Blondel, Vincent D., 2008. Guillaum, Jean-Loup., Lambiotte, Renaud., and Etienne, Lefebvre., Fast unfolding of communities in large networks.United States of America: Cornell University.
[20]
Almudena, Ballester, Angel, Martın Municio, Pardos, Fernando., Jordi,
Diakses
tanggal
12
Februari
2012.
Porta Zamoran, Rafael, J. Ruiz Urena, Sanchez, Fernando.2002. Combining statistics on n-grams for automatic term recognition. In Proceedings of the Language Resources and Evaluation Conference (LREC). 6 Juni. [21]
Hua Jiang, Ping li, Xin Hu, Shuyan Wang. 2009. An Improved Method of Term Weighting for Text classification. China: Intelligent Computing and Intelligent System. 20-22 November.
Universitas Indonesia
Implementasi metode..., Mega Oktafiani Putri, FT UI, 2012
demen sama macet, Polusi dan banjir
detikcom Demokra t Pilih Foke karena Yakin Menang
jokowiahok
akan
buat
Jakarta
lebih
baik
atasi
macet
&
center
Kasih
bantuan
buat
korban
Banjir
Jakarta
gaa
Banjir
RT
PDIP
Implementasi metode..., Mega Oktafiani Putri, FT UI, 2012 http://t.c DKI o/AEfHg QtE
Pilkada
di
Banjir
masih
Jakarta
aja
bkt
Bikin
foke
Ah
masih
Jakarta
rakyat
artinya
lg (naudzu billah),
kepilih
Masih
Foke
Klo
pilkada
AHA
pilkada
pilkada
319
Aha center
332
351
329
#newsJKT #tentangJK T
thn. http://t.co/1 DNwyGCW
3
waktu
dlm
Jakarta
d
banjir
dan
macet
nanganin
bsa
janji
yang
#DKI1
calon
Ada
pilkada
418
Jakarta http://t.co/n 35L2Fte
Jakarta
di
Banjir
Nangulangi
Buat
Triliun
Rp 1,2
Dunia
Bank
ke
Ngutang
Pemerintah
Wow!
ekonomi
491
22 23
telah Berfungsi
19
18
17
16
15
14
13
12
11
10
9
8
7
6
5
4
3
2
1
katego ri
21
Jakarta
Air
Dan Kelangk aan
Banjir
Solusi Mengur angi
Resapan
Sumur
dan
Biopori
solusi
25
yg
Jakarta
banjir
dampak
mengurangi
sukses
cukup
yg
timur
kanal
banjir
proyek
Adalah
fenomenal
cukup
yg
foke
Prestasi
satu
salah
129 pilkada/solu si
20
Jakarta
Di
besar
banjir
waktu
tol
Jalan
masuk
motor
transportasi
253
Timur
Kanal
Banjir
serta
Gading
Kelapa
&
Pluit
di
lain
antara
air
pompa2
banyak
ada
Jakarta
di
Banjir
mengatasi
Untuk
solusi
305
LAMPIRAN 1
MATRIKS PEMBANDING
61
Universitas Indonesia