OPEN ACCESS Ind. Symposium on Computing Sept 2016. pp. 17-22
ISSN 2460-3295
doi:10.21108/indosc.2016.113
socj.telkomuniversity.ac.id/indosc
Pengukuran Happiness Index Masyarakat Kota Bandung pada Media Sosial Twitter Menggunakan Pendekatan Ontologi Top-Down Hierarchy Ika Rahayu Ponilan #1, Anisa Herdiani #2, Nungki Selviandro #3 # School of Computing, Telkom University Jl. Telekomunikasi No. 01, Bandung, Indonesia 1
[email protected] 2
[email protected] 3
[email protected]
Abstract Measurement paradigm of prosperity level of one country by Gross National Product (GNP) now has been shifted by Gross National Happiness paradigm. Recently, Bandung became the first city in Indonesia to adopt the innovation of happiness index people enhancement. Bandung government hoping that this innovation can be used as a review to make Bandung City comfortably inhabited and improve the value of Bandung City. This study will analyze tweets from Twitter on a regular basis, to the parameters of happiness by the Badan Pusat Statistik (BPS) Bandung using ontology approach. There are six stages in this research, the first stage is crawling Twitter dataset from Bandung City and labeled data. The second stage is preprocessing which includes data cleaning, case folding, tokenizing, stopword removal, and lemmatization. The third stage is the grouping of opinion based on ontologies which have been constructed. The fourth stage is the ontology construction based on happiness index parameters of BPS Bandung. The fifth stage is sentiment analysis to classify the opinions into positive and negative opinion. The sixth stage is happiness index calculations per predetermined parameters. This research results that happiness index score of Bandung people is 55.50% from actual data and 52.22% from predicted data by system. This score can be used as one of tools in deciding goverment policy of Bandung. Keywords: happiness index, ontology, sentiment analysis, Twitter. Abstrak Paradigma pengukuran tingkat kemakmuran suatu negara dari pendapatan per kapita Gross National Product, sekarang telah digeser oleh paradigma happiness index atau Gross National Happiness (GNH). Belakangan ini, Bandung menjadi kota pertama di Indonesia yang mengadopsi inovasi peningkatan happiness index masyarakat. Pemerintah kota Bandung berharap agar inovasi ini dapat dijadikan review untuk menjadikan kota Bandung nyaman ditinggali dan memperbaiki value kota Bandung. Penelitian ini akan menganalisis tweet dari Twitter secara berkala, ke dalam parameter happiness berdasarkan Badan Pusat Statistik (BPS) Bandung dengan menggunakan pendekatan ontologi. Terdapat enam tahap dalam penelitian ini yaitu, tahap pertama adalah crawling (pengambilan) data Twitter berdasarkan wilayah kota Bandung dan melabelkan data data. Tahap kedua yaitu preprocessing data yang mencakup data cleaning, case folding, tokenizing, stopword removal, dan lemmatization. Tahap ketiga yaitu sentiment analysis untuk mengklasifikasikan tweet (opini) ke dalam opini positif dan negatif. Tahap keempat yaitu ontology construction berdasarkan parameter happiness index BPS Bandung. Tahap kelima yaitu pengelompokkan tweet berdasarkan ontologi yang telah dibangun. Tahap keenam yaitu
Received on August 2016. Accepted on Sept 2016
Ika Rahayu Ponilan et.al. Pengukuran Happiness Index Masyarakat...
18
perhitungan happiness index per parameter yang telah ditentukan sebelumnya. Penelitian ini menghasilkan nilai happiness index masyarakat kota Bandung sebesar 55.50% dari data aktual dan 52.22% dari data prediksi oleh sistem. Nilai tersebut dapat dijadikan sebagai salah satu alat bantu dalam pengambilan kebijakan Pemerintahan Kota Bandung. Kata Kunci: happiness index, ontology, sentiment analysis, Twitter.
I.
INTRODUCTION
B
ERDASARKAN survey yang dilakukan oleh Badan Pusat Statistik (BPS) Bandung terhadap masyarakat Bandung, terdapat sepuluh parameter happiness index yaitu pendidikan, kesehatan, pekerjaan, pendapatan, keamanan, hubungan sosial, ketersediaan waktu luang, kondisi rumah, kondisi lingkungan dan keharmonisan keluarga [1]. Metode survey ini memiliki kekurangan dalam hal biaya yang besar, waktu yang lama dan umumnya dibutuhkan usaha keras dalam pelaksanaannya. Pengambilan opini tidak hanya dapat dilakukan melalui survey secara langsung, tapi dapat dilakukan melalui media sosial mengingat pertumbuhan media sosial sangat pesat di masyarakat. Didukung pula Bandung merupakan kota pengguna Twitter paling banyak nomor 6 sedunia di atas Paris dan Los Angeles menurut analisis Semiocast pada tahun 2013 dengan total penduduk Bandung sebanyak 2.4 juta jiwa. Opini yang diberikan masyarakat dalam Twitter sangat beragam dan memungkinkan antar opini terdapat kesamaan istilah, struktur dan makna yang sebenarnya mengekspresikan domain pengetahuan yang sama. Oleh karena itu diperlukan pendekatan ontologi, untuk mengelompokkan dan menganalisis opini masyarakat Bandung di Twitter ke dalam parameter happiness index BPS Bandung. Penelitian ini diharapkan dapat menghasilkan sistem pengukuran happiness index masyarakat kota Bandung sebagai salah satu barometer kerja Pemerintah kota Bandung.
II.
LITERATURE REVIEW
Pada bab ini akan dibahas mengenai kajian apa saja yang dijadikan landasan teori dalam penelitian happiness index. Berikut adalah beberapa kajian dalam penelitian ini. A. Pengukuran Happiness Index Pengukuran Happiness merupakan usaha yang telah diupayakan selama bertahun-tahun di dunia. Akan tetapi baru berhasil dilaporkan sejak tahun 2012 dengan diterbitkannya World Happiness Report pada 2 April 2012 oleh Perserikatan Bangsa-Bangsa [2]. Seiring dengan perkembangan media sosial yang sangat pesat, terdapat pendekatan lain sebagi alternatif untuk pengukuran happiness, yaitu yang sudah dilakukan oleh beberapa penelitian diantaranya oleh Kramed, Adam 2010, dengan mengukur behaviour model masyarakat sebuah negara yang tergambar pada media sosial. Pendekatannya dilakukan dengan memodelkan sentimen positif dan negatif masyarakat di suatu negara dan menghitung score-nya. Apabila lebih besar score sentimen positif maka dapat disimpulkan masyarakat pada negara tersebut bahagia dan sebaliknya. B. Ontologi Ontologi merupakan representasi pengetahuan dari sebuah domain dengan sekumpulan objek dan relasi dideskripsikan oleh vocabulary [3]. Uschold dan Jasper dalam Breitman et al (2007) mengungkapkan bahwa ontologi mempunyai sebuah vocabulary dari terms, spesifikasi dari masing-masing term dan sebuah indikasi bagaimana terms tersebut saling berelasi. Term merujuk pada konsep-konsep pada sebuah domain [4]. Secara umum ontologi terdiri dari beberapa komponen - Kelas (Class) Sebuah kelas mewakili konsep tertentu dalam domain. Misal dalam domain Universitas terdapat kelas dosen dan mahasiswa. - Relasi Relasi menggambarkan sebuah tipe interaksi diantara konsep-konsep pada domain. Misal mengajar adalah relasi antara dosen dan mahasiswa. - Fungsi
Ind. Symposium on Computing
-
-
Sept 2016
19
Kasus khusus yang menghubungkan sebuah n elemen pada relasi yang unik untuk n-1sebagai elemen pendahulunya. Aksioma Model kalimat yang selalu bernilai true. Misal, jika seorang mahasiswa mengikuti 2 matakuliah A dan matakuliah B, maka mahasiswa tersebut haruslah mahasiswa di semester 2. Instance Sebagai gambaran elemen yang lebih khusus atau spesifik [5].
Ontologi didefinisikan dan distrukturkan dalam sebuah hirarki. Proses pembentukan hirarki dapat dilakukan dengan tiga cara: -
Pendekatan top-down yang dimulai dengan mendefinisikan kelas yang paling umum kemudian berlanjut ke kelas-kelas yang lebih spesifik di bawahnya. Pendekatan bottom-up, dimulai dengan mendefinisikan kelas-kelas yang paling spesifik, kemudian mengelompokkan kelas-kelas tersebut ke dalam kelas yang lebih umum sifatnya. Pendekatan kombinasi, yang menggunakan kombinasi pendekatan top-down dan bottom-up [5]. III. RESEARCH METHOD
Pada bab ini akan dibahas mengenai metodologi dalam ontology construction dan gambaran umum sistem yang dibangun. A. Ontology Construction Pembuatan ontologi di bagian perancangan sistem pada metodologi penelitian ini mengacu pada penelitian sebelumnya “Ontology Development 101: A Guide to Creating Your First Ontology” oleh Natalya F. Noy dan Deborah L. McGuinness. Berikut adalah proses membangun (construct) ontologi: 1. 2.
3.
4.
Penentuan Domain. Menentukan domain dalam ontologi, sebagai contoh ditentukan domain happiness. Penentuan Daftar Terminologi Tahap penentuan daftar terminologi dapat terlebih dahulu melihat kemungkinan penggunaan ontologi yang sudah ada. Pada penelitian ini, proses perancangan ontologi dan pendefinisian ontologi dikembangkan dari awal. Definisi Kelas dan Hirarki Penelitian ini menggunakan pendekatan top-down dalam pendefinisian kelas, yang dimulai dengan mendefinisikan konsep umum dalam domain dilanjutkan dengan konsep yang lebih spesifik. Contoh perancangan ontologi happiness didefinisikan sepuluh kelas utama (konsep umum) yaitu pendidikan, kesehatan, pekerjaan, pendapatan rumah tangga, keamanan, hubungan sosial, ketersediaan waktu luang, kondisi rumah, kondisi lingkungan dan keharmonisan keluarga, yang mana masing-masing kelas tersebut dapat diperluas sesuai dengan kebutuhan (konsep spesifik). Contoh dalam pendefinisian kelas menggunakan top-down. Happiness - kesehatan fisik o penyakit o pengobatan mental - pendidikan Mendefinisikan Properti Kelas (Slot) dan Facet Mendefinisikan properti kelas, dengan properti inilah sebuah kelas akan mempunyai nilai tambah berupa informasi. Properti didefinisikan di dalam kelas yang paling umum, sehingga bisa diturunkan terhadap kelas yang berada di bawahnya. Facet adalah range suatu nilai di dalam properti. Sebagai
Ika Rahayu Ponilan et.al. Pengukuran Happiness Index Masyarakat...
20
contoh properti untuk “penyakit” adalah “penyebab”, dan facet untuk properti “penyebab” adalah “virus”, “bakteri” dan “kuman”. Adapun contoh lebih jelasnya bisa dilihat di bawah ini. Happiness - kesehatan fisik o penyakit {penyebab [virus, bakteri, kuman]} o pengobatan mental - pendidikan B. Gambaran Umum Sistem Sistem yang akan dibuat dalam penelitian ini mencakup crawling data, preprocessing terhadap data hasil crawling yang telah dilabel, sentiment analysis untuk mengklasifikasikan data ke dalam opini positif dan negatif, mengklasifikasikan data yang telah disentimen menggunakan term matching ke dalam bag of words ontology yang sudah di-construct sebelumnya, perhitungan happiness index per kecamatan di kota Bandung. Gambaran umum sistem dapat dilihat pada gambar 1 dan alur dari gambaran umum sistem dapat dilihat pada tabel 1.
Gambar 1. Gambaran Umum Sistem TABEL 1 gambaran umum sistem
No 1
Tahap Crawling data
Input Geocode, token API
2
Preprocessing
Dataset
3
Klasifikasi sentiment
Bag of tweet
4
Klasifikasi tweet menggunakan pendekatan
Bag of words ontology, bag of words tweet
words
Process Crawling data pada media sosial Twitter berdasarkan wilayah per kecamatan kota Bandung, menggunakan geocode dan token API Twitter Membersihkan dataset dari beberapa karakter yang tidak dibutuhkan dalam penelitian Dataset yang telah di-preprocessing akan dibobotkan menggunakan TR.RF. Tujuan pembobotan ini adalah untuk memperoleh pola data sehingga mempermudah machine learning dalam mempelajari data. Setelah itu dilanjutkan ke proses klasifikasi tweet positif atau negatif menggunakan metode SVM dengan memanfaatkan Weka Setiap term dari tweet akan di-match dengan terms dari ontologi, proses ini dinamakan term matching.
Output Dataset
Bag of words tweet (terms tweet) Hasil klasifikasi sentimen
Hasil klasifikasi tweet di ontologi
Ind. Symposium on Computing
No
Tahap ontology
5
Perhitungan happiness kecamatan
Sept 2016
Input (terms tweet)
per
Data hasil klasifikasi sentimen dan hasil klasifikasi tweet di ontologi
21
Process Namun sebelumnya, kedua jenis terms tersebut harus dilakukan proses lemmatization terlebih dahulu, tujuannya untuk mengembalikan term ke bentuk dasar agar seragam. Selanjutnya dilakukan proses pembobotan jumlah kemunculan terms tweet di dalam terms ontologi menggunakan metode TF. Tahap terakhir adalah penentuan kelas di ontologi sesuai dengan jumlah kemunculan terms terbanyak di suatu kelas Tahap pertama dari proses ini adalah, menghitung tweet positif dari keseluruhan kota Bandung, dilanjutkan dengan perhitungan tweet positif per kecamatan berdasarkan 10 parameter happiness yang direpresentasikan di kelas ontologi.
Output
Happiness index per kecamatan
IV. RESULTS AND DISCUSSION A. Dataset dan Term Ontologi Dataset berasal dari tweet 30 kecamatan di kota Bandung. Total tweet yang didapatkan dari tanggal 1 Februari hingga 31 Maret 2016 sebanyak 10.767. Data yang yang berhasil diklasifikasikan sentimen dan 10 parameter happiness sebayak 1940 dan jumlah term di ontologi yang dibangun sebayak 1178. B. Skenario Pengujian Pengujian dibagi ke dalam 2 modul, yaitu pengujian tweet terhadap klasifikasi sentimen dan klasifikasi parameter happiness menggunakan bag of words ontology. Pada pengujian klasifikasi sentiment dilakukan 4 kali pengujian terhadap beberapa data sebagai sample untuk mengetahui nilai precision, recall dan f1. Pegujian pertama menggunakan 500 data, pengujian kedua menggunakan 1000 data, pengujian ketiga menggunakan 1500 data dan pengujian keempat menggunakan 1940 data (seluruh data). Sedangkan untuk pengujian klasifikasi parameter happiness menggunakan bag of words ontology sebagai penentuan kelas tweet di parameter happiness. C. Hasil Pengujian Hasil pengujian untuk klasifikasi sentimen dapat dilihat pada table 2. TABEL 2 nilai recall, precision, f1 untuk beberapa data
Pengujian 1 (500 data) Pengujian 2 (1000 data) Pengujian 3 (1500 data) Pengujian 4 (1940 data)
Precision 77.6% 80.3% 82.1% 84.0%
Recall 77.8% 80.4% 82.1% 84.0%
F1 77.4% 80.3% 82.1% 84.0%
Pada tabel di atas terlihat bahwa nilai precision, recall, dan f1 untuk pengujian 1 dengan menggunakan 500 data, menghasilkan nilai paling kecil diantara pengujian yang lain, dapat dilihat juga bahwa kenaikan nilai precision, recall dan f1 berbanding lurus dengan jumlah data yang digunakan dalam pengujian. Hal ini disebabkan, semakin banyak jumlah data maka semakin beragam pula pola data yang dipelajari (di-learning) oleh classifier, sehingga data tersebut tepat diprediksi sesuai dengan data aktual. Adapun hasil pengujian untuk klasifikasi parameter di ontologi dapat dilihat pada tabel 3.
Ika Rahayu Ponilan et.al. Pengukuran Happiness Index Masyarakat...
22
TABEL 3 nilai precision, recall dan f1 klasifikasi parameter happiness
Parameter ketersediaan waktu luang kesehatan pendidikan pekerjaan pendapatan rumah tangga hubungan sosial keharmonisan keluarga kondisi rumah dan aset kondisi keamanan keadaan lingkungan Rata-rata F1
Precision 0.77 0.87 0.85 0.52 0.2 0.91 0.62 0.14 0.76 0.80 0.65
Recall 0.80 0.84 0.85 0.68 0.518519 0.69 0.74 0.40 0.63 0.86 0.70 0.67
Nilai f1 tidak mencapai 100%, hal ini dikarenakan kelas data (tweet) yang diprediksi sistem tidak sesuai dengan kelas data aktual. Ketidaksesuaian ini dipengaruhi oleh beberapa faktor, diantaranya adalah bobot term sama di beberapa kelas, keterbatasan term di ontologi, proses lemmatization yang tidak sempurna dan tidak dapat mengenali frasa. V. CONCLUSION Berdasarkan penelitian yang dilakukan dapat disimpulkan bahwa nilai f1 yang dihasilkan dari pengklasifikasian sentimen menggunakan SVM di Weka sebesar 84%, sedangkan nilai f1 yang dihasilkan dari pengklasifikasian parameter happiness menggunakan ontologi sebesar 67%. Pendekatan ontologi dapat digunakan untuk mengklasifikasikan tweet, meskipun terdapat beberapa kekurangan seperti bobot term sama di beberapa kelas, keterbatasan term di ontologi, proses lemmatization yang tidak sempurna dan tidak dapat mengenali frasa. Penelitian ini menghasilkan perhitungan happiness seluruh kota Bandung yang berasal dari klasifikasi di dalam sistem sebesar 55.22%. Nilai tersebut didapatkan dari parameter ketersediaan waktu luang sebesar 6.28%, kesehatan 5.36%, pendidikan 3.25%, pekerjaan 2.94%, pendapatan 1.65%, hubungan sosial 8.2%, keharmonisan keluarga 1.55%, kondisi dan rumah 0.4%, kondisi keamanan 0.8%, dan parameter keadaan lingkungan sebesar 6.6%. Kecamatan yang paling bahagia adalah kecamatan Regol dengan nilai happiness 81.48%, dan kecamatan yang paling tidak bahagia adalah kecamatan Astanaanyar dengan nilai happiness sebesar 32.07% REFERENCES [1] ILHAMNOOR,"SURVEI MEMBUKTIKAN, WARGA KOTA BANDUNG BAHAGIA," 14 JANUARI 2015. [ONLINE]. AVAILABLE: HTTP://INFOBANDUNG.CO.ID/SURVEI-MEMBUKTIKAN-WARGA-KOTA-BANDUNG-BAHAGIA/.[ACCESSED 20 OKTOBER 2015]. [2] Helliwell, J. F., Layard, R., & Sachs, J., Word Happiness Report, New York: Sustainable Development Solutions Network, 2015. [3] G. Antoniou and F. v. Harmelen, A Semantic Web Primer, London: The MIT Press Cambridge, 2003. [4] M. Casanova, K. Breitman and W. Truszkowski, "Semantic Web: Concepts, Technologies and Applications," no. 3, pp. 155-173, 2007. [5] R. K. J. Bendi, Sistem Question Answering Sederhana Berbasis Ontologi Sebagai Aplikasi Web Semantik, Yogyakarta: Universitas Gadjah Mada, 2010.