22/02/2017
Pusdiklat BPS RI Rubrik : Lainnya
Natural Language Processing (NLP), Information Extraction (IE), dan Text Mining dalam upaya mengatasi Inkonsistensi Data Statistik 16 April 2013, 2:12:15 oleh Wisnu Nurdiyanto
Badan Pusat Statistik (BPS) memiliki visi menjadi pelopor data statistik terpercaya untuk semua[1]. Dari visi tersebut, frase yang paling sulit untuk diwujudkan adalah ’terpercaya untuk semua’. Bagaimanapun, kepercayaan lahir dari kualitas kerja yang telah ditunjukkan. Oleh karena itu BPS berupaya sebaik mungkin dalam setiap tahapan kegiatan statistik. Salah satu tahapan yang sangat penting dalam mewujudkan kepercayaan adalah tahapan diseminasi. Dalam mendiseminasikan hasil kegiatannya BPS selalu membuat publikasi tertulis, baik dicetak ataupun ditampilkan di website. Publikasi tersebut berisi narasi bahasa Indonesia yang menjelaskan data-data statistik yang dihasilkan BPS. Tidak jarang dalam beberapa publikasinya, BPS mengutip statistik yang sudah disebutkan pada publikasi sebelumnya. Namun, karena dalam proses penjabaran data statistik dalam narasi dan deskripsi tersebut dilakukan secara manual, statistik yang disajikan kembali itu sesekali menjadi berubah angka atau interpretasinya. Hal ini besar kemungkinan disebabkan oleh faktor human error yang sifatnya tidak disengaja. Masalah di atas dapat diatasi apabila sumber daya manusia (SDM) yang ditugaskan untuk menangani publikasi tersebut memadai, baik dari segi jumlah maupun kualitas. Menjadi tantangan tersendiri manakala SDM tersebut terbatas sementara jumlah publikasi yang ditargetkan jumlahnya tidak sedikit. Ditambah lagi dengan kesibukan BPS dan SDM-nya dalam melaksakanan kegiatan lapangan perstatistikan yang luar biasa padat. Akibat dari ketidakcocokan fakta antara satu publikasi dengan publikasi lainnya adalah menurunnya kredibilitas BPS di mata masyarakat. Bagaimana tidak, di era di mana orang-orang bebas mengemukakan pendapatnya seperti saat ini, ketidakcocokan tersebut dapat dengan mudah ditulis di media-media internet, semisal kompasiana. Tidak sedikit bahkan, mereka yang merasa tidak puas dengan kinerja BPS, melontarkan nada-nada sarkastis dalam tulisannya. Sedikit banyak, hal tersebut membuat citra BPS di mata sebagian masyarakat menjadi kurang baik. Oleh karena itu, perlu dipikirkan bagaimana cara mengotomasi pekerjaan membandingkan elemen-elemen fakta yang dimuat oleh isi satu tulisan dengan tulisan yang lain. Dengan upaya ini, kemungkinan kesalahan mengutip atau menjelaskan suatu data statistik bisa diperkecil. Beberapa kasus yang muncul ke permukaan, barangkali merupakan fenomena gunung es yang sebenarnya banyak sekali jumlah kejadiannya. Salah satu kasus yang terjadi dan muncul ke permukaan, misalnya, adalah sebuah artikel yang menyudutkan salah satu BPS di daerah. Pada Maret 2013 yang lalu, seorang kompasianer (istilah untuk citizen journalist di kompasiana.com) mengangkat sebuah tulisan dengan judul “Aneh, Beginikah Kerja BPS Daerah?” Pada tulisannya, penulis menyebutkan angka-angka yang tidak sesuai, bahkan saling bertentangan, tentang data statistik sebuah Kabupaten[2]. Tahun 2012 sebelumnya, muncul tulisan yang menyorot data kemiskinan yang dikeluarkan BPS di daerah[3]. 1
22/02/2017
Hal ini menjadi sangat rawan, karena unsur kemiskinan saat ini telah menjadi ranah politik yang cukup sensitif. Cepat atau lambat, jika kasus-kasus semacam ini tidak diantisipasi, kepercayaan masyarakat terhadap data yang dikeluarkan oleh BPS menjadi memudar. Padahal, kenyataan di lapangan, petugas BPS sudah bekerja keras untuk menghasilkan data yang akurat dan metodologinya bisa dipertanggungjawabkan secara ilmiah. Masalah yang dihadapi secara umum adalah masih adanya celah ketidakcocokan data statistik yang dipublikasikan BPS dengan statistik-statistik lain yang sudah dipublikasikan sebelumnya. Dari masalah itu, perlu dipikirkan bagaimana mengantisipasinya dengan cara yang seefektif dan seefisien mungkin, serta reliabel untuk diterapkan oleh satuan kerja BPS hingga tingkat daerah. Fenomena inkonsistensi data statistik tentu mempengaruhi kredibilitas institusi BPS. Hal ini tentu tidak sejalan dengan visi dan misi BPS. Untuk mengatasi masalah tersebut, dapat diajukan sebuah alternatif penyelesaian masalah, yang memanfaatkan teknologi komputasi, seperti NLP, IE, text mining, dan sistem berbasis pengetahuan. Inkonsistensi data yang terkandung dalam sebuah tulisan atau dokumen dapat terjadi dalam dua kondisi. Kondisi pertama adalah inkonsisten dengan data pada sumber lain. Kondisi kedua adalah inkonsistensi terjadi dalam dokumen itu sendiri. Sebagai contoh, inkonsistensi antara paragraf satu dengan paragraf lainnya. Dengan menggunakan sampel berupa narasi teks dari tulisan dokumen milik BPS, dapat dilakukan pengembangan sistem menggunakan teknologi-teknologi tersebut. Untuk mendukung akurasi analisis dalam information extraction, dapat dimanfaatkan rule logika statistik, yang merupakan representasi domain pengetahuan dalam konteks statistik. Berikutnya, dengan mengembangkan sistem berbasis pengetahuan, serta memilih berbagai algoritma terkait dengan NLP dan IE yang sesuai.
Inkonsistensi Data Inkonsistensi merupakan istilah yang menunjukkan bahwa sesuatu mengalami perubahan yang bukan pada tempatnya. Inkonsistensi data dalam berbagai literatur dan konsep yang luas, merupakan sesuatu yang menyesatkan. Pada [4], disebutkan ada tiga tingkatan inkonsistensi data, yaitu: 1. Inkonsistensi skema, yakni atributisasi data yang tidak konsisten. Hal ini sering terjadi pada kasus integrasi data yang berasal dari sumber yang berbeda-beda. 2. Inkonsistensi representasi data, yakni representasi data yang berbeda-beda meskipun atributnya sama, misalnya dalam satuan pengukuran, satuan mata uang, dan lain-lain. 3. Inkonsistensi nilai data, yaitu perbedaan nilai sebuah data padahal representasi dan skemanya sudah konsisten.
Natural Language Processing (NLP) NLP atau dalam bahasa Indonesia disebut dengan Pemrosesan Bahasa Alami merupakan bidang ilmu komputer, kecerdasan buatan dan bahasa yang berkaitan dengan interaksi antara komputer dan bahasa alami manusia[5]. Dengan teknologi yang ada pada NLP, komputer dapat memahami bahasa manusia, demikian pula sebaliknya, komputer dapat membuat bahasa yang dimengerti manusia. Salah satu fungsi dasar dalam NLP adalah parsing. Parsing, atau analisis sintak, merupakan proses analisis simbol baik pada bahasa alami maupun bahasa komputer, sesuai dengan aturan tata bahasa formal. Secara spesifik, banyak hal atau tugas yang dapat dilakukan oleh komputer menggunakan NLP[5]. 2
22/02/2017
Tugas-tugas tersebut antara lain: 1. Automatic summarization, yakni membuat ringkasan dari sebuah teks. Sebagaia contoh adalah yang biasa dipakai untuk meringkas informasi khusus pada media-media elektronik. 2. Machine translation, yakni menerjemahkan teks dari satu bahasa ke bahasa lainnya. Tugas ini termasuk tugas yang paling sulit, karena membutuhkan hampir semua macam pengetahuan yang dimiliki manusia, seperti tata bahasa, semantik, serta pengetahuan umum untuk melakukan penerjemahan dengan benar. 3. Natural language generation, yakni mengkonversi informasi dari database komputer ke dalam bahasa yang dimengerti manusia. 4. Natural language understanding, mengkonversi teks ke dalam bentuk representasi bahasa formal yang mudah dimengerti program komputer untuk selanjutnya dimanipulasi. Kemampuan NPL mencakup identifikasi semantik dari banyak kemungkinan semantik yang berasal dari ekspresi bahasa alami. 5. Part-of-speech tagging, yakni memberi label peranan sebuah kata sebuah kalimat, apakah sebagai kata benda, kata kerja, atau yang lain.
Information Extraction (IE) IE merupakan proses identifikasi fragmen-fragmen khusus suatu dokumen yang membentuk inti dari isi semantiknya[6]. IE biasanya bergantung pada aturan ekstraksi yang dibuat khusus untuk sumber informasi tertentu, yang biasa disebut wrapper (berupa program atau set aturan-aturan). Dengan wrapper ini, berbagai macam struktur sumber data dapat diproses[6]. IE mengekstraksi data terstruktur atau pengetahuan dari teks tak terstruktur dengan mengidentifikasi referensi entitas nama serta hubungan antar entitas[7]. Jadi, IE secara umum berhubungan dengan penggalian informasi semantik dalam teks. IE meliputi pengenalan entitas, resolusi coreference, ekstraksi hubungan, dan sebagainya. Tujuan umum IE adalah agar komputer dapat melakukan pengolahan dengan data-data yang pada mulanya tidak terstruktur. Lebih spesifik lagi, IE memungkinkan komputer untuk menarik kesimpulan dari konteks logis sebuah data. IE merupakan proses mengolah teks sebagai input dan memproduksi data dengan format yang baku dan tidak ambigu sebagai outputnya. Aplikasi IE menganalisis teks dan menyajikan hanya informasi khusus yang menarik minat pengguna atau sesuai konteks pengguna.[8]. Prosees IE dapat dipermudah dengan pemanfaatkan teknik-teknik lainnya, seperti bag of words, NLP, machine learning, model hidden markov, model statistik, dan lain sebagainya[8]. Dalam praktiknya, IE sering dibantu dengan penggunaan pola tata bahasa serta aturan linguistik yang diterapkan pada bahasa alami manusia. Namun, dengan bantuan domain pengetahuan yang sesuai konteks, representasi pengetahuan yang dihasilkan oleh proses IE dapat berkurang dari sisi kompleksitasnya. Selain itu, algoritma pembelajarannya serta efisiensi ekstraksi menjadi semakin baik[9]. Bahkan, [8] menyebutkan bahwa tanpa domain pengetahuan yang sesuai konteks, proses dari IE tidak dapat menghasilkan analisis yang tepat.
Text Mining Text mining, biasa juga disebut dengan text data mining, merupakan analisis teks. Aktivitas ini merupakan proses untuk mendapatkan informasi khusus dari teks. Informasi khusus tersebut didapat dari proses penemuan pola dan tren menggunakan statistical pattern learning. Text mining mencakup proses-proses sebagai berikut[11]: 1. Menstrukturkan input teks (seperti parsing, dengan teknik penambahan atau pengurangan beberapa fitur 3
22/02/2017
bahasa dan selanjutnya disimpan dalam komputer). 2. Menemukan pola dalam data teks yang sudah terstruktur. 3. Mengevaluasi dan menginterpretasikan pola yang sudah ditemukan. Pada umumnya, text mining meliputi kategorisasi teks, klastering teks, ekstraksi konsep atau entitas, membuat taksonomi, analisis sentimen, peringkasan dokumen, dan sebagainya. Dalam [10], diusulkan sebuah arsitektur sistem text mining yang bernama Extracting Association Rules from Text (EART). Sistem EART mengabaikan susunan kata, tetapi lebih pada esensi kata dan distribusi statistiknya. EART dimulai dengan memilih suatu koleksi dokumen, kemudian memprosesnya dalam tiga fase: 1. Fase text prepocessing, meliputi transformasi, filtrasi, dan stemming; 2. fase association rule mining; dan 3. fase visualisasi.
Sistem Berbasis Pengetahuan (Knowledge Based System) Sistem Berbasis Pengetahuan (SBP) merupakan sebuah sistem yang dapat melakukan penalaran dan menggunakan pengetahuan untuk menyelesaikan suatu masalah yang kompleks[13]. Pengetahuan didapatkan dan direpresentasikan menggunakan berbagai teknik representasi. Adapun komponen utama dari sebuah SBP adalah: 1. Basis pengetahuan 2. Mekanisme memperoleh pengetahuan 3. Mekanisme inferensi (penarikan kesimpulan) Untuk menerapkan NLP dengan bahasa Indonesia, acuan yang digunakan sebagai dasar utama adalah pedoman tata bahasa baku Bahasa Indonesia dan kamus umum Bahasa Indonesia. Selain itu, untuk menunjang perluasan dan perkembangan bahasa, perlu juga digunakan daftar noisy text (kata-kata yang mengandung kesalahan penulisan) dari internet.
Referensi
[1] Badan Pusat Statistik. Review Kedua Rencana Strategis Badan Pusat Statistik 2010 - 2014. Jakarta: Badan Pusat Statistik. 2012 [2] Zubaidi, A. Dardiri. 2013. “Aneh, Beginikah Kerja BPS Daerah?” [Online]. Available: ( http://birokrasi.kompasiana.com/2013/03/11/aneh-beginikah-kerja-bps-daerah-541098.html, diakses tanggal 11 April 2013) [3] Rahayu, Siti Mugi. 2012. ”Efek Domino Kesalahan Data BPS,” [Online]. Available: (http://ekonomi.kompasiana.com/bisnis/2012/06/21/efek-domino-kesalahan-data-bps-471364.html, diakses tanggal 11 April 2013) [4] Anokhin, Philipp, and Amihai Director-Motro. Data inconsistency detection and resolution in the integration of heterogeneous information sources. George Mason University, 2001. [5] Wikipedia, 2013. “Natural Language Processing,” [Online]. Available: (http://en.wikipedia.org/wiki/Natural_language_processing, diakses tanggal 18 April 2013) 4
22/02/2017
[6] Kushmerik, N., "Gleaning the Web," Intelligent Systems and their Applications, IEEE , vol.14, no.2, pp.20,22, Mar/Apr 1999 [7] Mooney, Raymond J., and Razvan Bunescu. "Mining knowledge from text using information extraction ." ACM SIGKDD explorations newsletter 7.1 (2005): 3-10. [8] Keekyoung Seo; Jaeyoung Yang; Joongmin Choi, "Building intelligent systems for mining information extraction rules from web pages by using domain knowledge," Industrial Electronics, 2001. Proceedings. ISIE 2001. IEEE International Symposium on , vol.1, no., pp.322,327 vol.1, 2001 [9] Christy, A.; Thambidurai, P., "Intelligent Information Extraction with Soft Matching Rules and Knowledge Discovery Using Genetic Algorithm for Text Mining," Conference on Computational Intelligence and Multimedia Applications, 2007. International Conference on , vol.2, no., pp.141,145, 13-15 Dec. 2007 [10] Xiaoying Gao; Mengjie Zhang, "Learning knowledge bases for information extraction from multiple text based Web sites," Intelligent Agent Technology, 2003. IAT 2003. IEEE/WIC International Conference on , vol., no., pp.119,125, 13-16 Oct. 2003 [11] Wikipedia, 2013, “Text Mining,” [Online]. Available: (http://en.wikipedia.org/wiki/Text_mining, diakses tanggal 18 April 2013) [12] Bhujade, V.; Janwe, N.J., "Knowledge Discovery in Text Mining Technique Using Association Rules Extraction," Computational Intelligence and Communication Networks (CICN), 2011 International Conference on , vol., no., pp.498,502, 7-9 Oct. 2011 [13] Wikipedia, 2013. “Knowledge-based System,” [Online]. Available: (http://en.wikipedia.org/wiki/Knowledge-based_systems, diakses tanggal 3 Mei 2013)
Pusdiklat BPS : http://pusdiklat.bps.go.id Versi Online : http://pusdiklat.bps.go.id/index.php?r=artikel/view&id=225
5