BAB I PENDAHULUAN
I.1 Latar Belakang Informasi yang terdapat dalam Laporan Hasil Pemeriksaan (LHP) BPK RI saat ini belum di-manaje dengan baik secara digital. Informasi yang terdapat dalam LHP yang terdapat pada 33 provinsi sampai saat ini hanya terkumpul di satu tempat tanpa ada proses selanjutnya untuk mengambil informasi inti dalam laporan tersebut. Ketiadaan proses ekstraksi informasi ini mengakibatkan adanya kesulitan jika sewaktu – waktu diperlukan informasi tertentu dari sejumlah besar dokumen LHP. Selain itu, tidak adanya aplikasi pencarian informasi menghambat adanya proses pembelajaran terhadap laporan-laporan yang ada sebelumnya, sehingga apabila terjadi kasus yang sama di masa sekarang, maka proses pembelajaran tidak dapt berjalan secara efektif. Oleh karena itu, diperlukan sebuah aplikasi yang mampu melakukan ekstraksi informasi dari sekumpulan dokumen LHP untuk dapat mengambil data inti dari dokumen tersebut. Berdasarkan Undang-Undang No. 15 Tahun 2006 pasal 6 ayat (3), pemeriksaan BPK mencakup pemeriksaan keuangan, pemeriksaan kinerja, dan pemeriksaan dengan tujuan tertentu. Laporan yang akan menjadi obyek dalam penelitian ini adalah laporan yang merupakan hasil dari pemeriksaan keuangan. Pemeriksaan keuangan adalah pemeriksaan atas laporan keuangan pemerintah (Pusat, Daerah, BUMN, dan BUMD) dengan tujuan pemeriksaan menilai kewajaran laporan keuangan dan memberikan pernyataan pendapat/opini tentang
1
tingkat kewajaran informasi yang disajikan dalam laporan keuangan pemerintah pusat/daerah. Tahapan yang harus dilalui dalam pemeriksaan adalah tahap persiapan, tahap pelaksanaan, dan tahap pelaporan. Penelitian ini akan berfokus pada salah satu proses dalam tahap pelaporan, yaitu penyusunan konsep laporan hasil pemeriksaan. Pemeriksaan yang menjadi obyek dalam penelitiaan ini adalah pemeriksaan Laporan Keuangan Pemerintah Daerah (LKPD). Laporan Hasil Pemeriksaan (LHP) LKPD, terbagi dalam beberapa bagian, yaitu: 1.
Laporan Hasil Pemeriksaan atas Laporan Keuangan;
2.
Laporan Hasil Pemeriksaan atas Sistem Pengedalian Intern (SPI);
3.
Laporan Hasil Pemeriksaan atas Kepatuhan terhadap Peraturan Perundang-undangan.
Penelitian ini akan berfokus pada Temuan Pemeriksaan (TP) LHP atas SPI dan TP LHP atas Keputuhan terhadap Peraturan Perundang-undangan. Temuan pemeriksaan muncul karena adanya kondisi yang tidak memenuhi kriteria pemeriksaan yang ditetapkan. Jika kondisi memenuhi atau melebih kriteria, hal ini mengindikasikan bahwa entitas telah melaksanakan praktik terbaik. Sebaliknya, jika kondisi tidak memenuhi kriteria, hal ini mengindikasikan perlunya tindakan perbaikan. Temuan pemeriksaan meliputi unsur-unsur kondisi, kriteria, akibat, sebab, tanggapan dari entitas terperiksa, dan saran atau rekomendasi. Kondisi yang ada di BPK saat ini, tidak ada aplikasi yang membantu pemeriksa dalam memetakan saran ataupun mengelompokkan saran berdasarkan kriteria, sebab, akibat, atau jenis temuan. Laporan Hasil Pemeriksaan (LHP) yang
2
ada hanya dikumpulkan berdasarkan jenis pemeriksaan tanpa dikelompokkan lebih lanjut per kasus atau temuan pada masing-masing LHP. Hal ini berarti tidak adanya klasifikasi temuan pemeriksaan berdasarkan kondisi, kriteria, sebab, dan akibat dan tidak ada proses pengambilan informasi berdasarkan hasil pemeriksaan yang ada untuk menentukan arah kebijakan selanjutnya. Di samping itu, tidak ada data mengenai keterkaitan antara saran pemeriksaan dengan komponen lain dalam temuan pemeriksaan. I.1.1
Perumusan Masalah Penelitian ini akan melakukan klasifikasi bagian dalam temuan pemeriksaan
berdasarkan kriteria, sebab, akibat, tanggapan, dan saran pemeriksaan dengan mengembangkan sebuah Sistem Informasi yang mampu mengambil informasi inti dari temuan pemeriksaan. Saat ini, Temuan Pemeriksaan (TP) yang merupakan bagian dari Laporan Hasil Pemeriksaan (LHP) hanya dikumpulkan secara elektronis berupa file pdf. Dari kumpulan file pdf tersebut, tidak ada proses yang dilakukan lebih lanjut untuk mendapatkan suatu informasi sebagai dasar pengambilan keputusan bagi “top
level
management”
ataupun
pengambilan
keputusan
untuk
mempertimbangkan penyusunan LHP bagi kasus serupa di lokasi yang berbeda. Pengambilan informasi yang selama ini dilakukan hanya bersifat manual dan sepotong-sepotong, sehingga sangat memungkinkan terjadinya perbedaaan informasi yang diambil untuk kasus yang semestinya serupa. Oleh karena itu diperlukan suatu aplikasi yang mampu mengidentifikasi atau mengklasifikasi temuan – temuan pemeriksaan yang telah ada pada tahun-tahun sebelumnya,
3
sehingga dengan adanya aplikasi ini diharapkan dapat membantu proses pengambilan keputusan. Penelitian ini akan menggunakan salah satu cabang dari Pemrosesan Bahasa Alami, yaitu Ekstraksi Informasi. Ekstraksi Informasi dapat diartikan sebagai sebuah proses untuk mendapatkan informasi inti dari dokumen tidak terstruktur ataupun dokumen semi terstruktur. Dalam penelitian ini, ekstraksi informasi dibagi dalam dua proses, yaitu preprocessing dan klasifikasi. Preprocessing dilakukan untuk menyiapkan dokumen agar dapat diproses pada tahap berikutnya, yaitu klasifikasi, serta untuk mendapatkan akurasi yang lebih tinggi dari hasil klasifikasi. Sedangkan klasifikasi merupakan proses inti dalam penelitian ini, yang bertujuan untuk mengelompokkan isi dokumen ke dalam beberapa klasifikasi. I.1.2. Keaslian Penelitian Penelitian mengenai Pemrosesan Bahasa Alami ataupun part of speech tagger untuk bahasa Indonesia pernah dilakukan oleh beberapa peneliti. Salah satu diantaranya menggunakan metode Conditional Random Fields dan Transformation Based Learning [1]. Penelitian ini menghasilkan suatu aplikasi part-of-speech tagger untuk Bahasa Indonesia dengan memanfaatkan tiga metode, yaitu Conditional Random Fields, Transformation Based Learning, dan kombinasi kedua metode tersebut. Hasil dari penelitian ini adalah, tagging tertinggi dengan metode Conditional Random Fields mencapai 80,21%, dengan metode Transformation Based Learning 90,08%, dan dengan kombinasi kedua metode 86,24%. Berdasarkan hasil penelitian, metode Transformation Based
4
Learning adalah metode yang paling cocok untuk diterapkan dalam pembuatan part-of-speech tagger untuk Bahasa Indonesia jika dibandingkan dengan kedua metode lain. Penelitian serupa memanfaatkan algoritma GLR (Generalized Left-to-right Rightmost) dengan kalimat yang dibangun bersifat rule-based untuk membangun pengurai kalimat Bahasa Indonesia [2]. Kelebihan dari penelitian ini dibandingkan penelitian sebelumnya adalah pengurai kalimat yang dinamai INAGP ini mampu menguraikan semua jenis kalimat majemuk. Sedangkan kendala dari penelitian ini adalah kurang sempurnanya grammar yang digunakan, yang hanya melingkupi kalimat deklaratif saja. Selain itu, kalimat uji yang digunakan masih terbatas. Penelitian lain mengenai PBA menggunakan metode Hidden Markov Model (HMM) untuk membangun POS Tagger Bahasa Indonesia (HMM Based Part-ofSpeech Tagger for Bahasa Indonesia) [3]. Dari penelitian yang dilakukan terhadap model HMM yang dibangun pada 1500 token data corpus dan 15% out of vocabulary (OOV) corpus, akurasi yang dicapai adalah 96,50% , dimana 99,40% untuk kata-kata yang ada dalam kosakata bahasa Indonesia, dan 80,40% untuk kata-kata di luar kosakata bahasa Indonesia (OOV-out of vocabulary). Penelitian tentang ekstraksi informasi untuk bahasa Indonesia pernah dilakukan oleh Kurnia Muludi dengan judul “Evaluasi Kinerja Algoritma Support Vector Machine dalam Ekstraksi Informasi Korpus Berbahasa Indonesia” [4]. Penelitian ini melihat pengaruh beberapa parameter SVM pada kinerja ekstraksi informasi dengan menggunakan 60 teks yang diambil dari situs-situs surat kabar. Berita yang diambil berkaitan dengan perkembangan komoditi sayur mayur di
5
kota-kota di Indonesia. Hasil F-Measure terbaik SVM-GATE pada Korpus berbahasa Indonesia adalah 49,64% (Strict) dan 58,45% (Lenient). Kinerja terbaik SVM-GATE terbaik diperoleh pada margin tau = 0,3 dan window size = 4. Saran yang dalam penelitian ini adalah diperlukan pengayaan NLP features yag lain, misalnya penggunaan Part of Speech Tagger untuk Bahasa Indonesia untuk meningkatkan kinerja SVM-GATE. Penelitian yang akan dilakukan oleh penulis adalah bagaimana cara yang dapat dilakukan untuk mendapatkan hasil ekstraksi informasi dari Laporan Hasil Pemeriksaan (LHP) atas Laporan Keuangan Pemerintah Daerah (LKPD) dengan menggunakan output dari penelitian sebelumnya, yaitu HMM Based Part-ofSpeech Tagger for Bahasa Indonesia. Penelitian ini akan memanfaatkan aplikasi IPOSTagger yang dibangun dengan metode HMM. Dokumen LHP akan menjadi input pada aplikasi IPOSTagger, dan selanjutnya proses klasifikasi akan dilakukan terhadap output dari aplikasi ini. Informasi yang diharapkan dari penelitian ini adalah berupa pengelompokkan komponen temuan pemeriksaan dalam LHP LKPD yang berupa kriteria, sebab, akibat, tanggapan, dan saran. I.1.3
Manfaat Penelitian Hasil dari penelitian ini diharapkan dapat diperoleh informasi digital dari
data Temuan Pemeriksaan (TP) dalam Laporan Hasil Pemeriksaan (LHP) Laporan Keuangan Pemerintah Daerah (LKPD). Informasi tersebut dapat dikelompokkan dalam kategori kriteria, sebab, akibat, tanggapan, dan saran pemeriksaan. Informasi yang merupakan output dari aplikasi ini nantinya dapat dimanfaatkan
6
untuk mengelompokkan dan menghubungkan jenis pemeriksaan dengan setiap bagian dokumen, yaitu kriteria, akibat, sebab, tanggapan, dan saran pemeriksaan. I.2
Tujuan Penelitian Tujuan dari penelitian ini adalah membuat tools untuk dapat meng-ekstrak
informasi yang terdapat dalam Laporan Hasil Pemeriksaan (LHP) Laporan Keuangan Pemerintah Daerah (LKPD). Informasi dalam Temuan Pemeriksaan (TP) LHP LKPD yang ingin diperoleh dari penelitian ini adalah kriteria, sebab, akibat, tanggapan, dan saran pemeriksaan. I.3
Tinjauan Pustaka Ekstraksi Informasi adalah proses pengubahan dokumen tidak terstruktur atau
semi terstruktur dengan domain tertentu ke dalam sebuah struktur informasi yang relevan. Secara sederhana, ekstraksi informasi juga bisa diartikan sebagai sebuah proses untuk mendapatkan bagian-bagian penting atau intisari dari dokumen tidak terstruktur, yang kemudian informasi tersebut dapat diproses lebih lanjut secara otomatis, misalnya untuk menjawab pertanyaan [5]. Terdapat tiga metode yang dapat digunakan dalam ekstraksi informasi, yaitu : a. Rule-based methods Rule-based methods menggunakan pola tertentu (template) untuk menganalisa struktur teks, yang nantinya akan digunakan untuk mencari dan menafsirkan informasi inti dari dokumen. Pola yang digunakan dapat diinputkan secara manual atau didapat dari hasil pengolahan oleh mesin.
7
b. Statistical methods Statistical
methods
menggunakan
perhitungan
matematika
untuk
memprediksi kemiripan dari informasi yang diharapkan dengan dokumen yang ada, dengan membandingkan informasi dan konteks kalimat. c. Knowledge-based methods Pendekatan ini memanfaatkan informasi eksternal untuk membantu proses kategorisasi dan klasifikasi teks sehingga informasi inti dari dokumen dapat lebih mudah ditemukan. Ekstraksi informasi merupakan salah satu bagian dari Pemrosesan Bahasa Alami (Natural Language Processing). Pemrosesan Bahasa Alami (PBA) adalah salah satu tujuan jangka panjang dari Artificial Intelligence (AI) yang memiliki kemampuan untuk memahami bahasa manusia. Inti dari pemrosesan bahasa alami adalah penguraian kalimat atau parser. Parser berfungsi untuk membaca kalimat, kata demi kata dan menentukan jenis kata apa saja yang termasuk dalam kelompok kata tersebut. Pemrosesan Bahasa Alami terdiri dari beberapa bagian, yaitu : a. Information Retrieval (IR) Information Retrieval (IR) diartikan sebagai tindakan, metode, dan prosedur untuk menemukan kembali data yang tersimpan, kemudian menyediakan informasi mengenai subyek yang dibutuhkan. IR mencakup teks, table, gambar, ucapan, dan video. Informasi termasuk pengetahuan terkait yang dibutuhkan untuk mendukung penyelesaian masalah dan akuisisi pengetahuan.
8
b. Passage Retrieval Bidang ini bertujuan untuk mencari dan menghasilkan salah satu bagian dalam dokumen sesuai dengan query yang diinputkan. c. Information Extraction IE bisa dimanfaatkan untuk meng-ekstrak informasi secara otomatis dari teks berbahasa alami. IE juga bisa digunakan untuk mengumpulkan informasi terstruktur yang berasal dari dokumen tidak terstruktur ataupun semi terstruktur. d. Question/Answering Tasks Question/Answering Tasks merupakan gabungan dari IR dan IE, yang bisa digunakan untuk menjawab pertanyaan-pertanyaan umum dengan menggunakan teks sebagai dasar pengambilan informasi (fact retrieval). e. Text Understanding Text Understanding manusia
dapat
berfungsi untuk memahami teks sebagaimana
memahaminya,
dengan
memanfaatkan
Artificial
Intelligence. Terdapat beberapa metode yang dapat digunakan untuk melakukan ekstraksi informasi, di antaranya adalah dengan Hidden Markov Model, Support Vector Machine, Collin’s Parser. HMM merupakan metode yang banyak digunakan untuk ekstraksi informasi, akan tetapi tidak dapat digunakan utnuk menangani token dengan multiple attribute. Sedangkan Support Vector Machine (SVM) adalah bagian dari Support machine learning, dan telah mencapai kinerja state-of-the-art pada
9
berbagai classification task, termasuk named entity recognition.klassifier SVM dapat menduga dimana suatu jenis tag berawal dan berakhir dalam suatu teks. Pengurai Collin (Collin’s Parser) adalah pengurai dengan metode statistik yang memiliki kecepatan pemrosesan dan akurasi yang lebih baik jika dibandingkan dengan metode statistik lainnya. Penelitian ini akan menggunakan output yang dihasilkan oleh POS Tagging dengan metode HMM karena tingkat akurasinya yang tinggi, yaitu 96,5% dan 99,4% untuk kata-kata yang terdapat dalam kamus, serta 80,4% untuk kata-kata yang tidak tercantum dalam kamus.
10