1. BAB I PENDAHULUAN
1.1. Latar Belakang Hasil survey Badan Kesejahteraan Keluarga Pemberdayaan Perempuan dan Keluarga Berencana (BKKPPKB) tahun 2009 menunjukkan angka kemiskinan di Kabupaten Bantul sebanyak 47.015 kepala keluarga (KK), tahun 2010 sebanyak 41.480 KK, tahun 2011 sebanyak 39.156 KK dan hingga akhir 2012 sebanyak 40.511 KK miskin. Perubahan angka kemiskinan tersebut menunjukkan penurunan kemiskinan berjalan lambat yaitu 0,13 % dalam waktu 3 tahun atau 0,046 % per tahun walaupun program pemberdayaan keluarga miskin dilakukan setiap tahun. Menurut Syari’udin dkk. (2011), kegagalan program pemberdayaan disebabkan oleh program yang tidak tepat sasaran. Hal ini disebabkan, database keluarga miskin belum dimanfaatkan untuk intervensi pelaksanaan program pemberdayaan. Contoh kasus tidak tepat sasaran yaitu pada database keluarga miskin tercatat adanya bantuan program ternak kambing pada kelompok keluarga miskin, yang mempunyai aspek pangan tidak tercukupi. Bantuan ini jelas tidak tepat sasaran, karena ternak tersebut akhirnya dijual untuk keperluan konsumsi. Padahal, tujuan program bantuan ternak kambing adalah budi daya ternak untuk menambah penghasilan. Penyebab tidak tepat sasaran adalah pada cara penentuan penerima bantuan pemberdayaan. Keluarga miskin yang dipilih untuk diberi bantuan pemberdayaan hanya diseleksi berdasarkan penilaian pada kelayakan proposal dan rekomendasi dari perangkat desa tempat tinggal. Hal ini cenderung subyektif. Aspek lainnya seperti kemampuan sandang, pangan, papan dan lainlain tidak dipertimbangkan. Cara-cara tersebut menyebabkan tingkat keberhasilan program pemberdayaan menjadi rendah. Akibatnya, penurunan angka kemiskinan tiap tahun berjalan lambat. Sedangkan alokasi anggaran yang terbatas menyebabkan tidak semua keluarga miskin mendapatkan bantuan pemberdayaan. Sehingga perlu cara lain supaya bantuan diterima keluarga miskin dengan tepat. Ada banyak solusi untuk memperbaiki cara menentukan penerima bantuan. Salah satunya, memanfaatkan history database keluarga miskin. History data dijadikan
1
2
pengetahuan untuk mengidentifikasi ciri-ciri keluarga miskin yang berpotensi akan berhasil dalam program pemberdayaan. Database terkait penanggulangan kemiskinan tersebut ada dua yaitu database keluarga miskin dan evaluasi pemberdayaan. Database keluarga miskin berisi profil penduduk miskin berikut skor aspek indikator kemiskinannya. Database evaluasi terdiri dari profil penerima bantuan dan hasil evaluasi tingkat keberhasilan program pemberdayaan yang diikuti. Kedua database dapat dijadikan sumber pengetahuan (knowledge) untuk melihat karakter keluarga yang berhasil keluar dari kemiskinan. Tan dkk. (2006) menyebutkan bahwa pengetahuan dapat ditemukan dengan menggali dan menganalisa database yang besar. Proses menggali pengetahuan dari database disebut sebagai knowledge discovery. Konsep Tan dkk. (2006) memberikan ide baru untuk terobosan penanggulangan kemiskinan yaitu pemanfaatan pola pengetahuan database keluarga miskin sebagai salah satu upaya meningkatkan keberhasilan program pemberdayaan keluarga miskin. Karakteristik keluarga miskin yang berkembang setelah menerima bantuan dapat dilihat polanya dan dijadikan pengetahuan untuk menentukan penerima bantuan berikutnya. Pengetahuan ini dapat membantu pemerintah Kabupaten Bantul dalam menentukan calon penerima bantuan pengentasan kemiskinan yang lebih tepat sasaran. Karakteristik keluarga miskin dalam database kemiskinan ditentukan oleh 11 (sebelas) aspek kemiskinan, yaitu aspek pangan, sandang, papan, penghasilan, kesehatan, pendidikan, kekayaan harta, kepemilikan tempat tinggal, listrik, air dan jumlah tanggungan anak untuk setiap keluarga miskin (Peraturan Bupati Bantul No : 21.A TAHUN 2007 Tentang Indikator Keluarga Miskin Kabupaten Bantul). Sebelas aspek mempunyai bobot berbeda-beda yang ditentukan oleh Badan Kesejahteraan Keluarga Pemberdayaan Perempuan dan Keluarga Berencana (BKKPPKB). Bobot tersebut menjelaskan apakah sebuah keluarga miskin memiliki keterbatasan pada setiap aspek tersebut. Bobot setiap aspek kemiskinan berpengaruh pada pengkategorian keluarga miskin, yaitu sangat miskin, miskin dan rawan miskin. Contohnya keluarga miskin yang memiliki keterbelakangan di aspek pangan akan mendapat skor 12 pada aspek pangan. Keterbelakangan pada
3
aspek penghasilan akan mendapat skor 35 pada aspek penghasilan. Bobot sebelas aspek tersebut dalam penelitan ini disebut sebagai bobot statis. BKKPPKB berperan sebagai pakar yang menentukan bobot atribut aspek penyebab kemiskinan. Program pemberdayaan keluarga miskin akan dievaluasi tingkat keberhasilannya. Tingkat evaluasi ada dua kelas yaitu “Berkembang” dan “Belum berkembang”. Pada data keluarga miskin, aspek penghasilan berhubungan erat dengan aspek aspek yang lain. Misalnya aspek pendidikan berhubungan dengan penghasilan, aspek kesehatan berhubungan dengan aspek air bersih. Hasil evaluasi dapat dilihat pola hubungannya dengan aspek-aspek penyebab kemiskinan. Pola yang dicari adalah aspek-aspek apakah yang jika muncul bersama-sama akan berkontribusi pada keberhasilan program pengentasan kemiskinan. Pola tersebut akan menjadi knowledge dalam wujud aturan kemudian aturan tersebut digunakan untuk mengklasifikasi data keluarga miskin baru yang hendak diprediksi kelas keberhasilannya. Teknik untuk menggali pola hubungan antar atribut dikenal dengan metode asosiasi. Penelitian ini menggabungkan metode asosiasi dan klasifikasi. Alasan penggunaan metode asosiasi yaitu metode ini lazim digunakan untuk menemukan hubungan antar atribut. Seperti penelitian Agrawal dan Srikant (1994) yang menyebutkan bahwa karakteristik atau ciri pola hubungan antar item dalam transaksi dapat digali menggunakan Association Rule Mining (ARM). Pola hubungan antar item dalam database umumnya adalah hubungan sebab akibat atau kebersamaan dan pola tersebut dapat dicari dengan teknik asosiasi (Agrawal dan Srikant, 1994). Contohnya keberadaan item A akan mengakibatkan adanya item B, atau item A dan B sering muncul bersama dalam banyak transaksi. Metode ini
cocok untuk membentuk aturan berdasarkan hubungan antar item dalam
database. Penggabungan metode asosiasi dan klasifikasi diantaranya adalah penelitian yang diilakukan oleh Liu dkk. (1998). Penelitian ini menghasilkan algoritma Classification Based On Assosiations (CBA). Menurut penelitian Liu dkk. (1998), Liu dkk. (2001), Yin dan Han (2003), Yang dkk. (2009), klasifikasi berbasis metode asosiasi memiliki kelebihan yaitu memiliki akurasi yang lebih
4
baik dibandingkan beberapa algoritma klasifikasi lainnya. Penelitian mereka menghasilkan aturan dengan teknik asosiasi dan digunakan untuk klasifikasi. Tao dkk. (2003) meneliti penerapan bobot item pada ARM untuk melihat efisiensi saat membangkitkan frequent itemset. Penerapan bobot ini menghasilkan konsep Weighted Association Rule Mining (WARM). Penelitian WARM lainnya oleh Wang dan Su (2002), Sun dan Bai (2008), Dua dkk. (2009), Soni dkk. (2009), Kumar dan Ananthanarayana (2010), Padmavalli dan Rao (2013), Mary dan Malarvizhi (2014). Bobot item yang digunakan oleh Dua dkk. (2009), Soni dkk. (2009), Kumar dan Ananthanarayana (2010) merupakan bobot item yang ditentukan oleh user. Sedangkan Wang dan Su (2002), Sun dan Bai (2008), Ibrahim dan Chandran (2011), Padmavalli dan Rao (2013) menggunakan bobot dinamis yang ditentukan dengan metode Hypertext-Induced Topic Search (HITS) untuk merangking transaksi sesuai kondisi riil data transaksi. Hasilnya, aturan yang dihasilkan lebih baik dan akurat. Wang dan Su (2002) menerapkan metode HITS pada database keranjang belanja. Penelitiannya menyimpulkan bahwa itemitem dengan bobot tinggi akan masuk dalam frequent itemset dan berpengaruh pada keuntungan transaksi yang akan dicapai. Sun dan Bai (2008) menyimpulkan waktu komputasi lebih sedikit jika menggunakan bobot HITS. Ibrahim dan Chandran (2011) membandingkan akurasi klasifikasi metode hybrid WARM dan HITS dengan CBA. Hasilnya, WARM lebih akurat. Padmavalli dan Rao (2003) mengatakan pembobotan HITS memberikan waktu proses CPU lebih cepat dan rule yang dihasilkan mempunyai akurasi tinggi. Item-item dengan bobot tinggi akan berpengaruh pada aturan secara signifikan (Ibrahim dan Revathy, 2014). Algoritma yang digunakan pada penelitian tersebut diatas adalah Apriori dimana efisiensinya belum dibandingkan dengan algoritma lain. Le dan Nguyen (2009) memperkenalkan struktur data Weighted Itemset Tidset-Tree (WIT-tree ) untuk mengatasi efisiensi penggunaan memori algoritma Apriori. Le dan Nguyen (2010) menyempurnakan penelitian sebelumnya sehingga proses pembentukan WIT-tree lebih efisien. WIT-tree diperkenalkan setelah melakukan penelitian mendalam pada metode-metode Weighted Association Rule Mining. Keunggulan
WIT-tree
adalah proses pembentukan frequent itemset
5
hanya membutuhkan sekali baca pada database transaksi. Hal ini disebabkan setiap kali terbentuk sebuah frequent itemset pada level k sekaligus disimpan juga himpunan ID transaksi (Tidsets) yang mendukungnya dalam memori lokal. Kemudian untuk membentuk frequent itemset level k berikutnya cukup melakukan intersection pada Tidsets itemset- itemset level k-1. Dengan intersection bobot support setiap itemset pada setiap level k dapat dicari lebih mudah karena tidak perlu membaca ulang database. Hal ini akan mengurangi waktu baca ulang pada database utama dan menyebabkan algoritma bekerja lebih cepat. Berdasarkan uraian diatas, perlu dibangun sebuah model klasifikasi berbasis rule untuk memprediksi tingkat keberhasilan keluarga miskin calon penerima bantuan. WIT- tree adalah algoritma yang lebih baik untuk membangun rule. Sedangkan metode Hypertext-Induced Topic Search (HITS) untuk memperoleh bobot dinamis atribut aspek kemiskinan. Alasan memanfaatkan metode HITS karena bobot yang ditetapkan oleh BKKPPKB bersifat tetap. Dengan metode HITS akan menghasilkan bobot sesuai kondisi rill data sehingga berkontribusi pada akurasi model klasifikasi yang dibangun.
1.2.Rumusan Masalah Berdasarkan latar belakang yang telah diuraikan diatas, rumusan permasalahan yang menjadi fokus penelitian ini adalah membangun model data mining menggunakan algoritma WIT-tree dan HITS untuk memprediksi tingkat keberhasilan keluarga miskin calon penerima program pemberdayaan.
1.3.Batasan Masalah Batasan dalam penelitian ini adalah sebagai berikut. 1) Penelitian tidak membahas tentang cara pengukuran keberhasilan program pengentasan kemiskinan. 2) Penelitian tidak membahas cara penentuan skor aspek kemiskinan dan kategorisasi tingkat kemiskinan.
6
3) Penelitian mengkorelasikan antara data keluarga miskin
dengan data
evaluasi pemberdayaan keluarga miskin dari Satuan Kerja Perangkat Daerah (SKPD) Pemerintah Desa (Pemdes). 4) Sampel data dalam penelitian ini berasal Kecamatan Pajangan di Kabupaten Bantul. 5) Penelitian memanfaatkan data keluarga miskin yang dikumpulkan oleh Badan Kesejahteraan Keluarga Pemberdayaan Perempuan dan Keluarga Berencana (BKKPPKB) tahun 2011-2012. Data akan di cleaning dan hasilnya akan digunakan sebagai data training dan data testing dengan metode k-fold cross validation.
1.4.Tujuan dan Manfaat Penelitian Tujuan penelitian ini adalah: 1) Membangun model klasifikasi yang mengkombinasikan algoritma Weigthed Itemset TidSets-tree (WIT-tree) dan algoritma Hypertext Induced Topic Search (HITS). Algoritma HITS digunakan untuk membobot atribut. Kemudian WIT-tree membangun aturan klasifikasi menggunakan atribut tersebut. 2) Membandingkan akurasi model klasifikasi berdasarkan pembobotan atribut secara dinamis oleh algoritma HITS dengan pembobotan atribut statis oleh BKKPPKB. Penelitian ini menghasilkan sebuah model yang bermanfaat untuk: 1) Memprediksi kelas tingkat keberhasilan keluarga miskin yang akan diberikan bantuan di Kabupaten Bantul. 2) Membantu pemerintah Kabupaten Bantul mengurangi kesalahan pemberian program bantuan pengentasan kemiskinan yang tidak tepat sasaran.
1.5. Keaslian Penelitian Penelitian ini menghasilkan model klasifikasi dengan metode asosiasi. Penelitian-penelitian lain diantaranya yang diacu dalam tinjauan pustaka juga membangun model klasifikasi dengan asosiasi atau asosiasi dengan pembobotan
7
transaksi dan item. Algoritma yang mereka gunakan Apriori konvensional atau Apriori yang dimodifikasi. Penelitian Apriori yang dimodifikasi dan hybrid juga pernah dilakukan oleh Mary dan Malarvizy (2014). Penelitian asosiasi dengan metode pembobotan item sesuai kondisi riil dataset dilakukan oleh Wang dan Su (2002), Kumar dan Ananthanarayana (2010), Ibrahim dan Revathy (2014) menggunakan algoritma Apriori. Penggunaan algoritma selain Apriori pada penelitian asosiasi dengan pembobotan dilakukan oleh Le dan Nguyen pada tahun 2009 dan 2010 yang menghasilkan algoritma WIT-tree. Namun bobot yang digunakan bersifat statis atau tidak berdasarkan perubahan kondisi data. Oleh karena itu, penelitian ini menerapkan algoritma WIT-tree namun dengan pembobotan item dinamis yaitu berdasarkan perubahan kondisi data. Metode pembobotan item secara dinamis penelitian ini yaitu metode Hypertext-Induced Topic Search (HITS). Dengan demikian, penelitian ini memiliki kebaruan dan kontribusi dibidang pengembangan model classifier berdasarkan asosiasi dengan bobot item.
1.6. Metodologi Penelitian Tahap-tahap yang dilakukan dalam penelitian ini adalah sebagai berikut: 1) Studi pustaka dan literatur Tahapan ini dilakukan dengan mengumpulkan, membaca dan memahami berbagai pustaka dan literatur yang berkaitan dengan penelitian ini, antara lain Association Rule Mining Classifier, Weighted Association Rule Mining, efisiensi algoritma untuk membangkitkan frequent itemset dan metode pembobotan item pada metode asosiasi. 2) Pengumpulan data Tahapan ini mengumpulkan data keluarga miskin dari BKKPPKB Kabupaten Bantul dan data evaluasi program pemberdayaan dari SKPD Kabupaten Bantul.
dan Pemdes
8
3) Analisis dan perancangan Penyusunan langkah-langkah, pendefinisian kebutuhan dan pemilihan metode yang digunakan untuk menghasilkan prediksi kelas mengacu pada landasan teori maupun penelitian-penelitian sebelumnya yang telah dikaji 4) Implementasi Implementasi hasil perancangan menjadi model prediksi kelas. Penelitian ini ini diimplementasikan dalam bahasa pemrograman Java. 5) Pengujian dan pembahasan Pengujian model dilakukan dengan menguji data keluarga miskin yang belum mempunyai kelas tingkat keberhasilan. Akurasi model diuji menggunakan metode k-fold cross validation. Data akan dibagi secara acak menjadi menjadi k bagian dengan ukuran sama. Salah satu bagian data dijadikan data pengujian, dan k-1 subset dijadikan data pembelajaran. Pengujian pada penelitian ini menggunakan 4-fold cross validation, dimana data akan dibagi menjadi enam bagian, 3/4 bagian data digunakan untuk proses pembelajaran, dan 1/4 digunakan untuk pengujian.
1.7. Sistematika Penelitian BAB I
PENDAHULUAN Bab ini berisi latar belakang, rumusan masalah, batasan masalah, tujuan dan manfaat, metodologi penelitian dan sistematika penulisan dalam penyusunan tesis ini.
BAB II
TINJAUAN PUSTAKA Bab
ini
berisi
hasil
kajian
terhadap
penelitian-penelitian
sebelumnya yang berkaitan dengan association rule classification dan weigthed frequent itemsets sebagai bahan referensi dalam penelitian ini. BAB III LANDASAN TEORI Bab ini berisi uraian dasar teori yang berkaitan dengan penelitian ini yang digunakan sebagai referensi untuk menyelesaikan permasalahan dalam penelitian ini.
9
BAB IV ANALISIS DAN PERANCANGAN SISTEM Bab ini berisi analisis dan perancangan sistem yang digunakan sebagai acuan dalam penyelesaian masalah, serta rancangan pelatihan dan pengujian yang akan dilakukan dalam penelitian. BAB V
IMPLEMENTASI Bab ini berisi implementasi kode program dari analisis dan perancangan yang telah diuraian pada bagian sebelumnya.
BAB VI
HASIL DAN PEMBAHASAN Bab ini berisi hasil dan pembahasan pengujian (analisis hasil percobaan) penelitan yang telah dilakukan.
BAB VII
KESIMPULAN DAN SARAN Bab ini berisi kesimpulan dari penelitian yang telah dilakukan dan saran untuk penelitian selanjutnya.