EKSPLORASI DAN KLASIFIKASI DESA TERTINGGAL DI INDONESIA MENGGUNAKAN PENDEKATAN DATA MINING
Oleh:
Yuandri Trisaputra G64120004 2012 Oktarina Safar Nida G14120052 2012
INSTITUT PERTANIAN BOGOR BOGOR 2016
2
Daftar Isi
PENDAHULUAN .................................................................................................. 4 Latar Belakang..................................................................................................... 4 Tujuan .................................................................................................................. 5 Manfaat ................................................................................................................ 6 TINJAUAN PUSTAKA ......................................................................................... 6 Analisis Korespondensi ....................................................................................... 6 Algoritme J48 ...................................................................................................... 6 Regresi Logistik Biner......................................................................................... 7 Klasifikasi dan Prediksi ....................................................................................... 7 K-Fold Cross Validation ..................................................................................... 8 Confusion Matrix ................................................................................................. 8 METODE ................................................................................................................ 9 Data Penelitian..................................................................................................... 9 Proses data dan pembentukan model ................................................................... 9 Implementasi Program....................................................................................... 10 Lingkungan Pengembangan .............................................................................. 11 PEMBAHASAN ................................................................................................... 11 Eksplorasi Data.................................................................................................. 11 Percobaan Klasifikasi Desa ............................................................................... 15 Model Pohon Keputusan ................................................................................... 15 Model Regresi Logistik ..................................................................................... 17 Kombinasi Peluang Pohon Keputusan dan Regresi Logistik ............................ 17 Implementasi Program....................................................................................... 18 KESIMPULAN ..................................................................................................... 19 DAFTAR PUSTAKA ........................................................................................... 20
3
Abstrak Desa
merupakan
satuan
daerah
terkecil
yang
bisa
dilihat
gambaran
pembangunannya melalui data Potensi Desa (Podes) yang dikeluarkan oleh Badan Pusat Statistik (BPS). Pada tahun 2015, pemerintah fokus kepada pembangunan desa, sehingga dibentuklah kementerian desa, pembangunan daerah tertinggal, dan transmigrasi melalui Peraturan Presiden Nomor 12 Tahun 2015. Fokus pemerintah kepada pembangunan desa ini menarik untuk diperhatikan karena pembangunan yang tepat sasaran merupakan hal mutlak yang diperlukan. Persentase desa tidak tertinggal tertinggi didominasi oleh desa di Pulau Jawa. Analisis korespondensi dilakukan untuk mengidentifikasi hubungan pulau-pulau di Indonesia melalui sarana listrik (PLN dan NON-PLN) dan sarana irigrasi. Melalui analisis korespondensi, pulau yang terdiri dari Papua dan Papua Barat terlihat relatif dekat digambarkan dengan variabel non-irigrasi. Sementara Pulau Jawa sangat digambarkan dengan variabel PLN. Proses klasifikasi terhadap sebuah desa dengan ciri tertentu dapat dilakukan untuk menduga desa tersebut termasuk ke dalam desa tertinggal atau tidak sehingga pembangunan yang dilakukan pemerintah akan tepat sasaran. Data mengenai potensi 77,961 desa di Indonesia dengan berbagai fitur menarik untuk diamati. Dalam penggalian data (data mining) diperlukan adanya metode klasifikasi untuk membantu pemerintah dalam pengklasifikasian status sebuah desa tertinggal atau tidak. Melalui metode pencarian Best First dan evaluasi Subset, terdapat 7 variabel yang berpengaruh terhadap penentuan desa tertinggal. Klasifikasi desa tertinggal dengan algoritme pohon keputusan menghasilkan aturan klasifikasi dengan keakuratan sebesar 75% dengan 10-fold cross validation. Sementara regresi logistik menghasilkan keakuratan sebesar 66%. Kombinasi peluang regresi logistik dan peluang pada pohon keputusan menjadi peluang akhir yang digunakan, kombinasi tersebut menghasilkan akurasi sebesar 77%. Melalui model yang dihasilkan dari kombinasi yang cukup akurat tersebut, model klasifikasi desa tertinggal disimulasikan ke dalam sistem klasifikasi berbasis web. Kata Kunci: desa tertinggal, klasifikasi, korespondensi, potensi desa, pohon keputusan, regresi logistik
4
PENDAHULUAN
Latar Belakang Rencana Pembangunan Jangka Menengah (RPJM) Nasional tertulis pada peraturan pemerintah No.7 tahun 2005. Pada tahun 2004-2009 digambarkan bahwa kesenjangan pembangunan antar daerah masih lebar, seperti: ● antara Jawa – Luar Jawa, ● antara Kawasan Barat Indonesia (KBI) – Kawasan Timur Indonesia (KTI), serta ● antara kota – desa. Desa merupakan satuan daerah terkecil yang bisa dilihat pembangunan desa, salah satunya melalui data Potensi Desa (Podes) yang dikeluarkan oleh Badan Pusat Statistik (BPS). Data Podes adalah data kewilayahan (spasial) yang menekankan pada penggambaran situasi wilayah. Cakupan wilayah dan kegiatan pendataan Podes 2011 dilakukan terhadap seluruh wilayah administrasi pemerintahan setingkat desa (desa, kelurahan, nagari/jorong) di seluruh Indonesia, termasuk Unit Permukiman Transmigrasi (UPT) dan Satuan Permukiman Transmigrasi (SPT) yang masih dibina oleh kementerian terkait. Pada tahun 2015, pemerintah fokus kepada pembangunan desa sehingga dibentuklah
kementerian
transmigrasi melalui
desa,
Peraturan
pembangunan
Presiden
Nomor
daerah
tertinggal,
12 Tahun
2015.
dan Fokus
pemerintahan kepada pembangunan desa ini menarik untuk diperhatikan karena pembangunan yang tepat sasaran merupakan hal mutlak yang diperlukan. Menurut Kementerian Pekerjaan Umum (2011), desa tertinggal merupakan kawasan perdesaan yang ketersediaan sarana dan prasarana dasar wilayahnya kurang/tidak ada (tertinggal) sehingga menghambat pertumbuhan/perkembangan kehidupan masyarakatnya dalam bidang ekonomi (kemiskinan) dan bidang pendidikan (keterbelakangan). Proses klasifikasi terhadap sebuah desa dengan ciri tertentu dapat dilakukan untuk menduga/mengidentifikasi desa tersebut termasuk ke dalam desa tertinggal atau tidak sehingga pembangunan yang dilakukan pemerintah akan tepat sasaran. Data mengenai potensi seluruh desa di Indonesia menjadi menarik untuk diamati. Dalam penggalian data (data mining) diperlukan suatu metode klasifikasi untuk
5
membantu pemerintah dalam pengklasifikasian status sebuah desa tertinggal atau tidak. Pada data mining dikenal beberapa metode untuk proses klasifikasi. Metode tersebut diantaranya Neural Network, Fuzzy, Support Vector Machine, dan Decision Tree (Pohon Keputusan). Algoritme pohon keputusan dikenal selama ini sebagai algoritme yang cukup sederhana dan akurat dalam proses klasifikasi dibanding dengan algoritme klasifikasi lainnya. Selain itu, algoritme pohon keputusan juga lebih mudah diimplementasikan ke dalam sebuah program. Peluang sebuah desa masuk dalam kategori desa tertinggal berdasarkan fitur-fitur yang ada dapat ditentukan melalui metode Regresi Logistik. Regresi Logistik merupakan metode pendugaan dalam statistika yang memiliki respon kategorik. Pada kasus ini respon kategorik yang digunakan merupakan biner yaitu desa tertinggal (1) dan desa tidak tertinggal (0). Selain penentuan kelas desa tertinggal, metode pencarian Best First dan evaluasi Subset juga digunakan untuk mencari variabel apa saja yang memengaruhi suatu desa dikatakan tertinggal atau tidak. Oleh karena itu, pada penelitian ini algoritme pohon keputusan diterapkan dengan 10-fold cross validation. Sementara melalui regresi logistik dapat ditentukan besar peluang sebuah desa masuk dalam kategori tertinggal. Pada regresi logistik dapat ditentukan sendiri nilai cuts off yang sesuai dengan analisis pemerintah. Kombinasi peluang regresi logistik dan peluang pada pohon keputusan menjadi peluang akhir yang digunakan. Selain itu, model yang dihasilkan dari kombinasi pohon keputusan dan regresi logistik tersebut disimulasikan ke dalam sistem berbasis web.
Tujuan Tujuan dari penelitian ini adalah: 1. Mengeksplorasi status daerah di Indonesia dengan berbagai kriteria situasi desa. 2. Menerapkan algoritme pohon keputusan dan regresi logistik untuk klasifikasi desa tertinggal. 3. Mengidentifikasi peluang sebuah desa menggunakan algoritme pohon keputusan dan regresi logistik.
6
4. Menentukan peluang sebuah desa masuk dalam kategori tertinggal dengan menggunakan kombinasi regresi logistik dan peluang aturan pohon keputusan. 5. Membuat program untuk klasifikasi desa tertinggal berbasis web.
Manfaat 1. Memberikan pengetahuan mengenai gambaran kondisi desa-desa di Indonesia guna pembangunan tepat sasaran. 2. Memberikan kemudahan dalam pengecekan status desa tertinggal melalui teknologi sistem informasi berbasis web.
TINJAUAN PUSTAKA Analisis Korespondensi Analisis korespondensi adalah ilmu yang mempelajari hubungan antara dua atau lebih peubah kualitatif. Analisis ini digunakan untuk eksplorasi data dari tabel kontingensi. Analisis korespondensi ini meproyeksikan banyak peubah ke dalam grafik berdimensi 2 dengan jarak Euclidan (Matjiik dan Sumertajaya 2011). Algoritme J48 Algoritme J48 adalah algoritme untuk membentuk pohon keputusan yang digunakan untuk klasifikasi. Pohon keputusan merupakan metode klasifikasi dan prediksi yang sangat kuat dan terkenal. Metode pohon keputusan mengubah fakta yang besar menjadi pohon keputusan yang merepresentasikan aturan. Aturan dapat mudah dipahami dengan bahasa alami. Aturan tersebut dapat diekspresikan dalam bentuk bahasa basis data seperti SQL (Structured Query Language) untuk mencari record kategori tertentu. Pohon keputusan juga berguna untuk mengeksplorasi data, menemukan hubungan tersembunyi antara sejumlah variabel input dengan variabel target. Pohon keputusan memadukan antara eksplorasi data dan dan pemodelan, sehingga pohon keputusan sangat bagus sebagai langkah awal dalam proses pemodelan bahkan ketika dijadikan sebagai model akhir dari beberapa teknik lain. Melalui algoritme keputusan dapat ditentukan peluang sebuah data masuk ke kelas tertentu berdasarkan peluang di dalam node pohon keputusan.
7
Regresi Logistik Biner Regresi logistik biner adalah analisis statistika yang digunakan untuk menjelaskan hubungan antara peubah respon yang berskala kategori biner dengan satu atau lebih peubah penjelas yang berskala kategori atau kontinu. Pada model regresi logistik tidak diperlukan adanya pengujian asumsi yaitu uji normalitas dan uji asumsi klasik (uji heteroskedastisitas dan uji autokorelasi). Metode kuadrat terkecil sudah tidak tepat lagi digunakan untuk data regresi yang memiliki variabel respon biner. Model regresi logistik menggunakan transformasi logit. Pada model ini, yang diregrsikan adalah peluang variabel respon sama dengan 1 dibentuk dengan menyatakan E(Y=1|x) sebagai π(x). Hosmer dan Lemeshow (2000) menjelaskan bahwa model regresi logistik π(x) dinotasikan sebagai berikut: ᴨ(𝑥) =
exp(𝛽 + 𝛽𝑥1 + ⋯ … + 𝛽𝑥𝑝) 1 + exp(𝛽 + 𝛽𝑥1 + ⋯ … + 𝛽𝑥𝑝)
dengan: 𝑔(𝑥) = 𝛽0 + 𝛽1 𝑥1 + ⋯ + 𝛽𝑝 𝑥𝑝 𝛽0 = konstanta 𝛽𝑖 = koefisien regresi logistik i
= 1, 2, …, p
p = banyak peubah penjelas
Klasifikasi dan Prediksi Klasifikasi merupakan penempatan objek-objek ke salah satu dari beberapa kategori yang telah ditetapkan sebelumnya. Klasifikasi bertujuan untuk memperoleh aturan yang dapat digunakan untuk memprediksi label kelas dari objek yang tidak yang tidak diketahui label kelasnya. (Tan dan Ning 2006) Klasifikasi terdiri atas dua proses yaitu tahap induktif yang merupakan tahap membangun model klasifikasi dari data latih dan tahap deduktif yang merupakan tahap menerapkan model untuk data uji. Klasifikasi mempunyai dua teknik pembelajaran yaitu eager learner yang membuat model berdasarkan atribut input yang dipetakan terhadap kelas label setelah data latih tersedia dan lazy learner
8
yang melakukan proses pemodelan dari data latih ketika ada data uji yang akan diklasifikasikan (Tan dan Ning 2006).
K-Fold Cross Validation K-fold cross validation dilakukan untuk membagi data latih dan data uji. Kfold cross validation mengulang k-kali untuk membagi sebuah himpunan contoh secara acak menjadi k subset yang saling bebas, setiap ulangan disisakan satu subset untuk pengujian dan subset lainnya untuk pelatihan (Fu 1994). Pada metode tersebut, data awal dibagi menjadi k subset atau “fold” yang saling bebas secara acak, yaitu S1, S2, ..., Sk, dengan ukuran setiap subset kira-kira sama. Pada iterasi ke-i, subset Si diperlukan sebagai data pengujian dan subset lainnya diperlukan sebagai data pelatihan. Prosedur ini diulang sebanyak k-kali sedemikian sehingga setiap subset digunakan untuk pengujian tepat satu kali. Total akurasi ditentukan dengan menjumlahkan akurasi untuk semua k proses tersebut (Ulya 2013). Confusion Matrix Evaluasi model klasifikasi berdasar pada proporsi antara data uji yang diprediksi secara tepat dengan total seluruh prediksi (Tan dan Ning 2006). Informasi mengenai klasifikasi sebenarnya (aktual) dengan klasifikasi hasil prediksi disajikan dalam bentuk tabel yang disebut confusion matrix seperti ditunjukan pada Tabel 1. Tabel 1 Confusion matrix Kelas Prediksi Kelas Aktual
Kelas 1
Kelas 2
Kelas 1
A
b
Kelas 2
C
d
Jumlah baris dan kolom pada tabel bergantung pada banyaknya kelas target. Akurasi merupakan proporsi jumlah prediksi yang tepat. Contoh perhitungan akurasi untuk tabel tersebut adalah (Faiza 2009): 𝐴𝑘𝑢𝑟𝑎𝑠𝑖 =
𝐽𝑢𝑚𝑙𝑎ℎ𝑝𝑟𝑒𝑑𝑖𝑘𝑠𝑖𝑦𝑎𝑛𝑔𝑡𝑒𝑝𝑎𝑡 𝑎+𝑑 𝑖 = 𝑇𝑜𝑡𝑎𝑙𝑝𝑟𝑒𝑑𝑖𝑘𝑠𝑖 𝑎+𝑏+𝑐+𝑑
9
METODE Pada tahap eksplorasi data akan dilakukan berbagai analisis deskriptif melalui chart mengenai gambaran kondisi di berbagai daerah di Indonesia. Pada pembangunan model klasifikasi akan dilakukan dalam beberapa tahap. Tahap-tahap tersebut disajikan pada Gambar 1. Data Penelitian Data yang digunakan pada penelitian ini adalah data potensi desa 2011 dari Badan Pusat Statistik. Data tersebut terdiri dari 77,961 desa dan 1501 variabel utama yang terdiri dari variabel numerik dan kategorik. Variabel tersebut direduksi menjadi 205 variabel.
Akuisisi data
Dataset
Eksplorasi data Proses data dan pembentukan model serta evaluasi model
Implementasi program
Gambar 1 Tahapan Penelitian Proses data dan pembentukan model Proses data dan pembentukan model untuk identifikasi desa tertinggal dapat dilihat pada Gambar 2. Dataset sebagai input yang digunakan dalam makalah ini adalah data potensi desa tahun 2011 dengan 205 fitur (variabel numerik) dan class desa tertinggal atau tidak tertinggal berdasarkan kriteria Kementerian Pekerjaan Umum dan Perumahan Rakyat Republik Indonesia. Rincian fitur yang digunakan bisa dilihat pada lampiran 1. Cleaning data digunakan untuk praproses data. Data yang digunakan adalah data 77,961 desa di Indonesia pada tahun 2011. Setelah proses cleaning data maka dilakukan percobaan untuk mendapatkan kombinasi antara banyak fitur dan akurasi. Kombinasi antara banyak fitur dan akurasi tersedia pada Tabel 2.
10
Cleaning Data Mengatasi missing value berdasarkan dengan variabel lain yang masih ada hubungannya. Misal: variabel x merupakan jumlah puskesmas namun terdapat missing value, sehingga di cek pada variabel y (terdapati atau tidak terdapat puskesmas) jika ternyata tidak terdapat puskesmas maka variable x diisi dengan 0. Melakukan pemilihan fitur dari 1501 fitur utama. Percobaan Melakukan penyeleksian fitur kembali dan membandingkannya kombinasi antara jumlah fitur dan keakuratan dalam klasifikasi. Kemudian dipilih kombinasi dengan keakuratan terbaik. Klasifikasi dengan Pohon Keputusan Algoritma J48 untuk menentukan class desa
Klasifikasi dengan Regresi Logistik Regresi dengan respons (class) 1 untuk desa tertinggal dan 0 untuk desa tidak tertinggal.
Gambar 2 Proses data dan pembentukan model klasifikasi Tabel 2 Percobaan Validasi
Seleksi Fitur
Fitur yang digunakan
10 Fold Cross Validation
Tidak
205 Fitur
train 80%, test 20%
SubSetEval BestFirst
7 Fitur
train 80%, test 20%
Ranker InfoGain
7 Fitur
train 80%, test 20%
Ranker Correlation
7 Fitur
Output dari percobaan ini adalah aturan-aturan klasifikasi untuk desa di Indonesia dan pendugaan class desa. Model terbaik akan diterapkan pada sistem untuk mengidentifikasi desa tertinggal. Implementasi Program Implementasi program dilakukan berdasarkan model terbaik yang didapatkan pada tahap pembentukan model. Program yang dibuat berbasis web. Web akan menampilkan hasil identifikasi desa tertinggal berdasarkan input yang sesuai dengan variabel atau fitur yang digunakan. Selain itu, program yang dibuat akan menampilkan peluang kombinasi dari model pohon keputusan dan regresi logistik.
11
Lingkungan Pengembangan Spesifikasi perangkat keras dan perangkat lunak yang digunakan dalam penelitian yaitu sebagai berikut: 1. Perangkat Keras terdiri dari: Processor Intel Core i3, Memori 6 GB, Harddisk
500 GB, Layar 14 inci, Mouse dan Keyboard. 2. Perangkat Lunak: ● Sistem operasi Windows 8 ● Microsoft Excel 2013 dan EmEditor sebagai lembar pengolahan data
tambahan, media merapihkan data penggabungan data, pembersihan data, dan transformasi data ● SPSS 23 untuk melakukan proses data mining klasifikasi.
PEMBAHASAN Eksplorasi Data Dataset sebagai input yang digunakan dalam makalah ini adalah data potensi desa tahun 2011 dengan 205 fitur (variabel numerik) dan class desa tertinggal atau tidak tertinggal berdasarkan kriteria Kementerian Pekerjaan Umum dan Perumahan Rakyat Republik Indonesia. Cleaning data digunakan untuk praproses data. Persentase kelas desa tertinggal dan tidak tertinggal di setiap pulau di Indonesia digambarkan pada Gambar 3. 90.00% 80.00% 70.00% 60.00% 50.00% 40.00% 30.00% 20.00% 10.00% 0.00%
DESA TERTINGGAL
DESA TIDAK TERTINGGAL
Gambar 3 Persentase Desa Tertinggal dan Tidak Tertinggal di setiap Pulau di Indonesia
12
Kriteria desa tertinggal di Indonesia diindikasikan melalui prasarana dan sarana dasar wilayah, perekonomian masyarakat, tingkat pendidikan, dan produktivitas masyarakat yang rendah. Perekonomian masyarakat, tingkat pendidikan, dan produktivitas masyarakat yang rendah tentu bisa digambarkan dengan jumlah penduduk miskin pada suatu daerah. Persentase penduduk miskin di Indonesia digambarkan pada Gambar 4. Sarana dan prasarana wilayah meliputi air bersih, irigrasi, dan listrik merupakan dasar kebutuhan suatu masyarakat dalam sebuah desa. Penggunaan listrik Perusahaan Listrik Negara (PLN) didominasi oleh provinsi di Pulau Jawa. Jumlah pengguna listrik PLN dan NONPLN di Indonesia digambarkan pada Gambar 5. Sementara jumlah desa dengan irigrasi digambarkan pada Gambar 6. Papua Papua Barat Maluku Utara Maluku Sulawesi Barat Gorontalo Sulawesi Tenggara Sulawesi Selatan Sulawesi Tengah Sulawesi Utara Kalimantan Timur Kalimantan selatan Kalimantan Tengah Kalimantan Barat Nusa Tenggara Timur Nusa Tenggara Barat Bali Banten Jawa Timur DI Yogyakarta Jawa Tengah Jawa Barat DKI Jakarta Kepulauan Riau Kepulauan Bangka Belitung Lampung Bengkulu Sumatera Selatan Jambi Riau Sumatera Barat Sumatera Utara Aceh 0.00
10.00 20.00 30.00 40.00
Gambar 4 Persentase Penduduk Miskin di Indonesia Tahun 2012
13
SUMATERA UTARA SUMATERA BARAT SULAWESI TENGGARA SULAWESI SELATAN RIAU PAPUA NUSA TENGGARA BARAT MALUKU UTARA LAMPUNG KEPULAUAN BANGKA… KALIMANTAN TENGAH KALIMANTAN BARAT JAWA TENGAH JAMBI DKI JAKARTA BENGKULU BALI 0
4000000
8000000
NONPLN
Gambar 5 Jumlah RT Pengguna Listrik di Indonesia Tahun 2011
SUMATERA UTARA SUMATERA BARAT SULAWESI TENGGARA SULAWESI SELATAN RIAU PAPUA NUSA TENGGARA…
MALUKU UTARA LAMPUNG KEPULAUAN… KALIMANTAN TENGAH
KALIMANTAN BARAT JAWA TENGAH JAMBI DKI JAKARTA BENGKULU BALI 0
2000 4000 6000 8000 TIDAK ADA IRIGRASI
Gambar 6 Jumlah Desa dengan Irigrasi dan Non-Irigrasi di Indonesia Tahun 2011
14
Persentase penduduk miskin tertinggi di Indonesia didominasi oleh provinsi di Luar Jawa terutama di bagian Timur Indonesia, yaitu Papua, Papua Barat, dan Maluku. Hal tersebut sejalan dengan jumlah Rumah Tangga (RT) pengguna PLN di Indonesia masih sangat sedikit di kawasan Papua, Papua, Papua Barat, Maluku dan Maluku Utara berlawanan dengan RT di Pulau Jawa. Desa terbanyak dengan irigrasi juga didominasi oleh desa di Pulau Jawa. Hal ini merupakan gambaran kesenjangan pembangunan yang terjadi di Pulau Jawa dan Luar Pulau Jawa. Analisis korespondensi dilakukan untuk mengidentifikasi hubungan pulaupulau di Indonesia, sarana listrik (PLN dan NON-PLN), dan sarana irigrasi. Melalui analisis korespondensi dengan plot pada Gambar 7. Pulau Papua yang terdiri dari Papua dan Papua Barat terlihat paling dekat digambarkan dengan variabel nonirigrasi. Hal ini menunjukan bahwa di daerah tersebut merupakan daerah dengan desa non irigrasi paling banyak. Sementara Pulau Jawa sangat dekat digambarkan dengan variabel PLN. Hal ini sejalan bahwa desa di di Pulau Jawa sudah lebih maju mengenai sarana akses listriknya dibandingkan dengan desa di pulau lainnya menurut keberadaan PLN. Symmetric Plot NUSA TENGGARA
0.0
IRIGRASI BALI JA WA NON-PLN SULAW ESI KA LIMASUMATERA NTAN PLN MA LUKU
-0.2 Component 2
PAPUA
-0.4 -0.6 -0.8 -1.0 -1.2 -1.4
NON-IRIGRASI
-1.4 -1.2 -1.0 -0.8 -0.6 -0.4 -0.2 Component 1
0.0
Gambar 7 Plot Korespondensi antara Pulau di Indonesia dan Sarana Listrik dan Irigrasi
15
Percobaan Klasifikasi Desa Data potensi desa tahun 2011 dengan 205 fitur dan kelas desa tertinggal atau tidak tertinggal berdasarkan kriteria Kementerian Pekerjaan Umum dan Perumahan Rakyat Republik Indonesia digunakan sebagai input klasifikasi pada penelitian ini. Hasil akurasi model klasifikasi dengan kombinasi validasi dan fitur dapat dilihat pada Tabel 3. Tabel 3 Hasil akurasi model Jumlah
Akurasi (Pohon
Fitur
Keputusan, Reglog)
Tidak
205
74.8%, 66%
SubSetEval
7
60%, 59%
Validasi
Seleksi Fitur
10 Fold Cross Validation train 80%, test 20%
BestFirst train 80%, test 20%
Ranker InfoGain
7
74%, 63%
train 80%, test 20%
Ranker Correlation
7
64%, 63%
Dengan melihat Tabel 2, tingkat akurasi terbaik didapat pada validasi data training 10-Fold Cross Validation dengan penggunaan 205 fitur. Setelah didapatkan kombinasi antara fitur dan akurasi yang terbaik maka dilakukan klasifikasi dengan algoritma pohon keputusan dan regresi logistic. Tujuh variabel atau atribut yang paling berpengaruh dalam penentuan desa tertinggal adalah variabel R803B (Jumlah Surau atau Langgar), R401E, (Jumlah Keluarga), R705B (Jumlah Posyandu yang aktif setiap sebulan sekali), R710A (Jumlah Kematian warga setahun terakhir), R1310 (Jumlah anggota linmas/hansip), R304C (Jumlah SLS terkecil di Desa/Kelurahan), R901B (Jarak ke gedung bioskop terdekat), dan R704JK3 (Jumlah Posyandu). Model Pohon Keputusan Pohon keputusan dijalankan menggunakan SPSS 23 dengan 10 Fold Cross Validation (CV). Metode yang digunakan pada pohon keputusan ini adalah Growth Method CHAID (multiway split). Rule yang dihasilkan pada algoritme pohon keputusan ini sebanyak 143 rule. Confusion Matrix pohon keputusan dapat dilihat
16
pada Tabel 4. Presentase kebenaran pengklasifikasian sebanyak 74.8%. Melalui Tabel 3 di bawah dapat diketahui bahwa sebanyak 23662 data desa tertinggal benar diklasifikasi sebagai desa tertinggal, 34646 data desa tidak tertinggal benar diklasifikasi sebagai desa tidak tertinggal. Sementara itu, terdapat 7468 desa tertinggal salah diklasifikasi ke dalam desa tidak tertinggal dan 121267 desa tidak tertinggal tertinggal salah diklasifikasi ke dalam desa tertinggal. Tabel 3 Confusion Matrix Pohon Keputusan
Model pohon keputusan yang didapat menghasilkan keputusan dengan kedalaman maksimal 3. Contoh pohon keputusan pada kedalaman 1 dan 3 dapat dilihat pada Gambar 8 dan Gambar 9.
Gambar 8 Pohon Keputusan dengan Kedalaman 1
Gambar 9 Pohon Keputusan dengan Kedalaman 3
17
Berdasarkan pohon keputusan yang dihasilkan, didapatkan aturan-aturan atau rule yang dapat mengidentifikasikan sebuah desa dikategorikan sebagai desa tertinggal atau tidak. Contoh rule yang didapat sebagai berikut: Jika Jumlah surat miskin/SKTM yang dikeluarkan Desa lebih besar dari 60 dan SKTM yang dikeluarkan Desa kurang dari sama dengan 115 dan Jumlah Posyandu yang aktif setiap sebulan sekali lebih besar dari 2 dan Jumlah Posyandu yang aktif setiap sebulan sekali kurang dari sama dengan 3 dan Jumlah keluarga buruh tani lebih dari 51, maka Desa dikategorikan "Tidak Tertinggal". Rule tersebut mempunyai peluang sebesar 0.693359 berdasarkan dataset yang digunakan.
Model Regresi Logistik Regresi logistik dijalankan dengan 10 Fold Cross Validation (CV). Metode yang digunakan yaitu Binary Logistic Regression. Model yang didapatkan dalam bentuk fungsi peluang desa yang dikategorikan desa tidak tertinggal. Akurasi yang didapat sebesar 66.6%, Confusion Matrix dapat dilihat pada Tabel 4. Tabel 4 Confusion Matrix Regresi Logistik
Kombinasi Peluang Pohon Keputusan dan Regresi Logistik Kombinasi peluang dari model pohon keputusan dan regresi logistik digunakan untuk menentukan hasil akhir suatu desa dikategorikan sebagai desa tertinggal atau tidak tertinggal. Peluang kombinasi tersebut didapatkan berdasarkan nilai akurasi dari model yang dibangun. Nilai peluang akan dikalikan dengan proporsi dari akurasi model. Dengan demikian, akurasi yang lebih besar akan memiliki
bobot
yang
lebih
besar
untuk
menentukan
hasil
akhir
klasifikasi/identifikasi. Persamaan kombinasi peluang pohon keputusan regresi logistik dapat dilihat pada Persamaan 1. 𝐴𝑘𝑢𝑟𝑎𝑠𝑖𝑝𝑘 𝑃 𝐴𝑘𝑢𝑟𝑎𝑠𝑖𝑝𝑘+𝐴𝑘𝑢𝑟𝑎𝑠𝑖𝑟𝑒𝑔𝑟𝑒𝑠𝑖𝑙𝑜𝑔𝑖𝑠𝑡𝑖𝑘 1
+
𝐴𝑘𝑢𝑟𝑎𝑠𝑖𝑟𝑒𝑔𝑟𝑒𝑠𝑖𝑙𝑜𝑔𝑖𝑠𝑡𝑖𝑘 𝐴𝐴𝑘𝑢𝑟𝑎𝑠𝑖𝑝𝑘+𝐴𝑘𝑢𝑟𝑎𝑠𝑖𝑟𝑒𝑔𝑟𝑒𝑖𝑙𝑜𝑔𝑖𝑠𝑡𝑖𝑘
𝑃2
(1)
18
dengan: pk
: pohon keputusan
𝑃1
: peluang dari model pohon keputusan
𝑃2
: peluang dari model regresi logistik. Berdasarkan model yang didapat, akurasi dari pohon keputusan adalah 0.75
sedangkan akurasi dari regresi logistik adalah 0.67. Oleh hal itu, rumus peluang untuk penentuan klasifikasi desa tertinggal dapat dilihat pada Persamaan 2. Akurasi yang didapat menggunakan kombinasi ini sebesar 77%. Akurasi cukup baik untuk digunakan sebagai pengklasifikasian. 0.75 0.75+0.67
𝑃1 +
0.67
𝑃 0.75+0.67 2
(2)
Implementasi Program Program yang dibuat untuk klasifikasi status desa ini berbasis web. Web akan menampilkan hasil identifikasi desa tertinggal berdasarkan input yang sesuai dengan variabel atau fitur yang digunakan. Selain itu, program yang dibuat akan menampilkan peluang kombinasi dari model pohon keputusan dan regresi logistik. Gambar 9 menampilkan halaman utama dari program. Pada halaman ini terdapat menu identification untuk melakukan identifikasi desa. Menu identification akan menampilkan daftar pertanyaan yang harus diisi untuk proses identifikasi. Tampilan menu Identification dapat dilihat pada Gambar 10.
Gambar 9 Tampilan Utama Program
19
Gambar 10 Tampilan Menu Identification Setelah seluruh pertanyaan diisi program akan menampilkan hasil identifikasi seperti Gambar 11.
Gambar 10 Hasil/Output Identifikasi
KESIMPULAN Melalui analisis simulasi yang telah dilakukan diperoleh simpulan sebagai berikut: 1. Daerah di Pulau Jawa sudah cukup baik dalam pembangunan desa, perlu dilakukan pembangunan desa yang lebih baik di luar Pulau Jawa.
20
2. Algoritme pohon keputusan dan regresi logistik dapat diterapkan dalam data podes. Klasifikasi menggunakan pohon keputusan dengan algoritma J48 menghasilkan akurasi sebesar 74.8%. Sementara itu, klasifikasi menggunakan regresi logistik didapatkan akurasi sebesar 66.6% 3. Peluang sebuah desa dapat diidentifikasi menggunakan algoritme pohon keputusan dan regresi logistik. 4. Peluang sebuah desa masuk dalam kategori tertinggal dengan dapat ditentukan menggunakan kombinasi regresi logistik dan peluang aturan pohon keputusan. Penggunaan kombinasi peluang regresi logistik dan pohon keputusan menghasilkan akurasi yang lebih baik, yaitu sebesar 77% 5. Sistem berbasis web dibuat untuk klasifikasi desa tertinggal di Indonesia dengan menggunakan kombinasi regresi logistik dan pohon keputusan.
DAFTAR PUSTAKA [BPS] Badan Pusat Statistik. [tahun terbit tidak diketahui]. Number and Percentage of Poor People, Poverty Line, Poverty Gap Index, Poverty Severity Index by Province, September 2012. [Internet]. [diunduh 2016 April 12]. Tersedia di http://www.bps.go.id. Ulya F. 2009. Klasifikasi debitur kartu kredit menggunakan algoritme k-nearest neighbor untuk kasus imbalanced data. [skripsi]. Bogor (ID): IPB Faiza NN. 2009. Prediksi tingkat keberhasilan mahasiswa tingkat I IPB dengan metode k-Nearest Neighbor. [skripsi]. Bogor (ID): IPB Fu L. 1994. Neural Network in Computer Intelligence. Singapura: McGraw Hill. Hosmer DW, Lemeshow S. 2000. Applied Logistic Regression. Ed ke-2. New York: John Wiley and Sons, Inc. Mattjik AA, Sumertajaya IM. 2011. Sidik Peubah Ganda dengan Menggunakan SAS. Bogor: IPB Press Tan, Pang-Ning. 2006. Introduction to Data Mining. Boston: Pearson Education, Inc.