MODEL REGRESI LOGISTIK BINER DAN METODE CART DALAM KLASIFIKASI STATUS DESA DI BALI
I NYOMAN PUTRAYASA PENDIT
DEPARTEMEN STATISTIKA FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR 2012
RINGKASAN I NYOMAN PUTRAYASA PENDIT. Model Regresi Logistik Biner dan Metode CART dalam Klasifikasi Status Desa Di Bali. Dibimbing oleh M. MASJKUR dan I MADE SUMERTAJAYA. Pulau Bali merupakan pusat pariwisata di Indonesia yang menjadi tujuan favorit pelancong baik dari mancanegara maupun lokal. Oleh karena itu, perekonomian masyarakat Bali sangat bergantung pada kondisi pariwisata. Namun pembangunan yang terjadi tidak merata pada seluruh wilayah. Hal ini disebabkan oleh beberapa hal misalnya jauhnya desa tersebut dari ibu kota. Untuk menanggulangi hal tersebut pemerintah sebaiknya mencari strategi bagaimana cara menanggulangi kesenjangan pembangunan antar desa tersebut. Langkah pertama yang harus dilakukan pemerintah adalah mencari tahu peubah-peubah yang mempengaruhi status tingkat kemajuan desa di Bali. Analisis yang dapat digunakan untuk membuat klasifikasi adalah metode regresi logistik biner dan metode CART (Classification and Regression Trees). Tujuan dari penelitian ini adalah menerapkan analisis regresi logistik biner dan metode CART untuk melihat hubungan antara peubah respon status desa dan peubah penjelas potensi desa yang mempengaruhi status desa di Bali serta membandingkan hasil dari kedua metode tersebut. Peubah penjelas dalam kasus ini sebanyak 15 peubah. Sebelum melakukan kedua analisis tersebut terlebih dahulu dilakukan kategori ulang peubah penjelas. Dari 15 peubah penjelas tersebut yang berpengaruh signifikan terhadap peubah respon status desa dari hasil regresi logistik biner yaitu bahan bakar, jamban, fasilitas pendidikan, tenaga kesehatan, dan sinyal HP. Model regresi logistik yang terbentuk menghasilkan nilai ketepatan prediksi sebesar 75,8%. Analisis pohon regresi yang terbentuk pada kasus ini menghasilkan pohon optimum dengan tiga simpul terminal. Peubah penjelas yang masuk ke dalam pohon regresi yaitu telepon kabel dan jamban. Peubah yang menjadi penyekat utama adalah peubah kepemilikan telepon kabel. Metode regresi logistik biner dan metode CART dapat disimpulkan secara umum sudah cukup baik dalam memprediksi peubah respon dilihat dari kecilnya perbedaan perbandingan hasil dengan menggunakan nilai ketepatan prediksi dan kurva ROC. Kata kunci : Status Desa, Regresi Logistik Biner, Metode CART
MODEL REGRESI LOGISTIK BINER DAN METODE CART DALAM KLASIFIKASI STATUS DESA DI BALI
I NYOMAN PUTRAYASA PENDIT
Skripsi sebagai salah satu syarat untuk memperoleh gelar Sarjana Statistika pada Departemen Statistika Institut Pertanian Bogor
DEPARTEMEN STATISTIKA FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR 2012
Judul Skripsi : Model Regresi Logistik Biner dan Metode CART dalam Klasifikasi Status Desa Di Bali Nama : I Nyoman Putrayasa Pendit NRP : G14070045
Menyetujui : Pembimbing I,
Pembimbing II,
Ir. M Masjkur, MS NIP. 196106081986011002
Dr. Ir. I Made Sumertajaya, M.Si NIP. 196807021994021001
Mengetahui : Ketua Departemen Statistika Fakultas Matematika dan Ilmu Pengetahuan Alam Institut Pertanian Bogor
Dr. Ir. Hari Wijayanto, M.Si NIP. 196504211990021001
Tanggal Lulus :
KATA PENGANTAR Puji syukur penulis panjatkan kepada Tuhan Yang Maha Esa atas karunia-Nya sehingga karya ilmiah ini berhasil diselesaikan. Karya ilmiah ini berjudul “Model Regresi Logistik Biner dan Metode CART dalam Klasifikasi Status Desa Di Bali. Karya ilmiah ini disusun sebagai salah satu syarat untuk mendapatkan gelar Sarjana Statistika pada Departemen Statistika, Institut Pertanian Bogor. Penulis mengucapkan terima kasih kepada: 1. Bapak Ir. M. Masjkur, MS dan Bapak Dr. Ir. I Made Sumertajaya, M.Si selaku dosen pembimbing yang telah memberikan arahan, saran, dan ilmunya selama penulisan karya ilmiah ini. 2. Bapak Ir. Bambang Sumantri selaku dosen penguji yang telah memberikan saran dan masukan kepada penulis. 3. Bapak Agus M. Soleh, S.Si, MT yang telah memberikan data Podes Provinsi Bali 2008. 4. Keluarga tercinta, bapak, ibu dan kakak yang selalu memberikan doa, semangat, dukungan dan kasih sayang kepada penulis sampai terselesaikannya karya ilmiah ini. 5. A.A. Ayu Putu Puspita Negara atas bantuan dan dukungan kepada penulis. 6. Shela, Thata, Imha, Resty, Allan dan Daonk atas semangat, dukungan dan kebersamaannya selama kuliah. 7. Teman-teman Statistika 44, 45 dan 46 terima kasih atas kebersamaannya. 8. Dollar, Penjor, Bracuk, Jernat, Tungu, Ketel dan Ladang atas kebersamaannya di Mahayana. 9. Semua pihak yang telah membantu penulis dalam penulisan karya ilmiah ini. Demikian karya ilmiah ini penulis susun, semoga karya ilmiah ini dapat bermanfaat bagi semua pihak yang membutuhkan. Penulis menyadari bahwa karya ilmiah ini masih jauh dari kesempurnaan. Oleh karena itu penulis sangat mengharapkan saran dan kritik yang membangun sebagai bahan evaluasi.
Bogor, Februari 2012
I Nyoman Putrayasa Pendit
RIWAYAT HIDUP Penulis dilahirkan di Tabanan pada tanggal 20 Oktober 1989 dan merupakan anak kedua dari dua bersaudara pasangan I Nyoman Darsana Pendit dan Ni Made Suniwati. Penulis Menyelesaikan pendidikan sekolah dasar di SD Saraswati Tabanan pada tahun 2001, pendidikan sekolah menengah pertama di SMP Negeri 1 Tabanan pada tahun 2004, dan pendidikan menengah atas di SMA Negeri 1 Tabanan pada tahun 2007. Penulis diterima di Institut Pertanian Bogor pada tahun 2007 melalui jalur Undangan Seleksi Masuk IPB (USMI) dan tercatat sebagai mahasiswa Departemen Statistika, Fakultas Matematika dan Ilmu Pengetahuan Alam. Selama kuliah penulis aktif dalam berbagai organisasi dan kegiatan kemahasiswaan baik di dalam maupun di luar kampus. Organisasi yang pernah diikuti penulis yaitu Himpunan Keprofesian Gamma Sigma Beta (GSB), Kesatuan Mahasiswa Hindu Dharma (KMHD), dan BRAHMACARYA. Kegiatan yang pernah diikuti penulis yaitu Statistika Ria 2008, Statistika Ria 2009, Studi Banding dan Studi Eksekursi 2009, dan acara pentas seni antar daerah Gebyar Nusantara (GENUS). Selain itu, penulis juga pernah mengikuti kegiatan survey yang diselenggarakan oleh PT NIELSEN dan menjadi asisten dosen untuk mata kuliah Analisis Data Kategorik pada semester ganjil tahun ajaran 2011/2012.
DAFTAR ISI
DAFTAR GAMBAR ...................................................................................................................... vii DAFTAR TABEL ........................................................................................................................... vii DAFTAR LAMPIRAN ................................................................................................................... vii PENDAHULUAN............................................................................................................................. 1 Latar belakang .............................................................................................................................. 1 Tujuan ........................................................................................................................................... 1 TINJAUAN PUSTAKA .................................................................................................................... 1 Regresi Logistik Biner .................................................................................................................. 1 Multikolinieritas ........................................................................................................................... 2 Pohon Regresi dan Klasifikasi ...................................................................................................... 2 Pemilihan Pemilah .................................................................................................................... 3 Penentuan Simpul Terminal ..................................................................................................... 3 Penandaan Label Kelas............................................................................................................. 3 Penentuan Pohon Optimum ...................................................................................................... 3 METODOLOGI ................................................................................................................................ 4 Data ............................................................................................................................................... 4 Metode .......................................................................................................................................... 4 HASIL DAN PEMBAHASAN ......................................................................................................... 4 Gambaran Umum Karakteristik Desa ........................................................................................... 4 Analisis Regresi Logistik Biner .................................................................................................... 6 Interpretasi Koefisien ............................................................................................................... 7 Analisis Pohon Regresi dan Klasifikasi ........................................................................................ 8 Perbandingan Hasil ....................................................................................................................... 9 KESIMPULAN ............................................................................................................................... 10 DAFTAR PUSTAKA ..................................................................................................................... 10 LAMPIRAN .................................................................................................................................... 11
vii
DAFTAR GAMBAR Gambar 1 Diagram CART ................................................................................................................ 3 Gambar 2 Diagram pie status desa .................................................................................................... 5 Gambar 3 Grafik distribusi kategori peubah penghasilan ................................................................. 5 Gambar 4 Pohon klasifikasi optimum ............................................................................................... 8 Gambar 5 Kurva ROC ....................................................................................................................... 9
DAFTAR TABEL Tabel 1 Karakteristik desa maju dan desa tertinggal secara deskriptif .............................................. 5 Tabel 2 Nilai korelasi antar peubah bebas ......................................................................................... 6 Tabel 3 Pengujian parameter secara parsial permodelan awal dengan Uji-Wald .............................. 7 Tabel 4 Pengujian parameter secara parsial metode backward dengan Uji-Wald........................... 7 Tabel 5 Rasio odds model regresi logistik biner ............................................................................... 7 Tabel 6 Ketepatan prediksi model regresi logistik ............................................................................ 8 Tabel 7 Ketepatan prediksi metode CART ....................................................................................... 9
DAFTAR LAMPIRAN Lampiran 1. Peubah-peubah penjelas yang digunakan ................................................................... 12 Lampiran 2. Deskripsi distribusi karakteristik desa ........................................................................ 13 Lampiran 3. Peubah-peubah penjelas setelah dikategori ulang ....................................................... 15 Lampiran 4. Pohon regresi maksimum ............................................................................................ 15
1
PENDAHULUAN
TINJAUAN PUSTAKA
Latar belakang Bali merupakan pusat pariwisata di Indonesia yang menjadi tujuan favorit para pelancong baik dari mancanegara maupun lokal. Hal ini disebabkan oleh banyaknya keanekaragaman budaya juga daya tarik alam yang sangat luar biasa. Oleh karena itu, perekonomian masyarakat Bali sangat bergantung pada kondisi pariwisatanya. Hal ini juga secara tidak langsung mempengaruhi pembangunan daerah. Pembangunan di Bali tidak merata pada seluruh wilayahnya. Jika dilihat dari ruang lingkup kabupaten masih terlihat sama. Tetapi perbedaan pembangunan itu sangat jelas terlihat pada desa-desa di Bali. Hal ini disebabkan oleh beberapa hal misalnya jauhnya desa tersebut dari ibu kota . Untuk menanggulangi hal tersebut pemerintah sebaiknya mencari strategi bagaimana cara menanggulangi kesenjangan pembangunan antar desa tersebut. Langkah pertama yang harus dilakukan pemerintah adalah mencari tahu peubahpeubah yang mempengaruhi status desa di Bali dengan klasifikasi. Analisis yang dapat digunakan untuk membuat klasifikasi adalah metode regresi logistik biner dan metode CART (classification and regression trees). Regresi logistik biner digunakan untuk melihat hubungan antara peubah respon yang berskala kategorik dengan peubah penjelas yang berskala kategorik atau kontinyu. Dari analisis ini juga dapat diperoleh peubahpeubah penjelas yang berpengaruh terhadap status desa. Sedangkan metode CART adalah metode yang umumnya dikenal sebagai pohon keputusan. Prosedur yang dilakukan dalam metode ini adalah membagi desa ke dalam kelompok-kelompok yang lebih kecil berdasarkan peubah respon, dimana ada peubah penjelas yang terpilih yang digunakan untuk pengelompokan peubah penjelas selanjutnya.
Regresi Logistik Biner Analisis regresi logistik merupakan suatu teknik untuk menganalisis data yang peubah responnya memiliki dua atau lebih kategori dengan satu atau lebih peubah penjelas yang berskala kategorik atau kontinu. Hosmer dan Lemeshow (2000) menjelaskan bahwa model regresi logistik dibentuk dengan nilai sebagai , yang dinotasikan sebagai berikut:
Tujuan Tujuan dari penelitian ini adalah: 1. Menerapkan analisis regresi logistik biner dan metode CART untuk melihat hubungan antara peubah respon status desa dan peubah penjelas potensi desa yang mempengaruhi status desa di Bali. 2. Membandingkan hasil dari masing-masing metode.
Suatu fungsi dari dicari dengan menggunakan transformasi logit, yaitu yang dapat dinyatakan sebagai berikut:
Secara umum jika sebuah peubah berskala nominal atau ordinal mempunyai k kemungkinan nilai, maka diperlukan k-1 peubah boneka (dummy variable). Sehingga model transformasi logitnya menjadi:
dimana: : peubah bebas ke-j dengan tingkatan : jumlah peubah boneka : koefisien peubah boneka : 1,2,..., : peubah boneka Pendugaan parameter dalam regresi logistik menggunakan metode kemungkinan maksimum (maximum likelihood estimation), jika antara amatan yang satu dengan yang lain diasumsikan bebas maka fungsi kemungkinan yang diperoleh adalah:
dengan: : 1,2,...,p : pengamatan pada peubah respon ke-i : peluang untuk peubah penjelas ke-i Parameter diduga dengan memaksimumkan persamaan di atas, untuk mempermudah perhitungan maka dilakukan pendekatan logaritma, sehingga fungsi loglikelihoodnya sebagai berikut:
2
Nilai dugaan dapat diperoleh dengan terhadap membuat turunan pertama , dengan Pengujian terhadap parameter-parameter model dilakukan baik secara simultan maupun secara parsial. Menurut Hosmer dan Lemeshow (2000), pengujian parameter model secara simultan menggunakan uji nisbah kemungkinan (Likelihood Ratio Tests), dengan hipotesis: H0: H1: minimal ada satu statistik uji G dirumuskan:
dengan adalah fungsi kemungkinan tanpa peubah penjelas dan merupakan kemungkinan dengan peubah penjelas. Dengan mengasumsikan benar, statistik uji G akan mengikuti sebaran khi kuadrat dengan derajat bebas p. Keputusan tolak jika . Pengujian parameter secara parsial menggunakan statistik uji Wald. Hipotesis yang akan diuji adalah: H0: H1: Statistik uji yang dipakai adalah statistik W yaitu:
dengan sebagai penduga dan sebagai penduga galat baku . Statistik W akan mengikuti sebaran normal baku jika H0 benar. Keputusan tolak H0 diambil jika . Interpretasi koefisien untuk model regresi logistik biner dapat dilakukan dengan menggunakan nilai rasio oddsnya. Odds sendiri dapat diartikan sebagai rasio peluang kejadian sukses dengan kejadian tidak sukses dari peubah respon. Rasio odds mengindikasikan seberapa lebih mungkin munculnya kejadian sukses pada suatu kelompok dibandingkan dengan kelompok lainnya. Rasio odds didefinisikan sebagai: Interpretasi dari rasio odds ini adalah kecendrungan untuk pada sebesar Ψ kali dibandingkan pada . Multikolinieritas Multikolinieritas adalah kondisi dimana peubah penjelas yang saling berkorelasi. Besarnya korelasi dapat dilihat menggunakan koefisien korelasi Spearman Rank. Model
regresi logistik mengansumsikan tidak boleh ada multikolinieritas, karena dengan adanya multikolinieritas standard error dari koefisien regresinya akan membesar sehingga dimungkinkan hasil uji Wald dari masingmasing peubah penjelas akan tidak signifikan. Penanganan multikolinieritas yang dapat dilakukan adalah memilih salah satu peubah penjelas yang bisa digunakan untuk mewakili peubah penjelas lain yang berkorelasi kuat dengannya. Pohon Regresi dan Klasifikasi CART (Classification and Regression Trees) adalah salah satu metode atau algoritma dari salah satu teknik eksplorasi data yaitu teknik pohon keputusan. Metode ini dikembangkan oleh Leo Breiman, Jerome H. Friedman, Richard A. Olshen dan Charles J. Stone sekitar tahun 1980-an. Menurut Breiman et al. (1993), CART merupakan metodologi statistik nonparametrik yang dikembangkan untuk topik analisis klasifikasi, baik untuk peubah respon kategorik maupun kontinu. CART menghasilkan suatu pohon klasifikasi jika peubah responnya kategorik, dan menghasilkan pohon regresi jika peubah responnya kontinu. Tujuan utama CART adalah untuk mendapatkan suatu kelompok data yang akurat sebagai penciri dari suatu pengklasifikasian. Keunggulan dari metode CART adalah tidak perlu dipenuhinya asumsi sebaran oleh semua peubah, serta algoritmanya yang langsung dapat menangani masalah data hilang (Brieman et al. 1993). CART juga tidak dipengaruhi oleh pencilan, kolinieritas, heterokedastisitas atau struktur distribusi galat yang biasanya mempengaruhi metode parametrik. Masalah pencilan data dapat diselesaikan dengan cara yang sederhana oleh metode CART. Pencilan akan diisolasi ke dalam simpul tertentu sehingga tidak mempengaruhi penyekatan (Komalasari 2007). Menurut Yohannes dan Hoddinott (1999), kelemahan dari metode CART adalah hasil akhirnya tidak didasarkan pada model probabilistik. Tidak ada tingkat probabilitas atau selang kepercayaan yang berhubungan dengan dugaan yang didapat dari pohon CART untuk pengelompokan data baru. Pohon regresi dan klasifikasi merupakan penyekatan data secara berulang (rekursif) dan menghasilkan, sekatan yang biner, karena selalu membagi kumpulan data menjadi dua sekatan.
3
Pada Gambar 1, A, B dan C merupakan peubah-peubah penjelas yang terpilih untuk menjadi simpul. A merupakan simpul induk, sementara B dan C merupakan simpul anak dimana C juga merupakan simpul akhir atau simpul terminal yang tidak bercabang lagi. A
Node/ simpul
ya
tidak
C
B
C
simpul
C
simpul terminal
Gambar 1 Diagram CART Algoritma pembentukan pohon klasifikasi terdiri dari empat tahapan, yaitu: pemilihan pemilah; penentuan simpul terminal; penandaan label kelas; dan penentuan pohon dengan ukuran tepat (Kardiana et al. 2006). Pemilihan Pemilah Pada tahap ini dicari pemilah dari setiap simpul yang menghasilkan penurunan tingkat keheterogenan paling tinggi. Keheterogenan suatu simpul diukur berdasarkan nilai impurity-nya. Fungsi impuritas yang dapat digunakan adalah indeks Gini. Bila impuritas suatu simpul semakin besar maka semakin heterogen simpul tersebut (Breiman et al. 1993). Nilai impuritas menggunakan indeks Gini pada simpul t, i(t), dapat ditulis sebagai berikut:
dimana p(j|t) adalah peluang unit pengamatan dalam kelas ke-j dari simpul t yang dinyatakan sebagai berikut:
dengan adalah peluang awal kelas ke-j, adalah banyaknya unit pengamatan dalam kelas ke-j, dan adalah banyaknya unit pengamatan yang termasuk dalam kelas ke-j pada simpul t. Misalkan terdapat calon pemilah s yang memilah t menjadi (dengan proporsi ) dan menjadi (dengan proporsi ), maka kebaikan dari s didefinisikan sebagai penurunan impuritas:
Pengembangan pohon dilakukan dengan , carilah s* yang cara, pada simpul memberikan nilai penurunan impuritas tertinggi yaitu:
maka dipilah menjadi dan menggunakan s*. Dengan cara yang sama dilakukan juga pemilah terbaik pada dan secara terpisah, dan seterusnya. Penentuan Simpul Terminal Suatu simpul t akan menjadi simpul terminal atau tidak akan dipilah kembali, jika jumlah pengamatannya kurang dari jumlah minimum. Umumnya jumlah pengamatan minimum pada simpul sebesar 5 dan terkadang berjumlah 1 (Breiman et al. 1993). Maka selanjutnya t tidak dipilah lagi tetapi dijadikan simpul terminal dan hentikan pembuatan pohon. Penandaan Label Kelas Label kelas dari simpul terminal ditentukan berdasarkan aturan jumlah terbanyak, yaitu jika , maka label kelas untuk terminal t adalah (Breiman et al. 1993). Penentuan Pohon Optimum Pohon klasifikasi tidak dibatasi jumlahnya. pohon terbesar memiliki nilai salah pengklasifikasian terkecil, sehingga kita cenderung memilih pohon tersebut untuk perkiraan. Tetapi, pohon ini cukup kompleks dalam menggambarkan struktur data. Sehingga perlu dipilih pohon optimal yang lebih sederhana tetapi memiliki kesalahan pengklasifikasian yang cukup kecil. Menurut Breiman et al. (1993), salah satu cara mendapatkan pohon optimum yaitu dengan pemangkasan (pruning). Pemangkas berturut-turut memangkas pohon bagian yang kurang penting. Tingkat kepentingan sebuah pohon bagian diukur berdasarkan ukuran biaya kompleksitas (cost-complexity). Persamaannya adalah:
dengan adalah tingkat salah klasifikasi pada pohon bagian untuk k = 1, adalah himpunan simpul terminal pada , adalah banyaknya simpul terminal pada , dan adalah parameter biaya kompleksitas. Hasil proses pemangkasan berupa sederet pohon klasifikasi dan dengan validasi
4
silang (cross-validation sample) dapat ditentukan pohon optimum sebagai berikut : Amanati (2001) melakukan perbandingan analisis regresi logistik dan analisis pohon regresi. Penelitian tersebut menyatakan bahwa metode regresi logistik dan pohon regresi menghasilkan kesimpulan yang sama, tetapi analisis pohon regresi mampu menunjukkan peubah yang paling berpengaruh terhadap peubah respon. METODOLOGI Data Data yang digunakan dalam penelitian ini adalah data sekunder yang bersumber dari data Statistik Potensi Desa Provinsi Bali 2008. Peubah penjelas sebanyak 15 diturunkan dari data potensi desa yang menyangkut aspek potensi desa, aspek perumahan dan lingkungan, serta aspek keadaan penduduk dapat dilihat pada Lampiran 1. Sedangkan peubah respon diturunkan dari informasi status desa adalah sebagai berikut: Y : Status desa 0: Tertinggal 1: Maju Metode Tahapan-tahapan yang akan dilakukan dalam penelitian ini adalah: 1. Analisis statistik deskriptif terhadap peubah respon. 2. Analisis regresi logistik biner. Tahapannya adalah sebagai berikut: a. Menduga parameter. b. Melakukan pengujian parameter secara keseluruhan dengan Uji-G. Hipotesis yang diuji adalah : H0 : H1 : minimal ada satu , dengan hipotesis nol ditolak jika c. Melakukan pengujian parameter secara parsial dengan Uji-Wald. Hipotesis yang diuji adalah : H0 : H1 : , dengan hipotesis nol ditolak jika d. Melakukan evaluasi terhadap model penuh. e. Mereduksi peubah-peubah penjelas dengan metode backward. f. Menduga parameter.
g. Melakukan pengujian parameter dengan prosedur yang sama seperti pada tahapan b dan c. h. Memodelkan status desa berdasarkan peubah penjelas yang berpengaruh nyata. i. Interpretasi hasil. 3. Analisis CART. Tahapannya adalah sebagai berikut: a. Menentukan semua kemungkinan pemilah pada setiap peubah penjelas. Hitung keheterogenan simpul. Lakukan untuk semua peubah penjelas sehingga didapat peubah sebagai pemilah terbaik dengan penurunan keheterogenan maksimum. b. Jika simpul induk sudah didapatkan, maka simpul anak dapat dibuat dengan cara yang sama seperti proses sebelumnya. c. Pembentukan pohon akan berhenti jika hanya terdapat 5 amatan pada simpul. d. Pelabelan kelas dari simpul terminal ditentukan berdasarkan aturan jumlah terbanyak. e. Pembentukan pohon optimal dengan pemangkasan. Pemangkasan dilakukan dengan cross-validation. f. Interpretasi hasil. 4. Membandingkan hasil dari analisis regresi logistik biner dan metode CART dengan melihat peluang kesalahan klasifikasi dan kurva Receiver Operating Characteristic (ROC). Proses analisis dilakukan dengan menggunakan software statistika. HASIL DAN PEMBAHASAN Gambaran Umum Karakteristik Desa Banyaknya desa yang digunakan dalam penelitian ini adalah 712 desa yang merupakan seluruh desa di Bali. Jumlah desa yang termasuk dalam kategori maju sebanyak 496 desa (69.66%) dan termasuk dalam kategori tertinggal sebanyak 216 desa (30.34%). Hal ini menunjukkan bahwa sebagain besar desa di Bali sudah termasuk dalam kategori maju (Gambar 2). Sebagian besar karakteristik desa yang dianalisis memiliki sumber penghasilan utama di bidang pertanian, terdapat penerangan jalan utama desa, bahan bakar memasak dengan kayu bakar, membuang sampah di tempat lainnya, memiliki jamban sendiri, jalan utama desa berupa aspal atau beton, sinyal HP kuat,
5
dan tidak terdapat kompleks pertokoan. Untuk variabel bebas listrik, seluruh keluarga menggunakan listrik. Pada Lampiran 2 dan Tabel 1 di bawah menjelaskan karakteristik desa berdasarkan statusnya. Status Desa 30.34%
Tabel 1 Karakteristik desa maju dan desa tertinggal secara deskriptif. (lanjutan) Maju
Tertinggal
X8
fslts_ktrmpln
fslts_ktrmpln
jml_fslts_ktrmpln
0.80
0.14
X9
fslts_kshtn
fslts_kshtn
jml_fslts_kshtn
4.09
3.19
X10
tng_kshtn
tng_kshtn
jml_tng_kshtn
8.31
4.00
X11
aspal/beton
aspal/beton
jln_utm_ds
99.80%
95.37%
X12
tlpn_kabel
tlpn_kabel
jml_plnggn_tlpn
254.36
39.87
tertinggal
69.66%
maju Gambar 2 Diagram pie status desa Meskipun kategori maju dan tertinggal cenderung memiliki kesamaan karakteristik, namun terjadi perbedaan pada rata-rata jumlah fasilitas pendidikan, jumlah fasilitas keterampilan, jumlah tenaga kesehatan, dan keberadaan pasar permanen atau semi permanen. Desa dengan status maju memiliki rata-rata jumlah fasilitas pendidikan, fasilitas keterampilan, dan tenaga kesehatan lebih tinggi dibandingkan desa dengan status tertinggal. Keberadaan pasar juga dapat memperlihatkan bahwa sebagian besar desa maju memiliki pasar permanen atau semi permanen sedangkan desa tertinggal tidak. Tabel 1
X13
ada_kuat
ada_kuat
sinyal_hp
96.17%
84.72%
X14
tdk_toko
tdk_toko
kmplk_prtkoan
72.98%
89.81%
X15
ada_pasar
tdk_pasar
psr_prmanen
54.84%
60.19%
Distribusi dari masing-masing kategori peubah bebas sebagian besar tidak merata. Salah satu contohnya dapat dilihat pada Gambar 3. Peubah sumber penghasilan utama penduduk sebagian besar pada bidang pertanian. Sedangkan untuk bidang-bidang yang lain sangat sedikit.
Karakteristik desa maju dan desa tertinggal secara deskriptif.
Peubah
Modus
Peubah
Sumber Penghasilan Utama Penduduk
Modus Maju
Tertinggal
400
X1
Pertanian
Pertanian
350
pnghsln_pnddk
73.79%
90.74%
300
X2
Listrik
Listrik
250
pngguna_lstrk
100%
100%
X3
Pnrngan_jln
Pnrngan_jln
pnrngan_jln_utm
99.19%
pertanian
jumlah
pertambangan industri
200 150
perdagangan
95.83%
100
jasa
50
X4
kayu_bkr
kayu_bkr
bhn_bkr_msk
58.47%
91.20%
X5
Lainnya
Lainnya
tmpt_smph
42.34%
75.93%
X6
jamban_sndr
jamban_sdr
jamban
89.11%
67.59%
X7
fslts_pnddkn
fslts_pnddkn
jml_fslts_pnddkn
6.81
4.44
lainnya
0 tertinggal
maju
status desa
Gambar 3 Grafik distribusi kategori peubah penghasilan
6
Tabel 2 Nilai korelasi antar peubah bebas X1 X2 X3 X4 X5 X6
X7
X8
X9
X10
X11
X12
X13
X14
X1
1.00
X2
0.00
0.00
X3
0.05
0.00
1.00
X4
-0.60
0.00
-0.07
1.00
X5
-0.60
0.00
-0.02
0.63
1.00
X6
-0.16
0.00
-0.12
0.23
0.16
1.00
X7
0.28
0.00
0.09
-0.33
-0.33
-0.07
1.00
X8
0.38
0.00
0.07
-0.41
-0.45
-0.14
0.46
1.00
X9
0.37
0.00
0.10
-0.40
-0.42
-0.17
0.56
0.43
1.00
X10
0.35
0.00
0.04
-0.38
-0.38
-0.19
0.54
0.35
0.57
1.00
X11
-0.04
0.00
0.02
0.09
0.07
0.14
-0.02
-0.04
-0.08
-0.06
1.00
X12
0.57
0.00
0.14
-0.59
-0.55
-0.31
0.47
0.44
0.53
0.56
-0.12
1.00
X13
0.15
0.00
0.01
-0.19
-0.15
-0.30
0.09
0.13
0.18
0.17
0.04
0.25
1.00
X14
0.45
0.00
0.05
-0.39
-0.45
-0.13
0.44
0.46
0.46
0.40
-0.07
0.50
0.14
1.00
X15
0.20
0.00
0.10
-0.25
-0.23
-0.03
0.43
0.30
0.37
0.33
0.06
0.31
0.16
0.37
Oleh karena kurang meratanya distribusi masing-masing kategori pada peubah penjelas, maka perlu dilakukan proses kategori ulang. Proses ini bertujuan untuk mempermudah proses analisis dan hasilnya akan menjadi lebih baik. Sebagai salah satu contoh peubah penjelas sumber penghasilan utama penduduk pada awalnya memiliki tujuh kategori yaitu: 1. Pertanian 2. Pertambangan dan penggalian 3. Industri pengolahan 4. Perdagangan besar/eceran, rumah makan 5. Angkutan, pergudangan, komunikasi 6. Jasa 7. Lainnya dikategorikan ulang menjadi dua kategori. Dua kategori tersebut adalah : 1. Pertanian 2. Non Pertanian (pertambangan dan penggalian, industri pengolahan, perdagangan besar/ eceran, rumah makan, angkutan, pergudangan, komunikasi, jasa, lainnya) Kategori pertanian menjadi satu kategori karena paling banyak dibanding kategori lainnya. Untuk kategori ulang peubah penjelas lainnya dapat dilihat pada Lampiran 3. Analisis Regresi Logistik Biner Analisis regresi memiliki beberapa asumsi yang harus dipenuhi sebelum dilakukannya proses pengolahan data. Asumsi yang biasanya wajib dipenuhi adalah kasus data hilang dan multikolinieritas. Kasus data hilang
dalam penelitian ini diatasi dengan mengisi data yang kosong dengan data dari amatan yang mirip atau sejenis dengan amatan tersebut. Dalam mendeteksi multikolinieritas terdapat beberapa prosedur yang bisa digunakan. Cara yang paling sederhana adalah melalui korelasi antar peubah. Korelasi antar peubah yang terlalu tinggi (di atas 0.8 atau 0.9) menunjukkan data terjangkit multikolinieritas (Field 2000). Sehingga dapat dikatakan dalam penelitian ini tidak terdapat multikolinieritas dilihat dari nilai korelasi pada Tabel 2 di atas. Pendugaan model regresi logistik biner dengan menggunakan lima belas peubah penjelas menghasilkan nilai statistik-G sebesar 180.302 dengan nilai-p = 0.000. Pengambilan keputusan dilakukan dengan membandingkan nilai statistik-G dengan nilai khi-kuadrat dari tabel, = 24,996. Keputusannya adalah tolak H0, artinya bahwa sedikitnya ada satu yang tidak sama dengan nol pada taraf nyata 5%. Pengujian parameter secara parsial dengan statistik uji-Wald menghasilkan tiga peubah yang nyata pada taraf nyata 5% dengan nilai khi-kuadrat tabel sebesar 3,841. Ketiga peubah tersebut adalah bahan bakar, jamban, dan fasilitas pendidikan (Tabel 3). Karena terdapat banyak peubah penjelas yang tidak nyata, maka dilakukan pereduksian peubah penjelas dengan menggunakan metode backward. Proses pereduksian menggunakan metode backward menghasilkan tujuh peubah
X15
1.00
7
penjelas. Ketujuh peubah tersebut adalah bahan bakar, jamban, fasilitas pendidikan, tenaga kesehatan, jalan(1), jalan(2), dan sinyal HP. Nilai statistik-G padal model reduksi sebesar 170.697 dengan nilai-p = 0.000. Nilai statistik-G dibandingkan dengan nilai khikuadrat tabel = 14,067, sehingga kesimpulannya adalah tolak H0 pada taraf nyata 5%. Berarti terdapat yang tidak sama dengan nol. Pengujian parameter secara parsial dengan menggunakan statistik ujiWald menghasilkan lima peubah yang nyata pada taraf nyata 5%. Kelima peubah tersebut adalah bahan bakar, jamban, fasilitas pendidikan, tenaga kesehatan, dan sinyal HP (Tabel 4). Tabel 3 Pengujian parameter secara parsial permodelan awal dengan Uji-Wald. Peubah Wald p-value
Model logit terbaik yang dihasilkan adalah sebagai berikut: g(x) = 0.483 – 1.223 X4(1) – 1.405 X6(1) + 0.118 X7 + 0.502 X10 + 0.667 X13(1) Interpretasi Koefisien Interpretasi koefisien untuk model regresi logistik biner dapat dilakukan dengan melihat nilai rasio oddsnya. Nilai dugaan beserta selang kepercayaan 95% bagi rasio odss untuk kelima peubah penjelas dapat dilihat pada Tabel 5. Tabel 5 Rasio odds model regresi logistik biner. Peubah Penduga SK 95% bagi Rasio
Rasio Odds
Odds
Lower
Upper
X4(1)
0.294
0.172
0.503
X6(1)
0.245
0.139
0.434
pnghsln_pnddk(1)
1.564
0.211
pnrngn_jln(1)
1.936
0.164
bhn_bkr_msk(1)
13.232
0.000
X7
1.125
1.047
1.209
tmpt_smph(1)
0.003
0.955
X10
1.054
1.008
1.102
jamban(1)
20.237
0.000
X13(1)
1.948
1.018
3.728
fslts_pnddkn
4.260
0.039
fslts_ktrmpln
1.092
0.296
fslts_kshtn
1.767
0.184
tng_kshtn
2.835
0.092
jln_utm(1)
0.000
0.999
jln_utm(2)
2.667
0.102
tlpn_kbl
1.449
0.229
sinyal_hp(1)
3.323
0.068
prtokoan(1)
0.892
0.345
pasar(1)
0.016
0.899
Tabel 4 Pengujian parameter secara parsial metode backward dengan Uji-Wald. Peubah Wald p-value bhn_bkr_msk(1)
20.016
0.000
jamban(1)
23.283
0.000
fslts_pnddkn
10.207
0.001
tng_kshtn
5.267
0.022
jln_utm(1)
0.000
0.999
jln_utm(2)
2.749
0.097
sinyal_hp(1)
4.050
0.044
Koefisien peubah bahan bakar memasak (X4) bernilai negatif dengan nilai rasio odds kurang dari satu. Desa yang sebagian besar penduduknya masih menggunakan kayu bakar atau lainnya mempunyai kecenderungan untuk menjadi desa maju 0.294 kali dibandingkan dengan desa yang sebagian besar penduduknya sudah mengunakan gas LPG atau minyak tanah. Pengertian yang setara bahwa desa dengan penduduk yang sudah menggunakan gas LPG dan minyak tanah memiliki kecenderungan 3.401 kali untuk menjadi desa maju. Desa yang tempat buang air besar sebagian besar keluarganya (X6) bukan jamban memiliki kecenderungan untuk menjadi desa maju 0.245 kali dibandingkan dengan desa yang tempat buang air besar sebagian besar keluarganya pada jamban sendiri, bersama atau umum. Pengertian yang setara bahwa desa yang keluarganya sebagian besar buang air besar pada jamban sendiri, bersama, atau umum memiliki kecenderungan 4.082 kali untuk menjadi desa maju. Peubah fasilitas pendidikan (X7) diperoleh nilai rasio oddsnya sebesar 1.125, berarti setiap bertambahnya 1 unit sekolah pada suatu desa akan meningkatkan kecenderungan untuk menjadi desa maju sebesar 1.125 kali. Berarti semakin meningkat jumlah sekolah akan
8
meningkatkan kecenderungan desa tersebut menjadi desa maju semakin tinggi. Nilai rasio odds untuk peubah tenaga kesehatan (X10) 1.054. Artinya setiap penambahan satu orang tenaga kesehatan di desa tersebut akan meningkatkan kecenderungan untuk menjadi desa maju sebesar 1.054 kali. Hal ini dapat diartikan juga bahwa dengan bertambahnya jumlah tenaga kesehatan akan meningkatkan kecenderungan desa tersebut menjadi desa maju semakin tinggi. Interpretasi untuk nilai rasio odds dari peubah sinyal HP (X13) adalah sebesar 1.948. Artinya adalah desa dengan sinyal HP kuat mempunyai kecenderungan untuk menjadi desa maju 1.948 kali dibanding desa dengan sinyal HP yang lemah atau tidak ada. Tabel 6 Ketepatan prediksi model regresi logistik. Prediksi % Aktual tertinggal maju benar tertinggal maju
73 29 % keseluruhan
143 467
33.8 94.2 75.8
Berdasarkan Tabel 6 di atas dapat dilihat bahwa dari 216 desa tertinggal sebanyak 73 desa diklasifikasikan dengan benar, sedangkan dari 496 desa maju sebanyak 467 desa diklasifikasikan dengan benar. Persentase masing-masing hasil klasifikasi sebesar 33.8% dan 94.2% dengan total klasifikasi yang benar dari 712 desa adalah 75.8%. Kesalahan prediksi untuk desa tertinggal yang diprediksi maju sangat besar pada metode regresi logistik yaitu sebanyak 143 desa. Hal ini dapat disebabkan oleh pengkategorian ulang dari peubah penjelas. Sehingga akan merugikan bagi desa tersebut dan pemerintah yang ingin memberikan bantuan untuk pembangunan bagi desa yang masih tertinggal. Maka dari itu model ini dapat dikatakan belum cukup baik diterapkan pada desa tertinggal. Analisis Pohon Regresi dan Klasifikasi Metode pohon klasifikasi menampilkan hasil berupa pohon keputusan. Pohon klasifikasi dibentuk dari peubah penjelas yang sudah dikategori ulang sebelumnya. peubah yang paling berpengaruh akan menjadi pemilah pertama pada pohon keputusan. Pohon klasifikasi maksimum yang dihasilkan memiliki sepuluh simpul anak dengan enam simpul terminal (Lampiran 4).
Menurut Breiman et al. (1993), pohon optimum dapat diperoleh melalui pemangkasan berdasarkan aturan Cost Complexity Minimum dan penggunaan validasi silang lipat-10 (10-fold Cross Validation). Sehingga didapat pohon optimum yang memilki empat simpul anak dengan tiga simpul terminal (Gambar 4). Peubah penjelas yang masuk ke dalam pohon klasifikasi yaitu telepon kabel dan jamban. Peubah pertama yang menyekat adalah kepemilikan telepon kabel. Hal ini menyatakan bahwa peubah tersebut merupakan peubah yang paling dominan dalam pembentukan pohon klasifikasi. Desa yang bejumlah 712 pada simpul pertama (simpul 0) dipilah menjadi kelompok kiri dan kelompok kanan oleh peubah telepon kabel. Desa yang penduduknya memiliki telepon kabel kurang dari sama dengan 11,5 keluarga sebanyak 320 desa mengelompok pada simpul 1 (kiri) sedangkan desa yang pendidiknya memiliki telepon kabel lebih dari 11,5 sebanyak 392 mengelompok pada simpul 2 (kanan). Simpul 2 merupakan simpul terminal. Penurunan nilai impuritas dalam hal ini menggunakan indeks Gini pada simpul pertama sebesar 0,0499 ditunjukan oleh improvement pada Gambar 4.
Gambar 4 Pohon klasifikasi optimum Terdapat 320 desa pada simpul 1 yang dipilah lagi menjadi dua kelompok oleh peubah jamban. Desa yang sebagian besar penduduknya membuang air besar di jamban sendiri, jamban bersama, atau jamban umum
9
sebanyak 248 desa mengelompok pada simpul 3 (kiri) sedangkan desa yang sebagian besar penduduknya membuang air besar di bukan jamban sebanyak 72 desa mengelompok pada simpul 4 (kanan). Simpul 3 dan 4 merupakan simpul terminal. Penurunan nilai impuritas dalam hal ini menggunakan indeks Gini pada simpul 1 sebesar 0,0174. Hasil pohon klasifikasi optimum yaitu tiga klasifikasi status desa. Klasifikasi yang terbentuk adalah sebagai berikut : 1. Jumlah pemilik telepon kabel dan sebagian besar membuang air besar di jamban sendiri, bersama, atau umum. 2. Jumlah pemilik telepon kabel dan sebagian besar membuang air besar di bukan jamban. 3. Jumlah pemilik telepon kabel . Klasifikasi pertama berjumlah 248 desa dengan label kelas desa tersebut termasuk dalam kategori desa maju. Klasifikasi kedua memiliki label kelas tertinggal yang berjumlah 72 desa. Sedangkan kategori ketiga memiliki jumlah terbanyak yaitu 392 desa dengan label kelas maju. Tingkat ketepatan pengklasifikasian pada metode ini adalah 74,4%. Dari total 216 desa tertinggal sebanyak 53 desa diklasifikasikan dengan benar, sedangkan dari 496 desa maju sebanyak 477 desa diklasifikasikan dengan benar. Kesalahan prediksi untuk desa tertinggal yang diprediksi maju sangat besar pada metode CART yaitu sebanyak 163 desa. Hal ini dapat disebabkan oleh pengkategorian ulang dari peubah penjelas. Sehingga dapat dikatakan model ini belum cukup baik diterapkan pada desa tertinggal (Tabel 7).
besar 1.4% dari metode CART. Akan tetapi dapat dikatakan bahwa kedua metode tersebut sudah cukup baik dalam memprediksi peubah respon dalam kasus ini status desa. Perbedaan tingkat ketepatan prediksi dapat disebabkan oleh oleh perbedaan hasil pengklasifikasian. Dalam regresi logistik peubah bebas yang terpilih sebagai peubah yang berpengaruh terhadap peubah respon adalah bahan bakar, jamban, fasilitas pendidikan, tenaga kesehatan, dan sinyal HP. Sedangkan pada metode CART peubah yang terpilih adalah telepon kabel dan jamban. Peubah jamban merupakan peubah yang konsisten berpengaruh pada analisis regresi logistik maupun metode CART.
(a)
Tabel 7 Ketepatan prediksi metode CART. Prediksi % Aktual tertinggal maju benar tertinggal maju
53
163
24.5
19
477
96.2
% keseluruhan
74.4
Perbandingan Hasil Menurut Hosmer dan Lemeshow (2000) salah satu ukuran kebaikan model adalah jika memiliki peluang kesalahan klasifikasi yang minimal dan ketepatan prediksi dari model. Dari Tabel 2 diperoleh total ketepatan prediksi analisis regresi logistik sebesar 75,8% dan dari Tabel 4 diperolah total ketepatan prediksi motede CART sebesar 74,4%. Hal ini menunjukkan bahwa metode regeresi logistik memiliki nilai ketepatan prediksi yang lebih
(b) Gambar 5 Kurva ROC, (a) regresi logistik, (b) CART
10
Kebaikan model yang dihasilkan oleh kedua metode juga dapat dilihat dari kurva receiver operating characteristic (ROC). Semakin luas area di bawah kurva maka semakin baik model tersebut. Dari hasil yang diperoleh, metode regresi logistik biner memiliki luas di bawah kurva sebesar 0.788 sedangkan metode CART memiliki luas di bawah kurva sebesar 0.771. Kedua metode dapat dikatakan sudah cukup baik dalam memprediksi peubah respon dilihat dari kecilnya perbedaan luas area di bawah kurva ROC (Gambar 5). KESIMPULAN Peubah-peubah yang signifikan terhadap peubah respon status desa dari hasil regresi logistik biner yaitu bahan bakar, jamban, fasilitas pendidikan, tenaga kesehatan, dan sinyal HP. Model logit yang didapatkan adalah g(x) = 0.483 – 1.223 X4(1) – 1.405 X6(1) + 0.118 X7 + 0.502 X10 + 0.667 X13(1) Pohon klasifikasi yang terbentuk pada kasus ini menghasilkan pohon optimum dengan tiga simpul terminal. Peubah penjelas yang masuk ke dalam pohon klasifikasi yaitu telepon kabel dan jamban. Peubah yang menjadi penyekat utama adalah peubah kepemilikan telepon kabel. Perbandingan hasil dari kedua analisis tersebut menunjukkan bahwa metode regeresi logistik memiliki nilai ketepatan prediksi yang lebih besar 1.4% dari metode CART. Selain itu, metode regresi logistik juga memiliki luas area di bawah kurva ROC lebih luas dibandingkan dengan metode CART. Kedua metode tersebut dapat disimpulkan secara umum sudah cukup baik dalam memprediksi peubah respon dilihat dari kecilnya perbedaan perbandingan hasil dengan menggunakan nilai ketepatan prediksi dan kurva ROC. Tetapi kedua model tersebut secara khusus belum cukup baik diterapkan pada desa tertinggal. DAFTAR PUSTAKA Amanati ANN. 2001. Perbandingan Analisis Regresi Logistik dan Analisis Pohon Regresi (Studi Kasus pada Pengelompokan Nasabah Bank Syariah dan Nasabah Bank konvensional) [Skripsi]. Bogor: Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor.
Breiman L, JH Friedman, RA Olshen, CJ Stone. 1993. Classification and Regression Trees. New York: Champan and Hall. Field AP. 2000. Discovering Statistics Using SPSS for Windows: Advanced Techniques for the Beginner. London: Sage. Hosmer DW, S Lemeshow. 2000. Applied Logistic Regression. New York: John Wiley & Sons, Inc. Kardiana A, Aunuddin, AH Wigena, H Wijayanto. 2006. Metode Klasifikasi Berstruktur Pohon Biner: Kasus Prakiraan Sifat Hujan Bulanan di Bogor. Yogyakarta, 17 Juni 2006. Seminar Nasional Aplikasi Teknologi Informasi (SNATI). hlm: G21-G25. Komalasari WB. 2007. Metode Pohon Regresi untuk Eksplorasi Data dengan Peubah yang Banyak dan Kompleks. Informatika Pertanian Volume 16 No. 1, Juli 2007. hlm: 967-980. Yohannes Y, J Hoddinott. 1999. Classification and Regression Trees. Trees: An Intoduction. International Food Policy Research Institute (IFPPRI). Washington D.C., USA.
11
LAMPIRAN
12
Lampiran 1. Peubah-peubah penjelas yang digunakan Kode Peubah X1
Nama Peubah Sumber penghasilan utama sebagian besar penduduk
X2
Keluarga pengguna listrik
X3
Penerangan jalan utama desa/kelurahan
X4
Bahan bakar yang digunakan oleh sebagian besar keluarga untuk memasak
X5
Sebagian besar penduduk membuang sampah ke
X6
Tempat buang air besar sebagian besar keluarga
X7 X8 X9 X10 X11
Fasilitas pendidikan Fasilitas keterampilan Fasilitas kesehatan Tenaga kesehatan Jenis permukaan jalan yang terluas
X12 X13
Keluarga yang berlangganan telepon kabel Sinyal telepon genggam/hand phone/mobile phone di desa/kelurahan ini
X14
Kelompok pertokoan
X15
Pasar dengan bangunan permanen/semi permanen
Kategori 1. Pertanian 2. Pertambangan dan penggalian 3. Industri pengolahan 4. Perdagangan besar/eceran, rumah makan 5. Angkutan, pergudangan, komunikasi 6. Jasa 7. Lainnya (gas, listrik, perbankan, dll) 0. Tidak ada 1. Ada 0. Tidak ada 1. Ada 1. Gas kota/LPG 2. Minyak tanah 3. Kayu bakar 4. Lainnya (batu bara, arang, dll) 1. Tempat sampah kemudian diangkut 2. Dalam lubang/dibakar 4. Sungai 8. Lainnya 1. Jamban sendiri 2. Jamban umum 3. Jamban bersama 4. Bukan jamban
1. Aspal/beton 2. Diperkeras (kerikil, batu, dsb) 3. Tanah 4. Lainnya
0. Tidak ada 1. Ada lemah 2. Ada kuat 0. Tidak ada 1. Ada 0. Tidak ada 1. Ada
13
Lampiran 2. Deskripsi distribusi karakteristik desa Keluarga Pengguna Listrik
Tempat Membuang Sampah Penduduk 250
600 200
400 300
ada
jumlah
jumlah
500
150 tempat sampah 100
lubang
200
sungai
50 100
tertinggal
tertinggal
maju
Penerangan Jalan Utama Desa
Tempat Buang Air Besar Penduduk
600 500
300 tidak ada
jumlah
400
200 ada 100 0 tertinggal
status desa
maju
status desa
status desa
jumlah
lainnya
0
0
500 450 400 350 300 250 200 150 100 50 0
maju
jamban sendiri jamban bersama bukan jamban
tertinggal
maju
status desa
Bahan Bakar Memasak Penduduk
Jenis Permukaan Jalan Utama Desa
350
600
300
500 400
200
LPG
150
minyak tanah
100
kayu bakar
50
jumlah
jumlah
250 aspal
300
kerikil/batu 200
tanah
100
0
0 tertinggal
maju
status desa
tertinggal
status desa
maju
14
Lampiran 2. (Lanjutan) Sinyal Telepon Genggam 600 500
jumlah
400 tidak ada
300
ada lemah 200 ada kuat 100 0 tertinggal
maju
status desa
Kelompok Pertokoan 400 350
jumlah
300 250 200
tidak ada
150
ada
100 50 0 tertinggal
maju
status desa
Pasar Permanen / Semi Permanen 300 250
jumlah
200 150
tidak ada
100
ada
50 0 tertinggal
status desa
maju
15
Lampiran 3. Peubah-peubah penjelas setelah dikategori ulang Kode Peubah X1
Nama Peubah
Kategori
Sumber penghasilan utama sebagian besar penduduk
X2
Keluarga pengguna listrik
X3
Penerangan jalan utama desa/kelurahan
X4
Bahan bakar yang digunakan oleh sebagian besar keluarga untuk memasak
X5
Sebagian besar penduduk membuang sampah ke
X6
Tempat buang air besar sebagian besar keluarga
1. Pertanian 2. Pertambangan dan penggalian Industri pengolahan Perdagangan besar/eceran, rumah makan Angkutan, pergudangan, komunikasi Jasa Lainnya (gas, listrik, perbankan, dll) 0. Tidak ada 1. Ada 0. Tidak ada 1. Ada 1. Gas kota/LPG Minyak tanah 2. Kayu bakar Lainnya (batu bara, arang, dll) 1. Tempat sampah kemudian diangkut 2. Dalam lubang/dibakar Sungai Lainnya 1. Jamban sendiri Jamban umum Jamban bersama 2. Bukan jamban
X7 X8 X9 X10 X11
Fasilitas pendidikan Fasilitas keterampilan Fasilitas kesehatan Tenaga kesehatan Jenis permukaan jalan yang terluas
X12 X13
Keluarga yang berlangganan telepon kabel Sinyal telepon genggam/hand phone/mobile phone di desa/kelurahan ini
X14
Kelompok pertokoan
X15
Pasar dengan bangunan permanen/semi permanen
1. Aspal/beton 2. Diperkeras (kerikil, batu, dsb) 3. Tanah 4. Lainnya
1. Tidak ada Ada lemah 2. Ada kuat 0. Tidak ada 1. Ada 0. Tidak ada 1. Ada
16
Lampiran 4. Pohon regresi maksimum