KAJIAN PENENTUAN KLASIFIKASI DESA DI INDONESIA
SHAFA ROSEA SURBAKTI
SEKOLAH PASCASARJANA INSTITUT PERTANIAN BOGOR BOGOR 2015
PERNYATAAN MENGENAI TESIS DAN SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA Dengan ini saya menyatakan bahwa tesis berjudul “Kajian Penentuan Klasifikasi Desa di Indonesia” adalah benar karya saya dengan arahan dari komisi pembimbing dan belum diajukan dalam bentuk apapun kepada perguruan tinggi manapun. Sumber informasi yang berasal atau dikutip dari karya yang diterbitkan maupun tidak diterbitkan dari penulis lain telah disebutkan dalam teks dan dicantumkan dalam Daftar Pustaka di bagian akhir tesis ini. Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut Pertanian Bogor. Bogor, Juni 2015
Shafa Rosea Surbakti G152130434
* Pelimpahan hak cipta atas karya tulis dari penelitian kerjasama dengan pihak luar IPB harus didasarkan pada perjanjian kerjasama yang terkait
RINGKASAN SHAFA ROSEA SURBAKTI. Kajian Penentuan Klasifikasi Desa di Indonesia. Dibimbing oleh ERFIANI dan BAGUS SARTONO. Penggolongan wilayah kelurahan/desa ke dalam status perkotaan/perdesaan pada dasarnya dimaksudkan untuk membentuk suatu lapisan (strata) yang digunakan dalam teknik pengambilan contoh dalam survei. Dengan adanya status perkotaan dan perdesaan, diharapkan contoh yang terambil dapat mewakili keseluruhan populasi dengan baik. Regresi logistik merupakan salah satu metode regresi dimana peubah responnya merupakan data kategorik. Regresi logistik biner digunakan jika peubah respon terdiri dari dua kategori. Metode ini juga dapat digunakan untuk klasifikasi data. Bootstrap, dikenal sebagai salah satu metode simulasi data, dimaksudkan untuk menyederhanakan analisis statistik inferensia namun menghasilkan analisis yang lebih robust. Tujuan dari penelitian ini untuk melakukan kajian pemilihan peubah yang paling berpengaruh dalam penentuan klasifikasi desa di Indonesia dengan metode perpaduan bootstrap dan regresi logistik biner. Data yang digunakan kasus ini adalah data pendataan Potensi Desa (PODES) 2011 yang dilakukan oleh Badan Pusat Statistik dengan jumlah peubah prediktor sebanyak 15 buah. Hasil penelitian menunjukkan bahwa pengurangan sebelas peubah (X1X11) dalam penentuan klasifikasi desa di Indonesia menjadi lima peubah mampu menghasilkan model yang sama baiknya. Model dengan penambahan empat peubah prediktor baru mampu menaikkan tingkat ketepatan klasifikasi. Penggunaan metode bootstrap dalam seleksi peubah terbukti lebih baik dibandingkan seleksi peubah yang hanya melihat hasil uji parsial saja. Kata Kunci: bootstrap, klasifikasi desa, regresi logistik biner
SUMMARY SHAFA ROSEA. INDEPTH STUDIES OF DETERMINANTS VILLAGE CLASSIFICATION IN INDONESIA. Supervised by ERFIANI and BAGUS SARTONO. Classification of “kelurahan” and rural area into urban/rural class basically meant to form a layer (stratum) were used in the survey sampling techniques. With the status of urban and rural areas, the sample can represent the entire population correctly. Proper selection of variables could distinguish village into urban and rural class. Logistik regression is one of regressions method where the response variable is categorical data. Binary logistik regression was used when the response variable consists of two categories. This method can also be used for data classification. Bootstrap, is known as one of the data simulation method, intended to simplify the inferential statistikal analysis but produces a more robust analysis. The purpose of this study was to do some studies in selection of the most influential variables in determining the classification of villages in Indonesia with a mix method of bootstrap and binary logistik regression. The data used in this case is data Potensi Desa (PODES) 2011 which conducted by Badan Pusat Statistik with consist of 15 predictor variable. The results showed that reduction of eleven variables (X1-X11) in determining the classification of villages in Indonesia into five variables able to produce models that are just as good as previous model. The model with the addition of four new predictor variables were able to raise the level of accuracy of the classification. The use of bootstrap method in variables selection was proved better than variables selection that only see partial test results alone. Keywords: bootstrap, village classification, binary logistik regression
© Hak Cipta Milik IPB, Tahun 2015 Hak Cipta Dilindungi Undang-Undang Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan atau menyebutkan sumbernya. Pengutipan hanya untuk kepentingan pendidikan, penelitian, penulisan karya ilmiah, penyusunan laporan, penulisan kritik, atau tinjauan suatu masalah, dan pengutipan tersebut tidak merugikan kepentingan IPB Dilarang mengumumkan dan memperbanyak sebagian atau seluruh karya tulis ini dalam bentuk apapun tanpa izin IPB
KAJIAN PENENTUAN KLASIFIKASI DESA DI INDONESIA
SHAFA ROSEA SURBAKTI
Tesis sebagai salah satu syarat untuk memperoleh gelar Magister Sains pada Program Studi Statistika Terapan
SEKOLAH PASCASARJANA INSTITUT PERTANIAN BOGOR BOGOR 2015
Penguji Luar Komisi pada Ujian Tesis: Dr. Dedi Walujadi
Judul Tesis : Kajian Penentuan Klasifikasi Desa di Indonesia Nama : Shafa Rosea Surbakti NIM : G152130434
Disetujui oleh Komisi Pembimbing
Dr Bagus Sartono Anggota
Dr Ir Erfiani, MSi Ketua
Diketahui oleh
Ketua Program Studi Statistika Terapan
Dr Ir Indahwati, MSi
Tanggal Ujian : 20 Juni 2015
Dekan Sekolah Pascasarjana
Dr Ir Dahrul Syah, MScAgr
Tanggal Lulus :
PRAKATA Puji dan syukur penulis ucapkan kehadirat Allah subhanahu wa ta’ala atas segala karunia-Nya sehingga penulis dapat menyelesaikan tesis yang berjudul “Kajian Penentuan Klasifikasi Desa di Indonesia”. Keberhasilan penulisan tesis ini tidak lepas dari bantuan, bimbingan, dan petunjuk dari berbagai pihak. Terima kasih penulis ucapkan kepada Ibu Dr. Ir. Erfiani, M.Si. sebagai ketua komisi pembimbing dan Bapak Dr. Bagus Sartono sebagai anggota komisi pembimbing yang telah memberikan bimbingan, arahan serta saran kepada penulis. Penulis juga mengucapkan terima kasih kepada Pimpinan Badan Pusat Statistik (BPS) atas kesempatan yang diberikan kepada penulis untuk menempuh jenjang Magister Statistika Terapan. Ungkapan terima kasih terkhusus penulis sampaikan kepada orang tua, suami dan ananda tercinta serta seluruh keluarga besar atas do’a, dukungan dan pengertiannya. Terima kasih pula kepada seluruh staf Program Studi Statistika Terapan, teman-teman Statistika (S2 dan S3) dan Statistika Terapan (S2) khususnya Kelas BPS atas bantuan dan kebersamaannya. Terima kasih tak lupa penulis sampaikan kepada semua pihak yang tidak dapat penulis sebutkan satu per satu yang telah membantu dalam penyusunan tesis ini. Penulis menyadari bahwa tesis ini masih banyak kekurangan. Semoga penelitian selanjutnya dapat lebih baik dari penelitian ini. Semoga penelitian ini bermanfaat bagi yang membutuhkan.
Bogor, Juni 2015
Shafa Rosea Surbakti
DAFTAR ISI DAFTAR TABEL
vi
DAFTAR GAMBAR
vi
1 PENDAHULUAN Latar Belakang Identifikasi Masalah Tujuan Penelitian Kegunaan Penelitian
1 1 3 3 3
2 TINJAUAN PUSTAKA Perkotaan dan Perdesaan Perbedaan Perkotaan dan Perdesaan Regresi Logistik Biner Bootstrap Seleksi Peubah dengan Bootstrap Regresi Logistik
3 4 5 6 8 9
3 METODE PENELITIAN Data Metode Analisis
10 10 11
4 HASIL DAN PEMBAHASAN Eksplorasi Data Seleksi Peubah X1 hingga X11 Penambahan Peubah X12-X15 Penentuan Titik Potong Peluang Aplikasi Model pada Data Propinsi Jawa Barat
12 12 19 22 24 25
5 SIMPULAN DAN SARAN
26
DAFTAR PUSTAKA
27
RIWAYAT HIDUP
29
DAFTAR TABEL 1.1 Kriteria dan keberadaan akses pada fasilitas perkotaan dengan skor 2.1 Jenis Infrastruktur dan Indikator Pemenuhan Infrastruktur 2.2 Tabel Klasifikasi Dua Arah 3.1 Peubah Prediktor Penyusun Model 4.1 Nilai Korelasi Antar Peubah Penyusun Model 4.2 Nilai koefisien, galat baku dan VIF peubah penyusun model 4.3 Rata-rata Persentase Rumah Tangga Pertanian Menurut Klasifikasi Desa 4.4 Persentase Desa Yang Memiliki Sarana Pendidikan (TK, SMP, dan SMU) Menurut Klasifikasi Desa (%) 4.5 Nilai Parameter β, Galat Baku, Nilai-Z dan Nilai-p dari Uji Parsial Parameter 4.6 Persentase Signifikansi Tiap Peubah dalam Ukuran Contoh n 4.7 Simulasi Pengurangan Peubah Penyusun Model Beserta Dugaan Galat Prediksi dan Dugaan Keakuratan 4.8. Persentase Signifikansi Peubah pada 10.000 replikasi dan Peringkat Peubah 4.9. Simulasi Pengurangan Peubah Penyusun Model Beserta Dugaan Galat Prediksi dan Dugaan Keakuratan 4.10. Nilai AIC, AER, Sensitivitas, dan 1-Spesifisitas Berdasarkan Titik Potong 4.11 Aplikasi Penerapan Model di Propinsi Jawa Barat
2 5 7 10 17 18 19 19 20 21 22 23 24 25 25
DAFTAR GAMBAR 2.1 Diagram Alir Regresi Logistik Biner 2.2 Ilustrasi Penarikan Contoh dengan Bootstrap 3.1 Diagram Alir Penelitian 4.1 Persentase Desa Perkotaan dan Desa Perdesaan di Indonesia Tahun 2011 4.2 Persentase Desa Perkotaan dan Desa Perdesaan di Indonesia Tahun 2011 Menurut Propinsi 4.3 Persentase Desa Perkotaan dan Perdesaan di Indonesia Tahun 2011 berdasarkan Pembagian Wilayah atau Pulau Besar 4.4 Persebaran Desa Perkotaan dan Desa Perdesaan di Propinsi Jawa Timur 4.5 Persebaran Desa Perkotaan dan Desa Perdesaan di Propinsi Papua 4.6 Persebaran Desa Perkotaan dan Desa Perdesaan di Kab. Sidoarjo 4.7 Persebaran Desa Perkotaan dan Desa Perdesaan di Kab. Jayapura 4.8 Tingkat Kekuatan Peubah X1-X11 4.9 Tingkat Kekuatan Peubah Penyusun Model Akhir dengan mengikut sertakan X4
8 9 12 13 13 14 14 15 15 16 21 23
1 PENDAHULUAN Latar Belakang Hakikat dari pembangunan yang dilakukan Pemerintah Indonesia pada intinya bertujuan untuk meningkatkan taraf hidup masyarakat, baik peningkatan secara material maupun spiritual. Perencanaan pembangunan yang matang dapat menciptakan pembangunan yang tepat sasaran. Salah satu aspek penunjang dalam perencanaan pembangunan adalah ketersediaan data yang rinci pada tingkat wilayah terkecil. Informasi hingga wilayah terkecil dapat dipergunakan sebagai panduan dalam membuat kebijakan yang lebih tepat sasaran. Pembagian wilayah administratif menurut Kementerian Dalam Negeri Republik Indonesia terdiri dari Rukun Tetangga (RT), Rukun Warga (RW), Kelurahan/Desa, Kecamatan, Kota/Kabupaten, Propinsi hingga pemerintahan pada tingkat nasional. Pembagian wilayah ini bertujuan untuk pengelolaan oleh pemerintah daerah di dalam batas-batas wilayahnya masing-masing menurut prinsip otonomi, dekonsentrasi, desentralisasi, dan tugas pembantuan. Badan Pusat Statistik berupaya untuk menyediakan informasi sampai level wilayah terkecil dalam hal ini pada tingkat kelurahan/desa. Karena penggunaan istilah kelurahan/desa lebih tepat jika ditujukan untuk kepentingan administrasi, maka Badan Pusat Statistik (BPS) melakukan penggolongan kelurahan/desa tersebut ke dalam status perkotaan atau perdesaan. Penggolongan berdasarkan perkotaan dan perdesaan dianggap lebih menggambarkan karakteristik dari desa tersebut. Penggolongan wilayah kelurahan/desa ke dalam status perkotaan/perdesaan pada dasarnya dimaksudkan untuk membentuk suatu lapisan (strata) yang digunakan dalam teknik pengambilan contoh dalam survei. Dengan adanya status perkotaan dan perdesaan, diharapkan contoh yang terambil dapat mewakili keseluruhan populasi dengan baik. Dalam analisis, penggolongan desa menjadi desa perkotaaan/perdesaan akan memberikan hasil yang lebih menggambarkan keadaan sebenarnya jika dibandingkan dengan penggolongan kelurahan/desa (Imawan 1986). Dikarenakan perbedaan di tiap negara dalam menentukan karakteristik pembeda perkotaan dan perdesaan, maka peubah pembeda antara daerah perkotaan dan perdesaan tidak dapat disimpulkan menjadi suatu definisi yang tunggal untuk semua Negara (United Nation 2014). Dalam penggolongan perkotaan/perdesaan, karakteristik wilayah sering dijadikan acuan utama. Perbedaan yang mencolok dari perkotaan/perdesaan dapat terlihat dari kepadatan penduduk, pemenuhan ekonomi masyarakat, keberadaan fasilitas dan lain sebagainya. Hasil dari pembangunan turut merubah kriteria yang dulu digunakan dalam penggolongan perkotaan/perdesaan, sehingga perlu dilakukan pengkajian ulang kriteria apa saja yang kini dapat dijadikan pembeda antara perkotaan dan perdesaan. Saat ini BPS menggunakan beberapa peubah yang digunakan sebagai acuan untuk membedakan desa perkotaan dan desa perdesaan. Metode yang digunakan untuk membedakan desa perkotaan dan desa perdesaan adalah metode skoring total dari tiap kriteria. Berikut adalah peubah dan skoring yang digunakan oleh BPS (2010):
2
Tabel 1.1. Kriteria dan keberadaan akses pada fasilitas perkotaan dengan skor
Penentuan nilai/skor untuk menetapkan wilayah perkotaan apabila dari kepadatan penduduk, persentase rumah tangga pertanian, dan keberadaan/akses pada fasilitas perkotaan yang dimiliki mempunyai total nilai/skor 10 (sepuluh) atau lebih dan wilayah perdesaan apabila dari kepadatan penduduk, persentase rumah tangga pertanian, dan keberadaan/akses pada fasilitas perkotaan yang dimiliki mempunyai total nilai/skor di bawah 10 (sepuluh). Seiring dengan perubahan kondisi wilayah, peubah lama yang digunakan oleh BPS sebagai pembeda perkotaan/perdesaan dirasa perlu diperbaharui. Dari segi ekonomi, pembaharuan peubah diharapkan dapat menekan biaya pengumpulan data jika pembaharuan menghasilkan peubah yang terpilih lebih sedikit. Akan tetapi kemunculan peubah baru dianggap mampu mengklasifikasikan desa dengan lebih baik. Oleh karenanya, seleksi peubah harus dilakukan dengan baik. Ada banyak metode yang digunakan dalam seleksi peubah. Ilmu pengetahuan yang terus berkembang juga turut memperkaya khasanah metode seleksi peubah. Metode yang satu dianggap lebih tepat dalam menggolongkan wilayah perkotaan/perdesaan dibandingkan metode yang lain. Imawan (1986) telah menggunakan Analisis Komponen Utama (AKU) dalam pemilihan peubah pembeda perkotaan/perdesaan. Perkembangan dalam ilmu simulasi data juga memberikan kontribusi yang cukup besar dalam metode seleksi peubah. Metode bootstrap dianggap sebagai metode yang cukup robust dalam analisis inferensia (Efron 1979). Otok (2007) sudah melakukan penelitian dengan menggunakan
3
metode bootstrap yang dikombinasikan dengan regresi logistik ordinal maupun dengan MARS. Hasilnya adalah untuk masalah ketepatan klasifikasi pendekatan bootstrap pada masing-masing metode memberikan kesalahan yang kecil baik pada matriks varians kovarians yang tidak sama maupun matriks varians kovarians yang sama. Berdasarkan penelitian-penelitian tersebut, pengembangan metode kombinasi bootstrap dan regresi logistik biner kiranya dapat diterapkan pada seleksi peubah dalam klasifikasi perkotaan/perdesaan.
Identifikasi Masalah Berdasarkan latar belakang yang telah dijelaskan sebelumnya, maka masalah yang dibahas dalam penelitian ini adalah peubah apa saja yang saat ini paling berpengaruh dalam penentuan klasifikasi desa di Indonesia sehingga dapat dijadikan pembeda secara nyata antara desa perkotaan dan perdesaan?
Tujuan Penelitian Tujuan dari penelitian ini adalah untuk melakukan kajian pemilihan peubah yang paling berpengaruh dalam penentuan klasifikasi desa di Indonesia.
Kegunaan Penelitian Manfaat yang didapat dari penelitian ini adalah memperkaya khasanah pengetahuan ilmu statistik dengan penerapan metode bootstrap dan regresi logistik biner untuk memberikan alternatif pemilihan peubah yang paling berpengaruh dalam penentuan klasifikasi desa di Indonesia. Di masa yang akan datang, penelitian ini diharapkan bisa dijadikan bahan rintisan untuk mengembangkan metode ini pada permasalahan lain.
2 TINJAUAN PUSTAKA United Nation menyatakan bahwa tidak ada rekomendasi yang dapat digunakan untuk menjelaskan makna perkotaan ataupun perdesaan secara jelas. Hal ini dikarenakan tiap negara memiliki pandangan yang berbeda tentang perkotaan/perdesaan. Sehingga setiap negara harus membuat definisi mereka sendiri sesuai kebutuhan negara tersebut dan dikarenakan alasan ini pula tiap negara harus memutuskan wilayah yang masuk kategori perkotaan dan yang masuk kategori perdesaan (UN 2014).
4
Perkotaan dan Perdesaan Pemerintah Inggris Raya mengklasifikasikan suatu wilayah sebagai perkotaan jika populasi penduduk yang tinggal di wilayah tesebut sudah lebih dari 10.000 orang. Sensus India (2011) mendefinisikan wilayah perkotaan jika wilayah tersebut memiliki pemerintahan kota dan memenuhi syarat-syarat antara lain memiliki populasi penduduk yang bermukim di wilayah tersebut minimal 5.000 orang, sedikitnya 75% angkatan kerja laki-laki berkerja di sektor non pertanian, serta memiliki kepadatan penduduk sedikitnya 400 orang per km2. Di Indonesia, definisi perkotaan menurut UU No 22/ 1999 tentang Otonomi Daerah, kawasan perkotaan adalah kawasan yang mempunyai kegiatan utama bukan pertanian dengan susunan fungsi kawasan sebagai tempat pelayanan jasa pemerintahan, pelayanan social dan kegiatan ekonomi. Perkotaan adalah status suatu wilayah administrasi setingkat desa/kelurahan yang memenuhi kriteria klasifikasi wilayah perkotaan. Sementara itu, World Bank (2008) mengatakan bahwa wilayah perdesaan dapat didefinisikan berdasarkan banyaknya permukiman, kepadatan penduduk, jarak ke area metropolitan, pemisahan administratif dan peranan sektor pertanian. The Organization for Economic Co-operation and Development menggunakan kepadatan penduduk 150 orang per km2 untuk mendefinisikan wilayah perdesaan. Menurut Landis (1948) desa adalah suatu wilayah yang penduduknya kurang dari 2.500 jiwa. Dengan ciri ciri sebagai berikut: a) Mempunyai pergaulan hidup yang saling kenal mengenal antara ribuan jiwa. b) Ada pertalian perasaan yang sama tentang kesukaan terhadap kebiasaan c) Cara berusaha (ekonomi) adalah agraris yang paling umum yang sangat dipengaruhi alam seperti: iklim, keadaan alam, kekayaan alam, sedangkan pekerjaan yang bukan agraris adalah bersifat sambilan. Kawasan perdesaan menurut UU No. 26 Tahun 2007 tentang Rencana Tata Ruang Wilayah Nasional adalah suatu wilayah yang mempunyai kegiatan utama pertanian, termasuk pengelolaan sumber daya alam dengan susunan fungsi kawasan sebagai tempat permukiman perdesaan, pelayanan jasa pemerintahan, pelayanan sosial dan kegiatan ekonomi. Menurut Tim Penyusun Pusat Kamus (2005), pedesaan adalah daerah pemukiman penduduk yang sangat dipengaruhi oleh kondisi tanah, iklim, dan air sebagai syarat penting bagi terwujudnya pola kehidupan agraris penduduk ditempat itu. Dari definisi di atas dapat ditarik kesimpulan bahwa dua kriteria utama yang lazim digunakan untuk membedakan wilayah perkotaan dan perdesaan antara lain: kepadatan penduduk tiap km2 dan mayoritas mata pencaharian penduduk di sektor pertanian atau non pertanian.
5
Perbedaan Perkotaan dan Perdesaan Perbedaan yang paling sederhana antara perkotaan dan perdesaan di suatu negara biasanya didasarkan pada anggapan bahwa masyarakat perkotaan memiliki cara hidup dan biasanya memiliki standar hidup yang berbeda dibandingkan masyarakat perdesaan. Pada negara yang sektor industrinya sedang berkembang, perbedaan tersebut menjadi tidak terlalu terlihat lagi dan muncul perbedaan mencolok lainnya seperti tingkat kepadatan penduduk di wilayah tersebut. Beberapa negara merasa perlu menambahkan kriteria tambahan yang diyakini dapat membedakan perkotaan dan perdesaan seperti persentase penduduk yang bekerja di sektor pertanian, ketersediaan listrik dan atau ketersediaan air ledeng, dan kemudahan akses ke sarana kesehatan, sekolah, dan tempat rekreasi. Bahkan pada beberapa negara juga ditambahkan kriteria pembeda seperti kawasan pertanian, pusat perdagangan, pusat industri, pusat pelayanan masyarakat dan lain sebagainya yang dinilai mampu membedakan perkotaan dan perdesaan (UN 2008). Menurut Arsyad et al.(2011), daerah perdesaan pada umumnya memiliki ketidakberuntungan komparatif, yang biasanya muncul karena: (1) ketertinggalan pembangunan berbagai infrastruktur yang mengakibatkan keterbatasan masyarakat perdesaan dalam hal akses untuk berkomunikasi, produk, uang dan informasi dan (2) keterbatasan kemampuan (ability) dan sumber daya (resource-type disadvantages) untuk menghasilkan barang dan jasa yang bisa dijual di pasar yang lebih luas. Infrastruktur yang dimaksud antara lain yaitu infrastruktur transportasi, infrastruktur komunikasi, infrastruktur listrik, infrastruktur ekonomi, infrastruktur kesehatan, dan infrastruktur pendidikan. Beberapa indikator yang digunakan untuk melihat terpenuhinya infrastruktur tersebut dapat dilihat pada tabel berikut: Tabel 2.1 Jenis Infrastruktur dan Indikator Pemenuhan Infrastruktur Jenis Infrastruktur Indikator Infrastruktur Transportasi • Ketersediaan jalan • Akses kendaraan roda 4 Infrastruktur Komunikasi • Keberadaan kantor pos • Ketersediaan jaringan telepon (telepon kabel atau seluler) • Keberadaan internet Infrastruktur Listrik • Rumah tangga pengguna listrik Infrastruktur Ekonomi • Keberadaan pasar • Keberadaan pertokoan • Keberadaan lembaga keuangan Infrastruktur Kesehatan • Jumlah tenaga kesehatan • Ketersediaan fasilitas kesehatan • Sumber air minum utama Infrastruktur Pendidikan • Ketersediaan fasilitas pendidikan dasar • Rasio guru-murid
6
Dari semua indikator ketercapaian infrastruktur tersebut, dapat dibuat batasan yang dijadikan acuan pembeda desa perkotaan dan desa perdesaan.
Regresi Logistik Biner Regresi logistik merupakan salah satu metode regresi dimana peubah responnya merupakan data kategorik. Regresi logistik biner digunakan jika peubah respon terdiri dari dua kategori (Agresti 2002). Pada Metode Regresi Logistik Biner dapat digunakan untuk klasifikasi data. Peubah respon Y = 1 menyatakan kejadian yang “sukses” (masuk dalam kategori), sedangkan untuk Y = 0 menyatakan kejadian yang “gagal” (tidak masuk kategori). Peubah Y ini akan mengikuti sebaran Binomial. Bentuk umum model peluang regresi logistik dengan k peubah bebas diformulasikan sebagai berikut: =
exp + + 1 + exp
+ ⋯+ +⋯+
…. 1
Jika model pada persamaan di atas ditransformasi dengan menggunakan transformasi logit dari π(x), maka model logistik dapat ditulis sebagai persamaan (Azen dan Walker 2011): g x =ln
π xi 1-π xi
= β0 +β1 x1 +…+βk xk ….(2)
Pendugaan parameter pada regresi logistik menggunakan Maximum Likelihood Estimation. Metode ini menduga nilai parameter β dengan memaksimumkan fungsi Likelihood (Hosmer dan Lemeshow 2000). Nilai dugaan parameter kemudian diuji untuk mengetahui peubah bebas mana yang berpengaruh nyata terhadap model. Pengujian peubah bebas dapat dilakukan secara simultan atau parsial. Adapun hipotesis yang pada uji parsial sebagai berikut: H0: βj = 0 H1: βj ≠ 0, j = 1, 2, … , k Pengujian parameter secara parsial menggunakan statistik uji Wald dengan sebagai berikut (Azen dan Walker 2011): β-β X= Sβ 2
2
~ χ2
dengan df =1
… (3)
Pengujian parameter secara simultan dapat dilakukan dengan statistik uji nisbah kemungkinan (Likelihood RatioTest) G dengan persamaan sebagai berikut (Azen dan Walker 2011):
7
G2 = -2 ln
L0 Lk
2 ~ χ(k)
… (4)
Salah satu metode yang digunakan untuk memilih model terbaik dengan menyeimbangkan prinsip kebaikan (goodness-of-fit) dan prisip keserhanaan (parsimony) dari model tersebut adalah metode Akaike’s Information Criterion (Akaike 1974 dalam Perlich et al. 2003)): AIC = -2(maximized log-likelihood) +2 (jumlah parameter) … (5) Model terbaik adalah model dengan AIC terkecil. Salah satu alat untuk mengukur kemampuan suatu metode klasifikasi dalam meramalkan kelompok data baru digunakan peluang dari kesalahan klasifikasi yang disebut dengan Apparent Error Rate (Rencher and Chistensen 2012). Misalkan terdapat tabel dua arah yang merupakan hasil klasifikasi sebagai berikut: Tabel 2.2 Tabel Klasifikasi Dua Arah Klasifikasi Aktual Klasifikasi Perdesaan Perkotaan Perdesaan Klasifikasi Prediksi Perkotaan Total Kolom . . AER = Notasi (misklasifikasi).
n12 +n21 n11 +n12 +n21 +n22 adalah
jumlah
Total Baris .
.
..
… 6 klasifikasi
yang
tidak
tepat
8
Gambar 2.1. Diagram Alir Regresi Logistik Biner Bootstrap Bootstrap, dikenal sebagai salah satu metode simulasi data, saat ini menjadi semakin populer sebagai metode statistik. Bootstrap dimaksudkan untuk menyederhanakan analisis statistik inferensia, yang kadangkala dalam situasi tertentu sulit diperoleh hasil analisisnya. Seiring dengan berkembangnya teknologi komputer yang semakin cepat dan handal, waktu dan upaya yang diperlukan dalam proses bootstrap semakin menurun ke tingkat dimana bootstrap menjadi alternatif yang tersedia untuk teknik parametrik standar. Metode bootstrap diperkenalkan pada 1979 oleh Efron untuk menduga parameter dari sebaran yang tidak diketahui bentuknya. Bootstrap merupakan teknik modifikasi dari Jackknife yang diperkenalkan oleh Quenouille pada tahun 1948. Bootstrap pada awalnya tidak membobotkan model peluang, tetapi berbasis pada data, sehingga bootstrap dikenal sebagai data driven approach. Pada bootstrap dilakukan proses penarikan contoh kembali dari data contoh yang telah tersedia (resampling) dengan syarat pengembalian (with replacement) untuk kemudian dihitung statistik dari contoh tersebut dengan harapan contoh tersebut dapat mewakili populasi sebenarnya. Biasanya proses resampling dilakukan ribuan
9
kali agar dapat mewakili data populasinya. Bootstrap memungkinkan seseorang untuk melakukan inferensi statistik tanpa membuat asumsi sebaran terlebih dahulu.
Gambar 2.2. Ilustrasi Penarikan Contoh dengan Bootstrap (Barker 2005) Seleksi Peubah dengan Bootstrap Regresi Logistik Seperti yang telah dijelaskan pada bab terdahulu, seleksi peubah merupakan tahapan yang amat penting dalam pemodelan. Kenkel dan Signorino (2013) telah mengkombinasikan regresi basis dan bootstrap dengan pemilihan peubah untuk menghasilkan bentuk pendugaan yang lebih fleksibel. Fokus penelitian mereka adalah untuk mengeluarkan peubah yang tidak memiliki efek sesungguhnya dari model dugaan pada contoh yang cukup besar. Kemudian mereka menggunakan bootstrap untuk menghitung galat bakunya. Austin dan Tu (2004) melakukan simulasi bootstrap regresi logistik dengan metode backward elimination, forward selection dan stepwise selection. Seleksi peubah ini menghasilkan model yang tidak stabil dan peubah yang dihasilkan dari seleksi ini cenderung terlalu sensitif terhadap fluktuasi data. Permasalahan ketidakstabilan model dapat dipecahkan dengan salah satu metode yang digunakan oleh Shtatland et al. (2004) dalam penelitiannya. Mereka menggunakan beberapa metode untuk seleksi peubah seperti perbandingan nilai AIC dari regresi logistik, validasi menggunakan bootstrap dan cross validation dan nilai rata-rata model dari bootstrap. Hasilnya adalah penggunaan nilai rata-rata (averaging) dari simulasi bootstrap hampir selalu mampu memperbaiki performa model terutama mengatasi model yang tidak stabil dan mampu menghasilkan nilai dugaan yang lebih kekar (robust). Austin dan Tu (2004) menyarankan untuk menggunakan metode bootstrap untuk menentukan kekuatan dari tiap peubah yang benar-benar dapat dijadikan peubah prediktor dari peubah penjelas. Dari rekomendasi Austin dan Tu, kombinasi metode bootstrap regresi logistik yang dengan pengukuran kekuatan tiap peubah penyusun model merupakan metode yang tepat untuk dilakukan dalam penelitian ini.
10
3 METODE PENELITIAN Data Data yang digunakan dalam penelitian ini merupakan data hasil pendataan Potensi Desa (PODES) tahun 2011. Peubah respon (Y) dalam penelitian ini adalah kode klasifikasi desa dengan desa perkotaan (1) dan desa perdesaan (0). Ada 15 peubah prediktor yang digunakan dalam penelitian ini. Kelimabelas peubah prediktor dibagi menjadi dua kelompok. Kelompok pertama terdiri dari 11 peubah yang saat ini digunakan BPS dalam penentuan klasifikasi desa dan kelompok kedua terdiri dari empat peubah yang diharapkan dapat memperbaiki hasil klasifikasi desa. Pemilihan empat peubah baru ini merujuk pada Tabel 2.1 yang dikembangkan oleh Arsyad et al. (2011). Pemilihan peubah baru juga merujuk pada program-program yang dikembangkan oleh Pemerintah Indonesia, seperti Internet Masuk Desa dan masuknya lembaga keuangan hingga tingkat kecamatan. Tabel 3.1 Peubah Prediktor Penyusun Model Peubah X1
Nama Peubah Persentase Rumah Tangga Pertanian
Rasio
X2
Skor Keberadaan TK
Nominal
X3
Skor Keberadaan SMP
Nominal
X4
Skor Keberadaan SMU
Nominal
X5
Skor Keberadaan Pasar
Nominal
X6
Skor Keberadaan Bioskop
Nominal
X7
Skor Keberadaan Pertokoan
Nominal
X8
Skor Keberadaan Rumah Sakit
Nominal
X9
Skor Keberadaan Hotel
Nominal
X10
Skor Keberadaan Telepon
Nominal
X11
Skor Keberadaan Listrik
Nominal
X12 X13 X14 X15
Kriteria
Skala
1 = Ada atau ≤ 2,5 Km *) 0 = > 2,5 Km*) 1 = Ada atau ≤ 2,5 Km *) 0 = > 2,5 Km*) 1 = Ada atau ≤ 2,5 Km *) 0 = > 2,5 Km*) 1 = Ada atau ≤ 2 Km *) 0 = > 2 Km*) 1 = Ada atau ≤ 5 Km *) 0 = > 5 Km*) 1 = Ada atau ≤ 2 Km *) 0 = > 2 Km*) 1 = Ada atau ≤ 5 Km *) 0 = > 5 Km*) 1 = Ada 0 = Tidak Ada 1 = ≥ 8,00 0 = < 8,00 1 = ≥ 90,00 0 = < 90,00 1 = Ada 0 = Tidak Ada
Skor Keberadaan BTS (Base Nominal Transceiver Station) Skor Sinyal telepon seluler Nominal 1 = Ada Skor Keberadaan Warnet Nominal 1 = Ada Skor Keberadaan Bank 1 = Ada Nominal (Umum/Perkreditan Rakyat)
0 = Tidak Ada 0 = Tidak Ada 0 = Tidak Ada
11
Metode Analisis Langkah-langkah analisis data yang akan dilakukan dalam penelitian ini sebagai berikut: 1. Melakukan eksplorasi data PODES 2011. Eksplorasi dilakukan dengan melihat sebaran X1, X2,…, X11, melihat korelasi antar peubah dan frekuensi desa menurut klasifikasi. 2. Memilih di antara X1, X2,…, X11 yang memiliki kontribusi paling kecil terhadap model. Pemilihan peubah dilakukan dengan cara: a. Melakukan penarikan contoh bootstrap dengan ukuran contoh sebanyak n dan ulangan bootstrap (replikasi) sebanyak B. b. Membuat model regresi logistik biner pada tiap ulangan bootstrap sehingga akan dihasilkan sebanyak B model regresi logistik. c. Dari masing-masing peubah akan dihitung berapa kali peubah tersebut signifikan dari B model yang terbentuk lalu kemudian dihitung persentasenya. d. Membuat peringkat peubah yang akan dikeluarkan paling awal dari dalam model berdasarkan persentase signifikansi yang paling kecil. 3. Membuat model baru dengan mengurangi peubah satu per satu secara bertahap hingga didapat model optimum yang memiliki peubah sedikit dan error yang kecil pula. a. Pemilihan model ini dilakukan dengan metode k-fold cross-validation method. K-fold cross-validation method adalah metode validasi silang dimana set data dibagi menjadi k kelompok data (fold) yang berukuran sama dan kemudian diberi nomor. Selanjutnya lipatan pertama dijadikan set validasi (testing) dan sisanya dijadikan set percobaan (training). Hal yang sama dilakukan pada set kedua dan seterusnya hingga set ke k. Hasil akhir berupa nilai dugaan rata-rata dari k set tersebut. b. Pemilihan model terbaik dilakukan dengan membandingkan crossvalidation error dan cross-validation accuracy model yang satu dengan model yang lain. Apabila nilai error dan akurasi yang didapat tidak berbeda jauh, maka pemilihan model terbaik dilakukan dengan membandingkan selisih error antar model yang paling besar. 4. Menambahkan peubah baru ke dalam model optimum yang dihasilkan pada poin 3 dan melakukan pemilihan peubah yang memiliki kontribusi paling kecil terhadap model. Pemilihan peubah dilakukan dengan cara yang sama pada poin 2 dan 3. Hasil akhir berupa model baru yang lebih kekar dan mampu menaikkan ketepatan klasifikasi. 5. Menghitung titip potong peluang yang mampu mengurangi tingkat kesalahan klasifikasi pada model yang dihasilkan pada poin 4, dengan melihat error rate, sensitivitas dan spesifisitas. Gambar 3.1 menyajikan diagram alir penelitian:
12
Gambar 3.1. Diagram Alir Penelitian
4 HASIL DAN PEMBAHASAN Eksplorasi Data Langkah awal dari analisis data yakni melakukan eksplorasi data baik data numerik maupun kategorik. Eksplorasi dapat dilakukan secara deskriptif dalam sajian tabel dan grafik maupun gambaran hubungan korelasi antar peubah. Salah satu sajian tabel yang dapat di analisis adalah tabel proporsi desa perkotaan dan desa perdesaan di Indonesia. Pada tabel 4 dapat dilihat bahwa jumlah desa yang ada di Indonesia adalah 78.609 desa, yang terdiri dari 13.189 desa perkotaan dan 65.420 desa perdesaan.
13
Perkotaan 17% Perdesaan 83%
Gambar 4.1 Persentase Desa Perkotaan dan Desa Perdesaan di Indonesia Tahun 2011 Pada penyajian gambar 4.1 dapat kita lihat bahwa persentase desa perdesaan lebih besar dibandingkan desa perkotaan. Persentase desa perkotaan dan perdesaan ini dapat dilihat lebih rinci berdasarkan propinsi.
Gambar 4.2. Persentase Desa Perkotaan dan Perdesaan di Indonesia Tahun 2011 Menurut Propinsi Pada gambar 4.2 dapat dilihat gambaran persentase desa perkotaan dan desa perdesaan menurut propinsi di Indonesia. Pada gambar terlihat bahwa Propinsi DKI Jakarta tidak memiliki desa perdesaan. Hal ini disebabkan fungsi DKI Jakarta sebagai pusat pemerintahan dengan sarana prasarana yang serba ada. Dalam gambar juga terlihat bahwa Propinsi Papua memiliki persentase desa perkotaan paling sedikit di Indonesia.
14
70.00
35.00 32.77
58.86
60.00
30.00
50.00
25.00
40.00
20.00
30.00 21.02 20.00
15.00
26.69
13.59 10.99 9.74
10.00 5.28 4.47
10.00
8.26 2.12
6.22
5.00 6 Maluku & Papua
5 Sulawesi
4 Bali & Nusa Tenggara
3 Kalimantan
2 Jawa
6 Maluku & Papua
5 Sulawesi
4 Bali & Nusa Tenggara
3 Kalimantan
2 Jawa
1 Sumatera
1 Sumatera
0.00
0.00
(a) (b) Gambar 4.3 Persentase Desa Perkotaan (a) dan Desa Perdesaan (b) di Indonesia Tahun 2011 berdasarkan Pembagian Wilayah atau Pulau Besar Persentase desa perkotaan dan desa perdesaan di Indonesia juga dapat dilihat berdasarkan pembagian wilayah atau pulau besar yang disajikan dalam gambar 4.3. Berdasarkan gambar tersebut terlihat bahwa dari total jumlah desa perkotaan di Indonesia, mayoritas desa perkotaan berada di Pulau Jawa. Pada gambar juga terlihat bahwa mayoritas desa perdesaan berada di Pulau Sumatera.
Gambar 4.4. Persebaran Desa Perkotaan dan Desa Perdesaan di Propinsi Jawa Timur
15
Gambar 4.5. Persebaran Desa Perkotaan dan Desa Perdesaan di Propinsi Papua Jika kita perhatikan peta tematik yang disajikan pada gambar 4.4 dan gambar 4.5, terlihat bahwa sebaran desa perkotaan dan desa perdesaan di Propinsi Jawa Timur dan Papua amat berbeda. Propinsi Jawa Timur sebagai propinsi terbesar kedua di Indonesia memiliki desa perkotaan yang cukup banyak. Lain halnya dengan Propinsi Papua. Pada gambar 4.5 terlihat jelas bahwa terdapat sedikit sekali desa yang bisa di kategorikan sebagai desa perkotaan. Bahkan ada kabupaten yang tidak memiliki desa perkotaan. Kabupaten/kota yang dekat dengan ibukota propinsi biasanya merasakan imbas atau dampak dari pembangunan yang terjadi di ibukota. Dampak tersebut dapat berupa kemajuan infrastruktur atau fasilitas dari kabupaten/kota tersebut. Akibatnya akan ditemukan lebih banyak desa perkotaan di daerah tersebut. Contoh kabupaten yang terkena dampak pembangunan dari kota tetangganya adalah Kabupaten Sidoarjo yang bertetangga dengan Kota Surabaya.
Gambar 4.6. Persebaran Desa Perkotaan dan Desa Perdesaan di Kab. Sidoarjo
16
Pada gambar 4.6, terlihat bahwa Kabupaten Sidoarjo didominasi oleh desa perkotaan. Meskipun didominasi oleh kawasan perkotaan, kabupaten ini juga menampakkan kondisi yang unik. Kondisi unik yang dimaksud adalah adanya desa perdesaan yang dikelilingi desa perkotaan, contohnya adalah Desa Janti. Akan tetapi hal yang berbeda terjadi di Kabupaten Jayapura. Meskipun bertetangga dengan Kota Jayapura, sepertinya dampak pembangunan ibukota tidak terlalu nyata menyentuh kabupaten ini. Pada gambar 4.7, terlihat bahwa jumlah desa perkotaan di kabupaten ini amat sedikit.
Gambar 4.7. Persebaran Desa Perkotaan dan Desa Perdesaan di Kab. Jayapura Setelah melakukan eksplorasi dengan analisis sajian tabel dan gambar, eksplorasi dapat dilanjutkan dengan melihat ada tidaknya hubungan linier antar peubah. Analisis korelasi digunakan untuk melihat keberadaan hubungan linier antar peubah. Tabel 4.1 menyajikan nilai korelasi antar peubah yang terlibat dalam penelitian ini.
17
Tabel 4.1. Nilai Korelasi antar peubah penyusun model Peubah X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 X11 X12 X13 X14 X15
Y -0,529 0,254 0,246 0,396 0,330 0,385 0,506 0,555 0,219 0,545 0,189 0,304 0,149 0,587 0,441
X1
X2
X3
X4
X5
X6
X7
X8
X9
X10
X11
X12
X13
X14
-0,398 -0,307 -0,360 -0,289 -0,279 -0,418 -0,428 -0,166 -0,380 -0,267 -0,325 -0,287 -0,480 -0,333
0,396 0,336 0,326 0,111 0,317 0,233 0,075 0,168 0,284 0,221 0,386 0,285 0,198
0,452 0,328 0,116 0,304 0,204 0,078 0,171 0,161 0,224 0,244 0,271 0,193
0,375 0,204 0,435 0,325 0,129 0,290 0,166 0,251 0,192 0,384 0,285
0,163 0,568 0,237 0,099 0,243 0,150 0,217 0,183 0,325 0,310
0,261 0,369 0,161 0,446 0,092 0,154 0,063 0,313 0,265
0,395 0,160 0,372 0,204 0,269 0,194 0,461 0,387
0,192 0,447 0,178 0,203 0,151 0,437 0,294
0,229 0,055 0,123 0,046 0,199 0,192
0,136 0,239 0,096 0,467 0,398
0,150 0,264 0,202 0,135
0,210 0,384 0,306
0,169 0,112 0,471
18
Pada tabel korelasi antar peubah yang disajikan oleh tabel 4.1, terlihat korelasi antar peubah Y dengan tiap peubah X tidak ada yang bernilai nol. Artinya antar peubah Y dan X memiliki hubungan linier. Tabel 4.1 menunjukkan bahwa korelasi antar peubah X juga tidak ada yang bernilai nol yang berarti terdapat hubungan linier antar peubah X. Korelasi antar peubah X biasanya mengindikasikan bahwa adanya kemungkinan terjadi masalah multikolinieritas. Masalah multikolinieritas akan menyebabkan model regresi yang dihasilkan tidak tepat. Pengecekan keberadaan masalah multikolinieritas dilakukan dengan membuat model regresi yang melibatkan seluruh peubah X dan kemudian dilihat nilai VIF yang muncul. Jika ada peubah yang memiliki nilai VIF di atas 5 maka dapat disimpulkan bahwa terjadi masalah multikolinieritas. Tabel 4.2 Nilai Koefisien, Galat Baku, dan Variance Inflation Factors (VIF) Peubah Penyusun Model Peubah Konstanta X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 X11 X12 X13 X14 X15
Koefisien Galat Baku Koef. -4,5210 0,2790 -0,0359 0,0006 0,7745 0,0808 0,1145 0,0500 0,5868 0,0355 0,2040 0,0386 1,0414 0,0993 0,8842 0,0381 1,2971 0,0337 0,3389 0,0904 1,2372 0,0551 0,2673 0,0400 0,1635 0,0335 1,7770 0,2720 1,0520 0,0345 0,6118 0,0423
VIF 1,03 1,07 1,21 1,22 1,47 1,03 1,47 1,06 1,02 1,05 1,01 1,14 1,01 1,21 1,19
Pada keluaran Minitab yang disajikan pada tabel 4.2 terlihat bahwa nilai VIF dari semua peubah X tidak ada yang di atas 5. Nilai tersebut menunjukkan bahwa tidak terjadi masalah multikolinieritas dalam model sehingga dapat disimpulkan semua peubah X layak untuk dimasukkan ke dalam model. Berdasarkan kesimpulan yang diambil, kita dapat melanjutkan ke tahapan eksplorasi selanjutnya yakni analisis deskriptif pada data. Salah satu peubah yang sering digunakan sebagai pembeda perkotaan dan perdesaan oleh banyak Negara adalah rumah tangga yang bermata pencaharian di sektor pertanian. Desa perdesaan diyakini memiliki lebih banyak rumah tangga pertanian dibandingkan desa perkotaan. Pada tabel 4.3 terlihat bahwa secara deskriptif terbukti bahwa desa perdesaan memliki lebih banyak rumah tangga pertanian dibandingkan desa perkotaan.
19
Tabel 4.3 Rata-rata Persentase Rumah Tangga Pertanian Menurut Klasifikasi Desa Klasifikasi Desa Rata-rata Persentase Rumah Tangga Pertanian (%) Perkotaan 23,35 Perdesaan 75,07 Sarana pendidikan antar desa perkotaan dan desa perdesaan juga cenderung berbeda. Desa perkotaan diyakini memiliki sarana pendidikan yang lebih lengkap dibandingkan desa perdesaan. Program Pendidikan Dasar 9 Tahun yang dicanangkan oleh pemerintah mendorong pembangunan sarana pendidikan hingga ke pelosok desa. Tabel 4.4 Persentase Desa Yang Memiliki Sarana Pendidikan (TK, SMP, dan SMU) Menurut Klasifikasi Desa (%) Klasifikasi Desa TK SMP SMU Perkotaan 98,35 92,67 78,71 Perdesaan 68,27 61,63 27,77 Pada tabel 4.3 dapat kita lihat desa perkotaan memiliki fasilitas pendidikan yang lebih lengkap dibandingkan desa perdesaan. Hal ini ditunjukkan dengan persentase yang cukup tinggi dari desa perkotaan yang sudah dilengkapi sarana pendidikan tersebut. Pada tabel 4.4 dapat dilihat bahwa 98,35% dari seluruh desa perkotaan di Indonesia sudah memiliki Taman Kanak-Kanak. Tabel 4.4 juga menunjukkan hanya 27,77% desa perdesaan yang memiliki Sekolah Menengah Umum/sederajat.
Seleksi Peubah X1 hingga X11 Setelah dilakukan eksplorasi data secara deskriptif, langkah penelitian selanjutnya adalah membuat model awal dengan regresi logistik biner. Hasil uji parameter secara parsial menunjukkan bahwa semua peubah prediktor berbeda nyata dalam membedakan desa perkotaan dan desa perdesaan. Koefisien parameter dan Z-Value ditampilkan pada tabel berikut:
20
Tabel 4.5 Nilai Parameter β, Galat Baku, Nilai-Z dan Nilai-p dari Uji Parsial Parameter Galat Nilai-Z Nilai-p Peubah β Baku Kons. -2,7099 0,0890 -30,4360 0,0000 X1 -0,0399 0,0006 -71,9130 0,0000 X2 1,0668 0,0793 13,4460 0,0000 X3 0,2498 0,0484 5,1620 0,0000 X4 0,7003 0,0344 20,3600 0,0000 X5 0,3109 0,0373 8,3440 0,0000 X6 1,1529 0,0966 11,9370 0,0000 X7 1,0850 0,0367 29,5260 0,0000 X8 1,3256 0,0325 40,8450 0,0000 X9 0,6628 0,0889 7,4580 0,0000 0,0536 30,9750 X10 1,6610 0,0000 X11 0,3544 0,0385 9,1960 0,0000 Tabel 4.5 menunjukkan nilai-p dari semua peubah prediktor berbeda nyata pada α = 0,05, sehingga semua peubah diikutsertakan dalam model awal. Model awal memiliki AIC = 30034 dengan AER = 7,635%. Langkah analisis selanjutnya adalah memilih peubah yang tidak diikutsertakan dari model awal. Pemilihan peubah yang dikeluarkan dari model menggunakan simulasi bootstrap. Penarikan contoh bootstrap dilakukan dengan penarikan contoh acak sederhana dengan memperhatikan proporsi desa perkotaan dan desa perdesaan secara keseluruhan dan keterwakilan contoh berdasarkan pulaupulau besar yang ada di Indonesia. Adapun rumus penentuan jumlah contoh sebagai berikut: B2 Np(1-p) dengan D= …(7) n= 4 N-1 D+p(1-p) Penentuan jumlah contoh bootstrap harus berdasarkan batas kesalahan (Margin of Error) yang digunakan oleh peneliti. Pada penelitian ini dilakukan simulasi penentuan jumlah contoh berdasarkan beberapa batas kesalahan yang dapat digunakan oleh peneliti. Setelah dilakukan penentuan jumlah contoh bootstrap (n), proses selanjutnya adalah penarikan contoh bootstrap sebanyak n untuk 1 set contoh bootstrap. Penarikan contoh tersebut kemudian diulang hingga terbentuk sejumlah set contoh bootstrap yang dinamakan replikasi bootstrap (B). Pada tiap replikasi bootstrap kita terapkan model regresi logistik biner. Hasil pemodelan akan terlihat peubah yang signifikan. Replikasi tersebut diulang sebanyak 10.000 kali. Berdasarkan keseluruhan replikasi, selanjutnya dibuat persentase signifikansi tiap peubah dengan rumus: % Signifikansi Xi =
jumlah Xi yang sig. dari B rep. x 100% B rep.
…(8
21
Tabel 4.6 Persentase Signifikansi Tiap Peubah dalam Ukuran Contoh n Peubah Persentase Signifikansi Peubah Menurut Ukuran Contoh (%) Batas Galat = 0,025 Batas Galat = 0,010 Batas Galat = 0,000 n = 893 n = 5266 n = 78609 X1 100,0 100,0 100,0 X2 12,9 97,7 100,0 X3 7,4 26,5 99,9 X4 58,9 99,9 100,0 X5 15,1 58,9 100,0 X6 18,4 89,8 100,0 X7 88,8 100,0 100,0 X8 98,5 100,0 100,0 X9 13,9 48,9 100,0 X10 92 100,0 100,0 X11 15,4 65,9 100,0 Pada simulasi yang ditunjukkan oleh tabel 4.6 terlihat jika ukuran contoh bootstrap sama dengan ukuran contoh sesungguhnya maka sensitivitas signifikansi akan semakin tinggi. Akan tetapi, jika ukuran contoh bootstrap diperkecil maka akan terlihat peubah-peubah yang dianggap tidak signifikan. Tanpa melihat besar persentase kekuatan peubah, ukuran contoh 893 dan 5266 menghasilkan gambaran kekuatan peubah yang serupa. Berdasarkan simulasi pada tabel tersebut, dapat dibuat tingkat kekuatan peubah yang disajikan pada gambar berikut.
Gambar 4.8. Tingkat Kekuatan Peubah X1-X11 pada n = 5266 Berdasarkan gambar 4.8, urutan peubah yang tidak diikutsertakan dalam model berturut-turut adalah X3, X9, X5, X11, X6, X2, dan X4. Langkah selanjutnya membuat model baru dengan mengeluarkan satu per satu peubah yang memiliki persentase signifikansi yang lebih kecil. Pemodelan menggunakan metode validasi silang yang disebut k-fold cross validation. Pada k-fold cross validation, data dibagi menjadi k bagian. Lalu dilakukan uji silang dengan menjadikan 1 bagian sebagai data training dan k-1 bagian lainnya sebagai data testing. Hal tersebut diulang
22
sebanyak k kali, lalu di hitung rata-rata kesalahan dan keakuratan dari tiap model. Nilai k yang umum digunakan adalah 10. Tahapan selanjutnya adalah membandingkan nilai dugaan galat prediksi dan nilai dugaan akurasi dari model tersebut. Hasilnya adalah sebagai berikut: Tabel 4.7 Simulasi Pengurangan Peubah Penyusun Model Beserta Dugaan Galat Prediksi dan Dugaan Keakuratan Selisih Dugaan Selisih No. Peubah yang Tidak Dugaan Galat Akurasi Akurasi Diikutsertakan Galat Prediksi 1 0,056 0,924 2 X3 0,056 0,000 0,924 0,000 3 X3, X9 0,056 0,000 0,924 0,000 4 X3, X9, X5 0,057 0,001 0,923 -0,001 5 X3, X9, X5, X11 0,057 0,000 0,923 0,000 6 X3, X9, X5, X11, X6 0,057 0,000 0,923 0,000 7 X3, X9, X5, X11, X6, 0,058 0,001 0,922 -0,001 X2 8 X3, X9, X5, X11, X6, 0,059 0,001 0,921 -0,001 X2, X4 9 10 11
X3, X9, X5, X11, X6, X2, X4, X10 X3, X9, X5, X11, X6, X2, X4, X10, X7 X3, X9, X5, X11, X6, X2, X4, X10, X7, X8
0,062
0,003
0,918
-0,003
0,069
0,007
0,909
-0,009
0,079
0,010
0,894
-0,015
Pada tabel 4.7 terlihat bahwa ada dua model yang patut dipertimbangkan sebagai model sederhana, yakni model ke-7 dan ke-8. Kedua model tersebut memiliki selisih galat yang tidak terlalu jauh dengan model sebelumnya (selisih galat model 7 ke 6 dan model 8 ke 7). Hal yang membedakan kedua model tersebut adalah keberadaan peubah X4 di dalam model. Untuk mendapatkan hasil penelitian yang meyakinkan, dilakukan simulasi penambahan peubah X12-X15 ke dalam ke dua model tersebut. Penambahan Peubah X12-X15 Tahap selanjutnya adalah menambahkan peubah X12-X15 untuk menguji kemampuan peubah baru menghasilkan model yang lebih baik. Setelah X12-X15 dimasukkan ke dalam model ke-7 dan ke-8 ternyata uji simultan dan uji parsial dari model baru juga memberikan hasil bahwa semua peubah signifikan. Dengan mengulangi simulasi bootstrap dengan n = 5266 pada model nomor 7 dan 8 dengan tambahan X12-X15 , diperoleh hasil sebagai berikut:
23
Tabel 4.8
Peubah X1 X4 X7 X8 X10 X12 X13 X14 X15
Persentase Signifikansi Peubah pada 10.000 replikasi dan Peringkat Peubah Persentase Signifikansi Peubah Model 7 Model 8 100,0 100,0 99,9 100,0 100,0 100,0 100,0 100,0 100,0 29,3 37,4 38,8 50,4 100,0 100,0 96,9 98,8
Gambar 4.9. Tingkat Kekuatan Peubah Penyusun Model Akhir dengan mengikutsertakan X4 Tahapan selanjutnya adalah membuat model baru dengan mengeluarkan satu per satu peubah yang memiliki persentase signifikansi yang lebih kecil kemudian akan dibandingkan nilai AIC dan AER model tersebut. Hasilnya adalah sebagai berikut:
24
Tabel 4.9 Simulasi Pengurangan Peubah Penyusun Model Beserta Dugaan Galat Prediksi dan Dugaan Keakuratan Selisih Dugaan Selisih No. Peubah yang Tidak Dugaan Galat Akurasi Akurasi Diikutsertakan Galat Prediksi Simulasi dengan Model ke-7 (X1, X4, X7, X8, X10, X12, X13, X14, X15) 1 0,053 0,928 2 X12 0,053 0,000 0,928 0,000 3 X12, X13 0,053 0,000 0,928 0,000 4 X12, X13, X15 0,054 0,001 0,927 -0,001 5 X12, X13, X15, X4 0,055 0,001 0,926 -0,001 Simulasi dengan Model ke-8 (X1, X7, X8, X10, X12, X13, X14, X15) 6 0,054 0,927 7 X12 0,054 0,000 0,927 0,000 8 X12, X13 0,054 0,000 0,926 -0,001 9 X12, X13, X15 0,055 0,001 0,926 0,000 Pada tabel 4.9 terlihat bahwa penambahan peubah baru meningkatkan tingkat ketepatan model, sehingga dapat disimpulkan bahwa penambahan peubah baru berdampak positif terhadap model. Jika kita bandingkan kedua simulasi di atas, terlihat bahwa simulasi dengan model ke-7 memiliki nilai error yang lebih kecil dan tingkat akurasi yang lebih tinggi. Hal ini mempertegas bahwa peubah X4 sebaiknya diikutsertakan ke dalam model. Jika kita perhatikan model ke-12 terlihat bahwa model tersebut memiliki tingkat akurasi yang paling baik dikarenakan memiliki selisih error yang tidak terlalu besar dan tingkat akurasi yang cukup tinggi yakni sebesar 92,8%. dapat disimpulkan model ke-12 dengan peubah X1, X4, X7, X8, X10, X14, X15 merupakan model yang lebih baik untuk digunakan dalam penentuan klasifikasi perkotaan dan perdesaan. Model regresi logistik yang dihasilkan ke-7 peubah tersebut adalah sebagai berikut: = exp −1,723 − 0,037 + 0,704 ' + 1,082 ) + 1,397 + +1,325 + 1,188 ' + 0,704 exp −1,723 − 0,037 + 0,704 ' + 1,082 ) + 1,397 1+ +1,325 + 1,188 ' + 0,704 -
+
…. 9
Penentuan Titik Potong Peluang Setelah didapatkan model terbaik dalam penentuan klasifikasi desa perkotaan dan desa perdesaan, selanjutnya kita cari titik potong peluang yang diperkirakan mampu meminimumkan tingkat kesalahan klasifikasi. Pencarian titik potong ini dilakukan dengan simulasi bootstrap dengan jumlah ukuran contoh sebanyak 5000 dan 10.000 ulangan. Berikut adalah hasil simulasi yang dihasilkan:
25
Tabel 4.10 Nilai AIC, AER, Sensitivitas, dan 1-Spesifisitas Berdasarkan Titik Potong Titik Potong 0,15 0,495 0,499 0,500 0,501 0,505
AIC 28789,0202 28789,0202 28789,0202 28789,0202 28789,0202 28789,0202
AER 11,0433 7,2333 7,2358 7,2422 7,2473 7,2473
Sensitivitas
Spesifisitas
0,8821 0,7127 0,7105 0,7098 0,7090 0,7075
0,8911 0,9710 0,9714 0,9715 0,9716 0,9719
1- Spes. 0,1089 0,0290 0,0286 0,0285 0,0284 0,0281
Pada tabel 4.10 dapat dilihat bahwa titik potong untuk menghasilkan nilai sensitivitas dan spesifisitas yang seimbang terletak pada titik 0,15. Akan tetapi titik potong 0,495 mampu menghasilkan nilai AER yang minimum dan nilai sensitivitas yang tinggi. Artinya ketepatan memprediksi desa perkotaan tepat menjadi desa perkotaan (True Positive) titik 0,495 sudah di atas titik potong awal (0,500).
Aplikasi Model pada Data Propinsi Jawa Barat Untuk melihat kemampuan model dalam memprediksi klasifikasi akan dilakukan perbandingan model dengan 11 peubah, 5 peubah dan 7 peubah denga titik potong 0,495 terhadap klasifikasi aktual desa di propinsi Jawa Barat. Hasil perbandingan model yang dihasilkan disajikan pada tabel berikut: Tabel 4.11 Aplikasi Penerapan Model Pada Propinsi Jawa Barat Jumlah Titik Ketepatan Kesalahan Peubah Potong Klasifikasi Klasifikasi 11 0,500 85,4869 14,5131 5 0,500 84,8942 15,1058 7 0,495 84,9450 15,0550 Tabel 4.11 menunjukkan bahwa pada penerapan data Propinsi Jawa Barat model dengan 7 peubah prediktor dan pergeseran titik potong 0,495 terbukti menghasilkan nilai ketepatapan klasifikasi yang lebih baik dibandingkan model dengan 11 ataupun 5 peubah prediktor dengan titik potong baku. Penerapan model 7 peubah pada data desa propinsi Jawa Barat memberikan hasil yang serupa dengan penerapan model pada data desa seluruh Indonesia. Dengan kata lain, keputusan untuk menggunakan model dengan 7 peubah prediktor dan pergeseran titik potong menjadi 0,495 merupakan keputusan yang tepat.
26
5 SIMPULAN DAN SARAN Kesimpulan yang dihasilkan dari penelitian ini adalah pengurangan sebelas peubah (X1-X11) yang saat ini digunakan oleh BPS dalam penentuan klasifikasi desa di Indonesia menjadi lima peubah mampu menghasilkan model yang sama baiknya. Model dengan penambahan empat peubah prediktor baru mampu menaikkan tingkat ketepatan klasifikasi. Penggunaan metode bootstrap dalam seleksi peubah terbukti lebih baik dibandingkan seleksi peubah yang hanya melihat hasil uji parsial saja. Hal ini dibuktikan dengan terpilihnya peubah yang sedikit yang memiliki kekuatan memprediksi yang nyaris sama baiknya dengan peubah yang banyak. Saran untuk penelitian mendatang dapat dilakukan penambahan peubah baru yang lebih spesifik dapat dilakukan untuk meningkatkan ketepatan klasifikasi. Jika memungkinkan, ada baiknya jika dilakukan pengelompokkan ulang desa-desa yang ada di Indonesia dengan metode statistik lainnya agar hasil lebih presisi. Untuk perencanaan pembangunan Indonesia di masa depan, kiranya akan lebih baik jika desa tidak dibedakan menjadi desa perkotaan dan desa perdesaan saja, tapi dapat juga dibedakan menjadi desa perkotaan, desa semi perkotaan dan desa perdesaan.
27
DAFTAR PUSTAKA Agresti A. 2002. Categorical Data Analysis. New York (US): John Wiley & Sons, Inc. Arsyad L, Satriawan E, Mulyo JH, Fitrady A. 2011. Strategi Pembangunan Perdesaan Berbasis Lokal. Yogyakarta (ID): STIM YKPN. Austin PC, Tu JV. 2004. Automated Variable Selection Methods For Logistic Regression Produced Unstable Models For Predicting Acute Myocardial Infarction Mortality. Journal of Clinical Epidemiology 57 (2004) 1138– 1146. Canada (CA): Elsevier. Azen R, Walker CM. 2011. Categorical Data Analysis for Behavioral and Social Science. New York (US): Routledge. Badan Pusat Statistik. 2010. Peraturan Kepala Badan Pusat Statistik No.37 tahun 2010 Tentang Klasifikasi Perkotaan dan Perdesaan di Indonesia. Jakarta (ID): BPS. Barker N. 2005. A Practical Introduction to the Bootstrap Using the SAS System. Di dalam Katherine Hutchinson, editor. Proceedings of the Pharmaceutical Users Software Exchange Conference. Wallingford (UK): Oxford Pharmaceutical Sciences: Paper PK02. Department of Economic and Social Affairs Statistics Division. 2008. Principles and Recommendations for Population and Housing Censuses. New York (US): United Nation. . 2014. Principles and Recommendations for a Vital Statistics System. New York (US): United Nation. Efron B, Tibshirani R. 1993. An Introduction to Bootstrap. New York (US): Chapman &Hall. Office for National Statistics. 2013. Rural Urban Classification 2011. London (UK): Government Statistical Service. Otok BW, Akbar MS, Guritno S, Subanar. 2007. Pendekatan Bootstrap pada Klasifikasi Pemodelan Respon Ordinal. Jurnal Ilmu Dasar, 8(1):54-67. Yogyakarta (ID): Universitas Gajah Mada. Hosmer DW, Lemeshow S. 2000. Applied Logistic Regression. Ed Ke-2. Toronto (CA): John Wiley & Sons, Inc. Imawan W. 1986. Penerapan Fungsi Diskriminan Dalam Penggolongan Desa di Jawa Timur [Skripsi]. Jakarta (ID): Universitas Indonesia. Kenkel B, Signorino CS. 2013. Bootstrapped Basis Regression with Variable Selection: A New Method for Flexible Functional Form Estimation. Paper Work. [Diunduh 2015 April 8]. Tersedia pada: http://bkenkel.com/data/basics.pdf Landis PH. 1948. Pengantar Sosiologi Pedesaan dan Pertanian. Jakarta (ID): PT. Gramedia Pustaka Utama. Mailvaganam H. 2007. Data Modeling and Mining: Modeling for Data Mining. [Diakses 2014 Oktober 25]. Tersedia pada: http://www.dwreview.com/Data_mining/DM_models.html Miftahudin A. 2008. Analisis Rating Menggunakan Metode Klasik dan Jaringan Syaraf Tiruan Studi Kasus Klasifikasi Desa/Kelurahan di Kabupaten Enrekang [Thesis]. Surabaya (ID): Institut Teknologi Sepuluh Nopember.
28
Perlich C, Provost F, Simanoff JS. 2003. Tree Induction vs. Logistic Regression: A Learning-Curve Analysis. Journal of Machine Learning Research, 4, 211255. Rencher AC, Christensen WF. 2012. Methods of Multivariate Analysis Third Edition. New Jersey (US): John Wiley & Sons, Inc. Shtatland ES, Kleinman K, Cain EM. 2004. A New Strategy of Model Building in Proc Logistic with Automatic Variable Selection, Validation, Shrinkage and Model Averaging. Proceedings SAS SUGI 29 Duke Owen, Conference Chair [Internet]. [Montréal, Canada May 9-12]. Tersedia pada: http://www2.sas.com/proceedings/sugi29/191-29.pdf Surbakti SR. 2014. Optimizing Classification Urban/Rural Areas in Indonesia with Bagging Methods in Binary Logistic Regression. Proceedings 13th Islamic Countries Conference on Statistical Sciences. Di dalam: Munir Ahmad dan Shahjahan Khan, editor. Proceedings ICCS-13. 13th Islamic Countries Conference on Statistical Sciences; 2014 December 18-21; Bogor, Indonesia. Lahore: ISOSS, pp 327-336. . 2015. Alternative Determinant Variables in Urban/Rural Village Classification in Indonesia. Proceeding of 2nd ICRIEMS. 2nd International Conference on Research, Implementation and Education of Mathematics and Science; 2015 Mei 17-19; Yogyakarta, Indonesia. Yogyakarta (ID): UNY, pp 261-270. Tim Penyusun Pusat Kamus. 2005. Kamus Besar Bahasa Indonesia. Jakarta (ID): Balai Pustaka. World Bank. 2008. World Development Report 2008; Agriculture for Development. Washington DC (US): World Bank.
29
RIWAYAT HIDUP Penulis dilahirkan di Jakarta pada tanggal 2 Mei 1984, sebagai anak kedua dari 3 bersaudara. Pendidikan sekolah menengah ditempuh di SMA Negeri 68 Jakarta Program IPA, lulus pada tahun 2002. Pada tahun yang sama penulis diterima di Sekolah Tinggi Ilmu Statistik, Jakarta dan menyelesaikannya pada tahun 2006. Saat ini penulis bekerja sebagai Pegawai Negeri Sipil di Badan Pusat Statistik RI, Direktorat Pengembangan Metodologi Sensus dan Survei. Kesempatan untuk melanjutkan program master (S2) pada program studi Statistika Terapan, Sekolah Pascasarjana IPB, diperoleh pada tahun 2013 dengan program Beasiswa APBN Badan Pusat Statistik.