PROSIDING Seminar Nasional Statistika | 12 November 2011
ISSN : 2087-5290. Vol 2, November 2011
(R.15) PERTIMBANGAN PENTING YANG MENDASARI PENGGUNAAN METODE SMALL AREA ESTIMATION 1Nurul
Hasanudin, 2Septiadi Padmadisastra, 3 Nusar Hajarisman Program Pendidikan Magister Program Studi Statistika Terapan Konsentrasi Statistika Sosial Fakultas MIPA Universitas Padjadjaran Bandung
[email protected]
1.
Mahasiswa Program Studi Statistika Terapan Universitas Padjadjaran Bandung 2. Dosen Program Studi Statistika Terapan Universitas Padjadjaran Bandung 3. Dosen Program Studi Statistika Universitas Islam Bandung
Abstrak Kebutuhan statistik area kecil sebagai dasar perencanaan dapat diperoleh melalui kegiatan survey. Keterbatasan sumber daya menyebab rancangan survey hanya memberikan hasil estimasi pada level propinsi sebagai area besarnya. Sehingga perlu diterapkan metode statistik yang mampu memenuhi ketersediaan informasi pada area kecil (seperti pada tingkat kecamatan) dengan sumber daya yang terbatas. Artinya tanpa penambahan sampel pada kegiatan surveynya. Metode tersebut dikenal dengan nama Small Area Estimation (SAE). Jenis dan bentuk metode ini telah banyak digagas oleh para statistisi, sehingga perlu pertimbangan yang baik ketika menerapkannya. Pertimbangan penting dalam menentukan penggunaan metode SAE adalah dengan mendasarkan pada jenis variabel dan kebutuhan analisis datanya. Sehingga dengan memperhatikan ketiga hal tersebut dapat diperoleh hasil estimasi yang reliable. Kata Kunci : Survei, Small Area Estimation, Analisis Data, Reliable.
1. PENDAHULUAN Otonomi daerah melahirkan sistem pemerintahan terdesentralisasi yang mendorong besarnya kebutuhan
perencanaan
dengan
skala
lebih
mikro. Sehingga program
pembangunan yang dilakukan dapat menjangkau masyarakat dengan lebih tepat dan terarah. Oleh karena itu data sebagai dasar perencanaan dan pelaksanaannya, perlu disajikan sebagai informasi hingga level area kecil. Mampu menjangkau statistik tingkat kecamatan bahkan desa. Kegiatan survey yang dilakukan oleh Badan Pusat Statistik (BPS) belum semuanya mampu secara langsung mengestimasi untuk area kecil hingga kecamatan. Solusi yang dilakukan untuk mendapatkan statistik pada area kecil tersebut, biasanya bergantung masing-masing pemerintah daerah. Kebijakan pemerintah daerah untuk penyediaan
Jurusan Statistika-FMIPA-Unpad 2011
218
PROSIDING Seminar Nasional Statistika | 12 November 2011
ISSN : 2087-5290. Vol 2, November 2011
anggaran untuk menambah jumlah ukuran sampel, sehingga rancangan surveynya mampu memberikan output statistic area kecil. Sementara problem muncul adalah ketika tidak semua daerah mampu mengalokasi anggaran tersebut. Sehingga ketersediaan data tingkat kecamatan menjadi tidak merata, hanya bagi daerah yang memiliki kebijakan dan sumber daya yang memadai. Dengan memperhatikan kebutuhan informasi area kecil dan melihat kondisi keterbatasan sumber daya tersebut di atas, maka perlu diterapkan metode statistik yang mampu memenuhi ketersediaan informasi meskipun sumber daya yang dimiliki terbatas. Metode tersebut dikenal dengan nama Small Area Estimation. Jenis dan bentuk metode ini telah banyak digagas oleh para statistisi, sehingga perlu pertimbangan yang baik ketika menerapkannya.
2. ESTIMASI AREA KECIL (SMALL AREA ESTIMATION ) Menurut Haslett (2008) estimasi area kecil merupakan teknik menggunakan model statistik untuk meningkatkan akurasi estimasi pada area kecil, dibandingkan dengan estimasi yang dilakukan melalui estimasi langsung (direct estimates). Yang dimaksud dengan estimasi langsung adalah proses estimasi parameter dengan berdasarkan rancangan survey yang dilakukan pada suatu populasi. Menurut Rao (2003), metode estimasi area kecil memiliki bahasan yang lebih luas, tidak terbatas hanya area sebagai sebuah wilayah, namun lebih sebagai sebuah domain. Domain berarti sebuah subpopulasi. Jika area merupakan domain geografis (geographic domain) seperti Propinsi, Kabupaten/Kota, Kecamatan dan Desa, maka domain lainnya bisa ditemukan pada domain demografis (socio-demographic domain) yaitu Penduduk dalam Kelompok Umur dan Jenis kelamin. Maupun domain pada ruang lingkup yang lainnya, seperti bidang ekonomi dan pertanian. Terdapat dua kategori dalam mendapatkan estimasi parameter pada area kecil, yaitu direct estimation (estimasi Langsung) dan indirect estimation (estimasi tidak langsung). Secara visual dapat dilihat pada Gambar I, yang memetakan perkembangan metode estimasi area kecil menurut Rao (2003), Marker (1999) dan Rahman (2008). Estimasi langsung sering dihadapkan dengan masalah besarnya standard error yang dihasilkan,sebagai akibat dari kecilnya ukuran sampel, untuk dipaksakan mendapatkan estimasi area kecilnya. Hal ini menyebabkan perlunya metode estimasi dengan cara tidak langsung, yang dapat mengurangi standar error. Dalam berbagai studi yang dilakukan ketika membandingkan antara hasil estimasi melalui direct estimation dan indirect estimation, ternyata estimasi area kecil dengan indirect Jurusan Statistika-FMIPA-Unpad 2011
219
PROSIDING Seminar Nasional Statistika | 12 November 2011
ISSN : 2087-5290. Vol 2, November 2011
estimation memberikan hasil yang lebih baik. Sebagaimana telah dilakukan Pfeffermann (2002) dan Ferrante (2010).
Estimasi Area Kecil
Estimasi Tidak Langsung
Estimasi Langsung
AREA LEVEL
Kriging- Co Kriging
Data Spasial
Estimasi berdasarkan Rancangan Survei
Estimasi GREG (Generalised Regression)
Estimasi Horvitz Thomson
Model Eksplisit
Kombinasi
Pendekatan Geografis
Pendekatan Statistik
Model Implisit
UNIT LEVEL
General Linear Mixed Model
Synthetic Estimation
Composite Estimation
Demographic Estimation
SAT SPREE E-BLUP
Empirical Bayes
Vital Rates
Regresi
Hierarchical Bayes
Gambar 1. Perkembangan Metode Estimasi Area Kecil
3.
VARIABEL KONTINYU:REGRESI LINIER, VARIABEL KATEGORIK: GLM Jenis metode estimasi area kecil yang terkategori ke dalam indirect estimation
menurut Rao (2003) cukup beragam, diantaranya terdapat metode structure preserving estimates (SPREE) yang sesuai digunakan pada data cacahan, dengan variabel responnya data kategorik. Kategori indirect estimation ini dapat dibagi dua pendekatan, melalui pendekatan statistik dan pendekatan geografis. Dalam pendekatan statistik, metode yang cukup populer antara lain metode EBLUP (Empirical Best Linear Unbised Predictor), EB (Empirical Bayes) dan Hierarchical Bayes (HB). Ketiganya dibangun dalam bentuk model regresi linier. Secara umum regresi linear mensyaratkan variabel responnya merupakan data kontinyu. Perbandingan antara ketiga metode tersebut tersaji pada Tabel 1. Ketiga metode pada Tabel 1 merupakan metode yang saat ini popular, namun terdapat kelemahan mendasar atas ketidakmampuannya dalam menangani jenis data kategorik.
Jurusan Statistika-FMIPA-Unpad 2011
220
PROSIDING Seminar Nasional Statistika | 12 November 2011
ISSN : 2087-5290. Vol 2, November 2011
Sedangkan ketersediaan data survey umumnya banyak pertanyaan pada kuesioner dengan jenis data kategorik. Sehingga tidak lagi dapat digunakan estimasi area kecil dengan ketiga metode tersebut.
Tabel 1. Perbandingan Metode EBLUP, EB dan HB. Karakteristik Dapat diaplikasikan pada
Tipe pendekatan
Estimasi
EBLUP Model linier pada variabel kontinyu, tetapi tidak bisa untuk data biner dan data kategorik Berdasarkan Fully Frequentist, dan penghitungan regresi linier klasik
Terkategori Composite Estimator , sebagai kombinasi dari direct estimator dan regression estimator. Estimatornya Unbiased jika ei mengikuti distribusi normal
Kompleksitas
Teori simple tapi tidak dapat menangani dimensi yang tinggi dan problem yang kompleks
EB Model linier pada variabel kontinyu, tetapi tidak bisa untuk data biner dan data kategorik Berdasarkan Hypothetically frequentist, tidak tergantung prior density parameternya Estimator Bayes menggunakan estimasi model parameter Estimatornya Biased, tapi lebih reliabel dibandingkan metode EBLUP
Teori komplek dan mampu menangani dimensi data yang lebih tinggi dan problem yang komplek.
HB Model linier pada variabel kontinyu, tetapi tidak bisa untuk data biner dan data kategorik Berdasarkan Pendekatan Fully Bayesian approach, melibatkan prior density parameternya Berdasarkan posterior probability density . Hasil estimasi merupakan posterior mean dari parameter pada variabel interesnya. Estimatornya Biased, tapi lebih reliable dari keduanya. Teori lebih komplek dan menangani dimensi tinggi dan problem yang komplek. Biasanya dengan MCMC.
Sumber: Rahman (2008)
Sehingga dapat dicatat dengan jelas bahwa pertimbangan penting pertama secara statistik dalam menentukan metode estimasi area kecil adalah melihat jenis data pada variabel responnya. Dalam Marker (1999) dijelaskan berbagai metode estimasi area kecil dalam kerangka regresi linier (Generalized Linear Regression Framework), yang terbatas digunakan untuk variabel respon yang kontinyu.
Jurusan Statistika-FMIPA-Unpad 2011
221
PROSIDING Seminar Nasional Statistika | 12 November 2011
ISSN : 2087-5290. Vol 2, November 2011
Dalam mengikuti perkembangan metode estimasi area kecil, terdapat beberapa hasil studi dan penelitian, yang diungkap melalui jurnal, tesis, disertasi maupun dalam seminar dan simposium, telah mencatat berbagai metode dan pendekatan yang cukup banyak. Hal ini akan terus berkembang seiring dengan kendala yang dihadapi terkait dengan data maupun tujuan estimasinya. Sehingga asumsi-asumsi yang harus dipenuhi tidak dapat dihindari agar metode tersebut dapat berjalan. Metode estimasi yang sederhana dan banyak digunakan diantaranya dengan menggunakan regresi linier sederhana yaitu metode kuadrat terkecil (least square). Metode yang sederhana, namun memberikan hasil estimasi yang baik. Sifat BLUE (best linear unbiased estimator) dapat dipenuhi.
Demikian pula halnya dalam estimasi area kecil,
perkembangannya banyak didominasi pada pendekatan regresi linier. Hal tersebut sebagaimana dijelaskan Marker (1999), Noble et.al (2002) dan Rao (2003). Keterbatasan analisis regresi linier adalah ketidakmampuannya dalam menghadapi data kategorik pada variabel responnya sebagaimana dijelaskan di atas. Hal ini memberikan dampak pada semua metode SAE tersebut ketika dihadapkan pada masalah data kategorik. Oleh karena itu dibutuhkan metode estimasi yang lebih sesuai untuk data kategorik. Carter & Bond (1985) telah melakukan estimasi area kecil dengan metodologi analisis data kategorik, dimana
dilakukan estimasi dalam tiga hal: 1). Full Association Structure, 2). Partial
Association Structure dan 3) Iterative Proportional Fitting. Kemudian berdasarkan evaluasi yang dihasilkan dengan memperhatikan statistik yang dapat mengukur bias (Biased Measurement), maka Full Association Structure dianggap memberikan hasil estimasi yang lebih reliable. Purcell (1979) telah menjelaskan secara luas terkait dengan analisis data kategorik untuk melakukan estimasi area kecil. Kajian yang terkait dengan hal tersebut terdapat juga pada Purcell & Kish (1980). Dalam melakukan estimasi area kecil melalui pendekatan analisis data kategorik membutuhkan dua struktur data, yaitu struktur asosiasi dan struktur alokasi. Struktur asosiasi terdiri dari data yang terbagi ke dalam beberapa kategori untuk variabel interestnya yang disusun dalam table kontingensi dengan variabel asosiasi dan area kecilnya. Data ini diperoleh dari data sebelumnya, biasanya yang terbaik menggunakan data sensus. Sementara struktur alokasi sebagai data yang juga terbagi ke dalam beberapa kategori yang disusun dalam tabel dengan variabel asosiasinya namun tidak dapat dirinci menurut area kecil nya, hanya akumulasi dari area kecil tersebut. Metode estimasi area kecil yang menghubungkan struktur data tersebut disebut metode SPREE. Noble et al. (2002) menggunakan
metode SPREE ini dalam prakteknya menggunakan Model Linier
Tergeneralisasi (Generalized Linear Models) yang secara implisit merupakan model loglinier. Jurusan Statistika-FMIPA-Unpad 2011
222
PROSIDING Seminar Nasional Statistika | 12 November 2011 4.
ISSN : 2087-5290. Vol 2, November 2011
ANALISIS DATA Dalam perkembangan metode estimasi area kecil selain dipengaruhi data sebagai
dasar pertimbangan, pada penggunaannya banyak dipengaruhi oleh kebutuhan analisis data. Perkembangan metode SAE berdasarkan kebutuhan analisis data diantaranya : 1) Analisis data spasial, muncul metode GWR (Geographically Weighted Regression), Kriging dan SEBLUP (Spatial Empirical Best Linear Unbiased Predictor) dalam Molina et.al(2007). Dalam hal ini untuk kebutuhan analisis data spasial, maka metode estimasi area kecil terkategori ke dalam indirect estimation dengan pendekatan geografis. Data yang menyertai variabel interest dapat berupa data geografis, dengan variabel lokasi atau tempat. Keadaan suatu daerah tertentu mempengaruhi penimbang dalam melakukan estimasi, misalnya untuk daerah perkotaan berbeda dengan daerah perdesaan.Kemudian dikumpulkan variabel-variabel yang membedakan karakteristik antara daerah perkotaan dan perdesaan.
2) Analisis data deret waktu (time series), diantaranya dilakukan oleh Pfeffermann (2002) dengan model ARMA (a,b) “The Auto-Regressive Moving Average model of order (a,b)”. Dalam analisis deret waktu dapat melakukan prediksi untuk menghasilkan statistik pada keadaan waktu yang akan datang. Informasi data deret waktu sangat bermanfaat untuk menangkap sebuah trend maupun pola data yang menyertainya. Sehingga menarik untuk melakukan prediksi berdasarkan data yang telah tersaji sebelumnya secara berkala. Dengan menggunakan teknik pemodelan (Modelling) pada analisis deret waktu, Pfeffermann (2002) memanfaatkannya untuk melakukan estimasi pada area kecil.
3) Analisis data hilang (missing), Longford (2005) menjelaskan dengan rinci proses penanganan data hilang yang kemudian dikaitkan dengan estimasi pada area kecil. Keadaan struktur data yang tidak lengkap memberikan masalah tersendiri, yaitu terdapat keterbatasan dan kesulitan untuk mendapatkan statistik yang reliabel. Faktor Non respon menjadi salah satu sebab ketidaklengkapan data (incompleteness data). Longford (2005) menjelaskan perlunya penanganan data hilang dengan baik, sebelum melakukan estimasi area kecil. Non respon dapat terjadi pada saat responden sampel menolak atau tidak dapat diwawancara pada saat survey, maupun Jurusan Statistika-FMIPA-Unpad 2011
223
PROSIDING Seminar Nasional Statistika | 12 November 2011
ISSN : 2087-5290. Vol 2, November 2011
non respon terjadi pada beberapa variabel pertanyaan saja. Responden mau menjawab kuesioner survey, namun terdapat beberapa variabel pertanyaan yang tidak dapat djawab olehnya. Penanganan data hilang dilakukan dengan imputasi, diantaranya dengan melakukan imputasi berdasarkan : a. Rata-rata (Mean Imputation) b. Variabel yang lain (Imputation from another variable) c. Regresi (Regression Imputation) d. Keputusan seorang pakar (Using expert’s judgements) e. Model yang dibangun dari data (Models for imputation)
4) Analisis Data Pencilan (outlier), Sinha (2008) menjelaskan metode REBLUP (Robust Empirical Best Linear Unbiased Predictor). Dalam melakukan analisis terhadap sekumpulan data dengan analisis regresi linier sederhana akan menghadapi hasil yang tidak tepat, ketika mengabaikan data berpengaruh dan pencilannya. Sehingga berkembanglah beberapa analisis regresi yang Robust terhadap data pencilan berpengaruh. Dalam metode estimasi area kecil dengan kerangka kerja regresi linier menggunakan metode Robust sebagai upaya mengatasi keadaan data yang mengandung data pencilan yang berpengaruh.
5) Analisis Data Panel, Fabrizi et.al (2007) membahas metode estimasi area kecil dengan menggunakan data panel. Data panel merupakan data multidimensi yang berisi hasil observasi multivariable yang diperoleh secara berkala dengan responden yang sama. Dimana data runtut waktu dan data klasifikasi silang merupakan salah satu kasus khusus dalam data panel satu dimensi. Bahasan data panel ini berarti memiliki dimensi lebih dari satu. Sebagai contoh dalam sekumpulan data panel tersebut berisi hasil estimasi yang berasal dari multiresponden (dimensi satu) yang memprediksi multivariabel (dimensi dua) pada keadaan multiwaktu (dimensi tiga).
6) Analisis Data Klasifikasi Silang (Cross-classifications), dalam Zhang & Chambers (2004) dijelaskan bahwa metode SPREE merupakan salah satu analisis untuk menangani data Cross-classifications, yang digunakan dalam melakukan estimasi area kecil. Penyajian data cross-classifications ini menggunakan table kontingensi. Jurusan Statistika-FMIPA-Unpad 2011
224
PROSIDING Seminar Nasional Statistika | 12 November 2011
ISSN : 2087-5290. Vol 2, November 2011
Dengan sebagian besar penyajian data menggunakan table kontingensi, serta berbagai informasi yang disajikan berupa table masih dominan mewarnai laporan statistik, maka metode SPREE menjadi sangat efektif untuk digunakan dalam mendapatkan statistic area kecil. 5.
KESIMPULAN Menurut Purcell & Kish (1980) bahwa tidak ada satu metode estimasi area kecil yang
baik untuk semua keadaan. Perbedaan keadaan tersebut ditentukan oleh kualitas data pada negara tersebut, terkait dengan ketersediaan sumber data dan kualitas data yang dimilikinya. Yaitu 1) Berhubungan dengan cakupan dan kualitas data sensusnya, 2). Keluasan isi (contents) dan ukuran sampel pada kegiatan surveinya, serta termasuk 3) Cakupan dan kualitas data administrasi yang dimilikinya. Pertimbangan penting dalam menentukan penggunaan metode estimasi area kecil adalah dengan mendasarkan pada jenis data dan kebutuhan analisis datanya. Sehingga dengan memperhatikan kedua hal tersebut dapat diperoleh hasil estimasi yang reliable, yaitu statistik yang dapat dipercaya mampu menjelaskan data populasi. Pengukuran tingkat reliabilitas dapat menggunakan ukuran-ukuran statistik, seperti tingkat bias dan varians yang minimum.
Jurusan Statistika-FMIPA-Unpad 2011
225
PROSIDING Seminar Nasional Statistika | 12 November 2011
ISSN : 2087-5290. Vol 2, November 2011
6. DAFTAR PUSTAKA Carter,N.J. & Bond,D.C. (1985). An Evaluation Categorical Data Analysis Methodology For County Estimates in North Carolina, U.S.Departement of Agriculture,Washington. Fabrizi,E.,Ferrante, M.R. & Pacei,S.(2007) . Small area estimation of average household income based on unit level models for panel data , Survey Methodology, No.2 (Vol.33) pp.187198 Ferrante, M.R.& Trivisano,C. (2010). Small area estimation of the number of firms’recruits by using multivariate models for count data, Survey Methodology,No.2(Vol.36),pp.171-180 Haslett, S.,Noble,A. & Zabala,F.(2008). New approaches to small area estimation of unemployment, The Official Statistic System, Wellington. Longford,N.T (2005). Missing data and Small-Area Estimation, New York: Springer. Marker,D.A (1999). Organization of Small Area Estimators Using a Generalized Linear Regression Framework, Journal of Official Statistics, No.1 (Vol.15), pp.1-24 Molina, I., Salvati,N. & Pratesi,M. (2007). Bootstrap For Estimating The Mean Squared Error Of The Spatial EBLUP. Working Paper 07-34, Statistic and Econometric Series 08. Noble, A. , Haslett,S. & Arnold,G.(2002). Small Area Estimation Via Generalized Linear Models, Journal of Official Statistics, No.1 (Vol.18), pp.45-60 Pfeffermann, D. (2002). Small Area Estimation – New Developments and Directions, International Statistical Review,70, pp.125143. Purcell,N.J. & Kish,L (1980), Postcensal Estimates for Local Areas (Or Domains),International Statistical Review , No.1 (Vol. 48), pp. 3-18. Rahman, A. (2008). A Review of Small Area Estimation Problems and Methodological Developments, Discussion paper 66 NATSEM ,University of Canberra, Australia Rao, J.N.K (2003). Small Area Estimation, New Jersey, Jhon Wiley & Sons, Inc. Sinha, S.K. & Rao,J.N.K (2008). Robust Small Area Estimation Under Unit Level Models, Survey Research Method JSM, pp.27-38. Zhang ,L. & Chambers.R.L. (2004). Small area estimates for cross-classifications, Journal of the Royal Statistical Society. B No.2 (Vol.66), pp. 479-496
Jurusan Statistika-FMIPA-Unpad 2011
226