PROSIDING Seminar Nasional Statistika | 12 November 2011
ISSN : 2087-5290. Vol 2, November 2011
(R.10) ESTIMASI TOTAL POPULASI DENGAN MENGGUNAKAN PENAKSIR GENERALIZED REGRESSION (GREG) 1Agus
Muslim, 2Sutawanir Darwis, 3Achmad Zanbar Soleh Magister Statistika Terapan, Universitas Padjadjaran, Bandung 2 Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Teknologi Bandung, Bandung 3 Jurusan Statistika, Universitas Padjadjaran, Bandung Email :
[email protected],
[email protected],
[email protected]. 1Mahasiswa
Abstrak Salah satu penaksir total populasi dalam kegiatan survei yaitu penaksir Generalized Regression (GREG). Estimasi total populasi dengan menggunakan GREG merupakan teknik estimasi total populasi yang menggabungkan pendekatan model dan desain. Penaksir GREG memanfaatkan variabel tambahan (auxiliary variable) dan menggunakan weighted least square (WLS) dan transformasi Box Cox dalam mengestimasi total populasi. Kata Kunci : Penaksir Generalized Regression (GREG), weighted least square (WLS)
1.
LATAR BELAKANG MASALAH Sampel survei telah menjadi salah satu perhatian utama para peneliti dan ilmuwan
karena selain efisien dalam pembiayaan dan waktu, juga memiliki cakupan dan tingkat ketelitian yang lebih tinggi dibandingkan dengan pencacahan lengkap/sensus (Cochran, 1977). Hal ini berimplikasi pada berkembangnya teknik-teknik penarikan sampel dan inferensinya. Dalam perkembangannya, teknik estimasi total populasi dikelompokkan menjadi estimasi berbasis desain (design based) dan berbasis model (model based). Estimasi berbasis desain adalah teknik estimasi yang lebih mengutamakan pada distribusi randomisasi yang dilakukan saat penarikan sampel, estimasi berbasis desain menggunakan informasi tentang desain sampling yaitu rata-rata dari penimbang sampling. sedangkan estimasi berbasis model adalah estimasi yang didasarkan pada model statistik dari nilai observasi (outcomes) survei yang dihasilkan, yang kemudian digunakan untuk mengestimasi nilai-nilai observasi dari unit yang tidak terkena sampel (Kale, 2009). Pengklasifikasian teknik estimasi total populasi yang lainnya dibedakan menjadi penaksir langsung (direct estimator) dan penaksir tidak langsung (indirect estimator). Penaksir langsung didefinisikan sebagai penaksir yang menggunakan nilai-nilai variabel penelitian hanya dari domain yang sedang diteliti, sedangkan penaksir tidak langsung
Jurusan Statistika-FMIPA-Unpad 2011
172
PROSIDING Seminar Nasional Statistika | 12 November 2011
ISSN : 2087-5290. Vol 2, November 2011
merupakan penaksir yang memanfaatkan informasi tentang variabel penelitian yang secara tidak langsung terkait dengan domain yang sedang diteliti (Myrskyla, 2007). Estimasi total populasi berdasarkan pendekatan desain sampling seperti penaksir langsung secara umum sering digunakan untuk mengestimasi total populasi, sedangkan estimasi berdasarkan pendekatan model jarang sekali digunakan. Ada beberapa teknik estimasi total populasi dengan menggunakan pendekatan model diantaranya yaitu Generalized Regression (GREG). Estimasi total populasi dengan menggunakan GREG merupakan teknik estimasi total populasi yang menggabungkan pendekatan model dengan desain. Penaksir GREG untuk total dan rata-rata populasi diperoleh menggunakan model regresi (Li, 2008), maka masalah yang ingin dikaji dalam penelitian ini adalah estimasi total populasi dengan menggunakan GREG.
2. 2.1.
METODOLOGI Penaksir langsung dengan menggunakan penarikan sampel acak sederhana Penarikan sampel acak sederhana (simple random sampling) adalah sebuah metode
untuk memilih n unit dari N sehingga setiap elemen
dari
N Cn
sampel yang berbeda
mempunyai kesempatan yang sama untuk dipilih. Dalam prakteknya, penarikan sampel acak sederhana dipilih unit per unit. Unit-unit dalam populasi diberi nilai 1 sampai dengan N kemudian dipilih dengan menggunakan sebuah tabel bilangan acak atau dengan cara menggunakan sebuah program yang menghasilkan tabel bilangan acak (Cochran, 1977). Dalam penarikan sampel acak sederhana, untuk menaksir rata-rata sampel digunakan persamaan sebagai berikut: n
y y
i 1
i
n
(1)
Sedangkan untuk menaksir total populasi digunakan persamaan: =
(2)
Dengan n adalah banyaknya sampel, N adalah banyaknya unit dalam populasi, yi adalah variabel y yang terpilih sebagai sampel dan
2.2.
adalah penaksir total populasi (Cochran, 1977).
Penaksir Generalized Regression (GREG) Misal jumlah total dari populasi
T yi
(3)
iU
Jurusan Statistika-FMIPA-Unpad 2011
173
PROSIDING Seminar Nasional Statistika | 12 November 2011
ISSN : 2087-5290. Vol 2, November 2011
Dimana U ={1,……,N} merupakan populasi berukuran N dan yi > 0 merupakan nilai dari variabel yang diteliti yang berhubungan dengan unit i. Persamaan penaksir GREG yang akan digunakan untuk mengestimasi total populasi adalah sebagai berikut:
TˆG yˆi , w yi yˆi , w / i ; i = 1,….,n iU
Dengan
,
(4)
is
adalah penaksir dari
sesuai dengan model, TˆG merupakan
penaksir
GREG, dan i merupakan peluang untuk unit ke-i terpilih sebagai sampel, karena penaksir GREG menggunakan pemodelan regresi linear, maka ada beberapa asumsi regresi yang harus terpenuhi yaitu error berdistribusi normal, tidak ada autokorelasi, homokedastisitas dan tidak terjadi multikolinieritas, dalam kenyataannya asumsi tersebut tidak selalu terpenuhi, pelanggaran terhadap asumsi regresi, akan mempengaruhi penaksiran parameter β dan yang akan digunakan untuk menaksir total populasi melalui pendekatan GREG. Apabila terjadi pelanggaran asumsi error berdistribusi normal, agar analisis regresi bisa tetap dilakukan, perlu diberikan perlakuan khusus terhadap data yang ada, salah satunya yaitu dengan melakukan transformasi terhadap variabel y yaitu dengan transformasi Box Cox: ( )
−1 ( )
=
≠0 =0
(5)
(Sembiring, 1995). Sedangkan apabila terjadi pelanggaran asumsi homokedastisitas maka metode penaksiran yang umumnya digunakan untuk kondisi seperti ini adalah metode weighted least square (WLS). WLS merupakan hasil modifikasi dari OLS, Ketika model regresi ( ) = 0 dan ( ) =
=(
maka estimator OLS
)
=
+ dengan
menjadi tidak akurat.
Persamaan dari least square normal adalah: ′
= ′
(6)
Dari persaman diatas =
′
′
(7)
Persamaan diatas dinamakan estimator generalized least square (GLS) dari β. Ketika error tidak berkorelasi tetapi memiliki varians yang berbeda kovarians matrik ε menjadi:
Jurusan Statistika-FMIPA-Unpad 2011
174
PROSIDING Seminar Nasional Statistika | 12 November 2011
⎡ ⎢ ⎢ ⎢ ⎢0 ⎣
=
ISSN : 2087-5290. Vol 2, November 2011
0⎤ ⎥ ⎥ ⎥ ⎥ ⎦
⋱
(8)
Prosedur estimasi diatas disebut weighted least square (Montgomery, 1992). misalkan W=
, V merupakan matriks diagonal, dan W juga merupakan matrik diagonal dengan
elemen w1,w2,…,wn .berdasarkan persamaan diatas, maka persamaan normal dari weighted least square adalah ( ′
) = ′
(9)
dan =( ′
)
′
(10)
Berdasarkan persamaan tersebut maka nilai wi harus diketahui,sebagai ilustrasi apabila nilai observasi yi adalah merupakan rata-rata ni, observasi sekitar nilai xi, dan apabila semua nilai observasi asal memiliki varians konstan sebesar
, maka wi yang digunakan, wi
= ni. Ilustrasi yang lain, Kadang-kadang varians yi merupakan fungsi dari regressor, contoh ( )= ( )=
, untuk kasus ini maka digunakan penimbang wi =1/xi (Montgomery,
1992). Apabila terjadi pelanggaran terhadap asumsi normalitas dan homokedastisitas, maka model untuk penaksir GREG ( )
=
+
(11)
Dengan 1
ˆwbc wi xi xi' wi xi yi is is 2.3.
(12)
Penentuan penaksir total populasi terbaik Untuk menentukan penaksir terbaik, bisa dilakukan dengan
memperhatikan nilai
Mean square error (MSE) dari masing-masing penaksir yang ada. Penaksir yang memiliki nilai MSE yang paling kecil dibandingkan penaksir yang lain, maka penaksir tersebut merupakan penaksir yang paling baik. Jika
,
= 1, … . ,
MSE
adalah estimator dari T maka:
1 m ˆ Ti T m i 1
2
(13)
(Li, 2008).
Jurusan Statistika-FMIPA-Unpad 2011
175
PROSIDING Seminar Nasional Statistika | 12 November 2011 3.
ISSN : 2087-5290. Vol 2, November 2011
HASIL DAN PEMBAHASAN Data yang digunakan pada penelitian ini yaitu data mengenai jumlah tanaman mangga
yang menghasilkan dalam satuan pohon (variabel x) dengan produksi mangga dalam satuan kwintal (variabel y) per kabupaten/kota penghasil mangga di seluruh Indonesia hasil pendataan Statistik Pertanian Hortikultura (SPH) tahun 2009. Jumlah populasi dalam penelitian ini yaitu sebanyak 438 kabupaten/kota, pemilihan sampel dengan menggunakan penarikan
sampel
acak
sederhana
(SRS),
dengan
jumlah
sampel
sebanyak
44
kabupaten/kota. Berdasarkan sampel melalui penarikan sampel sederhana akan diestimasi total produksi mangga di seluruh kabupaten/kota se-indonesia dan diperoleh output sebagai berikut: Pengujian asumsi error berdistribusi normal dan homokedastisitas.
Grafik 1. Normal Probability Plot
Tabel 1. Output pengujian One-Sample Kolmogorov-Smirnov Test Uraian N Mean Normal Parameters(a,b) Most Extreme Differences
Std. Deviation Absolute Positive Negative
Kolmogorov-Smirnov Z Asymp. Sig. (2-tailed) Sumber: Hasil Olahan Data Jurusan Statistika-FMIPA-Unpad 2011
44 -1991,3705 24706,585 02 ,371 ,371 -,231 2,460 ,000
176
PROSIDING Seminar Nasional Statistika | 12 November 2011
ISSN : 2087-5290. Vol 2, November 2011
Berdasarkan grafik 1, terlihat bahwa error tidak tersebar pada garis normal dan hasil pengujian kenormalan dengan menggunakan uji Kolmogorov-Smirnov, diperoleh nilai p-value < α (0,000 < 0,05) maka Ho di tolak, dapat disimpulkan bahwa error tidak berditribusi normal sehingga perlu dilakukan transformasi terhadap variabel y. Dengan memperhatikan grafik 2, transformasi dapat dilakukan dengan menggunakan nilai λ antara 0,07 sampai dengan 0,34 , dari nilai Jumlah Kuadrat Sisa (JKS) dapat disimpulkan bahwa lamda yang akan digunakan untuk transformasi yaitu 0,3.
Grafik 2. Nilai Lamda untuk Transformasi Box Cox
Tabel 2.Nilai Jumlah Kuadrat Sisa untuk masing-masing Nilai Lamda Lamda [1] 0,07 0,1 0,2 0,3 0,34 Sumber : Hasil Olahan Data
JKS [2] 2.232.109.189 2.130.631.920 1.936.558.734 1.910.583.659 1.940.302.622
Dari Grafik 3, terlihat bahwa plot fitted value terhadap residual di sekitar nol dan sebarannya relatif mengumpul pada salah satu titik dan membentuk pola tertentu, sehingga asumsi homokedastisitas tidak terpenuhi.
Jurusan Statistika-FMIPA-Unpad 2011
177
PROSIDING Seminar Nasional Statistika | 12 November 2011
ISSN : 2087-5290. Vol 2, November 2011
Grafik 3. Plot Fitted Value terhadap Residual Berdasarkan hasil pengujian asumsi regresi tersebut dapat disimpulkan bahwa model GREG yang akan digunakan untuk mengestimasi total populasi menggunakan model dengan transformasi Box Cox terhadap variabel y dan menggunakan Weighted least Square (WLS).
Tabel 3. Perbandingan Nilai Estimasi Total Populasi dan MSE antara Penaksir Langsung dengan Penaksir GREG Total Penaksir Uraian Penaksir GREG Populasi Langsung Sebenarnya [1] [2] [3] [4] Total 15.146.807 24.573.324 22.434.396 Populasi MSE
5,31E+13
4,575E+12
Sumber : Hasil Olahan Data
Pada Tabel 3, terlihat bahwa penaksir GREG menghasilkan nilai estimasi yang lebih mendekati terhadap total populasi sebenarnya dengan nilai MSE yang lebih kecil dibandingkan dengan penaksir rasio, sehingga dapat disimpulkan bahwa penaksir GREG lebih baik dibandingkan dengan penaksir rasio pada penarikan sampel acak sederhana. 30000000 20000000 10000000
15.146.806 ,5
24.573.323 22.434.396 ,68
0 penaksir langsung
penaksir GREG
Nilai Sebenarnya
Grafik 4. Perbandingan Nilai Estimasi Total populasi antara Penaksir Langsung dengan Penaksir GREG
Jurusan Statistika-FMIPA-Unpad 2011
178
PROSIDING Seminar Nasional Statistika | 12 November 2011
ISSN : 2087-5290. Vol 2, November 2011
5,3109E+13 6E+13 4E+13
4,57501E+12
2E+13 0 penaksir langsung
penaksir GREG
Grafik 5. Perbandingan MSE antara Penaksir Langsung dengan Penaksir GREG
4.
KESIMPULAN Dengan menggunakan sampel hasil penarikan sampel acak sederhana (SRS), penaksir
GREG menghasilkan nilai estimasi yang lebih mendekati terhadap total populasi sebenarnya dengan nilai MSE yang lebih kecil dibandingkan dengan penaksir langsung, sehingga dapat disimpulkan bahwa penaksir GREG lebih baik dibandingkan dengan penaksir langsung (Direct Estimation).
5.
PENGHARGAAN Penghargaan setinggi-tingginya kepada Yan Li, 2008, karena jurnalnya yang berjudul
Generalized Regression Estimators (GREG) of a Finite Population Total Using Box Cox Technique menjadi rujukan utama dalam penelitian ini.
6.
DAFTAR PUSTAKA
BPS. 2009. Pedoman Pengumpulan Data Hortikultura. Jakarta : BPS. Cochran,William G.1977. Sampling Techniques, 3rd. New York : John willey & Sons. Jaya, I Gde Nyoman Mindra. 2010. Analisis Regresi. Bandung:Unpad. Kale, Matamira B. 2009. Perbandingan Estimasi Total Populasi Penduduk Berdasarkan Model Penelized Spline dengan Estimasi Rasio. Surabaya : ITS. Li, Y., and Lahiri, P. 2007. Robust Model-Based and Model Assisted Predictors of The Finite Population Total. Journal of American Statistical Association 102 : 664-673. Li, Yan. 2008. Generalized Regression Estimators (GREG) of a Finite Population Total Using Box Cox Technique. Jurnal of Statistics Canada, 34:hal 79-89. Montgomery, Douglas C and Peck Elizabeth A.1992. Introduction to Linear Regression Analysis. New York : John Wiley and sons, inc. Myrskyla, Mikko. 2007. Generalised Regression Estimation for Domain Class Frequencies. Research Report. Statistics Finland. Sembiring, R K.1995. Analisis Regresi. Bandung:ITB.
Jurusan Statistika-FMIPA-Unpad 2011
179