Seminar Nasional Statistika IX Institut Teknologi Sepuluh Nopember, 7 November 2009
Regresi Polinomial local untuk Data Survey Skala Besar Studi kasus: Model Pengeluaran Rumah Tangga berdasarkan Data Susenas Jawa Timur 2006 Oleh: Tuti Rumiati
Abstrak Survai berskala besar dan kompleks umumnya melibatkan data sampel dalam jumlah sangat besar. Sebagai contoh Susenas yang selalu dilaksanakan oleh Badan Pusat Statistik tiap tahun setidaknya melibatkan 1,2 juta sampel di seluruh Indonesia. Untuk skala Jawa Timur saja Susenas memiliki 29.950 responden. Salah satu persoalan yang dihadapi pada saat mencari pendugaan parameter dari data yang berskala besar adalah kapasitas perangkat lunak yang terbatas. Statistik penduga parameter dalam kasus seperti ini dapat diturunkan dengan mereduksi data dengan merubah skala data mengelompokkan data kedalam interval tertentu. Jumlah data dalam interval dianggap sebagai ulangan pada titik yang mewakili interval tersebut. Selanjutnya penduga statistic diaplikasikan kedalam data baru
1.
Dalam kasus model yang menjelaskan hubungan antara pengeluaran rumah tangga dan rasio pengeluaran makanan/non makanan di Jawa Timur berdasarkan data Susenas tahun 2006, model terbaik diperoleh degan menggunakan Span 0.3. Diperoleh model eksponensial sampai pengeluaran total sebesar Rp 10.000.000 dan berbentuk kuadratik setelah batas pengeluaran Rp 10.000.000,-. Pada kausus ini dengan memasukkan komponen bobot pada fungsi polynomial diperoleh model yang lebih baik karena memiliki residual yang lebih rendah tahun selalu dilaksanakan oleh Badan Pusat Statistik (BPS), Pendahuluan setidaknya melibatkan 1,2 juta sampel di seluruh Indonesia. Untuk Survai berskala besar dan skala Jawa Timur saja Susenas kompleks umumnya melibatkan data memiliki 29.950 responden. sampel dalam jumlah sangat besar. Sebagai contoh Susenas (Survai Sosial Ekonomi Nasional) yang tiap
Beberapa peneliti telah mengembangkan metode pendugaan 1
model regresi polynomial untuk data berskala besar.
menghubungkan X dan Y melalui pendekatan non-parametrik.
Model regresi berganda untuk survai telah dipelajari oleh Fuller (1975) dengan menggunakan bobot survai. Sedangkan Korn and Graubard (1998) memperkenalkan Regresi Polinomial Lokal untuk data survai yang kompleks yaitu hanya dengan menampilkan grafik-grafik tanpa menyediakan sifat-sifat statistik dari prosedur yang digunakan. Sedangkan Smith and Njenga (1992) menggunakan regresi dengan teknik pemulusan kernel untuk mencapai penduga yang robust untuk rataan dan parameter regresi untuk sebuah asumsi model superpopulasi.
Tulisan ini membahas pengembangan model polonomial lokal untuk data survey yang berskala besar dengan mengambil kasus model yang menduga rasio pengeluaran makanan non makanan dengan pengeluaran rumah tangga. 2. Metodologi Pengelompokan Data Misalkan X dan Y adalah variable yang diukur dari suatu populasi berukuran N. Model yang ingin dihasilkan adalah y=f(x). Seandainya X dapat dipandang memiliki k nilai yang berbeda maka X dapat dikatagorikan ke dalam k wadah. Misalkan xi adalah nilai ke-i dari X dan diasumsikan bahwa xi memiliki ruang yang sama, maka b = xi-xi-1.
Selanjutnya Bellhouse and Staford mengembangkan model Polinomial lokal sebagai alat eksplorasi untuk menemukan hubungan antara Y dan kovariat X. Dalam hal ini kovariat X diasumsikan sebagai peubah berskala kontinu.
Selanjutnya sampel berukuran n diambil dari populasi yang memiliki struktur yang sama dengan populasi yaitu dapat dibagi kedalam k wadah, maka nilai dugaan dari yi (rerata Y
Karena besarnya sampel pada data survai, Hartley and Rao (1968,1969) mengasumsikan adanya multiple observation pada titik-titik tertentu dan mengeksploitasi finite population parameter dalam menguji hubungan antara X dan Y. Demikian juga Bellhouse and Stafford (2001), menggunakan cara yang sama untuk memperoleh model yang
untuk xi tertentu) adalah
yˆi .
Selain itu, dari data survai dapat diduga pi yang didefinisikan sebagai finite population proportion dari observasi dengan nilai xi. Dari data ˆi adalah dugaan dari survai maka p pi. Diasumsikan bahwa yˆi 2
ˆi dan p
adalah penduga asismtotik tak bias dan penduga
pada data Susenas Jawa Timur tahun 2006 yang melibatkan 29950 sampel data.
yˆi , untuk i=1,2,3…..k
memiliki matriks varian-kovarian V.
Misalkan diberikan pasangan observasi (X1,Y1), . . ……. , (Xn, Yn), peubah acak Y dihubungkan dengan kovariatnya X melalui persamaan:
Menurut Bellhouse and Stafford, beberapa keuntungan melakukan pengelompokan (binning) terhadap data dari kovariat X pada saat eksplorasi adalah, pertama pada survai skala besar menggunakan
yi m(xi ) i ,
yˆi terkait dengan xi lebih informatif
E(i ) 0, i=1,2,……k …...….(1)
dan lebih tidak membingungkan dibandingkan menggunakan seluruh data. Kedua, membuat model sederhana dengan
Dimana m(.) adalah polinomial lokal yang merupakan fungsi regresi dan ˆ (x) . penduga m(x) adalah m
yˆi akan membuat
Diasumsikan bahwa
analisis lebih terfokus pada isu sentral yang diteliti, yaitu menentukan fungsi kecenderungan untuk x. Dengan menggunakan
tidak tergantung pada X dan X diperlakukan sebagai peubah tetap. Pendugaan m(x) melalui pendekatan regresi polinomial lokal dapat diperoleh dengan cara sebagai berikut.
matriks varian-kovarian Vˆ , maka akan mudah menggunakan software statistic semacam SPLUS dan lainlain. Ketigat, dengan melakukan binning data maka secara bersamaan akan dapat dilakukan pendekatan nonparametrik yang lain seperti misalnya regresi logistik, model linier terampat dan lain-lain. Pendekatan Lokal
Regresi
V(i )
Andaikan q menyatakan derajat/ pangkat dari regresi polinomial lokal. Breidt dan Epsomer (2007) menyatakan bahwa untuk nilai x yang dibeketahui ˆ (x) didefinisikan sebagai maka m
ˆ0 dimana
Polinomial
ˆ0 , ˆ1,.....ˆq diperoleh
dengan menyelesaikan fungsi kuadrat terkecil terbobot sebagai berikut:
Jika Em adalah nilai harapan dari superpopulasi yang didefinisikan sebagai E m( yi )=m(xi) maka m(xi)
n x x min K i (Yi 0 1(xi x) ... i1 h q (xi x)q )2...................................(2)
adalah fungsi pemulus. Pendekatan regresi polinomial lokal dan dan metode binning dengan menggunakan m(xi) akan dicoba diterapkan
Penduga tersebut dapat ditulis dalam bentuk matriks: 3
e1 (1,0,0,....,0)T ,Y (Y1,.....Yn )T , Wx diag{K((x1 x) / h,.......,K((xn x) / h}
h dalam persamaan (2) adalah lebar jendela dari kernel. Dalam hal meminimumkan (5) untuk mendapatkan pendugaan regresi polinomial lokal terdapat dua kemungkinan untuk pengelompokan pada X yaitu, pertama adalah pengelompokan berdasarkan presisi data sedemikian
Dan
hingga
ˆ (x) e (X Wx (h)Xx ) X Wx (h)Y m T 1
1
T x
T x
…………………………………..(3) Dengan
1 x1 x ...... (x1 x) 1 x x ....... (x x)q 2 2 ….(4) Xx . . . . . . . . 1. xk x ....... (xk x)q
Nilai harapan ˆ (x) ) (m
Untuk kasus survey yang berskala besar dimana X telah dikelompokkan atas Xi yang berbeda satu sama lain dengan frekuensi ni atau dengan proporsi pi maka (Bellhouse and Stafford,2001) menduga parameter 0 , 1,........ q
Pendugaan
ˆ (x) m
ˆ (x) m
dan Varians
dan
momen
pertama serta kedua dapat diekspresikan dalam bentuk matriks. Vektor rerata dari nilai-nilai x yang berbeda dari populasi adalah
dengan ˆ0 , ˆ1,........ˆq yang dapat diperoleh dengan meminimumkan fungsi:
y (y1, y2 ,....yk )T dan yˆ adalah
pˆ {yˆ (x x ) .... (x x) }K((x x)/ h)/ h i1
berdasarkan
setiap hasil dari x. Kedua, adalah dengan mengelompokkan data berdasarkan ”keragaman” dari pada akurasi dari data.
q
k
yˆi dihitung
vector penduga dari hasil data hasil survai. Selanjutnya:
q
i
i
0
1
i
q
i
i
………………………………...…(5) terhadap 0 , 1,.......q . Persamaan (5) adalah modifikasi dari persamaan (2) dengan menambahkan komponen pi. Selanjutnya fungsi kernel K(t) merupakan fungsi simetrik dengan:
1 Wx diag(p1K((x1 x)/h), h p2K((x2 x)/h,......pkK((xk x)/h) …………………………………..(7)
ˆ x adalah Wx dengan p Matriks W ˆ , oleh karena itu : diganti oleh p
K(t)dt 1, tK(t)dt 0 0 t K(t)dt dan 2
ˆ x Xx )1 XTxW ˆ x yˆ ,….(8) ˆ (x) eT (XTxW m
R(K) [K(t)]2dt .................(6)
Nilai harapan dari
4
ˆ (x) adalah: m
ˆ (x)) eT(XTxWx Xx )1 XTxWxy ..(9) Ep (m
modul dikumpulkan bersamaan dengan data kor, dimana jenis modul yg ditanyakan bergantian untuk tiap tahunnya.
Dimana Ep menyatakan nilai harapan berdasarkan rancangan sampling. Persamaan (8) adalah penduga pemulus ˆ (x) juga merupakan m(x ) sehingga m penduga dari
Ep ( yˆ) y
dan
Untuk Susenas 2008 jumlah responden ditingkatkan menjadi 1,2 juta rumah tangga dengan tujuan meningkatkan akurasi dan prediksi sampai ke tingkat kecamatan. Tujuan utama pengumpulan data Susenas 2008 adalah tersedianya data tentang kesejahteraan masyarakat dalam hal pendidikan, kesehatan, dan kemampuan daya beli. Khusus untuk propinsi Jawa Timur, jumlah sampel yang digunakan sekitar 29500 rumah tangga.
m(x ). Selanjutnya:
Ep (Wˆx ) Wx
untuk
ukuran sampel n yang besar. ˆ (x) diperoleh Selanjutnya varians m dengan
mengganti
Wˆx Wx Aˆ
ˆ Wˆx Wx . Jika digunakan dimana A dua suku pertama dari fungsi (I B)1 I B B2 B3 .......... maka dengan cara yang sama diperoleh ˆ (x) adalah sebagai berikut: varians m ˆ (x)) Vp (m eT (XxTWx Xx )1 XxTWxVWx Xx (XxTWx Xx )1e
Penarikan contoh dalam survai Susenas menggunakan rancangan sampel dua tahap untuk daerah perkotaan dan tiga tahap untuk daerah pedesaan. Untuk daerah perkotaan, wilayah dibagai atas blok sensus dan pemilihan blok sensus dengan cara linear systematic sampling. Selanjutnya dari setiap blok sensus diambil sampel sebanyak 16 rumah tangga. Sedangkan untuk daerah pedasaan pemilihan sampel dilakukan dengan cara memilih kecamatan propotional to size dengan size banyaknya runah tangga di kecamatan.
……………….………………...(10) Dugaan Vˆp m(x) diperoleh dengan
substitusi Vˆ dari hasil survey untuk menggantikan V pada persamaan (10) 3. Contoh Untuk Model Pengeluaran Rumah Tangga dalam Susenas Jawa Timur. 1) Tentang Susenas Jawa Timur
Tahap kedua dipilih blok sensus di tiap kecamatan secara linear systematic sampling. Dalam tiap blok sensus dipilih sampel 16 rumah tangga secara linear systematic sampling. Pengumpulan data di tiap rumah tangga dilakukan dengan wawancara dengan responden dengan menggunakan kuisioner.
Susenas atau Survei Sosial Ekonomi Nasional merupakan salah satu kegiatan rutin BPS tiap tahun. Survei ini telah terlaksana sejak tahun 1963 dan sejak tahun 1992 data yg dikumpulkan melalui Susenas terbagi dalam 2 jenis; data kor (keterangan pokok) dan data modul (keterangan khusus). Data 5
Salah satu karaketeristik penting untuk mengukur tingkat kesejahteraan masyarakat adalah variable pengeluaran rumah tangga dimana pengeluaran rumah tangga total terbagi atas dua komponen yaitu pengeluaran makanan dan pengeluaran non makanan. Rasio pengeluaran makanan terhadap pengeluaran non makanan sering digunakan untuk mengetahui tingkat kesejahteraan rumah tangga. Rumah tangga miskin umumnya memiliki rasio pengeluaran makanan /non makanan diatas sangat tinggi.
pengeluaran makanan/non makanan sekitar 0.1
30000
20000
10000
Std. Dev = 550520.7 Mean = 408357.6 N = 29950.00
.0 00 00 0.0 00 00 0 32 00 0. 0 00 30 00 0.0 0 00 28 00 0.0 0 00 26 00 0.0 0 00 24 00 0.0 0 00 22 00 0.0 0 00 20 00 0.0 0 00 18 00 0.0 0 00 16 00 0.0 0 00 14 00 0.0 0 00 12 0 0 00 0. 10 00 0 . 00 00 8 0 0 0 .0 0 00 6 0 0 0 .0 0 00 40 00 0
20
0
0. 0
Pengeluaran non makanan
Diasumsikan bahwa sampel sebesar 29950 responden cukup representative untuk mewakili kondisi social ekonomi masyarakat Jawa Timur tahun 2006. Gambar 1 menunjukkan bahwa distribusi pengeluaran rumah tangga total, untuk makanan dan non makanan cenderung miring kekiri, artinya lebih banyak rumah tangga yang memilki pegeluaran rumah tangga rendah. Demikian juga distribusi rasio pengeluaran makanan / non makanan yang ditunjukkan oleh Gambar 2, terlihat lebih banyak rumah tangga di Jawa Timur yang memiliki rasio pengeluaran tinggi. Gambar 3 menunjukkan bahwa rumah tangga yang lebih kaya memiliki rasio pengeluaran makanan /non makanan rendah. Sebagai contoh rumah tangga yang memiliki pengeluaran rumah tangga di atas 5 juta akan memiliki rasio pengeluaran makanan/non makanan hanya sekitar 0,5, sedangkan rumah tangga yang memiliki pengeluaran rumah tangga diiatas 10 juta memiliki rasio
14000
12000
10000
8000
6000
4000 Std. Dev = 258467.7
2000
Mean = 475633.5
0 0.
0 0. 00 00 .0 48 00 0 00 .0 44 00 0 00 .0 40 00 0 00 .0 36 00 0 00 .0 32 00 0 00 .0 28 00 0 00 .0 24 00 0 00 .0 20 00 0 00 .0 16 00 0 00 12 .0 00 00 80 0.0 0 00 40
N = 29950.00
0
Pengeluaran makanan 30000
20000
10000
Std. Dev = 711664.0 Mean = 883991.1
0 0.
.0 00 00 .0 00 00 32 00 .0 00 00 30 00 .0 00 00 28 00 .0 00 00 26 00 .0 00 00 24 00 .0 00 00 22 00 .0 00 00 20 00 .0 00 00 18 00 .0 00 00 16 00 .0 00 00 14 00 .0 00 00 12 00 00 0.0 10 00 0 00 0. 80 00 0 00 0. 60 00 0 00 0. 40 00 00 20
N = 29950.00
0
Pengeluaran rumah tangga
Gambar 1. Distribusi Pengeluaran Rumah Tangga (makanan, non makanan, total) 6
200.000,- sehingga kelas interval pertama adalah 0-Rp 200.000,-, kedua antara Rp 200.000,- Rp 400.000,- dan seterusnya. xi adalah nilai tengah tiap kelas interval. ni adalah jumlah data yang masuk pada kelas interval ke i dan pi adalah ni/29950. Sedangkan
Gambar 2.
yˆi adalah rata-rata rasio
pengeluaran makanan/ non makanan pada interval ke-i. Karena terdapat beberapa sel yang tidak terisi maka jumlah interval (xi) untuk data Susenas ini akhirnya hanya ada 51 data. Contoh struktur data dapat dilihat pada Tabel 1 dan scatter plot yang menunjukkan hubungan antara pengeluaran rumah tangga (x) dengan rasio pengeluaran makanan/non makanan (y) dapat dilihat pada Gambar 4.
Scatter Plot rasio pengeluaran makanan/non makanan/non makanan
Gambar 3. Scatter Plot rasio makanan vs pengeluaran RT total
Tabel 1. Contoh Struktur dikelompokkan
2) Pendekatan Regresi Plinomial Lokal untuk Model Pengeluaran Rumah Tangga.
n 418 3638 6965 6407 ……. …….. 1
Data Susenas yang terdiri dari 29950 responden dikelompokkan berdasarkan pengeluaran rumah tangga dimana pengeluaran rumahtangga memiliki rentang Rp 67.000,- sampai Rp 32.971.605,- per bulan. Pengeluaran rumah tangga dibagi atas interval dengan selang Rp
Proporsi 0.013957 0.121469 0.232554 0.213923 ………… ………… 3.34 E-05
Data setelah
xi 100 300 500 700 …..….. ……… 33700
yi (bar) 2.1806 2.12595 2.10661 1.88940 ……… ……… 0.01169
Gambar 4 dibawah menunjukkan bahwa hubungan kedua 7
peubah tersebut berbentuk eksponensial. Pengeluaran rumah tangga sampai dengan Rp 10.000.000 memiliki hubungan linier negatif dengan rasio pengeluaran makanan/ non makanan. Selanjutnya pengeluaran rumah tangga diatas Rp 10.000.000 memiliki laju peneurunan yang lambat sekitar angka 1-3%
Gambar 5 (a) adalah model regresi polynomial local terbaik untuk data pengeluaran rumah tangga (dengan Span sebesar 0,3). Gambar 5(a) menunjukkan bahwa grafiknya berbentuk eksponensial sampai batas batas pengeluaran sebesar Rp10.000.000,-. Selanjutnya berbentuk kuadratik setelah batas Rp 10.000.000,-. Jika digunakan pendeketan regresi polynomial local tanpa bobot pi dan dengan menggunakan Span sebesar 0.3 maka bentuk modelnya dapat dilihat pada Gambar 5(b) yang terlihat sangat mirip dengan Gambar 5(a). Namun demikian model tanpa tersebut memberikan nilai residual scale estimate yang lebih tinggi (yaitu sebesat 0.1002) dibandingkan dengan model yang menggunakan bobot (hanya sebesar 0.0012)
Pemilihan model regresi polynomial local yang terbaik dilakukan dengan merubah-ubah nilai span mulai dari 0.2 sampai 0.9. Model ini dibangun dengan memasukkan bobot pi (proporsi RT pada setiap nilai pengeluaran rumah tangga yang telah dikelompokkan, xi). 2.0
Yi
1.5
1.0
4. Kesimpulan
0.5
0.0
0
5000
10000
15000
20000
25000
30000
Untuk survai yang berskala besar semacam Susenas dibutuhkan penyederhanaan informasi dengan mengelompokkan data berdasarkan peubah penjelas yang sudah terklasifikasi. Penyederhadaan dengan mengelompokkan tersebut beresiko pada hilangnya informasi tentang variabilitas yi di tiap kelompok xi
35000
Xi
Gambar 4. Scatter Plot Pengeluaran Rumah Tangga VS Rasio makanan/non makanan Tabel 2 menunjukkan berbagai alternative model dengan berbagai nilai Span. Semakin tinggi span maka derajat dari model regresi polynomial makin turun. Model yang terbaik adalah yang memiliki nilai dugaan residual paling kecil. Terlihat bahwa Span sebesar 0.3 adalah yang terbaik karena memberikan nilai residual terendah.
Dugaan
yˆi , dalam kasus ini
adalah rata-rata rasio pengeluaran makanan/non makanan sangat cocok 8
2.0
2.5
digunakan jika distribusi dari tiap kelompok (xi) adalah normal.
0.0
0.5
1.0
V5
1.5
Jika bentuk distribusi dari yi tidak normal dapat digunakan penduga lain misalnya median Dalam kasus model pengeluaran rumah tangga Jawa Timur berdasarkan data Susenas tahun 2006, model terbaik diperoleh degan menggunakan Span 0.3, dimana nilai rasio pengeluaran makanan/non makanan menurun secara eksponensial sampai pengeluaran total sebesar Rp 10.000.000 dan berbentuk kuadratik setelah batas pengeluaran Rp 10.000.000,-. Pada kausus ini dengan memasukkan komponen bobot pada fungsi polynomial diperoleh model yang lebih baik karena memiliki residual yang lebih rendah
0
10000
20000
30000
Xi
0.0
0.5
1.0
V5
1.5
2.0
(a) Menggunakan bobot pi
0
10000
20000
30000
Xi
(b) Tanpa bobot pi
Ada kemungkinan bahwa cara pengelompokkan yang berbeda akan memberikan sebaran yi (misalnya dalam kasus ini adalah rasio pengeluaran makanan/non makanan) yang berbeda. Oleh karena itu model yang akan diperoleh juga akan berbeda bentuk. Dibutuhkan metode khusus untuk menentukan kelompok terbaik sehingga menghasilkan model yang paling represetatif terhadap data asli.
Gambar 5. Regresi polynomial local pengeluaran rumah tangga total vs rasio pengeluaran makanan/non makanan
9
Hartley, H.O., and Rao, J.N.K. (1968). A new estimation theory for sample surveys. Biometrika, 55, 547557. Tabel 3. Jumlah parameter model regresi polynomial local dan residual untuk berbagai nilai Span Span
Equivalent Number
0.2
0.3
0.4
0.5
0.6
0.7
0.75
16
11.2
8.6
7.3
6.1
5.2
0.00206
0.0012
0.0019
0.003
0.0026
0.003
0.1229
0.003 0.01
5.4
0.8 5
0.9 4.6
of Parameters Residual Scale Estimate Residual:
Min
-0.2035
-0.920
-0.541
-0.294
-0.275
-0.25
-0.174
-0.245
-0.22
1st
Q
-0.0406
-0.069
-0.666
-0.085
-0.055
-0.051
-0.065
-0.060
-0.07
Median
-0.0009
-0.014
-0.025
-0.028
-0.003
0.019
-0.011
0.0172
0.030
3rd Q
0.0183
-0.035
-0.050
0.0653
0.0905
0.0997
0.076
0.1187
0.179
Max
0.361
0.287
0.248
0.2117
0.3073
0.264
0.307
0.2922
0.369
Pustaka
Hardle, W. (1990). Applied Nonparametric Regression. Cambridge University Press: Cambridge.
Bellhouse ,D.R and Stafford,J.E, Local Polynomial Regression in Complex Survey, Survey Methodology, 2001
Hartley, H.O., and Rao, J.N.K. (1969). A new estimation theory for sample surveys, II. In New Developments in Survey Sampling, London: Chapman and Hall.
Breidt, F.J., and Opsomer, J.D. (2000). Local polynomial regression estimators in survey sampling. Submitted for publication. Fuller, W.A. (1975). Regression analysis for sample survey. Sankhyā, C, 37, 117132.
Eds. N.L. Johnson and H. Smith). New York: John Wiley & Sons, Inc. InterScience, 147169.
Green, P.J., and Silverman, B.W. (1994). Nonparametric Regression and Generalized Linear Models.
Korn, E.L., and Graubard, B.I. (1998). Scatterplots with survey data. American Statistician, 52, 5869. 1
Statistik Kesejahteraan Rakyat, BPS, 2008Vol 27, No 2, pp. 197-2003, Statistics Canada, Catalogue No 12001
2