Seminar Nasional Statistika IX Institut Teknologi Sepuluh Nopember, 7 November 2009
MODEL KLASIFIKASI RUMAHTANGGA MISKIN DENGAN PENDEKATAN METODE MARS Studi Kasus : Kota Surabaya Rokhana DB1, Sutikno2 , Agnes Tuti Rumiati2 1 Mahasiswa S2 Statistika ITS Surabaya 2 Dosen Jurusan Statistika ITS Surabaya Email:
[email protected],
[email protected],
[email protected] Abstrak Multivariate Adaptive regression Spline (MARS) merupakan pendekatan model regresi multivariate nonparametrik nonlinier yang didasarkan pada prosedur recursive partitioning regression (RPR) dengan menggunakan fungsi splines untuk menduga model. Dalam penelitian ini metode MARS digunakan untuk mendapatkan model hubungan dan mengukur ketepatan klasifikasi rumahtangga miskin di Kota Surabaya. Terdapat delapan variabel yang signifikan berpengaruh pada model atau pengklasifikasian kemiskinan berdasarkan garis kemiskinan, yaitu perumahan dan fasilitas rumah tangga, biaya pendidikan, tembakau dan sirih, makanan dan minuman jadi, aneka barang dan jasa, bumbu – bumbuan, buah – buahan, telur dan susu. Model yang dihasilkan memberikan prosentase ketepatan klasifikasi sebesar 64,10%. Kata Kunci : MARS, Klasifikasi, rumahtangga miskin
1. PENDAHULUAN
Seringkali dalam suatu permodelan regresi didapatkan pola hubungan nonlinear antara variabel dependen dan variabel independen. Multivariate Adaptive regression Spline (MARS) merupakan pendekatan untuk regresi multivariate nonparametrik yang dikembangkan oleh Friedman (1990). Pendekatan ini digunakan untuk model regresi nonlinier yang didasarkan pada prosedur recursive partitioning regression (RPR) dengan menggunakan fungsi splines untuk menduga model. Beberapa
aplikasi
MARS
telah
digunakan
untuk
permodelan
maupun
pengklasifikasian. Diantaranya permodelan desa teringgal di Jawa Barat oleh Hidayat (2009) dan ketepatan klasifikasi desa/kelurahan miskin di Kalimantan Timur oleh Wahyuningrum (2009). Wahyuningrum (2009) menyatakan bahwa MARS adalah salah satu metode klasifikasi yang inovatif dan relatif fleksibel untuk menyelidiki
1
pola hubungan antara variabel dependen dan independen tanpa asumsi terhadap bentuk fungsionalnya. Banyak sekali indikator-indikator dan metode yang digunakan untuk mengukur kemiskinan. Beberapa versi indikator tersebut diantaranya adalah digunakan oleh BPS, BKKBN, UI, BPS Jawa Timur, Worldbank dan lain-lain. Masing-masing indikator dan metode yang dikembangkan menghasilkan perhitungan jumlah kemiskinan. BPS memiliki metode perhitungan Garis Kemiskinan (GK) untuk klasifikasi penduduk miskin. Dan data yang digunakan adalah data dari Susenas yang diadakan setiap tahun. Data ini hanya menunjukkan jumlah agregat dan persentase penduduk miskin, tetapi tidak dapat menunjukkan siapa si miskin dan dimana alamat mereka, sehingga kurang operasional di lapangan. Sehingga hasil perhitungan hanya digunakan untuk mengevaluasi pertambahan/pengurangan jumlah penduduk miskin (BPS, 2006). Terjadi perbedaan hasil perhitungan oleh BPS dan Worldbank tahun 2008. Berdasarkan data BPS antara kurun waktu Maret 2008 ke Maret 2009 telah terjadi penurunan angka kemiskinan yaitu 34,96 juta jiwa menjadi 32,53 juta jiwa. Sedangkan menurut Worldbank angka kemiskinan Indonesia 2008 hingga 2009 mencapai 90 juta jiwa hingga nyaris 100 juta. Hal tersebut menyebabkan BPS sangat keberatan karena patokan mereka kategori kemiskinan adalah mereka yang memiliki pendapatan per kapita per hari sebesar USD2 (Nabhani, 2009). Namun banyak juga yang berpendapat tentang kurang akuratnya atas perhitungan oleh BPS itu sendiri. Tujuan dari penelitian ini adalah untuk mendapatkan permodelan antara pengeluaran perkapita per bulan dengan pengeluaran perkapita makanan dan nonmakanan dengan metode MARS. Permodelan tersebut digunakan untuk mengukur ketepatan keakuratan klasifikasi rumahtangga miskin berdasarkan garis kemiskinan (studi kasus Kota Surabaya).
2
2. TINJAUAN PUSTAKA 2.1 Garis Kemiskinan Menurut BPS, kemiskinan adalah ketidakmampuan untuk memenuhi standar dari kebutuhan dasar, baik makanan maupun bukan makanan. Standar ini disebut sebagai garis kemiskinan, yakni kebutuhan dasar makanan setara 2100 kalori energi per kapita per hari, ditambah nilai pengeluaran untuk kebutuhan dasar bukan makanan yang paling pokok (BPS, 1996). Metode yang digunakan BPS untuk mengitung penduduk miskin adalah melalui Garis Kemiskinan (GK), yang terdiri dari dua komponen yaitu Garis Kemiskinan Makanan (GKM) dan Garis Kemiskinan Bukan-Makanan (GKBM). Penghitungan Garis Kemiskinan dilakukan secara terpisah untuk daerah perkotaan dan perdesaan. Penduduk miskin adalah penduduk yang memiliki rata-rata pengeluaran per kapita per bulan dibawah Garis Kemiskinan. 2.1 Multivariate Adaptive Regression Splines (MARS) MARS diperkenalkan pertama kali oleh Friedman (1990) untuk pendekatan model nonparametrik antara variabel respon dan beberapa variabel prediktor pada piecewise regresi. Piecewise regresi merupakan regresi yang memiliki sifat tersegmen (terpotong-potong). MARS juga merupakan pengembangan dari pendekatan Recursive Partition Regression (RPR). Langkah awal yang dilakukan untuk pembentukan model adalah menentukan titik-titik perubahan pola perilaku data atau yang disebut dengan titik knots. Penentuan knots pada MARS tergantung (otomatis) dari data yakni dengan menggunakan algoritma forward stepwise dan backward stepwise serta didasarkan pada nilai Generalized Cross Validation (GCV) minimum. Rumus GCV adalah sebagai berikut (Friedman, 1990). N
(1/ N) GCV(M)
2 yi fˆM (xi )
i 1
1
C(M) N
3
2
(1)
Dengan M jumlah basis fungsi (nonconstant basis fungsi), C(M) jumlah parameter dalam model=trace (B(BTB)-1BT)+1, B matriks basis fungsi
(nonconstant basis
fungsi)
Model MARS dapat ditulis sebagai berikut. Km
M
^
f (x) a0
am m1
skm.(xv(k,m) tkm)
(3)
k 1
Atau dapt ditulis dengan
fˆ(x) a0
fi (xi ) Km 1
fij (xi , x j ) Km 2
fijk(xi , x j , xk ) ...
(4)
Km 3
Dengan a0 basis fungsi induk, am koefisien dari basis fungsi ke-m, M maksimum basis fungsi (nonconstant basis fungsi), Km derajat interaksi, Skm = ± 1, xv(k,m) variabel independen, dan tkm nilai knots dari variabel independen xv(k,m).
3. METODOLOGI PENELITIAN Data dan variabel yang digunakan dalam penelitian ini adalah data Susenas 2006 Kota Surabaya. Jumlah rumahtangga dalam Susenas tersebut adalah 1120 rumahtangga. Variabel yang digunakan yaitu : 1. Variabel respon (y) klasifikasi rumahtangga berdasarkan garis kemiskinan, yaitu : 0
= total dari pengeluaran rumahtangga(makanan dan nonmakanan) perkapita perbulan kurang dari garis kemiskinan.
1
= total dari pengeluaran rumahtangga(makanan dan nonmakanan) perkapita perbulan lebih dari garis kemiskinan.
Garis kemiskinan Kota Surabaya tahun 2006 adalah Rp. 225.738,- perkapita per bulan. 2
Variabel prediktor (x) pengeluaran rumah tangga perkapita per bulan, meliputi : a. Pengeluaran rumah tangga makanan : padi – padian (x1), umbi – umbian (x2), ikan (x3), daging (x4), telur dan susu (x5), sayur – sayuran (x6), kacang – kacangan (x7), buah – buahan (x8), minyak dan lemak (x9), bahan minuman
4
(x10), bumbu – bumbuan (x11), konsumsi lainnya (x12), makanan dan minuman jadi (x13), minuman beralkohol (x14), dan tembakau dan sirih (x15) b. Pengeluaran rumah tangga non makanan, meliputi : perumahan dan fasilitas rumah tangga (x16), aneka barang dan jasa (x17), biaya pendidikan (x18), biaya kesehatan (x19), pakaian, alas kaki dan tutup kepala (x20), barang tahan lama (x21), pajak dan asuransi (x22), dan keperluan pesta dan upacara (x23) Langkah analisis yang dilakukan adalah : 1. Identifikasi pola hubungan variabel-variabel dalam pengeluaran rumahtangga makanan dan nonmakanan terhadap variabel klasifikasi rumahtangga miskin. 2. Pengujian model nonlinear menggunakan uji Ramsey Resset. 3. Pembentukan model dan klasifikasi melalui metode MARS, dengan tahapan : - Menentukan titik-titik knots yang didasarkan pada nilai GCV minimum, maksimal basis fungsi, jumlah interaksi, minimal jumlah pengamatan diantara knots atau minimum observasi (MO). - Menduga koefisien model (a0, a1, a2,…, ak ). Model MARS yang diperoleh dalam bentuk berikut.
fˆ x = a0 a1 * BF1 a2 * BF2 ... ak BFk Dengan
a0 konstanta, a1, a2,…, ak adalah koefisien basis fungsi ke-1, 2,..., k
dan BF1, BF2, ..., BFk adalah basis fungsi ke-1, 2, …, k - Menguji
signifikansi model (Testing the Overall Model) dengan
menggunakan statistik uji F dan uji parameter model (uji parsial) menggunakan statistik uji t. - Untuk hasil pemodelan dilakukan prediksi klasifikasi masing-masing kelompok berdasar-kan model yang diperoleh sehingga dapat diketahui seberapa besar ketepatan klasifikasi yang dihasilkan dari model.
4. ANALISIS DAN PEMBAHASAN Pola hubungan antara variabel pengeluaran rumahtangga perkapita perbulan baik jenis makanan maupun nonmakanan menunjukkan pola yang
5
kurang jelas hubungannya. Pola hubungan tersebut dapat dilihat pada Gambar 1 dan 2. Melalui pengujian nonlinear Ramsey Resset (Tabel 1) diketahui bahwa pola hubungan tersebut adalah nonlinear, dikarenakan P-value kurang dari α = 0,05.
0
0 0 00 00 10 20
0
0 0 00 00 40 80
0
0 0 00 00 20 40
0
00 00 00 00 10 20
0
0 00 00 00 50 10
0
0 00 00 00 0 50 10
0 0 00 00 20 40
0 5 0 0. 0. 1.
80000 40000 0
80000 40000 0
200000 100000 0
40000 20000 0
30000 15000 0
y
X15 X14 X13 X12 X11 X10 X9
X8
X7
X6
X5
X4
X3
X2
X1
100000 50000 0
20000 10000 0
200000 100000 0
40000 20000 0
100000 50000 0
40000 20000 0
40000 20000 0
1000000 500000 0
100000 50000 0
200000 100000 0
1.0 0.5 0.0
0 00 00 0 0 50 100 X1
0 X2
0 0 00 00 40 80 X3
0 00 00 00 00 10 20 X4
X5
0 00 00 0 0 15 30 X6
X7
0 X8
0 0 00 00 20 40 X9
0 X10
0 0 00 00 20 40 X11
0 00 00 00 00 50 100 X12
X13
Gambar 1. Matriks plot y dengan x1-x15
6
0 00 00 00 00 10 20 X14
X15
y
0 00 00 00 00 50 10
0 00 00 00 50 10
0
0
00 00 00 000 15 3
.5 -0
0.0
0.5
200000 100000 0 1000000 500000 0
X17
X16
0
X18
800000 400000 0
200000 100000 0
300000
X22
X21
X20
X19
100000 50000 0
150000 0
300000 150000 0
X23
0.5 0.0 -0.5
1.0
y
0.5 0.0
0
00 00 00 00 10 20 X16
0 X17
00 00 00 00 40 80 X18
0 X19
00 00 00 00 10 20 X20
0 X21
00 00 00 000 15 3 X22
0.0
0.5
X23
1.0
y
Gambar 2. Matriks plot y dengan x16-x23 Tabel 1. Uji Ramsey Resset Keterangan
Nilai
RESET
19.0988
df1
2
df2
771
p-value
8.025e-09
Permodelan MARS dilakukan dengan maksimum basis fungsi 15 menghasilkan GCV 0,086 dan variabel yang msuk adalah delapan. Berikut adalah model yang dihasilkan : Y = 2.397 - 0.792670x10-05 BF2 - 0.343980x10-05 BF4 - 0.567917x10-05 BF6 - 0.453803x10-05 BF8 - 0.337976x10-05 BF9 - 0.161891x10-04 BF10 + 0.249796x10-04 BF11 + 0.563699x10-03 BF12 - 0.428135x10-05 BF14 + 0.310778x10-05 BF15
Dengan BF2 = max(0, 63900.000 – x16 ); BF4 = max(0, 150000.000 – x13); BF6 = max(0, 138500.000 – x18); BF8 = max(0, 77142.859 – x15 ); BF9 = max(0, x8 - 15000.000);
BF10 = max(0, 15000.000 – x8 ); BF11 = max(0, x11 - 500.000); BF12 = max(0, 500.000 – x11 ); BF14 = max(0, 83330.000 – x17); BF15 = max(0, x5 + 0.001);
7
Langkah selanjutnya adalah menguji signifikansi parameter pada model secara serentak (Tabel 2) dan secara parsial (Tabel 3). Hasil pengujian menunjukkan bahwa semua parameter setiap basisfungsi yang masuk dalam model signifikan berpengaruh terhadap klasifikasi rumahtangga miskin. Variabel yang tercantum pada Tabel 4 merupakan variabel dalam model yang berpengaruh terhadap klasifikasi kemiskinan menurut besarnya skor. Variabel yang paling penting berpengaruh adalah perumahan dan fasilitas rumah tangga (x16) dengan skor 100 dan yang paling kecil berpengaruh adalah telur dan susu (x5) dengan skor 35,588. Tabel 2 Uji Serentak Model MARS Sumber Variansi Regresi Residual Total
Parameter Constant Basis Function 2 Basis Function 4 Basis Function 6 Basis Function 8 Basis Function 9 Basis Function 10 Basis Function 11 Basis Function 12 Basis Function 14 Basis Function 15
Df
SS
MS
F-hitung
10 1109 1119
165,473 92,519 257,992
16,473 0.0633
198,348
P value 0,000
Tabel 3 Uji Parsial Model MARS Estimate S.E. T-hitung P-value 2.397 0.080 30.141 0,000 -0.792670E-05 0.525504E-06 -15.084 0,000 -0.343980E-05 0.314829E-06 -10.926 0,000 -0.567917E-05 0.428098E-06 -13.266 .0,000 -0.453803E-05 0.374864E-06 -12.106 .0,000 -0.337976E-05 0.118881E-05 -2.843 0.005 -0.161891E-04 0.214848E-05 -7.535 . 0,000 0.249796E-04 0.328663E-05 7.600 0,000 0.563699E-03 0.106679E-03 5.284 0,000 -.0428135E-05 0.497395E-06 -8.608 0,000 0 .310778E-05 0.545445E-06 5.698 0,000 Tabel 4. Score variabel Variabel
Skor
Perumahan dan fasilitas rumah tangga (x16)
100.000
Biaya pendidikan (x18)
87.707
Tembakau dan sirih (x15)
79.840
Makanan dan minuman jadi (x13)
71.818
Aneka barang dan jasa (x17)
55.948
Bumbu – bumbuan (x11)
53.026
Buah – buahan (x8)
47.171
Telur dan susu (x5)
35.588
8
Hasil pengelompokan rumahtangga miskin melalui model MARS disajikan pada Tabel 5. Prosentase ketepatan klasifikasi yang dihasilkan model adalah 64,10%, dimana jumlah kesalahan pengklasifikasian adalah 35,90%. Sejumlah 403 rumahtangga yang sebelumnya masuk klasifikasi tidak miskin, melalui model MARS masuk klasifikasi rumahtangga miskin. Tabel 5. Ketepatan Klasifikasi yang Dihasilkan Model Kelas aktual
Prediksi kelas Total amatan 0 1 717 0 717 403 1 403 1119 1 1120 64,10%
0 1 Total prediksi Total Persentase klasifikasi yang benar
5. KESIMPULAN Model yang dihasilkan dengan metode MARS adalah : Y = 2.397 - 0.792670x10-05 BF2 - 0.343980x10-05 BF4 - 0.567917x10-05 BF6 - 0.453803x10-05 BF8 - 0.337976x10-05 BF9 - 0.161891x10-04 BF10 + 0.249796x10-04 BF11 + 0.563699x10-03 BF12 - 0.428135x10-05 BF14 + 0.310778x10-05 BF15
Terdapat delapan variabel yang signifikan berpengaruh pada model atau pengklasifikasian kemiskinan berdasarkan garis kemiskinan, yaitu perumahan dan fasilitas rumah tangga (x16), biaya pendidikan (x18), tembakau dan sirih (x15), makanan dan minuman jadi (x13), aneka barang dan jasa (x17), bumbu – bumbuan (x11), buah – buahan (x8), telur dan susu (x5). Model yang dihasilkan memberikan prosentase ketepatan klasifikasi sebesar 64,10%.
DAFTAR PUSTAKA [BPS]. 2006. Berita Resmi Statistik. Tingkat Kemiskinan di Indonesia Tahun 20052006. Jakarta : BPS. Friedman, J.H.. 1990. Multivariate Adaptive Regression Splines, Tech Report 102
9
Rev. California : Department of Statistics Stanford University Stanford. Hidayat, Syarif. 2009. Pemodelan Desa Tertinggal di Jawa Barat Tahun 2005 dengan Pendekatan MARS. [Tesis]. Surabaya: Program PascaSarjana Jurusan Statistika ITS. Nabhani, Ahmad. 2009. BPS Keberatan Angka Kemiskinan Versi Bank Dunia. http://economy.okezone.com [Selasa, 20 Oktober 2009] Wahyuningrum,
Siti.2009.
Pendekatan MARS Untuk Ketepatan Klasifikasi
Desa/Kelurahan Miskin di Kalimantan Timur Tahun 2005. [Tesis]. Surabaya: Program PascaSarjana Jurusan Statistika ITS.
10