KLASIFIKASI KESEJAHTERAAN RUMAH TANGGA DI PROVINSI JAWA TIMUR DENGAN PENDEKATAN BOOTSTRAP AGGREGATTING CLASSIFICATION AND REGRESSION TREES
Hary Mega Gancar Prakosa 1307 100 077 Dosen Pembimbing Dr. Suhartono, S.Si, M.Sc Co Pembimbing Dr. Bambang Wijanarko Otok, S.Si, M.Si
Kemiskinan
Jumlah penduduk miskin di Indonesia pada bulan Maret 2010 mencapai 31.023.390 jiwa (13,33 persen). Sementara itu daerah dengan jumlah penduduk miskin terbanyak adalah Jawa Timur, yaitu sebesar 5.529.300 jiwa (BPS)
Kemiskinan adalah sasaran strategis dalam usaha peningkatan kesejahteraan (Sutaat, 2006)
Kesejahteraan
Faturokhman dan Molo_1995 ( Meneliti karakteristik rumah tangga miskin di Jogjakarta) Rahmawati_1999 (Meneliti kesempatan kerja penduduk miskin di DKI Jakarta) BPS dan World Bank Institute_2002 (Menyusun dasar-dasar analisis kemiskinan) Cahyat dkk_2007 (mengkaji kemiskinan dan kesejahteraan rumah tangga)
Banyak faktor yang mempengaruhi kesejahteraan rumah tangga dilihat dari sudut pandang kemiskinan
Klasifikasi Kesejahteraan Rumah Tangga
Bagging CART
2 3 Bagaimana 4 1 model Bagaimana kesejahteraan Bagaimana Bagaimana model rumah tangga perbandingan model kesejahteraan model kesejahteraan di Propinsi rumah tangga kesejahteraan rumah tangga Jawa Timur di Propinsi dengan di Propinsi rumah tangga Jawa Timur di Propinsi Jawa Jawa Timur pendekatan dengan bagging CART? dengan pendekatan Timur dengan pendekatan pendekatan regresi CART, bagging CART? logistik? CART, dan regresi logistik?
BPS
“Kemampuan untuk memenuhi kebutuhan komoditas secara umum”
KESEJAHTERAAN
RUU SKSN
“kondisi sosial ekonomi yang memungkinkan bagi setiap warga negara untuk dapat memenuhi kebutuhan yang bersifat jasmani, rohani dan sosial sesuai dengan harkat dan martabat manusia”
KEMISKINAN
BPS
Bappenas
“ketidakmampuan untuk memenuhi standar dari kebutuhan dasar, baik makanan maupun bukan makanan”
“kondisi di mana seseorang atau sekelompok orang, lakilaki dan perempuan, tidak mampu memenuhi hak dasarnya untuk mempertahankan dan mengembangkan kehidupan yang bermartabat”
Tingkat Konsumsi
Model Pengukuran Kemiskinan
Memiliki kaidah-kaidah Statistik yang harus dijalankan sehingga lebih bisa dipertanggungjawabkan (Cahyat, 2004)
Kesejahteraan Keluarga
Pembangunan Manusia
Kemiskinan
Pengeluaran Perkapita
CART metode nonparametrik yang dikembangkan untuk topik analisis klasifikasi, baik untuk variabel respon kategorik maupun kontinu
Breiman et al (1993)
Lewis dan Roger (2000)
1 • Tidak ada asumsi yang harus dipenuhi
Keunggulan CART 2 3 •Dapat mengeksplorasi data berstruktur kompleks dan multivariabel
• Hasil lebih mudah untuk dinterpretasi kan
4 •Memudahkan eksplorasi dan pengambilan keputusan
LANGKAH-LANGKAH PENERAPAN CART Pembentukan Pohon Klasifikasi
•Pemilihan Pemilah •Penentuan Simpul Terminal •Penandaan Label Kelas
Pemangkasan Pohon Klasifikasi
•Test Sample Estimate •Cross Validation V-fold Estimate
Pohon Klasifikasi Optimal
Regresi Logistik Biner 1. Model regresi logistik dengan k variabel prediktor exp( 0 1x1 ... k x k ) π(x) 1 exp( 0 1x1 ... k x k )
2. Bentuk logit
g (x) 0 1x1 ... k x k 3. Penaksiran Parameter Menggunakan metode MLE (Maximum Likelihood Estimation), dengan memaksimumkan fungsi Likelihood (Agresti, 1990).
LANGKAH-LANGKAH PENERAPAN REGRESI LOGISTIK Penaksiran Parameter Pengujian Signifikansi Paramter
•Uji Individu •Uji Serentak
Uji Kesesuaian Model Menghitung Ketepatan Klasifikasi
Data Survei Sosial Ekonomi Nasional (SUSENAS) tahun 2009 Provinsi Jawa Timur. Jumlah sampel sebesar 29.952 rumah tangga.
Y
Kemiskinan Rumah Tangga
X1
Jenis Kelamin KRT
X2
Usia KRT
X3
Status Perkawinan KRT
X4
Ijazah Tertinggi KRT
X5
Jumlah ART
X6
Kegiatan Utama KRT
X7
Lapangan Usaha Utama KRT
X8
Status Pekerjaan Utama KRT
1 : Tidak Miskin
2 : Miskin 1 : Laki-laki 2 : Perempuan 1 : Kawin 2 : Lainnya 1 : Belum Sekolah 2 : Tidak Tamat SD 3 : Tamat SD/Sederajat 4 : Tamat SLTP/Sederajat 5 : Tamat SLTA/Sederajat 6 : Tamat di atas SLTA
1 : Bekerja 2 : Tidak Bekerja 1 : Pertanian 2 : NonPertanian 3 : Tidak Bekerja 1 : Buruh/karyawan 2 : Pengusaha 3 : Lainnya 4 : Tidak Bekerja
DESKRIPTIF Jumlah dan Persentase Rumah Tangga di Jawa Timur tahun 2009 Berdasarkan Status Kemiskinan
Kesejahteraan Rumah Tangga Miskin Tidak Miskin Total
n
4.422 25.530 29.952
p (%) 15 85 100
ASPEK SOSIAL DEMOGRAFI Tabel 1. Deskripsi Karakteristik Sosial Demografi Rumah Tangga di Provinsi Jawa Timur tahun 2009
Miskin mean stdev Jumlah anggota rumah tangga* 4,32 1,60 Usia kepala rumah tangga* 50,42 14,39 Keterangan : * signifikan berbeda pada α = 5% Variabel Sosial Demografi
Tidak Miskin mean stdev 3,44 1,491 49,40 13,96
Tabel 2. Deskripsi Karakteristik Sosial Demografi Kepala Rumah Tangga di Provinsi Jawa Timur tahun 2009 Variabel Sosial Demografi Jenis kelamin kepala rumah tangga Laki-laki Wanita* Status perkawinan kepala rumah tangga Kawin* Lainnya Keterangan : * signifikan berbeda pada α = 5%
Proporsi (%) Miskin Tidak miskin 86,27 13,73
82,77 17,23
84,53 15,47
79,66 20,34
ASPEK PENDIDIKAN Tabel 3. Deskripsi Karakteristik Pendidikan Kepala Rumah Tangga di Provinsi Jawa Timur tahun 2009 Kategori Pendidikan 1 2 3 4 5 6 Total
Miskin n p (%)* 975 26,75 1.400 20,32 1.461 16,40 483 7,23 92 4,25 11 0,66 4.422 100
Tidak Miskin n p (%)* 2.670 73,25 5.490 79,68 7.448 83,60 6.193 92,76 2.073 95,75 1.656 99,34 25.530 100
100 90 80
Persentase
70 60 50
Miskin
40
Tidak Miskin
30 20 10 0 1
2
3
4
5
Ijazah Tertinggi Kepala Rumah Tangga
6
Total 3.645 6.890 8.909 6.676 2.165 1.667 29.952
ASPEK KETENAGAKERJAAN Tabel 4. Deskripsi Karakteristik Ketenagakerjaan Kepala Rumah Tangga di Provinsi Jawa Timur tahun 2009
Karakteristik Kegiatan Utama - Bekerja - Tidak Bekerja Total Lapangan Usaha Utama - Pertanian - Non Pertanian - Tidak Bekerja Total Status Pekerjaan Utama - Buruh/karyawan - Pengusaha - Lainnya - Tidak Bekerja Total
Miskin n p (%)*
Tidak Miskin n p (%)*
Total
3.854 568 4.422
87,15 12,84 100,00
21.515 4.015 25.530
84,27 15,73 100,00
25.369 4.583 29.952
2.625 1.229 568 4.422
59,36 27,79 12,84 100,00
8.521 12.994 4.015 25.530
33,38 50,90 15,72 100,00
11.146 14.223 4.583 29.952
596 2.409 849 568 4.422
13,48 54,48 19,20 12,84 100,00
6.458 11.943 3.114 4.015 25.530
25,30 46,78 12,20 15,72 100,00
7.054 14.352 3.963 4.583 29.952
Tabel 5. Deskripsi Karakteristik Pengeluaran Perkapita Perbulan Rumah Tangga di provinsi Jawa Timur tahun 2009 Komponen Pengeluaran Makanan Nonmakanan
Miskin Mean Koef Var 112.025 18,88 55.440 32,07
Tidak Miskin Mean Koef Var 227.010 50,41 208.222 119,59
CART Tabel 6. Perbandingan Ketepatan Klasifikasi Antar Kombinasi Data
No 1 2 3 4 5 6 7
Jumlah Node Terminal 61
L 95
T 5
Ketepatan Klasifikasi (%) L T 69,5 68,7
90
10
71,7
69,6
110
85
15
71,1
69,9
66
80
20
70,2
69,2
76
75
25
69,0
68,6
16
70
30
74,5
72,5
882
65
35
71,7
67,9
185
Kombinasi Data (%)
Ilustrasi Proses Pemilahan Pada Pohon Klasifikasi Optimal
SIMPUL TERMINAL
SIMPUL UTAMA
Plot antara relative cost dan jumlah node
Pohon Klasifikasi Optimal
Tabel 7. Ketepatan Klasifikasi Data Learning Pada Pohon Optimal
Prediksi Kelas Kelas Aktual
Tidak Miskin
Miskin Tidak Miskin Ketepatan Klasifikasi Total
Miskin
Ketepatan Klasifikasi (%)
850
2497
68,05
13009
6.108
74,60 69,00
Tabel 8. Ketepatan Klasifikasi Data Testing Pada Pohon Optimal
Prediksi Kelas Kelas Aktual Tidak Miskin Miskin Miskin 301 773 Tidak Miskin 4362 2052 Ketepatan Klasifikasi Total
Ketepatan Klasifikasi (%) 71,97 68,01 68,6
Bagging CART Tabel 9. Perbandingan Ketepatan Klasifikasi dari Berbagai Variasi Jumlah Sampel Bootstrap
NO
Banyaknya Replikasi Sampel Bootstrap
1 2 3 4 5 6 7 8
25 50 75 100 125 150 175 200
Ketepatan Klasifikasi (%) 70,5 72,4 71,4 73,8 73,8 74,3 74,3 74,3
Tabel 10. Perbandingan Ketepatan Klasifikasi dari Metode CART dan bagging CART
Metode CART (tanpa bagging) Bagging CART (replikasi 150 kali) Perbedaan
Ketepatan Klasifikasi (%) 69,00 74,30 5,3
REGRESI LOGISTIK Tanpa Interaksi
Hasil Uji Regresi Logistik Individu Variabel Respon vs Variabel Prediktor
Variabel Prediktor X1 : Jenis Kelamin KRT Laki-laki Konstanta X2 : Usia KRT Konstanta X3 : Status Perkawinan KRT Lainnya Konstanta X4 : Ijazah Tertinggi KRT Tidak Punya Ijazah Tamat SD/Sederajat Tamat SLTP/Sederajat Tamat SLTA/Sederajat Tamat di atas SLTA Konstanta X5 : Jumlah ART Konstanta X6 : Kegiatan Utama KRT Bekerja Konstanta X7 : Lapangan Usaha Utama KRT Non Pertanian Tidak Bekerja Konstanta X8 : Status Pekerjaan Utama KRT Pengusaha Lainnya Tidak Bekerja Konstanta
β
p-value
0,294 -1,992 0,006 -2,032
0,000 0,000 0,000 0,000
-0,345 -1,682
0,000 0,000
-0,391 -0,672 -1,574 -2,163 -4,546 -0,965 0,357 -3,124
0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000
0,213 -1,926
0,000 0,000
-1,200 -0,766 -1,159
0,000 0,000 0,000
0,783 1,060 0,445 -2,371
0,000 0,000 0,000 0,000
Hasil Uji Regresi Logistik Serentak Variabel Respon vs Variabel Prediktor Variabel Prediktor X2 : Usia KRT X3 : Status Perkawinan KRT Lainnya X4 : Ijazah Tertinggi KRT Tidak Punya Ijazah Tamat SD/Sederajat Tamat SLTP/Sederajat Tamat SLTA/Sederajat Tamat di atas SLTA X5 : Jumlah ART X6 : Kegiatan Utama KRT Bekerja X7 : Lapangan Usaha Utama KRT Non Pertanian X8 : Status Pekerjaan Utama KRT Pengusaha Lainnya Konstanta
β -0,016 -0,118 -0,727 -1,135 -1,860 -2,437 -4,728 0,416 0,279 -0,789 0,043 0,310 -1,451
p-value 0,000 0,058 0,058 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,002 0,000 0,000 0,000 *0,500 0,000 0,000
G=3491,864 2 (8;0.05)
= 15.50731
model logistik g ( x) 1.451 0,016( X 2) 0,118( X3,2) 0,727( X 4,2) 1,135( X 4,3) 1,860( X 4,4 ) 2,437( X 4,5 )
4,728( X 4,6 ) 0,416( X 5 ) 0,279( X 6,1)
0,789( X 7,2 ) 0,310( X 8,3 )
Uji Kesesuaian Model
𝐶 = 52,213 > 2(8;0.05) = 15.50731
Odds Ratio Model Regresi Logistik Tanpa Interaksi Variabel X2 : Usia KRT X3 : Status Perkawinan KRT Lainnya X4 : Ijazah Tertinggi KRT Tidak Punya Ijazah Tamat SD/Sederajat Tamat SLTP/Sederajat Tamat SLTA/Sederajat Tamat di atas SLTA X5 : Jumlah ART X6 : Kegiatan Utama KRT Bekerja X7 : Lapangan Usaha Utama KRT Non Pertanian X8 : Status Pekerjaan Utama KRT Pengusaha Lainnya Konstanta
β -0,016
OR 0,984
-0,118
0,889
-0,727 -1,135 -1,860 -2,437 -4,728 0,416
0,484 0,321 0,156 0,087 0,009 1,516
0,279
1,321
-0,789
0,454
0,043 0,310 -1,451
1,044 1,364 0,234
Tabel Klasifikasi Model Regresi Logistik
Prediksi Observasi
Tidak Miskin
Miskin
Tidak Miskin 18.843 274 Miskin 3.026 321 Ketepatan Klasifikasi Total (%)
Ketepatan Klasifikasi (%) 98,6 9,6 85,3
REGRESI LOGISTIK Dengan Interaksi Uji Independensi Terdapat hubungan antarsemua variabel prediktor Uji Individu Semua interaksi antar variabel prediktor signifikan berpengaruh kecuali interaksi antara variabel usia KRT dan kegiatan utama KRT
Hasil Uji Regresi Logistik Serentak Interaksi antar Variabel Prediktor Variabel Prediktor X(4) * X(1) X(4,1) * X(1,1) X(4,2) * X(1,1) X4 vs X1 X(4,3) * X(1,1) X(4,4) * X(1,1) X(4,5) * X(1,1) X(1) * X(7) X1 vs X7 X(1,1) * X(7,1) X(1,1) * X(7,2) X(5) * X(3) X(5,1) * X(3,1) X5 vs X3 X(5,2) * X(3,1) X(5,3) * X(3,1)
p-value 0,023 0,756 **0,108 0,010 0,343 0,029 0,000 0,023 0,000 0,000 0,000 0,184 0,133
Variabel Prediktor X(2) * X(4) X(2,2) * X(4,1) X(2,2) * X(4,2) X2 vs X4 X(2,2) * X(4,3) X(2,2) * X(4,4) X(2,2) * X(4,5) X(2) * X(5) X(2,2) * X(5,1) X2 vs X5 X(2,2) * X(5,2) X(2,2) * X(5,3) X(7) * X(2) X7 vs X2 X(7,1) * X(2,2) X(7,2) * X(2,2) X(4) * X(7) X(4,1) * X(7,1) X(4,1) * X(7,2) X(4,2) * X(7,1) X4 vs X7 X(4,2) * X(7,2) X(4,3) * X(7,1) X(4,3) * X(7,2) X(4,4) * X(7,1)
p-value 0,000 0,699 0,002 0,000 0,604 0,997 0,000 0,000 0,916 0,674 0,000 0,000 0,257 0,000 0,726 0,000 0,015 0,000 0,001 0,000 **0,108
X4 vs X7
X6 vs X4
X4 vs X8
X(4,4) * X(7,2) X(4,5) * X(7,1) X(4,5) * X(7,2) X(6) * X(4) X(6,1) * X(4,1) X(6,1) * X(4,2) X(6,1) * X(4,3) X(6,1) * X(4,4) X(6,1) * X(4,5) X(4) * X(8) X(4,1) * X(8,1) X(4,1) * X(8,2) X(4,2) * X(8,1) X(4,2) * X(8,2) X(4,3) * X(8,1) X(4,3) * X(8,2) X(4,4) * X(8,1) X(4,4) * X(8,2) X(4,5) * X(8,1) X(4,5) * X(8,2)
0,000 X(5) * X(6) 0,000 0,122 X(5,1) * X(6,1) 0,000 X vs X 5 6 0,995 X(5,2) * X(6,1) 0,000 0,000 X(5,3) * X(6,1) 0,009 0,002 X(5) * X(7) 0,000 0,000 X(5,1) * X(7,1) 0,786 0,000 X(5,1) * X(7,2) 0,000 0,001 X5 vs X7 X(5,2) * X(7,1) 0,809 0,997 X(5,2) * X(7,2) 0,000 0,000 X(5,3) * X(7,1) 0,521 0,862 X(5,3) * X(7,2) 0,051 0,713 Konstanta 0,000 0,000 0,411 Keterangan : ** signifikan pada α = 10 persen **0,075 Sumber : Data sekunder Susenas 2009, diolah peneliti 0,000 0,025 0,018 0,513 0,999
Nilai 𝐶 = 0,129 dimana nilai ini kurang dari
2 (8;0.10) = 13.36157
Perbandingan Ketepatan Klasifikasi dari Penerapan Metode Regresi Logistik Biner, CART dan bagging CART
Metode Regresi Logistik Biner CART (tanpa bagging) Bagging CART (replikasi 150 kali)
Misklasifikasi (%) 14,70 31,00 25,70
KESIMPULAN DAN SARAN 1. Analisis menggunakan metode CART menunjukkan bahwa variabel prediktor yang berpengaruh terhadap kesejahteraan rumah tangga : ijazah kepala rumah tangga, lapangan usaha utama kepala rumah tangga, usia kepala rumah tangga, dan jumlah anggota rumah tangga. Variabel ijazah tertinggi kepala rumah tangga merupakan variabel yang paling dominan berpengaruh. Tiga kelompok terbesar rumah tangga miskin adalah sebagai berikut. - Simpul terminal 13 terdiri dari 1226 rumah tangga dengan karakteristik ijazah tertinggi kepala rumah tangga adalah tidak tamat SD, lapangan usaha utama kepala rumah tangga adalah tidak bekerja atau bekerja di sektor nonpertanian, dan usia kepala rumah tangga ≤ 49,5 tahun. - Simpul terminal 12 terdiri dari 1182 rumah tangga dengan karakteristik ijazah tertinggi kepala rumah tangga adalah di atas SMA dan jumlah anggota rumah tangga > 1,5 orang. - Simpul terminal 3 terdiri dari 525 rumah tangga dengan karakteristik ijazah tertinggi kepala rumah tangga adalah SD/Sederajat, SLTP/Sederajat, atau SMA/Sederajat, lapangan usaha utama kepala rumah tangga adalah pertanian, jumlah anggota rumah tangga > 3,5 orang, dan usia kepala rumah tangga ≤ 55,5 tahun.
2. Penerapan metode bagging pada CART mampu meningkatkan ketepatan klasifikasi hingga 5,3 persen menjadi 74,3 persen dibandingkan dengan metode CART biasa. 3. Analisis regresi logistik biner tanpa interaksi menunjukkan bahwa variabel prediktor yang berpengaruh signifikan terhadap klasifikasi kesejahteraan rumah tangga adalah usia kepala rumah tangga, status perkawinan kepala rumah tangga, ijazah tertinggi kepala rumah tangga, jumlah anggota rumah tangga, kegiatan utama kepala rumah tangga, lapangan usaha kepala rumah tangga, dan status pekerjaan utama kepala rumah tangga. Ketepatan klasifikasi sebesar 85,30 persen. Akan tetapi model tidak sesuai digunakan untuk menjelaskan seberapa besar peluang sebuah rumah tangga di Provinsi Jawa Timur tahun 2009 termasuk rumah tangga miskin.
g ( x) 1.451 0,016( X 2) 0,118( X3,2) 0,727( X 4,2) 1,135( X 4,3) 1,860( X 4,4 ) 2,437( X 4,5 )
4,728( X 4,6 ) 0,416( X 5 ) 0,279( X 6,1)
0,789( X 7,2 ) 0,310( X 8,3 )
g ( x) 0,377 0,554( X 4,1 * X1,1) 0,041( X 4,2 * X1,1) 0,264( X 4,3 * X1,1) 0,663( X 4,4* X1,1) 0,604( X 4,5 * X1,1) 2,535( X1,1 * X 7,1) 0,346( X1,1 * X 7,2 )
0,164( X 5,1 * X 3,1) 0,547( X 5,2 * X 3,1) 0,142( X 5,3 * X 3,1) 0,063( X 2,2 * X 4,1)
0,050( X 2,2 * X 4,2) 0,519( X 2,2 * X 4,3) 1,837( X 2,2 * X 4,4) 0,399( X 2,2 * X 4,5)
0,524( X 2,2 * X 5,1) 0,620( X 2,2 * X 5,2) 0,014( X 2,2 * X 5,3) 14,427( X 7,1 * X 2,2) 0,589( X 7,2 * X 2,2) 17,007( X 4,1 * X 7,1) 0,055( X 4,1 * X 7,2) 0,859( X 4,2 * X 7,1) 0,386( X 4,2 * X 7,2) 2,194( X 4,3 * X 7,1) 0,631( X 4,3 * X 7,2) 4,425( X 4,4 * X 7,1) 0,525( X 4,4 * X 7,2) 3,839( X 4,5 * X 7,1) 2,198( X 4,5 * X 7,2) 0,214( X 6,1 * X 4,1) 0,513( X 6,1 * X 4,2) 1,011( X 6,1 * X 4,3) 3,313( X 6,1 * X 4,4) 2,702( X 6,1 * X 4,5)
35,373( X 4,1 * X 8,1) 0,021( X 4,1 * X 8,2) 0,051( X 4,2 * X 8,1) 0,368( X 4,2 * X 8,2)
0.094( X 4,3 * X 8,1) 0.264( X 4,3 * X 8,2) 1.034( X 4,4 * X 8,1) 0.710( X 4,4 * X 8,2)
1.079( X 4,5 * X 8,1) 0.921( X 4,5 * X 8,2) 15,952( X 5,1 * X 6,1) 1,780( X 5,2 * X 6,1)
1,170( X 5,3 * X 6,1) 0,461( X 5,1 * X 7,1) 0.050( X 5,1 * X 7,2) 1,417( X 5,2 * X 7,1)
0.035( X 5,2 * X 7,2) 1,176( X 5,3 * X 7,1) 0,097( X 5,3 * X 7,2)
Diketahui faktor-faktor yang berpengaruh terhadap status kemiskinan rumah tangga di provinsi Jawa Timur tahun 2009 adalah interaksi antara variabel ijazah tertinggi kepala rumah tangga dengan jenis kelamin kepala rumah tangga, jenis kelamin kepala rumah tangga dengan lapangan usaha utama kepala rumah tangga, jumlah anggota rumah tangga dengan status perkawinan kepala rumah tangga, usia kepala rumah tangga dengan ijazah tertinggi kepala rumah tangga, lapangan usaha utama kepala rumah tangga dengan usia kepala rumah tangga, ijazah tertinggi kepala rumah tangga dengan lapangan usaha utama kepala rumah tangga, ijazah tertinggi kepala rumah tangga dengan kegiatna utama kepala rumah tangga, ijazah tertinggi kepala rumah tangga dengan status pekerjaan utama kepala rumah tangga, jumlah anggota rumah tangga dengan kegiatan utama kepala rumah tangga, dan jumlah anggota rumah tangga dengan lapangan usaha utama kepala rumah tangga. Model sudah sesuai digunakan untuk menjelaskan seberapa besar peluang sebuah rumah tangga di Provinsi Jawa Timur tahun 2009 termasuk rumah tangga miskin dengan ketepatan klasifikasi sebesar 85,30 persen. 4. Dilihat dari besarnya misklasifikasi maka model regresi logistik lebih baik dibandingkan dengan metode CART dan bagging CART karena menghasilkan nilai misklasifikasi paling kecil, yaitu 14,7 persen.
Untuk kepentingan penelitian selanjutnya bisa ditambahkan variabel prediktor lain atau modifikasi variabel prediktor yang telah digunakan dalam penelitian ini demi mendapatkan hasil klasifikasi yang lebih baik. Selain itu bisa dicoba menggunakan fungsi keheterogenan simpul yang lain (selain indeks gini)
DAFTAR PUSTAKA Agresti, A., 1990. Categorical Data Analysis. John Wiley and Sons. New York. Anonim, 2010. Kesejahteraan. http://wikipe-dia.org Badan Pusat Statistika, 2010. Berita Resmi Statistik : Profil Kemiskinan di Indonesia Maret 2010. Jakarta. Breiman, L., Friedman, J., Olshen, R. and Stone, C., 1984. Classification and Regression Trees. Chapman Hall, New York – London. Breiman L, Friedman J.H, Olshen R.A, dan Stone C.J., 1993. Classification And Regression Trees. Chapman And Hall. New York. Breiman, L., 1996. Bagging Predictors, Machine Learning, Vol. 24. 123-140 Cahyat, A., 2004. Bagaimana Kemiskinan Diukur? Beberapa Model Penghitungan Kemiskinan di Indonesia. Bogor : CIFOR. Hosmer, D. W. and Lemeshow, S., 1989. Applied Logistic Regression. John Wiley and Sons, Inc. USA. Hosmer, W. dan Lemeshow, S., 2000. Applied Logistic Regression. Canada: John Wiley&Sons Johnson, R. A. and Wichern, D. W., 1992. Applied Multivariate Statistical Analysis. Prentice Hall. New Jersey. Le, C. T., 1998. Applied Categorical Data Analysis. John Wiley and Sons, Inc. USA. Lewis dan Roger J. 2000. An Introduction to Classification And Regression Trees (CART) Analysis. Presented at the 2000. Steinberg, D., dan Colla, P., 1995. CART: Tree-structured nonparametric data analysis. San Diego, Calif., U.S.A.: Salford Systems. Steinberg D. dan Phillip C. 2005. CART – Classification and Regression Trees. CA: Salford System, San Diego. Sutaat, 2006. Hasil-hasil Penelitian Tahun 2006 Puslitbang Kesejahteraan Sosial. Jakarta : Pusat Penelitian dan Pengembangan Kesejahteraan Sosial, Badan Pendidikan dan Kesejahteraan Sosial, Departemen Sosial, Republik Indonesia. Sutton, C.D., 2005. Classification and regression trees, Bagging, and Boosting, Handbook of statistics, Vol. 24. hal 303-329.
TERIMA KASIH
1. Pemilihan Pemilah (Classifier)
Fungsi Keheterogenan Breiman et al (1993)
Indeks Gini i(t ) p( j | t ) p(i | t ) j i
“Himpunan bagian yang dihasilkan dari pemilahan harus lebih homogen debandingkan dengan pemilahan sebelumnya”
Ø (s, t) = i (s, t ) i(t ) pL i(t L ) pR i(t R )
2. Penentuan Simpul Terminal
1
Pada simpul t tidak terdapat penurunan keheterogenan yang berarti
2
Hanya terdapat satu pengamatan (n=1) pada tiap simpul anak atau adanya batasan minimum n
3
Adanya batasan jumlah level atau tingkat kedalaman pohon maksimal
3. Penandaan Label Kelas
Aturan Jumlah Terbanyak
𝑁𝑗 (𝑡) 𝑝(𝑗0 |𝑡) = max 𝑝 𝑗 𝑡 = 𝑚𝑎𝑥𝑗 𝑁(𝑡) 𝑝 𝑗𝑡 𝑁𝑗 (𝑡) 𝑁(𝑡)
= proporsi kelas j pada simpul t = jumlah pengamatan kelas j pada simpul t = jumlah pengamatan pada simpul t
Pemangkasan Pohon Klasifikasi Ukuran pemangkasan yang digunakan = complexity minimum (Breiman et al, 1984)
~ R (T ) R (T ) T
= kompleksitas parameter (cost bagi penambahan satu simpul akhir pada pohon T) R (T) = penduga pengganti (resubstitution estimate) ~ T = banyaknya simpul terminal pada pohon T
Uji Signifikansi Parameter a. Model Univariat H0 : j = 0, j = 1,2,...,k H1 : j≠ 0 Statistik Uji (Le, 1998) : Wald (W)
ˆ j
SEˆ( ˆ j )
Daerah kritis : W Z / 2 b. Model Multivariat H0 : β 0 H1 : β 0 Statistik Uji (Hosmer and Lemeshow, 1989) : n G 2 y i ln ˆπx i 1 y i ln 1 ˆπx i n1ln n1 n0 ln n0 nln n i 1 Daerah kritis : G (2db, )
Goodness-of-fit H0 : Model sesuai H1 : Model tidak sesuai Statistik Uji (Hosmer and Lemeshow, 1989): nk ' π k ˆ C Hosmer Lemeshow k 1 n k ' k 1 π k 2 ˆ Daerah kritis :C ( g 2) g
ok
2
Interpretasi Model Regresi Logistik Odds rasio : ψ exp 1 Rata-rata besar kecenderungan variabel respon bernilai tertentu jika x = 1 dibandingkan x = 0 (Hosmer and Lemeshow, 1989).
Prosedur Klasifikasi Evaluasi yang melihat peluang kesalahan klasifikasi yang dilakukan oleh suatu fungsi klasifikasi (Johnson and Wichern, 1992). Tabel klasifikasi Hasil Observasi
Taksiran y1
y2
y1
n11
n12
y2
n21
n22
n12 n 21 APER (apparent error rate ) = n11 n12 n 21 n 22