METODE ENSEMBLE PADA CART UNTUK PERBAIKAN KLASIFIKASI KEMISKINAN DI KABUPATEN JOMBANG MUHAMMAD JAMAL MUTTAQIN 1311 201 205 PEMBIMBING DR. BAMBANG WIDJANARKO OTOK, M.SI. SANTI PUTERI RAHAYU, M.SI., PH.D.
Latar belakang
Klasifikasi CART (1984)
Ensemble Learning (1990s)
Meningkatkan akurasi klasifikasi
Bagging, Boosting, Random Forest
Problematika Kemiskinan
Klasifikasi kemiskinan di Jombang
Penelitian Terkait Suryadarma, Akhmad, Nina (2005) • Ukuran kesejahteraan keluarga berbedabeda untuk tiap daerah
Aeni (2009)
Permatasari (2013)
• Karakteristik rumah tangga miskin di Jawa Tengah: • Pekerjaan bidang pertanian • Pendidikan rendah • Banyaknya anggota rumah tangga • Metode ensemble Arcing CART meningkatkan akurasi klasifikasi 12,7%
• Karakteristik penentu daerah miskin: • Penggunaan jamban • Rata-rata lama sekolah • Sektor pekerjaan • Angka melek huruf • Metode ensemble Boosting MARS meningkatkan akurasi klasifikasi 7,9%
Rumusan masalah
Penerapan CART? Peningkatan akurasi Bagging, boosting, random forest? Perbandingan akurasi dan stabilitas ensemble untuk mencapai akurasi konvergen?
Classification and regression trees (CART)
Dikembangkan Leo Breiman, Jerome H. Friedman, Richard A. Olshen, dan Charles J. Stone pada 1984 Pohon keputusan Algoritma penyekatan rekursif biner Mengelompokkan ke dalam simpul agar homogen
Ilustrasi CART t1 Pemilah 1
t2
t5
t6
Child node
Terminal node
Pemilah 5 t10
t9 Pemilah 6 t12
Parent node
t7
Pemilah 4 t8
Pemilah 3
Pemilah 2 t4
t3
t13
t11
Pemilihan Pemilah i (t ) = ∑ p ( j | t ) p (i | t )
φ ( s, t ) = i (t ) − pL i (t L ) − pR i (t R )
j ≠i
i(t) = fungsi heterogenitas pada simpul t pL = proporsi pengamatan simpul kiri pR = proporsi pengamatan menuju simpul kanan i(tL) = fungsi heterogenitas pada simpul anak kiri i(tR) = fungsi heterogenitas pada simpul anak kanan φ(s,t) = goodness of split
Metode ensemble
Menggabungkan prediksi klasifikasi dari banyak pohon klasifikasi melalu proses voting prediksi mayoritas
Prediksi akhir
Prediksi 1
Pohon klasifikasi 1
Prediksi 2
Pohon klasifikasi 2
Prediksi T
Pohon klasifikasi T
Voting
Bagging
Bootstrap Aggregating Resampling acak dengan pengembalian Prediksi 1
CART 1
Dataset hasil resampling 1
Prediksi 2
CART 2
Dataset hasil resampling 2
Prediksi T
CART T
Dataset hasil resampling T
Voting
Boosting
Keluarga ensemble dengan banyak algoritma Dataset yang digunakan bergantung dari pohon klasifikasi sebelumnya Berfokus kepada data sampel yang salah diprediksi Prediksi 1
CART 1
Dataset (terboboti) 1
Prediksi 2
CART 2
Dataset (terboboti) 2
Prediksi T
CART T
Dataset (terboboti) T
Voting
Algoritma adaboost.M1
Random Forest
Perlu ada penambahan layer dari proses bagging Saat penentuan pemilah, variabel yang digunakan diambil secara acak Prediksi 1
CART 1 (prediktor acak)
Dataset hasil resampling 1
Prediksi 2
CART 2 (prediktor acak)
Dataset hasil resampling 2
Prediksi T
CART T (prediktor acak)
Dataset hasil resampling T
Voting
Konsep kemiskinan
BPS: ketidakmampuan untuk memenuhi standar minimum kebutuhan dasar, baik makanan maupun bukan makanan Pengukuran kemiskinan BPS: tingkat konsumsi baik makanan/non makanan Garis Kemiskinan Susenas
Sumber data
Data sekunder Survey Verifikasi rumah tangga miskin Kabupaten Jombang 2010 Bappeda – Kabupaten Jombang Data sampel rumah tangga miskin berjumlah 1353 Data sampel rumah tangga sangat miskin berjumlah 618 Perbandingan antarkelas 2,19 : 1
Variabel Penelitian Variabel Y x1 x2 x3 x4 x5 x6 x7 x8 x9 x10 x11 x12 x13 x14
Definisi Operasional Status kemiskinan rumah tangga Status penguasaan bangunan tempat tinggal Luas kavling termasuk bangunan (m2) Luas lantai (m2) Jenis atap terluas Jenis dinding terluas Jenis lantai terluas Tempat buang air besar (jamban) Tempat pembuangan air tinja Sumber penerangan utama Sumber air minum Bahan bakar memasak Pengobatan Ijazah terakhir kepala keluarga Penghasilan tiap bulan (Rp)
Skala Pengukuran Nominal Nominal Rasio Rasio Nominal Nominal Nominal Nominal Nominal Nominal Nominal Nominal Nominal Ordinal Rasio
Langkah-langkah penelitian Pre-processing Data Analisis Klasifikasi dengan CART
Analisis Klasifikasi Bagging CART
Analisis Klasifikasi Boosting CART
Membandingkan Klasifikasi antarmetode ensemble Menarik Kesimpulan Penelitian
Analisis Klasifikasi Random Forest
Ukuran akurasi klasifikasi
Tabel Klasifikasi
Kelas Prediksi
h1 = -1 h2 = 1
1-APER
Kelas Sebenarnya y1= -1 y2= 1 TN FN FP TP
TP + TN TP + FP + TN + FN
Sensitivity
Specificity
TP TP + FN TN TN + FP
G-means sensitivity × specificity
Luas AUC
Uji Press’s Q [ N − (nK )]
2
Press's Q =
N ( K − 1)
N = Jumlah pengamatan total n = Jumlah pengamatan yang benar diklasifikasikan K = Jumlah kelas
Analisis CART
Variabel menentukan klasifikasi kemiskinan: Penghasilan
kepala Rumah Tangga (x14) Luas Lantai Bangunan (x3) Luas kavling termasuk bangunan (x2) Sumber air minum (x10)
Dihasilkan 4 simpul kelas miskin dan 3 simpul kelas sangat miskin
Analisis CART x14< 2.125e+05 |
x3>=4.5
miskin 432/141 x10=abdefg
x2< 49
x3>=13.5
miskin 770/363
x14< 8.75e+05
miskin 130/74
sangat 3/9
miskin 14/9 sangat 4/11
sanga 0/11
Akurasi Klasifikasi Akurasi
CART
Bagging
Boosting
Random Forest
1-APER
0,6986*
0,7438*
0,9006*
0,9812*
Sensitivity
0,0502
0,1926
0,7589
0,9466
Specificity
0,9948
0,9956
0,9653
0,9970
G-Means
0,2234
0,4378
0,8559
0,9715
Luas AUC
0,568
0,872
0,967
0,999
Keterangan : * Statistik Press’s Q signifikan
Performa Ensemble untuk mencapai akurasi konvergen Metode Klasifikasi Bagging CART Boosting CART Random Forest
St. Dev 1-APER 0,014 0,069 0,039
1.00
Ensemble Bagging Boosting RF
0.95
1-APER
0.90 0.85 0.80 0.75 0.70 0
5
10
Jumlah Pohon
15
20
Kesimpulan CART
Akurasi Ensemble
Performa Ensemble
• Var x14, x3, x2, dan x10 paling menentukan klasifikasi
• Akurasi Lebih baik dibanding pohon klasifikasi tunggal CART • Akurasi Random Forest paling baik • Bagging CART paling cepat mencapai akurasi yang konvergen