PENENTUAN PEUBAH PENCIRI PENERIMA JAMINAN KESEHATAN DAERAH (JAMKESDA) KOTA BOGOR DENGAN METODE CHAID DAN RANDOM FOREST
SILVI NUR ARIFAH
DEPARTEMEN STATISTIKA FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2012
RINGKASAN SILVI NUR ARIFAH. Penentuan Peubah Penciri Penerima Jaminan Kesehatan Daerah (Jamkesda) Kota Bogor dengan Metode CHAID dan Random Forest. Dibimbing oleh ANIK DJURAIDAH dan LA ODE ABDUL RAHMAN. Jaminan kesehatan daerah (Jamkesda) Kota Bogor merupakan program pelayanan pemeliharaan kesehatan masyarakat yang diselenggarakan oleh pemerintah Kota Bogor. Penerima program ini adalah masyarakat Kota Bogor yang belum memperoleh jaminan kesehatan. Pengklasifikasian masyarakat miskin yang tidak menderita sakit kronis dilakukan pada penerima program ini dengan cara pembobotan, dengan pembobot terbesar yaitu indikator ekonomi. Penarikan contoh acak dilakukan pada data tersebut sehingga didapatkan data contoh. Cara yang berbeda untuk pengklasifikasian dilakukan pada data contoh dalam penelitian ini. Hal tersebut berguna membantu Dinas kesehatan (Dinkes) Kota Bogor mengklasifikasikan penerima Jamkesda dengan lebih cepat, tanpa harus melakukan pembobotan pada data populasi. Proses pengolahan data untuk mengidentifikasi peubah penciri menggunakan metode CHAID (Chi-square Automatic Interaction Detection) dan random forest. Proses CHAID diulang hingga terlihat perbedaan pohon. Hasilnya menunjukkan perbedaan bentuk pohon klasifikasi sehingga sulit menentukan peubah penciri yang stabil. Random forest sangat membantu menemukan peubah penciri yang stabil, yaitu peubah pekerjaan dan kepemilikan aset. Peubah tersebut sesuai dengan hasil pengklasifikasian menggunakan pembobotan pada data populasi. Peubah penciri hasil random forest dijadikan peubah yang harus masuk pada algoritma CHAID. Hasil kombinasi kedua metode didapatkan peubah penciri prioritas dua yaitu masyarakat Kota Bogor yang tidak bekerja. Peubah penciri lain yaitu masyarakat Kota Bogor yang bekerja tetapi tidak memiliki aset (tidak memiliki tabungan atau barang yang mudah dijual dengan nilai minimal Rp500 000.00). Katakunci: jamkesda, CHAID, random forest
PENENTUAN PEUBAH PENCIRI PENERIMA JAMINAN KESEHATAN DAERAH (JAMKESDA) KOTA BOGOR DENGAN METODE CHAID DAN RANDOM FOREST
SILVI NUR ARIFAH
Skripsi sebagai salah satu syarat untuk memperoleh gelar Sarjana Statistika pada Departemen Statistika
DEPARTEMEN STATISTIKA FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR 2012
Judul Skripsi Nama NRP
: Penentuan Peubah Penciri Penerima Jaminan Kesehatan Daerah (Jamkesda) Kota Bogor dengan Metode CHAID dan Random forest : Silvi Nur Arifah : G14080064
Menyetujui,
Pembimbing I,
Pembimbing II,
Dr. Ir. Anik Djuraidah, MS NIP. 19630515 198703 2 002
La Ode Abdul Rahman, S.Si., M.Si.
Mengetahui, Ketua Departemen Statistika Fakultas Matematika dan Ilmu Pengetahuan Alam Institut Pertanian Bogor
Dr. Ir. Hari Wijayanto, M.Si. NIP. 19650421 1999002 1 001
Tanggal Lulus:
RIWAYAT HIDUP Penulis dilahirkan di Garut pada tanggal 5 Maret 1990, anak ketiga dari empat bersaudara dari pasangan Mamad Sulaeman dan Empon. Penulis mengawali pendidikan formal di SD Negeri Sukaratu II pada tahun 1996 hingga lulus tahun 2002. Pada tahun 2002, penulis melanjutkan pendidikan di SMP Negeri 1 Banyuresmi dan lulus tahun 2005. Pada tahun 2005, penulis melanjutkan pendidikan di SMA Negeri 1 Tarogong kidul sekarang berubah nama menjadi SMA Negeri 1 Garut dan lulus tahun 2008. Pada tahun yang sama, penulis diterima di Institut Pertanian Bogor melalui jalur Undangan Seleksi Masuk IPB (USMI) dengan Mayor Statistika di Departemen Statistika. Penulis memilih ilmu penunjang Kewirausahaan Agribisnis pada tahun 2009. Selain itu, mengambil supporting course untuk mata kuliah Makroekonomi I dan Mikroekonomi I. Selama perkuliahan penulis aktif diberbagai bidang baik keilmiahan, kewirausahaan, maupun pengembangan SDM. Di bidang keilmiahan, penulis pernah aktif di FORCES (Forum for Scientific Student) pada tahun 2009. Bersama dalam satu tim, penulis telah berhasil melakukan penelitian yang didanai oleh dana hibah Program Kreativitas Mahasiswa DIKTI tahun 2011 dan berhasil mempublikasikannya di kegiatan konferensi internasional AISC di Taiwan tahun 2012. Penulis juga aktif menjadi asisten praktikum untuk mata kuliah Metode Statistika tahun 2010 dan Perancangan Percobaan tahun 2011. Di bidang kewirausahaan, penulis pernah aktif di Departemen Keuangan biro fundrising LDK Al-Hurriyyah IPB tahun 2009 dan 2010. Bersama dalam satu tim, penulis telah berhasil melalui persaingan untuk meyakinkan investor dengan ide usaha yang akan dikembangkan yaitu dari dana hibah Program Kreativitas Mahasiswa DIKTI dan Program Mahasiswa Wirausaha IPB tahun 2011. Di bidang pengembangan SDM, penulis pernah aktif di LDK Al-Hurriyyah IPB sebagai tim pengembangan SDM tahun 2012 dan menjadi tim coaching proposal hidup pada kegiatan Forum Indonesia Muda 12. Penulis juga pernah mengikuti kegiatan praktik lapang di Dinas Kesehatan Kota Bogor pada bulan Januari tahun 2012.
KATA PENGANTAR Assalamuβalaikum wr. wb. Segala puji dan syukur penulis panjatkan kepada Allah SWT, atas segala rahmat, nikmat, hidayah serta karunia-Nya sehingga penulis dapat menyelesaikan karya ilmiah ini sebagai salah satu syarat untuk memperoleh gelar sarjana pada Departemen Statistika Fakultas Matematika dan Ilmu Pengetahuan Alam Institut Pertanian Bogor. Karya ilmiah ini berjudul βPenentuan Peubah Penciri Penerima Jaminan Kesehatan Daerah (Jamkesda) Kota Bogor dengan Metode CHAID dan Random Forestβ. Dalam penelitian ini diharapkan dapat membantu pihak Dinas kesehatan Kota Bogor untuk mendapatkan peubah yang paling berpengaruh terhadap prioritas dua dan tiga sehingga waktu pendataan penerima Jamkesda Kota Bogor bisa lebih cepat. Ucapan terimakasih kepada semua pihak yang telah membantu penulis mulai dari proses awal hingga terselesaikannya karya ilmiah ini, yaitu kepada: 1. Ibu Dr. Ir. Anik Djuraidah, MS selaku ketua komisi pembimbing skripsi yang telah membimbing, mengarahkan dan memberikan saran kepada penulis. 2. Bapak La Ode Abdul Rahman, S.Si., M.Si. selaku anggota komisi pembimbing skripsi yang telah membimbing serta memberi masukan bagi penulis. 3. Bapak Agus M. Soleh, S.Si, MT sebagai dosen penguji atas masukan dan sarannya. 4. Ibu drg. Margaretha Kurnia, kepala bidang Pembiayaan Kesehatan Masyarakat Dinas Kesehatan Kota Bogor yang telah banyak memberikan bimbingan dan saran. 5. Seluruh pihak Dinas kesehatan Kota Bogor yang telah membantu mempermudah penulis untuk mendapatkan informasi tentang Jamkesda. 6. Mama dan papa yang saya cintai dan selalu memberikan dukungan serta doa yang tidak terputus bagi penulis. Teh Eris, teh Fitri, dan Intan yang selalu memberikan semangat. 7. Teman-teman di tim SDM LDK Al Hurriyyah IPB 2012 terimakasih untuk perhatian dan dukungannya selama pengerjaan karya ilmiah ini. 8. Teman-teman di Ponpes Al-Iffah yang selalu membangkitkan semangat untuk menyelesaikan segala sesuatu dengan disiplin. 9. Teman-teman satu bimbingan Sekarsari(Ami), Riza, Meta, Andra, Budi, Fatul, Hendra, dan Nurul yang selalu menyemangati serta seluruh teman-teman Statistika 45 umumnya. 10. Semua pihak yang tidak dapat disebutkan satu persatu atas saran, masukan, dan kritiknya kepada penulis. Semoga semua amal ibadah baik dan bantuan yang telah diberikan kepada penulis mendapat balasan yang lebih baik dari Allah SWT, dan semoga karya ilmiah ini dapat bermanfaat bagi pihak yang membutuhkan. Bogor, September 2012
Silvi Nur Arifah
DAFTAR ISI Halaman DAFTAR TABEL ................................................................................................................... viii DAFTAR GAMBAR ...............................................................................................................
viii
DAFTAR LAMPIRAN ............................................................................................................
viii
PENDAHULUAN Latar Belakang .......................................................................................................... Tujuan .......................................................................................................................
1 1
TINJAUAN PUSTAKA Metode CHAID ......................................................................................................... Random Forest .......................................................................................................... Pembentukan pohon tunggal .............................................................................. Penentuan peluang salah klasifikasi................................................................... Tingkat kepentingan peubah .............................................................................
1 2 2 3 4
METODOLOGI Data ............................................................................................................................ Metode .......................................................................................................................
4 4
HASIL DAN PEMBAHASAN Deskripsi Data............................................................................................................ Identifikasi Peubah Penciri dengan Metode CHAID ................................................. Perbandingan pohon klasifikasi CHAID dengan tiga ulangan ........................ Penentuan Peubah Penciri dengan Random forest ..................................................... Penentuan Peubah Penciri Terbaik Penerima Jamkesda Kota Bogor ........................
5 6 6 7 8
SIMPULAN ............................................................................................................................
10
DAFTAR PUSTAKA ..............................................................................................................
10
LAMPIRAN .............................................................................................................................
12
viii
DAFTAR TABEL Halaman 1. Perbandingan hasil pohon klasifikasi CHAID dengan tiga kali ulangan ............................ 2. Perbandingan peluang salah klasifikasi pada random forest berukuran m=2,4,8 serta k= 50, 100, 500, dan 1000 .........................................................................................
6 7
DAFTAR GAMBAR Halaman 1. Grafik proporsi data populasi dan data contoh untuk masing-masing kategori peubah respon. .................................................................................................................... 2. Perbandingan frekuensi kategori peubah penjelas pendidikan dengan tiga kali ulangan ................................................................................................................. 3. Plot perbandingan peluang salah klasifikasi pada random forest berukuran m=2,4,8 dan k=50,100,500,1000 ........................................................................................ 4. Peluang salah klasifikasi pada saat m=4 dengan k=0 - 1000 pohon .................................. 5. Urutan peubah penciri pada saat m=4 dengan k=50 pohon ................................................ 6. Nilai rataan peluang salah klasifikasi metode CHAID dan random forest data Jamkesda Kota Bogor. ................................................................................................ 7. Pohon klasifikasi CHAID yang dimodifikasi dengan peubah penciri hasil algoritma random forest .............................................................................................
5 6 8 8 8 9 9
DAFTAR LAMPIRAN Halaman
1. Tabel peubah penjelas dan frekuensi masing-masing kategori pada peubah penjelas untuk ulangan pertama, kedua, dan ketiga. ................................................................................... 2. Kategorisasi pengeluaran keluarga ..................................................................................... 3. Grafik perbandingan frekuensi kategori dengan tiga ulangan ............................................
13 15 16
1
PENDAHULUAN Latar belakang Penduduk Kota Bogor yang belum mendapatkan jaminan pemeliharaan kesehatan hingga tahun 2010 sebanyak 66% dari total penduduk Kota Bogor (BPS 2010 dalam Widayani 2011). Salah satu upaya menguranginya, pemerintah Kota Bogor menyelenggarakan program pelayanan Jaminan kesehatan daerah (Jamkesda). Program pelayanan ini mulai berjalan tahun 2012. Namun proses pendataannya telah dilakukan sejak tahun 2010, kemudian dilanjutkan proses pengendalian mutu data tahun 2011. Proses tersebut dilakukan oleh Dinas kesehatan (Dinkes) Kota Bogor dan dibantu pihak ketiga sebagai tenaga ahli dalam hal manajemen database. Penerima Jamkesda Kota Bogor merupakan masyarakat Kota Bogor yang belum menerima jaminan kesehatan baik dari pemerintah maupun swasta. Penerima Jamkesda ini dibagi menjadi tiga kategori prioritas, yaitu prioritas satu, prioritas dua, dan prioritas tiga. Namun dalam penelitian ini hanya fokus pada penerima Jamkesda prioritas dua dan tiga. Hal ini disebabkan penerima Jamkesda prioritas satu sudah ada penciri yaitu masyarakat Kota Bogor yang menderita sakit kronis dengan kategori jenis penyakit yang dijamin telah ditentukan oleh Dinkes Kota Bogor. Penerima Jamkesda prioritas dua dan tiga belum ada peubah penciri. Kedua prioritas tersebut diperuntukkan bagi masyarakat miskin di luar penerima Jamkesda prioritas satu. Pengklasifikasian prioritas dua dan tiga pada data populasi dilakukan dengan cara pembobotan pada masing-masing peubah penjelas. Banyaknya peubah penjelas yang terlibat sebanyak 19 peubah. Pembobot yang paling besar diberikan pada indikator ekonomi dengan peubah penjelas yaitu pekerjaan, kepemilikan aset, dan besar penghasilan dari pekerjaan utama. Dinkes Kota Bogor memperbaharui database penerima Jamkesda Kota Bogor dengan cara tersebut. Pada prosesnya seluruh peubah penjelas digunakan sehingga tidak efisien. Penelitian ini bermanfaat untuk penentuan kriteria penerima Jamkesda Kota Bogor sehingga proses pendataan bisa dilakukan lebih cepat oleh Dinkes Kota Bogor. Metode analisis yang tepat untuk penentuan kriteria penerima Jamkesda Kota Bogor yaitu dengan Metode CHAID (Chisquare Automatic Interaction Detection).
Metode ini tepat digunakan karena peubah respon berskala nominal (Rokach & Maimon 2008). Namun pada setiap pengambilan data contoh dalam satu populasi, memungkinkan terbentuknya pohon yang tidak stabil. Ketidakstabilan bisa diakibatkan oleh ukuran data contoh yang kecil, simpul terminal yang heterogen, dan korelasi yang cukup tinggi antar peubah penjelas (Berk 2008 dalam Sartono & Syafitri 2010). Sartono & Syafitri (2010) memberikan solusi terhadap masalah ketidakstabilan yaitu dengan metode pohon gabungan (ensemble tree). Metode pohon gabungan yang digunakan dalam penelitian ini yaitu random forest. Penentuan kriteria penerima Jamkesda Kota Bogor menggunakan gabungan dari kedua metode tersebut yaitu random forest dan CHAID. Tujuan Tujuan dari penelitian ini yaitu : 1. Mengidentifikasi peubah penciri penerima Jamkesda Kota Bogor menggunakan metode CHAID. 2. Menentukan peubah penciri yang paling stabil bagi penerima Jamkesda Kota Bogor menggunakan random forest. 3. Menentukan peubah penciri terbaik bagi penerima Jamkesda Kota Bogor menggunakan kombinasi hasil dari random forest dan metode CHAID. TINJAUAN PUSTAKA Metode CHAID CHAID (Chi-square Automatic Interaction Detection) merupakan metode pohon keputusan yang dikembangkan oleh Kass tahun 1980. Metode ini menghasilkan pohon klasifikasi ketika peubah respon berupa data kategorik dan menghasilkan pohon regresi ketika peubah respon berupa data numerik. CHAID menghasilkan pohon dengan dua cabang atau lebih yang terdapat pada simpul akar atau simpul tunggal. Dengan kata lain, CHAID dapat menghasilkan pohon yang non-biner (Kass 1980). Menurut Rokach & Maimon (2008), pada dasarnya CHAID dibuat untuk data dengan peubah respon berskala nominal. Secara umum, tahapan CHAID meliputi tiga hal, yaitu tahap penggabungan (merging), tahap pemisahan (splitting), dan tahap penghentian (stopping). Menurut Kass (1980), algoritma CHAID sebagai berikut : a. Masing-masing peubah penjelas dibuat tabulasi silang antar kategori-kategori
2
peubah respon dengan kategori-kategori peubah penjelas. b. Pada setiap tabulasi silang yang dihasilkan di tahap (a), disusun sub-tabel berukuran 2Γπ (π adalah banyaknya kategori peubah respon). Pada setiap subtabel dicari nilai Ο2hitung kemudian dicari nilai yang terkecil, misalkan didapatkan Ο2terkecil. Jika Ο2terkecil < Ο2Ξ±(d-1) atau dengan kata lain tidak mencapai nilai kritis, maka kedua kategori peubah penjelas tersebut digabungkan menjadi satu kategori campuran. c. Pada setiap kategori campuran yang terdiri tiga atau lebih kategori asal, dicari pemisahan biner dengan menghitung Ο2hitung terbesar misalkan didapatkan Ο2terbesar. Jika Ο2terbesar > Ο2Ξ±(d-1) maka berlaku pemisahan biner dan kembali ke tahap (b). d. Setelah diperoleh penggabungan optimal untuk setiap peubah penjelas, dicari Ο2hitung untuk masing-masing tabulasi silang yang baru. Perhatikan tabulasi silang yang memiliki nilai statistik uji terbesar. Jika Ο2terbesar > Ο2Ξ±(d-1), data dibagi menurut kategori tersebut. e. Jika terjadi pemisahan pada tahap (d), kembali ke tahap (a) untuk setiap data hasil pemisahan. Hentikan jika tidak ada lagi peubah penjelas yang signifikan untuk melakukan pemisahan. Hipotesis yang digunakan dalam tahapan algoritma CHAID yaitu : Ho: Tidak terdapat hubungan antara baris dan kolom (saling bebas) H1: Terdapat hubungan antara baris dan kolom (tidak saling bebas) Statistik uji khi-kuadrat (π 2 ) yang digunakan dirumuskan: π π (πππ β πΈππ )2 2 π = , πΈππ π=1 π =1 π π. π .π
dengan πΈππ = , sedangkan π adalah π banyaknya baris, π adalah banyaknya kolom, π adalah indeks baris, π adalah indeks kolom, πππ adalah banyaknya pengamatan pada baris ke-π dan kolom ke-π, πΈππ adalah nilai harapan pengamatan pada baris ke-π dan kolom ke-π, ππ. adalah banyaknya pengamatan pada baris ke-π, π.π adalah banyaknya pengamatan pada kolom ke-π, π adalah banyaknya responden. Pengurangan tabel kontingensi pada algoritma CHAID akan menyebabkan pengujian yang sedikit berbeda dalam mencari nilai statistik uji. Dengan kata lain,
jika π kategori dari peubah asal menjadi π kategori (π < π) maka nilai-p dari khikuadrat yang baru akan dikalikan dengan pengganda Bonferroni. Pengganda Bonferroni ada tiga tipe yang dibedakan berdasarkan skala pengukuran peubahnya (Kass 1980), yaitu : 1. Jika peubah asal berskala nominal digunakan rumus pengganda Bonferroni tipe bebas, yaitu : πβ1
π΅=
β1 π=0
π
πβπ π π! π β π !
2. Jika peubah asal berskala ordinal digunakan rumus pengganda Bonferroni tipe monotonik, yaitu : πβ1 π΅= πβ1 3. Jika peubah asal berskala ordinal, namun terdapat kategori yang belum dapat ditentukan urutannya dalam peubah tersebut digunakan rumus pengganda Bonferroni tipe mengambang (float), yaitu: πβ2 πβ2 +π π΅= πβ1 πβ2 Random Forest Random forest dikembangkan oleh Breiman tahun 2001. Teori yang melatarbelakangi terbentuknya random forest yaitu teori hukum kuat bilangan besar (the strong law of large number) yang menunjukkan bahwa hasil pemilihan dari pohon yang terbentuk cenderung konvergen ke suatu nilai yang diharapkan, sehingga overfitting tidak menjadi masalah bagi random forest. Hal ini telah dibuktikan oleh Breiman (2001). Data yang digunakan untuk pembentukan pohon adalah sekitar 2/3 dari set data contoh dan disebut sebagai gugus data training. Sepertiga bagian lainnya digunakan untuk menghitung nilai salah klasifikasi dan disebut sebagai gugus data out of bag (OOB). Andaikan gugus data training berukuran π terdiri atas π peubah penjelas. Breiman (2001) menjelaskan algoritma random forest terdiri atas tahapan sebagai berikut : 1. Penarikan contoh acak dilakukan dengan pemulihan berukuran π dari gugus data training. Tahap ini disebut tahap bootstrap. 2. Pemilihan peubah penjelas secara acak sebanyak π, dengan π < π. Tahap tersebut dilakukan ketika proses pemilahan pada pembentukan pohon
3
tunggal. Tahap ini disebut tahap tahap random sub-setting. 3. Pendugaan salah klasifikasi menggunakan gugus data OOB. 4. Langkah (1) sampai langkah (3) dilakukan sebanyak π kali sehingga didapatkan π buah pendugaan. Dalam kasus klasifikasi digunakan teknik suara terbanyak (majority vote). Pembentukan pohon tunggal Proses pembentukan pohon tunggal pada algoritma random forest menggunakan algoritma CART (Classification and Regression Tree), hanya saja tidak ada proses pemangkasan (pruning). Prosesnya meliputi tiga hal, yaitu pemilihan pemilah (split), penentuan simpul terminal, dan penandaan label kelas. Breiman et al. (1984) menjelaskan pembentukan pohon klasifikasi tunggal sebagai berikut : 1. Pemilihan pemilah. Pada tahap ini, setiap simpul bertujuan mendapatkan pemilah terbaik yang mampu menghasilkan peubah respon yang paling homogen pada setiap simpul. Oleh sebab itu, pada setiap simpul π‘ dilakukan pemilah π§ dengan membentuk pertanyaan biner, sehingga π§ memilah π‘ menjadi simpul kiri π‘πΏ untuk jawaban βyaβ dan simpul kanan π‘π
untuk jawaban βtidakβ. Jika pada π‘ telah terbentuk himpunan π, yaitu himpunan dari pemilah π§, maka pemilah untuk π‘ diperoleh dengan mencari nilai π§ yang memaksimumkan fungsi kriteria kebaikan pemilah Ο π§, π‘ , dengan π§ β π. Pemilah π§ yang terpilih dinotasikan dengan π§ β . Salah satu teknik pemilahan yang umum digunakan yaitu indeks Gini. Indeks Gini merupakan fungsi impurity Ο. Nilai dari fungsi impurity yaitu π(π‘). Maka ukuran impurity π(π‘) pada setiap simpul π‘ didefinisikan sebagai berikut : π π‘ = Ο π 1 π‘ ,π 2 π‘ ,β¦,π π π‘ Dengan π(π|π‘) adalah dugaan peluang suatu amatan merupakan kelas π dan berada dalam simpul π‘. π(π|π‘) dinyatakan dengan: ππ (π‘) π(π) ππ π(π, π‘) π ππ‘ = = ππ (π‘) π(π‘) π π(π) π π dan π π π π‘ =1.
Saat π π =
ππ π
, maka π π π‘ =
ππ (π‘) π π‘
,
dengan π π adalah peluang prior kategori ke-π, ππ π‘ adalah banyaknya amatan kelas ke-π yang berada di simpul π‘, ππ adalah banyaknya amatan kelas ke-π, π π‘ adalah banyaknya amatan pada simpul π‘. Fungsi impurity yang digunakan dalam algoritma ini yaitu : Ο π 1 π‘ , β¦ , π π π‘ = 1 β π π2 π π‘ . Adapun fungsi kriteria kebaikan pemilah Ο π§, π‘ yaitu saat penurunan impurity π(π‘) sebagai berikut : β³ π π§, π‘ = π π‘ β ππΏ π π‘πΏ β ππ
π π‘π
dengan ππΏ merupakan besar proporsi amatan saat amatan π‘πΏ dan ππ
besar proporsi amatan saat amatan π‘π
. Pemilah π§ yang dipilih sebagai pemilah simpul π‘ merupakan pemilah terbaik π§ β, yaitu β³ π π§ β , π‘ = maxβ³ π π§, π‘ π§βπ
2. Penentuan simpul terminal. Pemilahan pada simpul π‘ dihentikan saat satu atau lebih kriteria sudah terpenuhi. Selanjutnya π‘ disebut simpul terminal. Beberapa kriteria berhenti memilah yaitu : ο§ tidak terdapat nilai penurunan impurity yang cukup signifikan pada π‘(maxβ³ π π§, π‘ < π½; π½ > 0), π§βπ
ο§ banyaknya amatan pada π‘ mencapai batas minimum yang telah ditentukan (π(π‘) β€ 5 atau bahkan π(π‘) β€ 1), ο§ amatan pada π‘ sudah homogen. 3. Penandaan label kelas. Aturan yang digunakan merupakan aturan pluralitas (jumlah terbanyak), yaitu jika π π0 π‘ = maxπ π(π|π‘), dengan π= 1, 2, β¦ , π, maka label kelas untuk simpul terminal π‘ adalah kelas π0 . Jika maxπ π(π|π‘) dicapai oleh dua atau lebih kelas yang berbeda, maka label kelas untuk simpul terminal π‘ dipilih secara acak dari kelas maksimum tersebut. Penentuan peluang salah klasifikasi Nilai salah klasifikasi random forest diduga melalui galat OOB. Galat OOB pada random forest secara umum tergantung pada dua hal (Hastie et al. 2008), yaitu : 1. Kekuatan (strenght) masing-masing pohon tunggal dalam random forest, dilambangkan dengan π’. Semakin besar nilai π’ maka nilai salah klasifikasi akan semakin kecil.
4
2. Korelasi antar pohon tunggalnya, dilambangkan dengan π. Nilai π yang kecil mengakibatkan ragam dugaan hasil random forest menjadi kecil sehingga membuat salah klasifikasi menjadi lebih kecil. Berdasarkan kedua hal yang menjadi ciri utama ini bisa dipilih random forest terbaik yaitu saat nilai rasio π/π’2 bernilai kecil (Breiman 2001). Hal tersebut menurut Sartono & Syafitri (2010), sangat dipengaruhi oleh banyaknya π peubah penjelas yang diambil secara acak untuk membentuk pohon. Breiman & Cutler (2003) menyarankan untuk mengamati galat OOB saat 1 π= π , π , 2 π , lalu memilih π 2 yang menghasilkan galat OOB terkecil, dengan kata lain menghasilkan nilai salah klasifikasi terrendah dari gugus data OOB. Tahun 2001, Breiman mempopulerkan batasan besarnya salah klasifikasi, yaitu : 1 β π’2 ππ
πΉ β€ π π’2 dengan π adalah rata-rata korelasi antar pasangan dugaan dari dua pohon tunggal dan π’ adalah rata-rata ukuran kekuatan akurasi pohon tunggal. Tingkat kepentingan peubah Salah satu ukuran tingkat kepentingan peubah penjelas yang dihasilkan random forest yaitu Mean Decrease Gini (MDG). MDG adalah menghitung rata-rata penurunan simpul ketika dilakukan pemilahan (Breiman & Cutler 2012). Semakin besar nilai MDG maka peubah tersebut dianggap semakin penting. Breiman & Cutler (2003) memberikan saran menggunakan banyak pohon yang dibentuk agar urutan tingkat kepentingan peubah (variable importance) stabil. Sandri & Zuccolotto (2006) menjelaskan rumus yang digunakan untuk menentukan tingkat kepentingan peubah. Misalkan terdapat π peubah penjelas dengan β = 1,2, . . . π, maka MDG mengukur tingkat kepentingan peubah penjelas πβ sebagai berikut : 1 ππ·πΊβ = π β, π‘ πΌ(β, π‘) π π‘
dengan π adalah banyaknya pohon dalam random forest, π β, π‘ adalah besar penurunan indeks Gini untuk peubah penjelas πβ pada simpul t, dan 1; πβ memilah simpul π‘ πΌ β, π‘ = 0; selainnya
METODOLOGI Data Data yang digunakan yaitu data hasil penarikan contoh acak sederhana dari data sensus penerima Jamkesda 2012 (Dinkes 2012). Pengambilan data contoh dilakukan sebanyak tiga kali ulangan untuk membentuk pohon klasifikasi CHAID. Pengambilan data contoh dilakukan kembali untuk membentuk random forest. Pengambilan data contoh terakhir dilakukan untuk membentuk pohon klasifikasi CHAID yang disesuaikan dengan hasil random forest. Rumus ukuran contoh menurut Scheffer et al. (1986) yaitu : ππ€(1 β π€) π΅2 πβ1 + π€(1 β π€) 4 dengan π adalah banyaknya populasi penelitian, nilai π = 174 571. π€ adalah nilai proporsi prioritas dua, nilai π€ = 0.1. π΅ adalah batasan tingkat kesalahan (bound of error), nilai π΅ = 0.025. Peubah respon dari penelitian ini yaitu prioritas penerima. Kategori respon terbagi menjadi dua, yaitu : 1. Prioritas dua 2. Prioritas tiga Kedua kategori tersebut merupakan keluarga miskin yang tidak menderita sakit kronis dan belum mendapatkan jaminan kesehatan dari manapun serta dibedakan berdasarkan nilai peubah penjelas. Peubahpeubah penjelas yang digunakan dalam penelitian ini antara lain pendidikan, pekerjaan, penggunaan Surat Keterangan Tidak Mampu (SKTM), fasilitas Mandi Cuci Kakus (MCK), penghasilan Kepala Keluarga (KK), dan lain-lain. Peubah penjelas yang digunakan selengkapnya dapat dilihat pada Lampiran 1. π=
Metode 1. Melakukan pengkategorian untuk jenis data kontinu yaitu peubah pengeluaran harian, pengeluran mingguan, dan pengeluaran bulanan. Dilandaskan pada komponen Garis Kemiskinan (GK) yang terdiri dari garis kemiskinan makanan (GKM) dan garis kemiskinan nonmakanan (GKNM). Pengkategorian data disajikan pada Lampiran 2. 2. Melakukan eksplorasi data untuk masingmasing peubah. 3. Mengidentifikasi peubah penciri penerima Jamkesda dengan tahapan sebagai berikut:
5
2
π =8
c. Langkah (4b) dilakukan terus menerus sampai terbentuk kedalaman pohon maksimum. d. Sebanyak 1000 random forest dicobakan pada setiap m dan π yang dicobakan, kemudian dicatat nilai peluang salah klasifikasi masingmasing random forest dan nilai Mean Decrease Gini (MDG). Nilai k yang disarankan Breiman (2001) digunakan dalam penelitian ini, yaitu k = 50. Umumnya k = 50 sudah memberikan hasil yang memuaskan untuk masalah klasifikasi (Breiman 1996). Sementara itu, k β₯ 100 cenderung menghasilkan tingkat salah klasifikasi yang konstan (Sutton 2005). Sehingga dalam penelitian ini dicobakan beberapa nilai k yaitu 50, 100, 500, dan 1000. e. Melakukan pendugaan gabungan berdasarkan π buah pohon. Dalam kasus klasifikasi digunakan teknik suara terbanyak (majority vote). f. Urutan nilai MDG diamati, kemudian ditentukan peubah penciri yang paling stabil. 5. Melakukan penarikan contoh acak π dari set data populasi.
6. Membuat pohon klasifikasi CHAID menggunakan data pada Langkah 5. Peubah penciri hasil random forest dijadikan peubah yang harus masuk pada algoritma tersebut. 7. Melakukan analisis deskriptif untuk menentukan peubah penciri terbaik bagi penerima Jamkesd Kota Bogor. Pengolahan data dilakukan menggunakan software IBM SPSS 19 dan R ver 2.15.1 dengan paket randomForest 4.6-6. HASIL DAN PEMBAHASAN Deskripsi data Banyaknya penerima Jamkesda Kota Bogor tahun 2012 untuk kategori prioritas dua yaitu 14 866 jiwa dan kategori prioritas tiga sebanyak 159 705 jiwa. Hasil penarikan contoh acak dari masing-masing kategori dengan menggunakan penarikan contoh acak sederhana didapatkan jumlah contoh acak untuk kategori prioritas dua sebanyak 483 jiwa dan kategori prioritas tiga sebanyak 498 jiwa (Gambar 1). Hal tersebut menunjukkan bahwa banyaknya data contoh yang diambil untuk prioritas dua dan tiga sangat sedikit dibandingkan banyaknya populasi yang ada. Proporsi yang cukup jauh berbeda itu memungkinkan terbentuknya pohon yang berbeda pada setiap pengambilan data contoh yang berbeda (Berk 2008 dalam Sartono & Syafitri 2010). Respon
a. Melakukan penarikan contoh acak π dari set data populasi. b. Melakukan proses algoritma CHAID hingga terbentuk pohon klasifikasi CHAID. c. Langkah (3a) dan langkah (3b) diulang sampai terlihat perbedaan hasil pohon klasifikasi CHAID, pada penelitian ini diulang sampai tiga kali. d. Membandingkan dendogram CHAID hasil dari tiga kali ulangan. 4. Menentukan peubah penciri yang paling stabil menggunakan tahapan random forest sebagai berikut: a. Melakukan penarikan contoh acak π dari set data populasi. b. Pada proses pembentukan pohon dipilih π peubah penjelas secara acak dengan π < π peubah penjelas. Proses tersebut dilakukan pada proses pemilihan pemilah, kemudian dipilih pemilah terbaik. Beberapa nilai π yang dicobakan, yaitu : 1 π =2 2 π= π =4
prioritas tiga Populasi
prioritas dua
Contoh 0
100000
200000
Jumlah responden
Gambar 1 Grafik proporsi data populasi dan data contoh untuk masing-masing kategori peubah respon. Pada masing-masing data contoh dapat dibandingkan besarnya keragaman frekuensi pada masing-masing kategori untuk setiap ulangan yang berbeda. Gambar 2 menunjukkan perbandingan frekuensi peubah penjelas pendidikan. Perbandingan frekuensi untuk peubah lain disajikan pada Lampiran 3. Perbedaan frekuensi ini memungkinkan terbentuknya pohon yang berbeda. Namun perbedaannya tidak terlalu signifikan, sehingga pohon yang terbentuk kemungkinan tidak terlalu jauh berbeda.
[4] SMA
[5] Perguruan Tinggi (pernah kuliah)
[3] SMP
[2] SD
600 500 400 300 200 100 0
[1] Tidak sekolah/Tidak β¦
6
Ulangan ke-1 Ulangan ke-2 Ulangan ke-3
Pendidikan
Gambar 2 Perbandingan frekuensi kategori peubah penjelas pendidikan dengan tiga kali ulangan Identifikasi Peubah Penciri dengan Metode CHAID Pembentukan pohon klasifikasi dilakukan pengulangan sebanyak tiga kali untuk melihat kestabilan peubah penciri dari pohon klasifikasi CHAID. Nilai peluang salah jenis I (πΌ) penggabungan dan penyekatan ditentukan sebesar 0.05. Metode penghentian pohon yang digunakan yaitu saat masing-masing peubah saling bebas. Selain itu, minimum amatan di simpul induk sebanyak 100 amatan serta di simpul anak sebanyak 50 amatan. Kedalaman pohon dibatasi sampai 3 (tiga) level. Perbandingan pohon klasifikasi CHAID dengan tiga ulangan Proses algoritma CHAID pada data contoh penelitian ini menghasilkan pohon klasifikasi CHAID. Proses tersebut dilakukan sebanyak tiga kali ulangan karena sudah
dapat dilihat perbedaan pohon klasifikasinya. Perbedaan itu dapat dilihat dari peubah penciri yang dihasilkan pada setiap ulangan, jumlah simpulnya, kedalaman pohon yang dihasilkan, dan nilai peluang salah klasifikasinya (Tabel 1). Perbedaan pertama yaitu peubah penjelas yang menjadi penciri bagi penerima Jamkesda Kota Bogor. Peubah status rumah pada pohon klasifikasi ulangan pertama menjadi penciri bagi penerima Jamkesda Kota Bogor, sedangkan pada pohon klasifikasi ulangan kedua dan ketiga tidak menjadi penciri bagi penerima Jamkesda Kota Bogor. Hal yang sama yaitu peubah status merokok pada pohon klasifikasi ulangan kedua menjadi penciri bagi penerima Jamkesda Kota Bogor namun tidak menjadi penciri pada pohon klasifikasi ulangan selainnya. Berbeda dengan peubah kepemilikan aset pada pohon klasifikasi ulangan ketiga, peubah tersebut menjadi penciri pada pohon klasifikasi ulangan pertama. Peubah yang menjadi penciri pada keseluruhan ulangan atau masing-masing pohon klasifikasi terbentuk yaitu peubah pekerjaan dan fasilitas MCK. Perbedaan kedua dilihat dari banyaknya simpul yang terbentuk pada masing-masing pohon klasifikasi CHAID. Banyaknya simpul pada pohon klasifikasi ulangan pertama yaitu sembilan buah simpul dan menghasilkan simpul akhir sebanyak lima buah simpul. Pohon klasifikasi ulangan kedua membentuk simpul yang berbeda, yaitu sebelas simpul dengan enam simpul akhir. Pohon klasifikasi ulangan ketiga pun menghasilkan jumlah
Tabel 1 Perbandingan hasil pohon klasifikasi CHAID dengan tiga kali ulangan Hasil dendogram pada ulangan kePembeda 1 2 3 Peubah penjelas Pekerjaan, Fasilitas Pekerjaan, Fasilitas Pekerjaan, Fasilitas MCK, yang menjadi MCK, Status MCK, Status Merokok Kepemilikan Aset penciri Rumah, Kepemilikan Aset
Jumlah simpul keseluruhan
9
11
6
Jumlah simpul akhir
5
6
4
Kedalaman pohon
3
2
2
0.023
0.014
0.025
Peluang salah klasifikasi
7
Penentuan Peubah Penciri dengan Random Forest Proses pembentukan random forest dilakukan pada beberapa kondisi sehingga didapatkan kondisi terbaik. Kondisi tersebut digunakan untuk menentukan peubah penciri penerima Jamkesda Kota Bogor. Penentuan kondisi terbaik ini dipengaruhi oleh banyaknya peubah penjelas yang dipilih secara acak pada proses pemilahan, dilambangkan dengan π. Pengaruh lain yaitu dari banyaknya pohon yang dibentuk pada proses random forest, dilambangkan dengan π (Breiman 2001). Pada penelitian ini dilakukan proses random forest saat π = 2, 4, dan 8 buah peubah penjelas. Setiap kondisi π tersebut dibentuk π = 50, 100, 500, dan 1000 pohon. Hal ini dilakukan untuk mendapatkan
kestabilan salah klasifikasi dan kondisi nilai peluang salah klasifikasi yang terkecil. Kondisi tersebut disebut kondisi optimum. Hasil dari proses tersebut ditunjukkan pada Tabel 2. Tabel
m 2
4
8
2
Perbandingan peluang salah klasifikasi random forest berukuran m = 2, 4, dan 8 serta k =50, 100, 500, dan 1000 Nilai peluang salah k klasifikasi 50 0.003058 100 0.004077 500 0.004077 1000 0.005097 50 0.004077 100 0.004077 500 0.004077 1000 0.004077 50 0.005097 100 0.005097 500 0.005097 1000 0.005097
Tabel 2 menunjukkan hasil 12 kali pembentukan random forest dengan nilai peluang salah klasifikasi terkecil yaitu 0.003058. Namun kondisi tersebut tidak terlihat stabil karena setiap pembentukan pohon yang semakin besar, maka nilai peluang salah klasifikasi semakin besar. Hal tersebut juga terlihat dari kenaikan kurva saat π = 2 (Gambar 3). 0,0055 Peluang Salah Klasifikasi
simpul yang berbeda yaitu enam simpul dengan empat simpul akhir. Perbedaan jumlah simpul pada masing-masing pohon klasifikasi ini menunjukkan ketidakstabilan setiap pohon klasifikasi yang terbentuk. Perbedaan ketiga terlihat dari kedalaman pohon klasifikasi yang dihasilkan. Pohon klasifikasi ulangan pertama menghasilkan pohon klasifikasi dengan kedalaman pohon sebesar tiga tingkatan. Kondisi tersebut berbeda dengan pohon klasifikasi ulangan kedua dan ketiga yang menghasilkan pohon dengan kedalaman sampai dua tingkatan. Perbedaan terakhir yaitu besar nilai peluang salah klasifikasi pada masing-masing pohon klasifikasi. Masing-masing pohon menghasilkan nilai salah klasifikasi yang cukup kecil. Nilai peluang salah klasifikasi untuk pohon klasifikasi pada ulangan pertama, kedua, dan ketiga masing-masing sebesar 0.023, 0.014, dan 0.025. Nilai tersebut tidak terlalu jauh berbeda, mungkin bisa disebabkan oleh keragaman data yang tidak terlalu jauh berbeda antar ulangan. Berdasarkan perbedaan yang telah dipaparkan sebelumnya, pohon klasifikasi yang dihasilkan jelas berbeda pada setiap ulangan. Peubah penciri yang dihasilkan pun berbeda pada setiap ulangan, walaupun peubah penjelas pekerjaan dan fasilitas MCK tetap stabil pada masing-masing ulangan. Namun kestabilan pohon yang dihasilkan oleh CHAID belum dapat direpresentasikan secara keseluruhan. Oleh sebab itu, dilakukan random forest untuk melihat kestabilan dari peubah penciri yang terbentuk untuk mengatasi kekurangan metode CHAID (Sartono & Syafitri 2010).
0,005 0,0045 0,004 0,0035 0,003 0,0025 k=50
k=100
k=500
k=1000
Jumlah Pohon m=2
m=4
m=8
Gambar 3 Plot perbandingan peluang salah klasifikasi pada random forest berukuran π = 2, 4, dan 8 buah peubah penjelas dan π = 50, 100, 500, dan 1000 pohon
8
Kestabilan nilai peluang salah klasifikasi terlihat pada kondisi π sebesar 4 dan 8 buah peubah dan π yakni 50, 100, 500, dan 1000 pohon terbentuk. Saat terjadi kondisi seperti itu, yaitu peluang salah klasifikasi yang sama, dipilih π = 4 buah dibandingkan π = 8 buah karena π yang kecil akan menyebabkan korelasi kecil (Breiman 2001). Sehingga jelas terlihat bahwa nilai salah klasifikasi yang dihasilkan pun lebih kecil dibandingkan saat π sebanyak 8 buah. Saat kondisi peluang salah klasifikasi yang sama juga, pohon yang lebih sedikit lebih baik karena waktu komputasi yang lebih cepat. Oleh sebab itu, pilihan yang tepat untuk mendapatkan kondisi optimum yaitu saat π sebesar 4 buah dan π sebanyak 50 pohon terbentuk. Kondisi tersebut diperkuat saat dilakukan plot algoritma random forest dengan kondisi π = 4 buah dan dilakukan dari nol sampai dengan 1000 pohon terbentuk. Kondisi peluang salah klasifikasi saat terbentuk 50 pohon cenderung stabil sampai terbentuk 1000 pohon (Gambar 4). Dapat disimpulkan bahwa kondisi π = 4 buah dan π = 50 buah pohon merupakan kondisi optimum untuk mendapatkan peubah penciri yang terbaik.
sumber listrik, dan pendidikan merupakan peubah-peubah yang relatif homogen. Demikian pula dengan peubah penjelas jenis lantai, penggunaan SKTM, kemampuan membayar obat, jenis dinding, frekuensi pembelian pakaian baru, status merokok, bahan bakar masak, pengeluaran bulanan, pengeluaran mingguan, dan pengeluaran harian, serta intensitas makan/hari. Peubahpeubah tersebut cenderung lebih homogen karena menghasilkan nilai MDG yang hampir mendekati nol. Berdasarkan nilai MDG yang diperoleh dari pembentukan 50 pohon didapatkan peubah penciri yang paling stabil. Peubah tersebut diduga yaitu pekerjaan, kepemilikan aset, dan fasilitas MCK. Pekerjaan Kepemilikan aset Fasilitas MCK Penghasilan KK Sumber air Status rumah Sumber listrik Pendidikan Jenis lantai Penggunaan SKTM Kemampuan bayar obat Jenis dinding Frek pakaian baru Status merokok Bahan bakar masak Pengeluaran bulanan Pengeluaran mingguan Pengeluaran harian Intensitas makan/hari 0
50 100 150 200 250 300 Mean Decrease Gini
Gambar 4 Peluang salah klasifikasi pada saat m=4 dengan k=0 - 1000 pohon Penentuan peubah penciri digunakan dengan kriteria pemeringkatan nilai Mean Decrease Gini (MDG) dari random forest saat π = 4 buah dan π = 50 pohon. Gambar 5 menunjukkan peringkat peubah. Peubah yang sangat berpengaruh bagi penerima Jamkesda prioritas dua dan tiga yaitu peubah pekerjaan dan kepemilikan aset dengan nilai MDG β₯ 100. Peubah penjelas selainnya mempunyai nilai MDG < 100. Peubah penjelas tersebut yaitu fasilitas MCK, penghasilan KK, sumber air, status rumah,
Gambar 5 Urutan peubah penciri pada saat π = 4 dengan π = 50 pohon Penentuan Peubah Penciri Terbaik Penerima Jamkesda Kota Bogor Peubah penciri yang paling stabil secara berurutan hasil random forest yaitu peubah pekerjaan, kepemilikan aset, dan fasilitas MCK. Pohon yang dibentuk yaitu 50 buah pohon klasifikasi tunggal, menghasilkan rataan peluang salah klasifikasi sebesar 0.00407. Cukup berbeda dengan hasil CHAID yang hanya dibentuk tiga buah pohon klasifikasi tunggal sehingga rataan peluang salah klasifikasi CHAID pun tentu lebih besar yaitu 0.02067 (Gambar 6).
9
Walaupun nilai rataan peluang salah klasifikasi lebih kecil, hasil random forest ini mempunyai kelemahan yaitu tidak terbentuknya pohon seperti dendogram CHAID. Berdasarkan kondisi tersebut maka peubah penciri didapatkan berdasarkan hasil penentuan peubah penciri yang stabil menggunakan random forest dan pemilahan kategorinya menggunakan pohon klasifikasi yang dihasilkan algoritma CHAID. CHAID
0,02067
Random Forest
0,00407
0
0,005
0,01
0,015
0,02
0,025
Peluang salah klasifikasi
Gambar
6
Nilai rataan peluang salah klasifikasi metode CHAID dan random forest data Jamkesda Kota Bogor
Dugaan peubah penciri penerima Jamkesda Kota Bogor yaitu peubah pekerjaan, kepemilikan aset dan fasilitas MCK. Dendogram CHAID yang disesuaikan dengan kriteria random forest ditampilkan pada Gambar 7. Dapat dilihat pengklasifikasian untuk masing-masing kategori pada peubah respon. Peubah penciri pertama yaitu peubah pekerjaan. Masyarakat Kota Bogor yang tidak bekerja dan belum mendapatkan jaminan kesehatan dari manapun dimasukkan sebagai penerima Jamkesda prioritas dua. Hal itu terbukti dari persentase yang cukup besar yaitu 97.7% masyarakat kota Bogor yang tidak bekerja masuk sebagai penerima Jamkesda prioritas dua. Peubah kedua yaitu kepemilikan aset. Kepemilikan aset dilihat dari kepemilikan tabungan atau barang yang mudah dijual dengan nilai minimal Rp500000.00. Masyarakat Kota Bogor yang bekerja baik sebagai buruh, karyawan/wati, dan lainnya tetapi tidak memiliki tabungan/barang yang
Gambar 7 Pohon klasifikasi CHAID yang dimodifikasi dengan peubah penciri hasil algoritma random forest
10
mudah dijual dengan nilai minimal Rp500000.00 maka dimasukkan sebagai penerima Jamkesda prioritas dua. Hal itu didasarkan pada hasil dendogram CHAID yang menunjukkan presentase penerima Jamkesda prioritas dua yang bekerja dan tidak memiliki aset yaitu 8.3%. Angka tersebut lebih besar dari presentase masyarakat yang bekerja dan memiliki aset. Peubah ketiga yaitu fasilitas MCK. Masyarakat Kota Bogor yang belum mendapatkan jaminan kesehatan baik yang bekerja maupun yang tidak bekerja secara umum mempunyai fasilitas MCK bersamasama atau pribadi untuk masing-masing prioritas. Tidak ada yang membedakan bagi kedua prioritas tersebut. Presentase bagi keduanya cenderung sama besar untuk kategori yang sama pada masing-masing prioritas. Kondisi ini menjadi dasar bahwa fasilitas MCK tidak cocok digunakan sebagai peubah penciri bagi prioritas dua dan tiga. Berdasarkan pemaparan tiga peubah yang paling stabil maka didapatkan dua peubah penciri terbaik bagi penerima Jamkesda prioritas dua dan tiga yaitu peubah pekerjaan dan kepemilikan aset. Masyarakat Kota Bogor yang belum mendapatkan jaminan kesehatan dari manapun dan tidak sedang menderita sakit kronis diantaranya gagal ginjal, HIV/AIDS, stroke, kanker, jantung koroner, thalasemia , TBC, dan sakit jiwa dimasukkan menjadi penerima Jamkesda prioritas dua atau tiga. Masyarakat Kota Bogor yang dimasukkan menjadi penerima Jamkesda Kota Bogor prioritas dua merupakan mereka yang tidak memiliki pekerjaan. Disamping itu, tidak menutup kemungkinan bagi masyarakat Kota Bogor yang bekerja dengan syarat orang tersebut tidak memiliki aset. Masyarakat Kota Bogor yang tidak memenuhi kriteria penerima Jamkesda Kota Bogor prioritas dua dimasukkan ke penerima Jamkesda Kota Bogor prioritas tiga. SIMPULAN Random forest ternyata mampu menduga peubah penciri yang stabil pada data contoh. Peubah penciri hasil random forest yang menggunakan data contoh mampu menunjukkan hasil yang sesuai.dengan peubah penciri hasil dari pembobotan peubah penjelas pada data populasi. Peubah penciri yang dihasilkan yaitu pekerjaan dan kepemilikan aset.
CHAID melengkapi kelemahan random forest yang belum mampu menghasilkan pohon klasifikasi yang mudah untuk diinterpretasikan seperti dendogram CHAID. Berikut ini klasifikasi dari hasil CHAID menunjukkan kriteria penerima Jamkesda Kota Bogor. Kategori penerima Jamkesda prioritas dua, yaitu bagi masyarakat Kota Bogor yang tidak bekerja. Disamping itu, tidak menutup kemungkinan bagi masyarakat Kota Bogor yang bekerja dengan syarat orang tersebut tidak memiliki aset. Masyarakat Kota Bogor yang belum mendapatkan jaminan kesehatan dari manapun dan tidak sedang menderita sakit kronis selain kriteria tersebut dimasukkan sebagai prioritas tiga. DAFTAR PUSTAKA Breiman L, Friedman JH, Olshen RA, Stone CJ. 1984. Classification and Regression Tree. New York: Chapman & Hall. Breiman L. 1996. Bagging Predictors. Machine Learning, 24: 123-140. Breiman L. 2001. Random Forests. Machine Learning, 45:5-32. Breiman L, Cutler A. 2003. Manual on Setting up, Using, and Understanding Random Forest V4.0. [terhubung berkala]. http://oz.berkeley.edu/users/breiman/Usi ng_random_forests_v4.0.pdf. [19 Juni 2012]. Breiman L, Cutler A. 2012. Package βrandomForestβ. [terhubung berkala]. http://cran.r-project.org/web/packages/ randomForest/randomForest.pdf. [19 Juni 2012]. BPS. 2011. Penentuan Garis Kemiskinan. Bogor: Tim Nasional Percepatan Penanggulangan Kemiskinan (TNP2K). Dinkes. 2012. Database Hasil Sensus Penerima Jamkesda Kota Bogor 2012. Bogor: Dinas Kesehatan Kota Bogor Hastie TJ, Tibshirani RJ, Friedman JH. 2008. The Elements of Statistical Learning: Data-mining, Inference and Prediction. Second Edition. New York: SpringerVerlag. Kass GV. 1980. An Exploratory Technique for Investigating Large Quantities of Categorical Data. Applied Statistics, 29(2):119-127. Rokach L, Maimon O. 2008. Data Mining with Decision Trees: Theory and Applications Series in Machine Perception and Artificial Intelegence
11
Vol.69. Singapore: World Scientific Publishing Co. Pte. Ltd. Sandri M, Zuccolotto P. 2006. Variable Selection Using Random Forest. Di dalam: Zani S, Cerioli A, Riani M, Vichi M, editor. Data Analysis, Classification and the Forward Search. Proceedings of the Meeting of the Classification and Data Analysis Group (CLADAG) of the Italian Statistical Society; University of Parma, 6-8 Juni 2005. New York: Springer Berlin Heidelberg. hlm 263270.
Scheaffer RL, Mendenhall W, Ott L. 1996. Elementary Survey Sampling 5th edition. New York: Duxbury Press Sartono B, Syafitri UD. 2010. Ensemble Tree: an Alternative toward Simple Classification & Regression Tree. Forum Statistika dan Komputasi, 15(1):1-7. Sutton CD. 2005. Classification and Regression Trees, Bagging, and Boosting. Handbook of Statistics, 24: 303-329. Widayani N. 2011. Konsep dan Persiapan Jamkesda Kota Bogor. Bogor: Dinas Kesehatan Kota Bogor.
12
LAMPIRAN
13
Lampiran 1 Tabel peubah penjelas dan frekuensi masing-masing kategori pada peubah penjelas untuk ulangan pertama, kedua, dan ketiga. No 1
2
Nama Peubah Pendidikan
Pekerjaan
Jenis Ordinal
Nominal
Kategori
5
6 7
8
9
Pengeluaran mingguan
Pengeluaran bulanan
Penggunaan SKTM StatusRumah
JenisLantai
JenisDinding
Nominal Nominal
Nominal
Nominal
%
[1] Tidak sekolah/Tidak tamat SD [2] SD
6.63
458
46.69
497
50.66
479
48.83
[3] SMP
190
19.37
186
18.96
187
19.06
[4] SMA
278
28.34
237
24.16
243
24.77
3
0.31
7
0.71
7
0.71
492
50.15
477
48.62
494
50.36
71
7.24
53
5.40
66
6.73
[5] Perguruan Tinggi (pernah kuliah) [1] Tidak bekerja
[1] sangat miskin
68
6.93
87
8.87
80
8.15
265
27.01
280
28.54
258
26.30
85
8.66
84
8.56
83
8.46
930
94.80
941
95.92
941
95.92
7
0.71
7
0.71
8
0.82
[3] hampir miskin
12
1.22
17
1.73
11
1.12
[4] tidak miskin
32
3.26
16
1.63
21
2.14
937
95.51
946
96.43
939
95.72
[1] sangat miskin
6
0.61
8
0.82
15
1.53
[3] hampir miskin
14
1.43
15
1.53
9
0.92
[4] tidak miskin
24
2.45
12
1.22
18
1.83
893
91.03
894
91.13
892
90.93
[2] miskin
45
4.59
50
5.10
54
5.50
[3] hampir miskin
16
1.63
14
1.43
9
0.92
[4] tidak miskin
27
2.75
23
2.34
26
2.65
[1] Ya
53
5.36
53
5.45
55
5.64
[2] Tidak
928
94.60
928
94.60
926
94.39
[1] Numpang
512
52.19
520
53.01
502
51.17
[2] Ngontrak
100
10.19
100
10.19
98
9.99
[3] Rumah sendiri
369
37.61
361
36.80
381
38.84
[1] Tanah
16
1.63
18
1.83
29
2.96
[2] Bambu
5
0.51
7
0.71
4
0.41
[3] Kayu manis
7
0.71
13
1.33
14
1.43
[4] Floor
603
61.47
596
60.75
566
57.70
[5] Keramik
350
35.68
347
35.37
368
37.51
[1] Bambu
13
1.33
18
1.83
16
1.63
[2] Rumbia
5
0.51
8
0.82
3
0.31
[3] Kayu kualitas rendah
5
0.51
10
1.02
15
1.53
[4] Tembok tanpa diplester
171
17.43
178
18.14
179
18.25
[5] Tembok diplester
787
80.22
767
78.19
768
78.29
[2] miskin
Ordinal
frek
%
65
[2] miskin
Ordinal
frek
%
5.50
[5] Lainnya
4
frek
54
[4] Buruh Ordinal
Ulangan ke-3
5.30
[3] Wiraswasta
Pengeluaran harian
Ulangan ke-2
52
[2] Kayawan/wati
3
Ulangan ke-1
[1] sangat miskin
14
No 10
Nama Peubah FasilitasMCK
Jenis Ordinal
Kategori
12
SumberListrik
SumberAir
Nominal
Nominal
BahanBakar Masak
Nominal
14
PakaianBaru
Nominal
15
MakanperHari
Nominal
16
MampuBayar Obat
Nominal
17
Penghasilan KK
Ordinal
18
Kepemilikan Aset
Nominal
19
Apakah Merokok
Nominal
Ulangan ke-3
frek
frek
frek
%
%
%
43.22
400
40.77
393
40.06
96
9.79
106
10.81
101
10.30
[3] Punya
461
46.99
475
48.42
487
49.64
[1] Tidak ada
483
49.24
466
47.50
503
51.27
[2] Ya
498
50.76
515
52.50
478
48.73
[1] Sumur
649
66.16
665
67.79
652
66.46
57
5.81
54
5.50
45
4.59
10
1.02
8
0.82
7
0.71
265
27.01
254
25.89
277
28.24
[1] Kayu bakar/arang
49
4.99
49
4.99
54
5.50
[2] Minyak tanah
15
1.53
19
1.94
17
1.73
[3] Gas
917
93.48
913
93.07
910
92.76
[1] Tidak pernah membeli
160
16.31
147
14.98
163
16.62
[2] β₯ satu stel dalam setahun [1] Hanya 1x makan
821
83.69
834
85.02
818
83.38
17
1.73
22
2.24
19
1.94
[2] 2x makan dalam sehari
964
98.27
959
97.76
962
98.06
[1] Tidak mampu
541
55.15
544
55.45
528
53.82
[2] Mampu
440
44.85
437
44.55
453
46.18
[1] Rp0,- s.d. Rp600.000,-
879
89.60
882
89.91
876
89.30
[2] > Rp600.000,-
102
10.40
99
10.09
105
10.70
[1] Tidak
548
55.86
527
53.72
542
55.25
[2] Ya
433
44.14
454
46.28
439
44.75
[1] Tidak
589
60.04
591
60.24
581
59.23
[2] Ya
392
39.96
390
39.76
400
40.77
[2] Mata air tidak terlindungi [3] Sungai/air hujan [4] PAM
13
Ulangan ke-2
424
[1] Tidak punya [2] Bersama-sama
11
Ulangan ke-1
15
Lampiran 2 Kategorisasi pengeluaran keluarga*) **) Kategori 1 2 3 4
harian β€ 31120 31120 < x β€37400 37400 < x β€ 46748 > 46748
Pengeluaran (x) mingguan β€ 217840 217840 < x β€ 261800 261800 < x β€ 327236 > 327236
Ket: *) asumsi satu keluarga yaitu 4 orang **) hasil olah data berdasarkan informasi tim NPPK BPS 2011
bulanan β€ 871360 871360 < x β€ 1047200 1047200 < x β€ 1308944 > 1308944
16
Lampiran 3 Grafik perbandingan frekuensi kategori dengan tiga ulangan 600 500 400 300 200 100 0 [5] Lainnya
[4] Buruh
[3] Wiraswasta
[2] Kayawan/wati
[1] Tidak bekerja
Ulangan ke-1
1000 900 800 700 600 500 400 300 200 100 0
Ulangan ke-1 Ulangan ke-2
Ulangan ke-2
Ulangan ke-3 [1] Ya
[2] Tidak
Ulangan ke-3 PenggunaanSKTM
Pekerjaan
a. Perbandingan frekuensi kategori untuk peubah penjelas pekerjaan dengan tiga kali ulangan. 1000 900 800 700 600 500 400 300 200 100 0
e. Perbandingan frekuensi kategori untuk peubah penjelas pengguna SKTM dengan tiga kali ulangan. 600 500 400
Ulangan ke-1 Ulangan ke-2
300 Ulangan ke-1 200 Ulangan ke-2 100
Ulangan ke-3 [1] sangat miskin
[2] miskin
[3] hampir miskin
Ulangan ke-3 0
[4] tidak miskin
[1] Numpang
Pengeluaranharian
[2] Ngontrak
[3] Rumah sendiri
StatusRumah
b. Perbandingan frekuensi kategori untuk peubah penjelas pengeluaran harian dengan tiga kali ulangan. 1000 900 800 700 600 500 400 300 200 100 0
f. Perbandingan frekuensi kategori untuk peubah penjelas status kepemilikan rumah dengan tiga kali ulangan. 700 600 500 400
Ulangan ke-1
300
Ulangan ke-1
200 Ulangan ke-2 Ulangan ke-3 [1] sangat miskin
[2] miskin
[3] hampir miskin
Ulangan ke-2
100 0
[4] tidak miskin
Ulangan ke-3 [1] Tanah [2] Bambu [3] Kayu manis
Pengeluaranmingguan
[4] Floor
[5] Keramik
JenisLantai
c. Perbandingan frekuensi kategori untuk peubah penjelas pengeluaran mingguan dengan tiga kali ulangan. 1000 900 800 700 600 500 400 300 200 100 0
Ulangan ke-1
g. Perbandingan frekuensi kategori untuk peubah penjelas jenis lantai dengan tiga kali ulangan. 900 800 700 600 500 400 300 200 100 0
Ulangan ke-1 Ulangan ke-2
Ulangan ke-2 Ulangan ke-3 [1] sangat miskin
[2] miskin
[3] hampir miskin
[1] Bambu [2] Rumbia [3] Kayu [4] Tembok [5] Tembok kualitas tanpa diplester rendah diplester
Ulangan ke-3
[4] tidak miskin JenisDinding
Pengeluaranbulanan
d. Perbandingan frekuensi kategori untuk peubah penjelas pengeluaran bulanan dengan tiga kali ulangan.
h. Perbandingan frekuensi kategori untuk peubah penjelas jenis dinding dengan tiga kali ulangan.
17
600 500 400 300 Ulangan ke-1 200 Ulangan ke-2 100 Ulangan ke-3 0 [1] Tidak punya
[2] Bersama-sama
900 800 700 600 500 400 300 200 100 0
[3] Punya
Ulangan ke-1 Ulangan ke-2 Ulangan ke-3 [1] Tidak pernah membeli
FasilitasMCK
[2] β₯ satu stel dalam setahun
PakaianBaru
i. Perbandingan frekuensi kategori untuk peubah penjelas fasilitas MCK dengan tiga kali ulangan. 520
m. Perbandingan frekuensi kategori untuk peubah penjelas frekuensi membeli pakaian baru dengan tiga kali ulangan. 1200
510
1000
500 800
490 480
600 Ulangan ke-1
470
Ulangan ke-1 400
Ulangan ke-2
460
Ulangan ke-2 200
450
Ulangan ke-3
440
Ulangan ke-3 0
[1] Tidak ada
[2] Ya
[1] Hanya 1x makan
SumberListrik
[2] 2x makan dalam sehari
MakanperHari
j. Perbandingan frekuensi kategori untuk peubah penjelas sumber listrik dengan tiga kali ulangan. 700
n. Perbandingan frekuensi kategori untuk peubah penjelas frekuensi makan dengan tiga kali ulangan. 600
600
500
500 400
400 300
300
200
Ulangan ke-1
100
Ulangan ke-2
Ulangan ke-1 200
0
Ulangan ke-2 100
[1] Sumur
[2] Mata air [3] Sungai/air tidak hujan terlindungi
[4] PAM
Ulangan ke-3
Ulangan ke-3 0 [1] Tidak mampu
SumberAir
MampuBayarObat
k. Perbandingan frekuensi kategori untuk peubah penjelas sumber air dengan tiga kali ulangan. 1000 900 800 700 600 500 400 300 200 100 0
Ulangan ke-1 Ulangan ke-2 Ulangan ke-3 [1] Kayu bakar/arang
[2] Minyak tanah
[2] Mampu
[3] Gas
o. Perbandingan frekuensi kategori untuk peubah penjelas kemampuan membayar obat dengan tiga kali ulangan. 1000 900 800 700 600 500 400 300 200 100 0
Ulangan ke-1 Ulangan ke-2 Ulangan ke-3 [1] Rp0,- s.d. Rp600.000,-
[2] > Rp600.000,-
BahanBakarMasak PenghasilanKK
l. Perbandingan frekuensi kategori untuk peubah penjelas bahan bakar untuk masak dengan tiga kali ulangan.
p. Perbandingan frekuensi kategori untuk peubah penjelas penghasilan KK dengan tiga kali ulangan.
18
600
700
500
600 500
400
400 300 Ulangan ke-1
300
Ulangan ke-1
Ulangan ke-2
200
Ulangan ke-2
200 100 Ulangan ke-3 0
100
Ulangan ke-3
0 [1] Tidak
[2] Ya
KepemilikanAset
q. Perbandingan frekuensi kategori untuk peubah penjelas kepemilikan aset dengan tiga kali ulangan.
[1] Tidak
[2] Ya
ApakahMerokok
r. Perbandingan frekuensi kategori untuk peubah penjelas status perokok dengan tiga kali ulangan.