XVI-1 Seminar Nasional Statistika IX Institut Teknologi Sepuluh Nopember, 7 November 2009
BAGGING CART PADA KLASIFIKASI ANAK PUTUS SEKOLAH Oleh: Bambang Widjanarko Otok1) & Sumarmi2) 1)
Jurusan Statistika,FMIPA-ITS, Surabaya, Indonesia
[email protected],
[email protected] 1)
BPS, Jambi, Indonesia
ABSTRAK Salah satu masalah yang menghambat pencapaian wajib belajar 9 tahun adalah siswa yang putus sekolah dan siswa yang tidak melanjutkan pendidikannya ke tingkat yang lebih tinggi. Usaha untuk menyelesaikan masalah tersebut salah satunya adalah dengan mengidentifikasi siswa putus sekolah dan tidak melanjutkan sekolah, untuk kemudian membantu mereka supaya dapat bersekolah lagi dan memberi dukungan bagi mereka sampai berhasil menyelesaikan wajib belajar 9 tahun. Untuk menelusuri sebaran dan karakteristik anak putus sekolah perlu dilakukan pengelompokan/klasifikasi anak putus sekolah umur 7-15 tahun sesuai dengan karakteristiknya. Penelitian ini dilakukan untuk memberikan alternatif pengklasifikasian khususnya untuk penelusuran karakteristik anak putus sekolah di Provinsi Jambi. Dengan metode Classification and Regression Trees (CART) akan diperoleh beberapa kelompok anak putus sekolah yang mempunyai karakteristik yang relatif lebih rinci. Untuk meningkatkan kestabilan dan akurasi prediktif digunakan Bootstrap Aggregating (Bagging) CART. Hasil penelitian ini menunjukkan bahwa status kelangsungan pendidikan anak usia wajib belajar dipengaruhi umur anak, status bekerja anak, pengeluaran rumah tangga, pendidikan kepala rumah tangga, jumlah anggota rumah tangga dan jenis kelamin anak.. Penerapan tehnik Bagging pada CART menghasilkan ketepatan klasifikasi yang lebih tinggi dibandingkan algoritma CART.
Kata kunci: Bootstrap aggregating (Bagging), Classification and Regression Trees (CART), Karakteristik anak putus sekolah, Ketepatan Klasifikasi.
1. Pendahuluan Dalam kehidupan manusia, pendidikan merupakan bagian yang penting karena dengan pendidikan manusia dapat mengembangkan berbagai potensi yang dimilikinya untuk selanjutnya dapat dimanfaatkan dalam beradaptasi dengan lingkungannya. Dengan pendidikan manusia bukan hanya sekedar mengolah realitas, tetapi juga mampu melampaui realitas dan memandangnya sebagai suatu kemungkinan-kemungkinan. Namun kenyataannya tidak semua individu pada usia sekolah kesempatan untuk berpartisipasi dalam pendidikan. Banyak faktor yang menyebabkan anak usia sekolah tidak berpartisipasi dalam pendidikan, diantaranya adalah tidak mempunyai kesempatan memperoleh pendidikan. Penelitian mengenai partisipasi sekolah pernah dilakukan Sugiyanto (1996) dengan menerapkan regresi logistik yang mengkaitkan faktor-faktor sosial, ekonomi dan demografi rumahtangga dalam pemilihan jenis pendidikan pada jenjang pendidikan menengah di Pulau Jawa. Mardyastuti (2005) menerapkan regresi logistik non hirarki untuk menganalisis pengaruh urutan kelahiran anak terhadap kelangsungan pendidikan anak usia 7-15 tahun di Indonesia. Supriyadi (2006) telah meneliti tentang faktor-faktor demografi (pendidikan ibu, pengeluaran rumahtangga dan jenis kelamin anak) dengan variabel respon proporsi bersekolah anak usia 7-18 tahun. Selain itu, Purnowati (2007) menggunakan model ekonometrik serta model tipologi daerah untuk menganalisis faktor-faktor yang mempengaruhi tingkat partisipasi sekolah. Hasil penelitian tentang analisis putus sekolah di SD dan SMP yang dilakukan oleh Badan Pusat Statistik (1982), dan penelitian yang dilakukan oleh Santoso di daerah pedesaan di Jawa Timur (dalam BPS, 1982) menunjukkan bahwa keterbatasan biaya merupakan alasan yang alasan yang dikemukakan oleh sekitar 50 persen responden. Terjadinya putus sekolah ini kiranya juga menggambarkan alasan untuk tidak melanjutkan pendidikan ke jenjang yang lebih tinggi, seperti dari SD ke SMP. Menurut
XVI-2 BPS dan UNFPA (1999), bahwa tingkat pendidikan dipengaruhi oleh latar belakang orangtua/keluarga dan dikontrol oleh daerah tempat tinggal, umur dan jenis kelamin individu sebagai latar belakang. Berbagai penelitian yang telah dilakukan sebelumnya bertujuan untuk menjelaskan masalah partisipasi pendidikan, ada yang meninjau dari sisi individu yamg bersangkutan (Beder dalam Guritnaningsih,1993), ada juga dari sisi orangtua (Badan Pusat Statistik, 1982). Penelitian-penelitian tersebut ditujukan untuk melihat pengaruh variabel-variabel sosial demografis dan ketersediaan sarana fisik sekolah. Menurut Oey Gardiner (1991), salah satu penyebab rendahnya partisipasi dalam pendidikan adalah tidak tersedianya sekolah yang mudah dijangkau penduduk. Pemerintah mempunyai tanggung jawab untuk menjamin pemerataan kesempatan untuk memperoleh pendidikan bagi semua anak usia sekolah di Indonesia. Oleh sebab itu pemerintah telah menempatkan peningkatan kesempatan memperoleh pendidikan sebagai salah satu prioritas utama bagi pembangunan pendidikan. Pemerintah telah menindaklanjuti prioritas ini melalui program Wajib Belajar Pendidikan Dasar 9 Tahun Salah satu masalah dalam pencapaian wajib belajar 9 tahun adalah siswa yang putus sekolah dan siswa yang tidak melanjutkan pendidikannya ke tingkat yang lebih tinggi. Hal ini juga terjadi di Provinsi Jambi, masih banyak dijumpai anak putus sekolah pada tingkat SMP bahkan SD meskipun pemerintah telah menerapkan pendidikan gratis di jenjang pendidikan tersebut. Angka putus sekolah Provinsi Jambi pada tahun 2006 masih cukup tinggi sebesar 8,04%. Usaha untuk menyelesaikan masalah tersebut salah satunya adalah dengan mengidentifikasi siswa putus sekolah dan tidak melanjutkan sekolah, untuk kemudian membantu mereka supaya dapat bersekolah lagi dan memberi dukungan bagi mereka sampai berhasil menyelesaikan wajib belajar 9 tahun. Untuk menelusuri sebaran dan karakteristik anak putus sekolah perlu dilakukan pengelompokan/klasifikasi anak putus sekolah umur 7-15 tahun sesuai dengan karakteristiknya. Kondisi ini merupakan suatu bentuk klasifikasi data dengan banyak variabel yang skala variabelnya campuran baik nominal, ordinal, interval maupun rasio. Klasifikasi tersebut biasanya sulit memenuhi asumsi kenormalan dan varian homogen sehingga lebih tepat dilakukan dengan pendekatan nonparametrik. Dalam proses klasifikasi, metode klasifikasi nonparametrik akan mempelajari dan menggunakan setiap data yang berada di bawah daerah sampel sebagai dasar dalam penunjukan kelas. Metode seperti ini sering dikenal sebagai machine learning. Metode-metode nonparametrik yang sering digunakan untuk pengklasifikasian diantaranya, Classification and Regression Tree (CART), Neural Network (NN), K-Nearest Neighbour (KNN) dan Multivariate Adaptive Regression Spline (MARS). Pendekatan CART untuk mengklasifikasikan data statistik telah banyak digunakan dalam berbagai bidang. Tujuan dari CART adalah mengklasifikasikan suatu kelompok observasi atau sebuah observasi ke dalam suatu sub kelompok dari suatu kelas-kelas yang diketahui. Dibandingkan dengan metode pengelompokkan yang klasik, CART mempunyai beberapa kelebihan seperti hasilnya lebih mudah diinterpretasikan, lebih akurat dan lebih cepat penghitungannya. Metode ini merupakan metode yang bisa diterapkan untuk himpunan data yang mempunyai jumlah besar, variabel yang sangat banyak dan dengan skala variabel campuran melalui prosedur pemilahan biner. Menurut Yohannes dan Webb (1999), tingkat kepercayaan yang bisa digunakan dalam mengklasifikasikan data baru pada CART adalah akurasi yang dihasilkan oleh pohon klasifikasi yang murni dibentuk dari data yang mempunyai kesamaan kondisi (data learning). Pohon klasifikasi yang dihasilkan CART tidak stabil, karena perubahan-perubahan kecil pada data learning akan mempengaruhi hasil akurasi prediksi. Untuk mengatasi masalah tersebut, Breiman (1996) memperkenalkan tehnik bagging (bootstrap aggregating). Bagging merupakan sebuah tehnik yang dapat digunakan dengan berbagai metode klasifikasi dan metode regresi untuk memperbaiki stabilitas dan kekuatan prediktif CART. Untuk itu, pada penelitian ini akan dilakukan klasifikasi karakteristik anak putus sekolah selain dengan metode CART juga dengan metode bagging CART.
2. Tinjauan Pustaka 2.1 Classification And Regression Trees (CART) CART (Classification and Regression Trees) adalah salah satu metode atau algoritma dari salah satu teknik eksplorasi data yaitu teknik pohon keputusan. Metode ini dikembangkan oleh Leo Breiman, Jerome H. Friedman, Richard A. Olshen dan Charles J. Stone sekitar tahun 1980-an. Menurut Breiman et al.(1993), CART merupakan metodologi statistik nonparametrik yang dikembangkan untuk topik analisis klasifikasi, baik untuk variabel respon kategorik maupun kontinu. CART menghasilkan suatu pohon klasifikasi jika variabel responnya kategorik, dan menghasilkan pohon regresi jika variabel responnya kontinu.
XVI-3 CART dapat menyeleksi variabel-variabel dan interaksi-interaksi variabel yang paling penting dalam menentukan hasil atau variabel dependennya. Tujuan utama CART adalah untuk mendapatkan suatu kelompok data yang akurat sebagai penciri dari suatu pengklasifikasian. Dibandingkan dengan metode pengelompokkan yang klasik, CART mempunyai beberapa kelebihan seperti hasilnya lebih mudah diinterpretasikan, lebih akurat dan lebih cepat penghitungannya. Metode ini merupakan metode yang bisa diterapkan untuk himpunan data yang mempunyai jumlah besar, variabel yang sangat banyak dan dengan skala variabel campuran melalui prosedur pemilahan biner. Pengklasifikasian dengan metode pohon klasifikasi terdiri atas 4 komponen, yaitu; variabel respon, variabel prediktor, data learning dan data testing. Langkah-langkah penerapan Algoritma CART: 1. Pembentukan pohon klasifikasi Proses pembentukan pohon klasifikasi terdiri atas 3 tahapan yaitu: a.
Pemilihan Pemilah (Classifier) Untuk membentuk pohon klasifikasi digunakan sampel data Learning (L) yang masih bersifat heterogen. Sampel tersebut akan dipilah berdasarkan aturan pemilahan dan kriteria goodness-of-split. Pemilihan pemilah tergantung pada jenis pohon atau lebih tepatnya tergantung pada jenis variabel responnya. Untuk mengukur tingkat keheterogenan suatu kelas dari suatu simpul tertentu dalam pohon klasifikasi dikenal dengan istilah impurity measure i(t). Ukuran ini akan membantu kita menemukan fungsi pemilah yang optimal. Kualitas ukuran dari seberapa baik pemilah s dalam menyaring data menurut kelas merupakan ukuran penurunan keheterogenan dari suatu kelas dan didefinisikan sebagai
∆i ( s, t ) = i (t ) − p L .i (t L ) − p R .i (t R ) Pemilah yang menghasilkan nilai ∆i ( s, t ) lebih tinggi merupakan pemilah yang lebih baik karena hal ini memungkinkan untuk mereduksi keheterogenan secara lebih signifikan. Karena t L ∪ t R = t maka nilai ∆i ( s, t ) merepresentasikan perubahan dari keheterogenan dalam simpul t yang semata-mata disebabkan oleh pemilah s. Jika simpul yang diperoleh merupakan kelas yang tidak homogen, prosedur yang sama diulangi sampai pohon klasifikasi menjadi suatu konfigurasi tertentu. Dan memenuhi
∆i ( s ∗ , t1 ) = max ∆i ( s, t1 ) s⊂ S
b.
Penentuan Simpul Terminal Suatu simpul t akan menjadi simpul terminal atau tidak akan dipilah kembali apabila pada simpul t tidak terdapat penurunan keheterogenan secara berarti atau adanya batasan minimum n seperti hanya terdapat satu pengamatan pada tiap simpul anak. Menurut Breiman (1984), umumnya jumlah kasus minimum dalam suatu terminal akhir adalah 5, dan apabila hal itu terpenuhi maka pengembangan pohon dihentikan. Sementara itu, menurut Steinberg dan Colla (1995) jumlah kasus yang terdapat dalam simpul terminal yang homogen adalah kurang dari 10 kasus.
c.
Penandaan Label Kelas Penandaan label kelas pada simpul terminal dilakukan berdasarkan aturan jumlah terbanyak.
2. Pemangkasan pohon klasifikasi Pemangkasan dilakukan dengan jalan memangkas bagian pohon yang kurang penting sehingga didapatkan pohon optimal. Ukuran pemangkasan yang digunakan untuk memperoleh ukuran pohon yang layak adalah Cost complexity minimum (Breiman et. al., 1984). Sebagai ilustrasi, untuk sembarang pohon T yang merupakan sub pohon dari pohon terbesar Tmax(T < Tmax) ukuran cost complexity yaitu.
~ Rα (T ) = R(T ) + α T Dimana R(T) = Resubtitusion Estimate (Proporsi kesalahan pada sub pohon)
XVI-4 α = kompleksitas parameter (complexity parameter)
~ T = ukuran banyaknya simpul terminal pohon T
Rα (T ) merupakan kombinasi linear biaya dan kompleksitas pohon yang dibentuk dengan menambahkan cost penalty bagi kompleksitas terhadap biaya kesalahan klasifikasi pohon. Cost complexity prunning menentukan suatu pohon bagian T(α) yang meminimumkan Rα (T ) pada
seluruh pohon bagian. Atau untuk setiap nilai α, dicari pohon bagian T (α ) < Tmax yang
meminimumkan Rα (T ) yaitu.
Rα (T (α )) = min Rα (T ) T
Jika R (T ) digunakan sebagai kriteria penentuan pohon optimal maka akan cenderung pohon terbesar adalah T1 , sebab semakin besar pohon, maka semakin kecil nilai R (T ) nya. 3. Penentuan Pohon Klasifikasi Optimal Pohon klasifikasi yang berukuran besar akan memberikan nilai penduga pengganti paling kecil, sehingga pohon ini cenderung dipilih untuk menduga nilai respon. Tetapi ukuran pohon yang besar akan menyebabkan nilai kompleksitas yang tinggi karena struktur data yang digambarkan cenderung kompleks, sehingga perlu dipilih pohon optimal yang berukuran sederhana tetapi memberikan nilai penduga pengganti cukup kecil. Ada dua jenis penduga pengganti, penduga sampel uji (test sample estimate) dan penduga validasi silang lipat V (cross validation V-fold estimate). Breiman (1993) menyarankan penggunaan penduga validasi silang lipat 10 untuk menghitung biaya pengganti relatif pada sampel yang jumlahnya kurang dari 3000, sedangkan penggunaan pendekatan penduga sampel uji digunakan untuk jumlah sampel yang lebih besar dari 3000. 2.2 Bootstrap Aggregating Bootstrap aggregating (Bagging) adalah teknik yang diusulkan oleh Breiman (1996a) sebagai alat untuk memperbaiki stabilitas dan kekuatan prediksi klasifikasi dan regresi pohon dengan cara mereduksi variansi dari suatu prediktor. Ide dasar dari bagging adalah menggunakan bootstrap resampling untuk membangkitkan prediktor dengan banyak versi dimana ketika dikombinasikan seharusnya hasilnya lebih baik dibandingkan dengan prediktor tunggal yang dibangun untuk menyelesaikan masalah yang sama. Menurut Breiman(1996), Bagging merupakan implementasi sederhana dari pembangkitan replikasi quasi learning sample. Definisikan peluang dari kasus ke-n dari suatu learning sample adalah p (n) = 1 / N . Kemudian ambil sampel sebanyak N kali dari distribusi {p(n)} , secara ekuivalen merupakan sample dari T dengan pengembalian. Himpunan sampel dari T di sampel kembali menjadi himpunan learning sample T ′ . T ′ lebih dikenal dengan istilah sampel bootstrap dari T. Dalam setting klasifikasi, B-sample bootstrap diambil dari learning sampel dan metode klasifikasi tertentu (Contohnya CART) diaplikasikan pada setiap sampel bootstrap untuk menghasilkan kelas/kelompok yang diprediksi untuk suatu input tertentu x. Prediksi akhir merupakan salah satu hasil dari bagging dengan metode dasar tertentu adalah kelas/kelompok yang paling sering terjadi/muncul dalam B-prediksi. Ada beberapa peneliti yang memberikan rekomendasi tentang banyaknya replikasi bootstrap sampling yang harus dibuat diantaranya, Sutton (2004) merekomendasikan untuk melakukan replikasi sebanyak 25 atau 50 kali. Namun Hastie at al. (2001) menyatakan bahwa peningkatan akurasi akan terjadi jika banyaknya replikasi ditingkatkan dari 50 ke 100 kali dan jika replikasinya ditingkatkan menjadi yang lebih dari 100 kali akan menghasilkan akurasi yang tidak lebih besar dibandingkan replikasi 100 kali. 3. Metodologi Penelitian Data yang digunakan dalam penelitian ini berasal dari data individu hasil Survei Sosial Ekonomi Nasional (SUSENAS) Kor Propinsi Jambi Tahun 2007.
XVI-5 Variabel respon dalam penelitian ini adalah status kelangsungan pendidikan anak pada usia 7-15 tahun yang merupakan penduduk usia wajib belajar 9 (sembilan) tahun. Adapun variabel prediktor yang digunakan sebagai berikut : a. Jenis Kelamin (X1) b. Umur Anak (X2) c. Lokasi tampat tinggal anak (X3) d. Pekerjaan Kepala Rumah Tangga (X4) e. Pendidikan Kepala Rumahtangga (X5) f. Status Bekerja Anak (X6) g. Jarak Terdekat ke Sekolah (X7) h. Pengeluaran Rumahtangga per bulan (X8) i. Jumlah Anggota Rumahtangga (X9) 4. Hasil dan Pembahasan 4.1. Klasifikasi Anak Putus sekolah dengan menggunakan CART Dalam klasifikasi anak putus sekolah dengan metode CART digunakan metode pemilahan gini sebagai kriteria pemilahan (goodness of split). Dalam proses pemangkasan maksimal untuk mendapatkan pohon optimal digunakan metode test sample estimate. Kriteria penghentian pembentukan pohon dipilih berdasarkan jumlah pengamatan dalam tiap simpul anak minimal 5. Pohon klasifikasi maksimal yang terbentuk mempunyai 194 simpul terminal dengan pemilahan pertama terjadi pada variabel x2. Variabel ini mempunyai peranan utama terhadap pembentukan pohon klasifikasi dan merupakan variabel yang sangat dominan terhadap pengelompokan anak putus sekolah. Variabel prediktor yang masuk dalam model tersebut berturut-turut adalah pengeluaran rumah tangga (X8), status bekerja anak (X6), kelompok umur anak (X2), pendidikan kepala rumah tangga (X5), jarak sekolah terdekat (X7), pekerjaan kepala rumh tangga (X4), jumlah anggora rumah tangga (X9), X3 tempat tinggal (X3) dan jenis kelamin anak (X1). Variabel prediktor yang menjadi pemilah utama pada simpul induk adalah variabel X8, hal ini menunjukkan bahwa variabel X8 merupakan pemilah yang memiliki peranan utama terhadap pembentukan model. Kontribusi/peranan variabel ini sesuai dengan posisinya pada urutan pertama ranking variabel penting untuk pohon maksimal. Pohon Klasifikasi optimal diperoleh dari proses pemangkasan pohon klasifikasi maksimal secara iteratif menjadi bagian pohon yang makin kecil dan tersarang. Pemangkasan pohon dilakukaan dengan dasar aturan cost complexity minimum dan penggunaan test sample estimate. Pohon klasifikasi optimal yang terbentuk mempunyai satu simpul utama, 11 simpul dalam dan 12 buah simpul terminal dengan tingkat kedalaman sebesar 6. Pohon klasifikasi optimal yang dihasilkan dari proses pemangkasan sebelumnya tidak dibangun oleh semua variabel prediktor yang ada. Variabel prediktor yang masuk dalam pohon klasifikasi optimal hanya 6 buah variabel yaitu umur anak (X2), status bekerja anak (X6), pengeluaran rumah tangga (X8), pendidikan kepala rumah tangga (X5), lapangan pekerjaan kepala rumah tangga(X4), jumlah anggota rumah tangga (X9) dan Jenis kelamin anak (X1). Variabel prediktor yang menjadi pemilah utama pada pohon optimal adalah variabel status bekerja anak (X6), hal ini terlihat pada besarnya peranan dari variabel tersebut yang menduduki ranking pertama variabel penting yang membentuk pohon klasifikasi optimal. Ini juga berarti bahwa variabel status bekerja anak merupakan variabel yang paling dominan dalam pembentukan model klasifikasi.
XVI-6
Gambar 4.2 Pohon Klasifikasi Optimal
Setiap simpul terminal merupakan titik akhir dari suatu pemilahan berstruktur pohon, simpul ini tidak bisa dipilah kembali menjadi simpul lain atau dengan kata lain simpul terminal merupakan simpul yang mengandung amatan-amatan yang homogen dan akhirnya akan dimasukkan sebagai suatu kelas tertentu. Berdasarkan pohon optimal yang diperoleh dari hasil pengolahan CART, terlihat bahwa pohon tersebut menghasilkan 11 simpul terminal. Adapun gambaran secara rinci dari simpul-simpul tersebut adalah sebagai berikut: Simpul terminal 1 merupakan simpul yang diberi label kelas 1, artinya amatan-amatan dalam simpul ini diprediksi sebagai kelompok anak putus sekolah. Struktur sekuensial dari simpul terminal 1 mengindikasikan bahwa anak yang berusia 13-15 tahun dan berstatus bekerja. Banyaknya amatan yang masuk kelompok ini adalah 113 amatan. Amatan dalam simpul terminal 1 diprediksi sebagai kelompok anak putus sekolah dengan probabilitas sebesar 0,1279. Simpul terminal 2 terdiri atas 735 pengamatan yang diprediksi sebagai kelompok anak putus sekolah dengan probabilitas sebesar 0,2740. Struktur sekuensial dari simpul ini mengindikasikan bahwa kelompok anak usia 13-15 tahun yang berstatus bekerja dan berasal dari rumah tangga dengan pengeluaran rumah tangga perbulannya tidak lebih dari Rp. 1.441.625. Simpul terminal 3 terdiri dari 125 amatan yang diprediksi sebagai kelompok anak putus sekolah dengan probabilitas sebesar 0,0406. Menurut struktur sekuensialnya, amatan-amatan dalam simpul ini merupakan anak berusia 13-15 tahun yang berstatus tidak bekerja, berasal dari rumah tangga dengan pengeluaran lebih dari Rp1.441.625 dan kepala rumah tangganya berpendidikan SD kebawah dan berjenis kelamin laki-laki. Struktur sekuensial simpul terminal 4 mengindikasikan bahwa anak dengan karakteristik berusia 13-15 tahun yang berstatus tidak bekerja, berasal dari rumah tangga dengan pengeluaran lebih dari Rp1.441.625 dan kepala rumah tangganya berpendidikan SD kebawah dan berjenis kelamin perempuan diprediksi sebagai kelompok anak tidak putus sekolah. Banyaknya amatan dalam simpul ini adalah 103 amatan. Simpul terminal 5 beranggotakan 225 anak usia 13-15 tahun yang statusnya tidak bekerja, berasal dari rumah tangga dengan pengeluaran perbulannya lebih dari Rp1.441.625 dan mempunyai kepala rumah tangga yang berpendidikan lebih dari SD dan rumahnya berjarak tidak lebih dari 2,75 km dari sekolah. Label kelas dari simpul terminal ini adalah 2, artinya anggota simpul terminal 5 diprediksi sebagai kelompok anak tidak putus sekolah. Simpul terminal 6 merupakan simpul yang mewakili karakteristik kelompok anak usia 13-15 tahun yang statusnya tidak bekerja, berasal dari rumah tangga dengan pengeluaran perbulannya lebih dari Rp1.441.625, mempunyai kepala rumah tangga yang berpendidikan lebih dari SD dan rumahnya berjarak lebih dari 2,75 km dari sekolah. Simpul ini terdiri dari 79 amatan dan diberi label kelas 1, artinya anggota simpul terminal 6 diprediksi sebagai kelompok anak putus sekolah. Simpul terminal 7 mengandung 110 amatan yang diprediksi sebagai kelompok anak putus sekolah. Menurut struktur sekuensialnya, amatan-amatan dalam simpul ini menggambarkan kelompok anak berusia 7-12 tahun, berasal dari rumah tangga yang mempunyai anggota rumah tangga lebih dari 4 orang dan dengan pengeluaran perbulannya tidak lebih dari. Rp. 755.083.
XVI-7 Simpul terminal 8 mempunyai anggota sebanyak 20 amatan yang diprediksi sebagai kelompok anak tidak putus sekolah. Struktur sekuensial simpul ini mengindikasikan bahwa kelompok anak berusia 7-12 tahun, berasal dari rumah tangga yang mempunyai anggota rumah tangga lebih dari 4 orang dan dengan pengeluaran perbulan antara Rp. 755.083 sampai dengan Rp. 783.844. Simpul terminal 9 terdiri dari 238 amatan dimana struktur sekuensialnya menggambarkan anak yang mempunyai karakteristik berusia 7-12 tahun yang berasal dari rumah tangga dengan pengeluaran perbulan tidak lebih dari. Rp. 783.844 dan mempunyai anggota rumah tangga tidak lebih dari 4 orang. Amatan dalam simpul terminal ini diprediksi sebagai kelompok anak tidak putus sekolah. Simpul terminal 10 merupakan simpul yang struktur sekuensialnya menggambarkan anak dengan karakteristik berusia 7-12 tahun, dan berasal dari rumah tangga dengan pengeluaran perbulan lebih dari Rp. 783,844. Simpul ini mempunyai anggota sebanyak 7 amatan, dimana amatan-amatan dalam simpul ini diprediksikan masuk dalam kelompok anak putus sekolah. Simpul terminal 11 merupakan simpul yang diberi label kelas 1, artinya anggota dari simpul ini diprediksikan sebagai anak putus sekolah. Anak yang dimasukkan sebagai simpul terminal 10 mempunyai karakteristik berusia 7-12 tahun dan berstatus bekerja. Banyaknya amatan dalam simpul ini adalah 9 amatan. Simpul terminal 12 merupakan simpul yang diberi label kelas 2, artinya anggota dari simpul ini diprediksikan sebagai anak tidak putus sekolah. Banyaknya amatan dalam simpul ini adalah 2.418 amatan, dimana amatan-amatan tersebut mempunyai karakteristik berusia 7-12 tahun dan berstatus tidak bekerja. Berdasarkan penelusuran pohon optimal diatas terlihat bahwa anak-anak yang ada dalam simpul terminal 1, 2, 3, 6, 7, 10 dan 11 merupakan anak-anak yang diindikasikan masuk sebagai kelompok anak putus sekolah, sedangkan anak-anak yang menjadi anggota simpul terminal 4, 5, 8, 9 dan 12 teridentifikasi sebagai kelompok anak tidak putus sekolah. Informasi yang lebih rinci mengenai simpul yang ada pada pohon klasifikasi optimal dapat dilihat pada Gambar 4.2. Untuk melihat akurasi metode CART, digunakan data baru dari luar data pembentuk model yaitu menggunakan 10 persen data berikutnya yang merupakan data testing. Hasil dari data uji (testing) menghasilkan nilai akurasi sebesar 76,46 persen. Tabel 4.6 Hasil klasifikasi Pohon Optimal Untuk Data Testing Prediksi Kelas 1 2 23 12 105 357 Ketepatan Klasifikasi
Observasi 1 2
Ketepatan Klasifikasi 65,71 77,27 76,46
Hasil dari data testing yang digunakan untuk menguji pohon klasifikasi optimal diperoleh tingkat ketepatan klasifikasi sebesar 76,46 persen dengan sensitifity sebesar 65,71 dan specificity sebesar 77,27 persen. Penerapan Bagging pada CART Pengaruh dari penerapan tehnik bagging pada pohon klasifikasi yang sudah dihasilkan sebelumnya dapat dilihat dari perbandingan ketepatan klasifikasi hasil penerapan tehnik bagging dengan pohon klasifikasi awal (tanpa bagging). Hasil perbandingan selengkapnya dapat dilihat pada tabel berikut: Tabel 4.7 Hasil Klasifikasi pohon awal dan setelah dilakukan Bagging CART pada Data Testing Uraian Pohon awal (tanpa Bagging) Pohon dengan replikasi 75 kali Peningkatan
Total accuracy (%) 77,26 89,13 11,87
XVI-8 Berdasarkan output pengolahan CART diatas terlihat bahwa penerapan teknik bagging pada CART meningkatkan ketepatan klasifikasi dari 77,26 persen pada pohon CART awal menjadi 89,13 persen pada pohon bagging CART. Dengan kata lain, penerapan bagging pada CART mampu meningkatkan ketepatan klasifikasi sebesar 11,87 persen. 5. Kesimpulan Berdasarkan pada hasil dan pembahasan yang telah diuraikan pada bab sebelumnya, maka dapat diambil kesimpulan sebagai berikut: 1. Pohon optimal yang dihasilkan dengan menggunakan metode CART dibentuk oleh variabel umur anak, status bekerja anak, pengeluaran rumah tangga, pendidikan kepala rumah tangga, jumlah anggota rumah tangga dan jenis kelamin anak. Berdasarkan pohon optimal tersebut dihasilkan 5 kelompok yang diprediksi sebagai kelompok anak tidak putus sekolah dan 7 (tujuh) kelompok yang diprediksi sebagai kelompok anak putus putus sekolah. Ketujuh kelompok tersebut mempunyai karakteristik yang berbeda-beda, yaitu : a. Kelompok 1, merupakan kelompok anak putus sekolah yang mempunyai karakteristik berusia 13-15 tahun dan berstatus bekerja. b. Kelompok 2, merupakan kelompok anak putus sekolah yang mempunyai karakteristik berusia 13-15 tahun dan berstatus bekerja dan berasal dari rumah tangga dengan pengeluaran rumah tangga perbulannya tidak lebih dari Rp. 1.441.625. c. Kelompok 3, merupakan kelompok anak putus sekolah dengan karakteristik berusia 13-15 tahun yang berstatus tidak bekerja berjenis kelamin laki-laki, berasal dari rumah tangga dengan pengeluaran lebih dari Rp1.441.625 dan kepala rumah tangganya berpendidikan SD kebawah. d. Kelompok 4, merupakan kelompok anak putus sekolah yang mempunyai karakteristik berusia 13-15 tahun, berstatus tidak bekerja, berasal dari rumah tangga dengan pengeluaran perbulannya lebih dari Rp1.441.625 dengan kepala rumah tangga yang berpendidikan lebih dari SD dan rumahnya berjarak lebih dari 2,75 km dari sekolah. e. Kelompok 5 merupakan kelompok anak putus sekolah dengan karakteristik berusia 7-12 tahun, berasal dari rumah tangga yang mempunyai anggota rumah tangga lebih dari 4 orang dan dengan pengeluaran perbulannya tidak lebih dari. Rp. 755.083. Kelompok ini mewakili kelompok anak putus sekolah yang berasal dari rumah tangga berpendapatan terendah. f. Kelompok 6 merupakan kelompok anak putus sekolah yang mempunyai karakteristik berusia 7-12 tahun, dan berasal dari rumah tangga dengan pengeluaran perbulan lebih dari Rp. 783,844. g. Kelompok 7 adalah kelompok anak putus sekolah yang mempunyai karakteristik berusia 7-12 tahun dan berstatus bekerja. 2. Pohon klasifikasi yang dihasilkan oleh algoritma bagging CART merupakan pohon klasifikasi yang sangat kompleks karena pohon ini dibentuk oleh semua variabel prediktor. Proses pengklasifikasian data baru dengan pohon klasifikasi bagging CART dijalankan secara paralel pada semua pohon klasifikasi tersebut sehingga akan diperoleh berbagai versi hasil prediksi, dimana hasil prediksi akhir dari pohon klasifikasi ini merupakan hasil voting dari berbagai versi prediksi kelas yang paling banyak muncul. 5. Pustaka Agresti, A (2002), ”Categorical Data Analysis” , John Wiley and Sons, Canada Andriyahsin, A(2005), “Financial Application of Classification and Regression Trees”, Thesis, Center of Applied Statistics and Economics, Humboldt University, Berlin. Badan Pusat Statistik (1982), Analisa Pendidikan Putus Sekolah di SD dan SMTP, BPS, Jakarta. Badan Pusat Statistik (1999), Panduan Pelatihan Tindak Lanjut Pengolahan dan Analisis Data Susenas, BPS dan UNFPA, Jakarta. Badan Pusat Statistik (2006), Pedoman Survei Sosial Ekonomi Nasional 2007, Badan Pusat Statistik, Jakarta. Boediono,G (1991), Faktor-Faktor yang Mempengaruhi Mutu Pendidikan: Pendekatan Fungsi Pendidikan, Jurnal Pendidikan dan Kebudayaan No. 020, Departemen Pendidikan dan Kebudayaan, Jakarta. Breiman, L., Friedman, J., Olsen, R.A., dan Stone, C. (1984), Classification and regression trees, Wadsworth, Belmont, California. Breiman, L (1996a). Bagging Predictors, Machine Learning, Vol. 24. 123-140
XVI-9 Breiman, L. (1996b): Heuristics of instability and stabilization in model selection, Annals of Statistics, 24, hal. 2350–2383. Bühlman, P. dan Yu, B.(2002), Analyzing Bagging, The Annals of Statistics, Vol. 30 no. 4, hal 927961. Clarke, R.T. dan Bintercourt, H. R (2003), “Use of Classification And Regression Trees (CART) to Classify Remotely_Sensed Digital Images”, Research Report , Centro stadual de Pesquisas em Sensoriamento Remoto Universidade Federal do Rio Grande do Sul – UFRGS , Porto Alegre, Brazil Efron, B. dan Tibshirani, R.J. (1993) “An Introduction to the Bootstrap” Chapman Hall, New York. Guritnaningsih, A.S (1993), “Faktor-faktor Sosial dan Psikologis yang Berpengaruh Terhadap Tindakan Orangtua untuk Melanjutkan Pendidikan Anak Sekolah Lanjutan Tingkat Pertama”, Desertasi, Universitas Indonesia, Jakarta. Hastie, T., Tibshirani, R., Friedman, J. (2001). The Elements of Statistical Learning: Data Mining, Inference and Prediction. Springer-Verlag, New York. Hiliry, M.D. (1995). Wanita Usia 7-12 Tahun yang Tidak bersekolah dan Faktor Penyebabnya di Daerah Istimewa Aceh dalam Laporan Akhir : Anak Perempuan Usia 7-12 Tahun yang Tidak Sekolah dan Putus Sekolah di Sumatera. United Nations Fund for Population Activities (UNFPA) dengan Pusat Studi Kependudukan Universitas Andalas, Padang. Komalasari, W.B. (2007), Metode Pohon Regresi Untuk Eksploratori Data dengan Peubah yang Banyak dan Kompleks, Informatika Pertanian, Volume 16 No. 1, hal 967-980. Lewis dan Roger, J (2000), An Introduction to Classification and Regression Trees (CART) Analysis, presented at the 2000 Annual meeting of society for Academic Emergency medicine of Sanfransisco, California. Mardyastuti, I (2005), “Pengaruh Urutan Kelahiran Terhadap Kelangsungan Pendidikan Anak Perempuan Usia 7-15 Tahun di Indonesia”, Tesis, Universitas Indonesia, Jakarta Otok, B.W (2008), “Pendekatan Bootstrap pada Model Multivariate Adaptive Regression Spline”, Desertasi, Universitas Gadjah Mada, Yogyakarta Otok, B.W (2009), Pemilihan Model Terbaik Pada MARS Respon Kontinu. STATISTIKA: Forum Teori dan Aplikasi. UNISBA Bandung.
Otok, B.W (2009), Asimtotik Model Multivariate Adaptive Regression Spline. Jurnal NATUR INDONESIA, Vol 10, No 2, FMIPA Jember. Steinberg, D., dan Colla, P.(1995), CART: Tree-structured nonparametric data analysis. San Diego, Calif., U.S.A.: Salford Systems. Sugiyanto. (1996), “Studi Tentang Faktor-Faktor Sosio Ekonomi Demografi Rumah Tangga dalam Pemilihan Jenis Pendidikan pada Jenjang Pendidikan Menengah di Pulau Jawa”, Tesis, Program Magister Kajian Kependudukan dan Sumber Daya Manusia, Program Pascasarjana Universitas Indonesia. Supriyadi, T. (2006). Pengaruh Pendidikan Ibu, Pengeluaran Rumah Tangga dan Jenis Kelamin Anak Terhadap Proporsi Bersekolah Anak Usia 7-18 Tahun, Tesis, Universitas Indonesia. Sutton, C.D. (2005),Classification and regression trees, Bagging, and Boosting, Handbook of statistics, Vol. 24. hal 303-329. Syamani (2008), Komparasi Algoritma Non-Parametrik k-Nearest Neighbour Classifier Menggunakan Euclidean Distance dan Manhattan Distance untuk Klasifikasi Multispektral Tutupan Lahan, Laporan Penelitian, Fakultas Kehutanan Universitas Lambung Mangkurat, Banjarbaru. Wambugu, A. (2001). The Effect of Sosio-Economic Background on Schooling Attainment And Earning, draft paper. Departement of Economics, University of Goth eborg. Yohannes, Y dan Webb, P (1999), Classification and Regression Trees, A User Manual for Identifying Indicators of Vulnerability to Famine and Chronic Food Insecurity, Microcomputers in Policy Research, International Food Policy Research Institute, Washington, D,C, USA.