i
KAJIAN PENGKLASIFIKASI TUNGGAL DAN GABUNGAN DARI POHON KLASIFIKASI DAN SUPPORT VECTOR MACHINE
IUT TRI UTAMI
SEKOLAH PASCASARJANA INSTITUT PERTANIAN BOGOR BOGOR 2014
ii
PERNYATAAN MENGENAI TESIS DAN SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA* Dengan ini saya menyatakan bahwa tesis berjudul Kajian Pengklasifikasi Tunggal dan Gabungan dari Pohon Klasifikasi dan Support Vector Machine adalah benar karya saya dengan arahan dari komisi pembimbing dan belum diajukan dalam bentuk apa pun kepada perguruan tinggi mana pun. Sumber informasi yang berasal atau dikutip dari karya yang diterbitkan maupun tidak diterbitkan dari penulis lain telah disebutkan dalam teks dan dicantumkan dalam Daftar Pustaka di bagian akhir tesis ini. Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut Pertanian Bogor. Bogor, Januari 2014
Iut Tri Utami NRP G152110031
ii
RINGKASAN IUT TRI UTAMI. Kajian Pengklasifikasi Tunggal dan Gabungan dari Pohon Klasifikasi dan Support Vector Machine. Dibimbing oleh KUSMAN SADIK dan BAGUS SARTONO. Pengklasifikasi adalah sebuah aturan yang digunakan untuk mengelompokkan objek ke dalam kelompok atau kelas yang telah ditentukan berdasarkan atributnya. Pendekatan metode klasifikasi ada dua yaitu parametrik dan nonparametrik. Metode parametrik membutuhkan asumsi tertentu untuk mendapatkan klasifikasi terbaik tetapi tidak semua asumsi dapat terpenuhi sehinga menyulitkan para peneliti. Pelanggaran asumsi pada metode parametrik mengakibatkan hasil yang kurang memuaskan. Berbagai metode nonparametrik seperti support vector machine (SVM) dan pohon klasifikasi sebagai pengklasifikasi tunggal telah dikembangkan untuk menyelesaikan masalah pelanggaran asumsi pada metode parametrik. Beberapa penelitian menunjukkan bahwa pengklasifikasi gabungan bisa menjadi suatu metode yang efektif untuk meningkatkan akurasi pengklasifikasian dan mengurangi keragaman dugaan pengklasifikasi tunggal (Valentini dan Dietterich 2000). Pengklasifikasi gabungan adalah aturan penggabungan dugaan beberapa pengklasifikasi tunggal menjadi satu dugaan akhir dengan suatu algoritma yang disebut combiner. Salah satu teknik gabungan yang populer digunakan adalah metode bagging (bootstrap agregating) yang diperkenalkan oleh Breiman (1966). Metode ini merupakan suatu teknik yang paling sederhana tetapi mempunyai performa yang sangat baik. Tujuan dalam penelitian ini adalah mengkaji pengklasifikasi tunggal dan gabungan dari pohon klasifikasi dan SVM dengan melakukan simulasi pada berbagai struktur data. Selain itu, membandingkan performa pengklasifikasi tunggal dan gabungan dari pohon klasifikasi dan SVM berdasarkan salah klasifikasi pada tabel ketepatan klasifikasi. Data yang akan digunakan pada penelitian ini adalah data simulasi dan data terapan. Data simulasi digunakan untuk mengkaji dan membandingkan performa pengklasifikasi tunggal dan gabungan dari pohon klasifikasi dan SVM pada beberapa struktur data yang berbeda dengan menggunakan tabel ketepatan klasifikasi. Data simulasi terdiri dari data yang dibangkitkan dari dua kelas berbeda dengan tiga skenario yaitu (1) anggota dari dua kelas berbeda yang terpisahkan linier secara sempurna (linearly separable), (2) anggota dari dua kelas berbeda yang terpisahkan linier secara tidak sempurna (linearly non separable) dan (3) anggota dari dua kelas berbeda yang terpisahkan secara tidak linier (nonlinearly separable). Pengklasifikasi tunggal dan gabungan dari pohon klasifikasi dan SVM akan diterapkan pada data mahasiswa Pascasarjana IPB Program Studi Statistika pada tahun masuk 2000-2010 yang bertujuan untuk mengklasifikasi keberhasilan studi mahasiswa. Hasil pada penelitian ini menunjukkan bahwa metode SVM pada ketiga struktur data yang telah disimulasikan menghasilkan pengklasifikasi yang lebih baik dibandingkan dengan pohon klasifikasi. Selain itu, metode gabungan berhasil meningkatkan performa pengklasifikasi terutama pada penggunaan fungsi kernel radial. Pada data terapan, ensemble SVM dengan fungsi kernel radial mempunyai
iii performa terbaik untuk mengklasifikasikan keberhasilan studi mahasiswa Pascasarjana Program Studi Statistika tahun masuk 2000-2010. Kata kunci :
pohon klasifikasi, support vector machine, metode gabungan, bagging
iv
SUMMARY IUT TRI UTAMI. Study of Single and Ensemble Classifiers of Classification Tree and Support Vector Machine. Supervised by KUSMAN SADIK and BAGUS SARTONO. A classifier is such a rule that can be used to group an object into predetermined group or classs based on its attributes. There are two types of approach to develop a classifier rules are a parametric and a nonparametric. Parametric method requires certain assumptions to obtain the best classification but not all assumptions are met so that makes it difficult for researchers. The violation of the assumptions might lead to the lack of the effectiveness and the validity results. Recently, people pay more attention to non parametric classifiers such as Support Vector Machine (SVM) and Classification Tree (CT) to overcome the violation of the assumptions of parametric method. Some resent research figured out that an ensemble of classifiers could be an effective way to improve the classification accuracy and reduce the prediction variation of a single classifier (Valentini dan Dietterich 2000). The ensemble method is combining the class predictions resulted by a set of single classifiers into a single prediction by applying a majority vote rule. Among some popular techniques a method of bagging (bootstrap agregating) by Breiman (1996) is the simplest but powerful technique. The data used in this research are simulation data and real-life data. Simulation data are used to assess and compare the performance of single and ensemble classifiers of classification tree and SVM in three different data structures: (1) a situation where the members of different classes are perfectly linear separable, (2) a situation where the members of different classes are linerseparable but not perfect and (3) a situation where the members of different classes could not be separated by a linear function. Single and ensemble classifiers of classification trees and SVM will be applied to classify the successful study of postgraduate IPB students in Statistics department enrollment 2000-2010. Our research revealed that SVM resulted better classifier compared to Classification Tree. It is valid for all three data structure under consideration. Moreover, ensemble treatment to the classifier succeeded in improving the classification performance, especiality when radial kernel function is embedded in the procedure. Ensemble SVM in real-life data with a radial kernel function has the best performance compared to other methods and is the most appropriate method to classify the successful study of postgraduate IPB students in Statistics department enrollment 2000-2010. Keywords :
classification tree, support vector machine, ensemble methods, bagging
v
© Hak Cipta Milik IPB, Tahun 2014 Hak Cipta Dilindungi Undang-Undang Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan atau menyebutkan sumbernya. Pengutipan hanya untuk kepentingan pendidikan, penelitian, penulisan karya ilmiah, penyusunan laporan, penulisan kritik, atau tinjauan suatu masalah; dan pengutipan tersebut tidak merugikan kepentingan IPB Dilarang mengumumkan dan memperbanyak sebagian atau seluruh karya tulis ini dalam bentuk apa pun tanpa izin IPB
i
KAJIAN PENGKLASIFIKASI TUNGGAL DAN GABUNGAN DARI POHON KLASIFIKASI DAN SUPPORT VECTOR MACHINE
IUT TRI UTAMI
Tesis sebagai salah satu syarat untuk memperoleh gelar Magister Sains pada Program Studi Statistika Terapan
SEKOLAH PASCASARJANA INSTITUT PERTANIAN BOGOR BOGOR 2014
ii
Penguji Luar Komisi pada Ujian Tesis: Dr. Ir. Anik Djuraidah, MS
iii Judul Tesis : Kajian Pengklasifikasi Tunggal dan Gabungan dari Pohon Klasifikasi dan Support Vector Machine Nama : Iut Tri Utami NRP : G152110031
Disetujui oleh Komisi Pembimbing
Dr Kusman Sadik, MSi Ketua
Dr Bagus Sartono, MSi Anggota
Diketahui oleh
Ketua Program Studi Statistika Terapan
Dekan Sekolah Pascasarjana
Dr Ir Anik Djuraidah, MS
Dr Ir Dahrul Syah, MScAgr
Tanggal Ujian: 24 Desember 2013
Tanggal Lulus:
iv
v
PRAKATA Puji dan syukur kehadirat Allah SWT yang telah melimpahkan rahmat dan hidayah-Nya, sehingga penulis dapat menyelesaikan karya ilmiah yang berjudul “Kajian Pengklasifikasi Tunggal dan Gabungan dari Pohon Klasifikasi dan Support Vector Machine”. Keberhasilan penulisan karya ilmiah ini tidak lepas dari bantuan, bimbingan, dan petunjuk dari berbagai pihak. Terima kasih penulis ucapkan kepada: 1. Ayahanda (alm Amirul Iksan), Ibunda (Suharti), suami (Sudigdo M), anak (Attaya Fathan M), serta seluruh keluarga atas doa, dukungan dan kasih sayangnya. 2. Bapak Dr Kusman Sadik, MSi selaku pembimbing I dan Bapak Dr Bagus Sartono MSi selaku pembimbing II yang telah banyak memberi bimbingan, arahan serta saran dalam penyusunan karya ilmiah ini. 3. Penguji luar komisi dan ketua Program Studi Pascasarjana Statistika Terapan Ibu Dr Anik Djuraidah MS pada ujian tesis yang telah memberikan kritik dan saran dalam perbaikan penyusunan karya ilmiah ini. 4. Seluruh staf pengajar di Program Studi Statistika Terapan IPB atas ilmu yang diberikan selama perkuliahan. 5. Teman-teman Statistika (S2 dan S3) dan Statistika Terapan (S2) atas bantuan dan kebersamaannya. Semoga karya ilmiah ini bermanfaat.
Bogor, Januari 2014
Iut Tri Utami
vi
DAFTAR ISI 1. PENDAHULUAN Latar Belakang Tujuan Penelitian
1 1 2
2. TINJAUAN PUSTAKA SVM sebagai Pengklasifikasi Tunggal Pohon Klasifikasi Metode Gabungan Ukuran Performa Pengklasifikasi Tunggal dan Gabungan
3 3 8 10 11
3. METODE Data Metode Analisis
12 12 15
4. HASIL DAN PEMBAHASAN Data Simulasi Data Terapan
17 17 21
5. SIMPULAN DAN SARAN Simpulan Saran
22 22 23
DAFTAR PUSTAKA
23
LAMPIRAN
26
RIWAYAT HIDUP
36
vii
DAFTAR TABEL 1 2 3 4
Ketepatan klasifikasi Skenario data simulasi pada tiga struktur data Karakteristik peubah penjelas pada data terapan Persentase rataan salah klasifikasi dan simpangan baku pada data terapan
12 14 15 22
DAFTAR GAMBAR 1 Ilustrasi SVM pada struktur data terpisahkan linier secara sempurna 2 Ilustrasi SVM pada struktur data yang terpisahkan linier secara tidak sempurna 3 Pemetaan data yang terpisah secara non linier dari ke dalam 4 Struktur pohon klasifikasi 5 Alur kerja metode penelitian 6 Hasil bangkitan data simulasi pada struktur data yang terpisahkan linier secara sempurna 7 Plot perbandingan (a) persentase rataan salah klasifikasi dan (b) simpangan baku pada struktur data terpisahkan linier secara sempurna 8 Hasil bangkitan data simulasi pada struktur data yang terpisahkan linier secara tidak sempurna 9 Plot perbandingan (a) persentase rataan salah klasifikasi dan (b) simpangan baku pada struktur data terpisahkan linier secara tidak sempurna 10 Hasil bangkitan data simulasi pada struktur data yang terpisahkan secara tidak linier 11 Plot perbandingan (a) persentase rataan salah klasifikasi dan (b) simpangan baku pada struktur data terpisahkan secara tidak linier 12 Plot perbandingan (a) persentase rataan salah klasifikasi dan (b) simpangan baku pada data terapan
4 5 7 9 16 17
18 18
19 20 20 22
viii
DAFTAR LAMPIRAN 1. 2. 3. 4. 5. 6.
7.
8.
9.
10.
11. 12. 13. 14. 15. 16. 17. 18.
Persentase rataan dan simpangan baku kesalahan klasifikasi pada struktur data terpisahkan secara linier sempurna (ulangan = 50) Persentase rataan dan simpangan baku kesalahan klasifikasi pada struktur data terpisahkan secara linier sempurna (ulangan=100) Persentase rataan dan simpangan baku kesalahan klasifikasi pada struktur data terpisahkan secara linier sempurna (ulangan = 500) Persentase rataan dan simpangan baku kesalahan klasifikasi pada struktur data terpisahkan secara linier sempurna (ulangan = 1000) Persentase rataan dan simpangan baku kesalahan klasifikasi pada struktur data terpisahkan secara linier sempurna (ulangan = 5000) Persentase rataan dan simpangan baku kesalahan klasifikasi pada struktur data terpisahkan linier secara tidak sempurna (ulangan = 50) Persentase rataan dan simpangan baku kesalahan klasifikasi pada struktur data terpisahkan linier secara tidak sempurna (ulangan = 100) Persentase rataan dan simpangan baku kesalahan klasifikasi pada struktur data terpisahkan linier secara tidak sempurna (ulangan = 500) Persentase rataan dan simpangan baku kesalahan klasifikasi pada struktur data terpisahkan linier secara tidak sempurna (ulangan = 1000) Persentase rataan dan simpangan baku kesalahan klasifikasi pada struktur data terpisahkan linier secara tidak sempurna (ulangan = 5000) Persentase rataan dan simpangan baku kesalahan klasifikasi pada struktur data terpisahkan secara tidak linier (ulangan = 50) Persentase rataan dan simpangan baku kesalahan klasifikasi pada struktur data terpisahkan secara tidak linier (ulangan = 100) Persentase rataan dan simpangan baku kesalahan klasifikasi pada struktur data terpisahkan secara tidak linier (ulangan = 500) Persentase rataan dan simpangan baku kesalahan klasifikasi pada struktur data terpisahkan secara tidak linier (ulangan = 1000) Persentase rataan dan simpangan baku kesalahan klasifikasi pada struktur data terpisahkan secara tidak linier (ulangan = 5000) Persentase rataan dan simpangan baku kesalahan klasifikasi pada data terapan (ulangan = 50) Persentase rataan dan simpangan baku kesalahan klasifikasi pada data terapan (ulangan = 100) Jumlah mahasiswa Pascasarjana IPB Program Studi Statistika tahun masuk 2000-2010
26 26 27 27 28
28
29
29
30
30 31 31 32 32 33 33 34 35
1
1. PENDAHULUAN Latar Belakang Pengklasifikasian suatu objek sangat umum dilakukan dalam berbagai bidang. Metode klasifikasi memungkinkan peneliti untuk mengklasifikasikan pengamatan baru, yaitu menetapkan objek baru masuk ke dalam kelompok tertentu berdasarkan nilai atribut-atributnya (Salazar et al. 2012). Pendekatan metode klasifikasi ada dua yaitu parametrik dan nonparametrik. Metode parametrik membutuhkan asumsi tertentu untuk mendapatkan klasifikasi terbaik tetapi pada kasus riil tidak semua asumsi dapat terpenuhi sehinga menyulitkan para peneliti dalam analisis. Terpenuhinya asumsi-asumsi pada metode parametrik akan menghasilkan data dapat diklasifikasikan dengan baik sehingga memiliki kesalahan klasifikasi yang kecil (Johnson & Wichern 2007). Metode klasifikasi parametrik yang sering digunakan adalah analisis diskriminan dan regresi logistik. Penerapan kedua metode tersebut memerlukan asumsi-asumsi untuk mendapatkan hasil yang optimal. Analisis diskriminan linier dikembangkan untuk populasi yang berdistribusi normal dengan matriks ragam peragamnya sama dan digunakan hanya untuk peubah penjelas yang kuantitatif dengan skala pengukuran interval atau rasio. Metode parametrik lain yang sering digunakan yaitu analisis regresi logistik yang memiliki kelebihan tidak memerlukan asumsi normalitas apabila dibandingkan dengan analisis diskriminan tetapi diasumsikan tidak terdapat multikolinieritas antar peubah penjelas. Metode nonparametrik merupakan metode alternatif untuk mengatasi masalah pelanggaran asumsi tertentu dalam mengklasifikasikan data. Metode nonparametrik yang telah dikembangkan antara lain k-nearest neighbors (k-NN), classification and regression tree (CART), artificial neural network (ANN), dan support vector machine (SVM) (Scholkopf & Smola 2002). Pohon klasifikasi dan SVM merupakan metode nonparametrik yang populer digunakan dalam berbagai penelitian, karena kedua metode tersebut memiliki kemampuan yang baik dalam mengklasifikasikan data. Kedua metode tersebut termasuk pengklasifikasi tunggal yang dapat digunakan pada ukuran data yang besar dengan peubah penjelas yang banyak dan data yang terpisahkan secara tidak linier, selain itu metode ini kekar terhadap pencilan (Steinberg & Colla 1995). Pengklasifikasi tunggal adalah aturan mengelompokkan objek yang berbeda ke dalam kelompok tertentu. Selama ini penelitian tentang pengklasifikasian data banyak menggunakan pengklasifikasi tunggal karena diasumsikan cukup untuk mendapatkan pendugaan yang baik. Namun tidak semua pengklasifikasi tunggal dapat mengklasifikasikan data dengan baik dalam berbagai kemungkinan kasus yang terjadi sehingga memunculkan ide tentang metode gabungan (ensemble) untuk mengklasifikasikan data. Pengklasifikasi gabungan adalah aturan penggabungan dugaan beberapa pengklasifikasi tunggal menjadi satu dugaan akhir dengan suatu algoritma yang disebut combiner. Beberapa pengklasifikasi tunggal yang dapat membangun metode gabungan antara lain naive bayes, k-NN, pohon klasifikasi, ANN, dan SVM. Rokach (2010) menyebutkan bahwa algoritma untuk pendugaan gabungan antara lain suara terbanyak (majority vote), rata-rata dan penjumlahan dugaan peluang masing-masing label kelas. Metode gabungan diharapkan mampu meningkatkan akurasi pengklasifikasian dan mengurangi ragam pada
2 pengklasifikasi tunggal (Valentini & Dietterich 2000). Metode gabungan lebih akurat dan dipercaya mampu untuk meningkatkan performa pengklasifikasi dibandingkan pengklasifikasi tunggal apabila pengklasifikasi tunggal yang membangun pengklasifikasi gabungan saling bebas dan beragam (Hansen & Salamon 1990). Berbagai metode telah dikembangkan untuk membangun metode gabungan diantaranya adalah memanipulasi data training untuk membangkitkan data yang beragam yang bertujuan mengurangi korelasi antar pengklasifikasi tunggal. Teknik yang sering digunakan untuk memanipulasi data training antara lain bagging, boosting dan random forest. Pada penelitian ini digunakan teknik bagging karena teknik ini merupakan teknik yang paling sederhana tetapi mempunyai performa yang sangat baik. Prinsip metode ini adalah mengambil contoh dari data contoh dengan teknik bootstrap yang selanjutnya menggabungkan banyak nilai dugaan yang diperoleh menjadi satu nilai dugaan dengan suara terbanyak. Penggunaan bagging banyak digunakan pada metode klasifikasi untuk mengurangi ragam dan memperbaiki stabilitas dugaan seperti pada pohon klasifikasi. Penelitian tentang pengklasifikasi gabungan dengan berbagai pengklasifikasi tunggal telah dilakukan oleh beberapa peneliti (misalnya ensemble neural network oleh Hansen dan Salamon (1990), bagging tree oleh Breiman (1996) dan ensemble SVM oleh Wang et al. (2009). Penelitian lain yang bisa digunakan sebagai rujukan adalah Opitz & Maclin (1999) dan Dietterich (2000) yang membandingkan metode yang berbeda dari beberapa metode gabungan. Sebagian besar penelitian sebelumnya menggunakan metode gabungan pada data terapan, penelitian ini menggunakan data simulasi dan data terapan untuk membandingkan performa pengklasifikasi tunggal dan gabungan. Performa dari masing-masing metode dapat dilihat dalam hal kemampuan untuk memberikan tingkat kesalahan klasifikasi yang rendah dan stabilitas suatu metode. Evaluasi performa dari pengklasifikasi tunggal dan gabungan dilakukan dengan menggunakan tabel ketepatan klasifikasi. Data yang akan digunakan pada penelitian ini adalah data simulasi dan data terapan. Data simulasi digunakan untuk mengkaji dan membandingkan performa pengklasifikasi tunggal dan gabungan dari pohon klasifikasi dan SVM pada beberapa struktur data yang berbeda. Data simulasi yang akan digunakan pada penelitian ini merupakan data yang dibangkitkan dari dua kelas berbeda dengan tiga struktur data yaitu struktur data yang terpisahkan secara linier sempurna (linearly separable), struktur data yang terpisahkan linier secara tidak sempurna (linearly non separable) dan struktur data yang terpisahkan secara tidak linier (nonlinearly separable). Pengklasifikasi tunggal dan gabungan dari pohon klasifikasi dan SVM akan diterapkan pada data mahasiswa Pascasarjana IPB Program Studi Statistika pada tahun masuk 2000-2010 yang bertujuan untuk mengklasifikasi keberhasilan studi mahasiswa. Tujuan Penelitian Tujuan penelitian ini adalah 1. Mengkaji pengklasifikasi tunggal dan gabungan dari pohon klasifikasi dan SVM dengan melakukan simulasi pada berbagai struktur data.
3 2. Membandingkan performa pengklasifikasi tunggal dan gabungan dari pohon klasifikasi dan SVM berdasarkan persentase rataan kesalahan klasifikasi pada tabel ketepatan klasifikasi.
2. TINJAUAN PUSTAKA SVM sebagai Pengklasifikasi Tunggal SVM diperkenalkan oleh Vapnik (1995). Konsep dasar SVM merupakan gabungan dari teori komputasi yang telah ada sebelumnya seperti margin hyperplane (Cover 1965, Duda et al. 1973) dan teori kernel yang dikembangkan oleh Aronszjan (1950). Ide dasar dari SVM adalah pencarian hyperplane terbaik yang berfungsi sebagai pemisah dua kelas data. Hyperplane terbaik antara kedua kelas terletak di tengah-tengah diantara dua bidang kendala kelas dan untuk mendapatkan hyperplane terbaik dilakukan dengan cara memaksimalkan jarak antara hyperplane dari titik terdekat (support vector) dari masing-masing kelas. Andaikan M adalah jarak tersebut, didefinisikan besaran margin sebagai 2M. SVM pada Struktur Data Terpisahkan Linier secara Sempurna Misalkan sebuah gugus data berisi n pasangan data pengamatan yang dinotasikan sebagai (x1,y1), (x2,y2), ..., (xn,yn) dengan xiRp untuk i = 1, 2, ..., n. Label kelas dinotasikan sebagai: yi{-1,1}. Bentuk umum hyperplane adalah
w xb
(2.1)
dengan w adalah vektor normal dengan ukuran 1p dan tegak lurus dengan hyperplane dan x merupakan vektor data pengamatan yang berukuran p1. Skalar b disebut dengan simpangan. Fungsi klasifikasi didefinisikan sebagai:
f (x) sign(w x b)
(2.2)
Keckman (2005) menyatakan bahwa apabila f(x) > 0, maka data pengamatan diklasifikasikan ke dalam Grup 1, sedangkan apabila f(x) < 0, maka data pengamatan diklasifikasikan ke dalam Grup 2. Hyperplane dengan margin maksimum diperoleh dengan menemukan solusi dari permasalahan primal (Cortes & Vapnik 1995) yaitu : min
1 2 w 2
(2.3)
dengan kendala yi (w xi b) 1 , i = 1, ..., n
(2.4)
Notasi w, b merupakan parameter-parameter yang akan dicari nilainya. Ilustrasi SVM pada struktur data terpisahkan linier secara sempurna dapat dilihat pada Gambar 1.
4 x2
w x b 1 Grup 1
w x b 1
M support vectors M Margin = 2M = Grup 2
2 w
wxb 0 x1
Gambar 1 Ilustrasi SVM pada struktur data terpisahkan linier secara sempurna SVM pada Data Terpisahkan Linier Tidak secara Sempurna Masalah SVM dapat diperoleh dengan menyelesaikan pemrograman kuadratik dengan menggunakan fungsi optimasi Lagrangian sebagai berikut : L(w, b, )
n 1 2 w i yi w xi 1 2 i 1
(2.5)
dengan i adalah pengali Lagrange non negatif. Dengan memperhatikan sifat gradien maka diperoleh : n L(w, b, ) L(w, b, ) n w i yi xi 0 dan i yi 0 w b i 1 i 1
(2.6)
Persamaan (2.5) dapat dimodifikasi dengan memaksimumkan . Modifikasi ini memudahkan untuk menyelesaikan fungsi obyektif pada persamaan (2.3) dengan mengubah masalah primal menjadi masalah dual. Masalah pada dual mempunyai nilai yang sama dengan masalah primal (Strang 1986). Fungsi Lagrange akan diubah menjadi:
L(w, b, )
n n 1 2 n w i yi xi w b i yi i 2 i 1 i 1 i 1
(2.7)
Substitusikan persamaan (2.6) ke dalam fungsi Lagrange (2.5) sehingga menjadi: n n n n 1 n L(w, b, ) i yi xi j y j x j i yi xi j y j x j 0 i i 1 2 i 1 j 1 j 1 i 1
n n n 1 n n i j yi y j (xi x j ) i j yi y j (xi x j ) i i 1 j 1 i 1 2 i 1 j 1 n 1 n n i i j yi y j (xi x j ) 2 i 1 j 1 i 1
(2.8)
5 dengan kendala ∑ni , i 0 , i, j = 1, ..., n. Persamaan (2.8) merupakan fungsi masalah pengoptimuman dual. Nilai i didapatkan dengan cara memaksimumkan fungsi Lagrange pada persamaan (2.8). Gugus data yang memiliki nilai i > 0 dinamakan support vector. Gugus data tersebut akan ∑ digunakan untuk menghitung bobot i dan b = (w xi) – yi untuk i = 1, ..., nSV, dengan nSV adalah banyaknya support vector. SVM pada Struktur Data Terpisahkan Linier secara Tidak Sempurna Masalah klasifikasi sesungguhnya muncul pada ruang dimensi tinggi terutama pada data yang terpisahkan linier tidak secara sempurna. Struktur data yang terpisahkan linier tidak secara sempurna adalah data yang berada di dalam margin atau berada pada sisi yang salah dari batas keputusan. Hal ini menyebabkan proses optimisasi tidak dapat diselesaikan, karena tidak ada w dan b yang memenuhi pertidaksamaan (2.5). Persamaan (2.3) dan (2.4) akan dimodifikasi dengan memasukkan peubah slack i (i > 0), sehingga menjadi : n 1 2 min w C i (2.9) 2 i 1 dengan kendala : yi (w x b) 1 i , i 0 ; i = 1, ..., n (2.10) C adalah parameter yang menentukan besar penalti akibat kesalahan klasifikasi. Nilai C yang besar akan menghasilkan kesalahan klasifikasi yang kecil. Pada struktur data yang dapat dipisahkan linier secara tidak sempurna, peubah slack didefinisikan sebagai penyimpangan dari batas margin. Ilustrasi SVM pada struktur data terpisahkan linier secara tidak sempurna dapat dilihat pada Gambar 2. x2
Grup 1 Margin
k
xk
l xl
Grup 2 x1
Gambar 2 Ilustrasi SVM pada struktur data yang terpisahkan linier secara tidak sempurna Dua titik data xl dan xk pada Gambar 2 memperlihatkan dua titik yang menggambarkan kasus pada data terpisahkan linier secara tidak sempurna dengan
6 penambahan peubah slack l dan k. Titik xl adalah kesalahan klasifikasi karena berada di sisi yang salah batas keputusan. Titik xk merupakan titik yang berada di dalam margin tetapi diklasifikasikan dengan benar. Fungsi Lagrange dengan i dan βi untuk masalah primal pada kasus data terpisahkan secara linier tidak sempurna adalah : n n n 1 2 L(w, b, , , ) w C i i yi (w xi b) 1 i ii (2.11) 2 i 1 i 1 i 1 Dengan memperhatikan sifat gradien diperoleh : n L(w, b, , , ) L(w, b, , , ) n w i yi xi 0 dan i yi 0 w b i 1 i 1 L(w, b, , , ) 0 menghasilkan i i C
(2.12)
i ([(w x) b] 1 i ) 0 , i = 1,..., n
ii 0 , untuk i = 1,..., n 0 i C ,
i 0 , i 0 , i 0 untuk i = 1, ..., n
Substitusi persamaan (2.12) ke dalam persamaan fungsi Lagrange (2.11) akan didapatkan fungsi tujuan masalah dual sebagai berikut : n
n n
max L( ) i i j yi y j (xi x j ) i 1
(2.13)
i 1 j 1
dengan kendala : ∑ , 0 i C untuk i = 1, ..., n. Fungsi keputusan dari struktur data yang terpisahkan linier secara tidak sempurna adalah sama dengan struktur data yang dapat dipisahkan secara linier sempurna yaitu : nSV (2.14) f (x) sign i yi xi x b i 1 dengan koefisien i merupakan solusi dari masalah dual dan SV merupakan himpunan dari support vector. Nilai didapatkan dari persamaan : nSV
b yi (1 ) i yi (xi x j ) i 1
SVM pada Struktur Data Terpisahkan secara Tidak Linier Hyperplane yang optimal mempunyai kemampuan generalisasi yang baik termasuk pada dimensi yang tinggi. Gugus data yang tidak dapat dipisahkan secara linier dapat menghasilkan hyperplane yang optimal tetapi belum tentu sebagai alat klasifikasi dengan kemampuan generalisasi yang baik. SVM dapat memetakan data ke ruang dimensi lebih tinggi dengan mengunakan metode kernel sehingga data pada ruang tersebut dapat dipisahkan secara linier dengan transformasi non linier (Burges 1998).
7 Secara umum metode kernel memiliki dua bagian utama. Bagian pertama adalah sebuah modul yang mentransformasikan data dari ruang awal ke dalam ruang baru yang berdimensi tinggi. Bagian kedua adalah suatu algoritma yang berfungsi untuk menemukan pola linier di dalam ruang baru yang terbentuk (Cristianini & Shawe-Taylor 2004). Ilustrasi pemetaan data yang terpisahkan secara non linier dari ke dalam dapat dilihat pada Gambar 3.
Gambar 3 Pemetaan data yang terpisah secara non linier dari
ke dalam
Pada Gambar 3 memperlihatkan tentang pemisahan non linier dalam ruang input yang dipetakan ke dalam ruang berdimensi tinggi dengan fungsi non linier yang disebabkan oleh fungsi kernel k sehingga didapatkan permukaan yang linier. Misalkan fungsi vektor non linier (x) = (1(x1), 2(x2), …, n(xn))‟ yang memetakan vektor ruang awal x ke dalam ruang yang berdimensi tinggi melalui fungsi vektor non linier . Fungsi keputusan pada ruang berdimensi tinggi adalah: f (x) sign(w (x) b)
(2.15)
Pada struktur data terpisahkan linier secara tidak sempurna, vektor w merupakan kombinasi linier dari support vector di ruang berdimensi tinggi. Hal ini berarti : n
w i yi (xi ) i 1
Fungsi klasifikasi f(x) pada persamaan (2.15) bergantung pada hasil kali dalam (xi) dan (xj) yaitu : n f (x) sign(w (x) b) sign i yi (xi ), (x) b (2.16) i 1 SVM dibangun berdasarkan bentuk umum dari hasil kali dalam ruang Hilbert (Anderson & Bahadur 1966) yaitu :
(u) (v) K (u, v) Fungsi pemetaan (x) yang memetakan ruang awal ke dalam ruang berdimensi tinggi memenuhi: K (xi , x j ) (xi ) (x j )
8 dengan (xi) dan (xj) gambaran dari ruang berdimensi tinggi dan vektor xi dan xj sebagai ruang awal. Keuntungan menggunakan fungsi kernel adalah memperlihatkan transformasi non linier secara eksplisit. Teknik ini biasa dikenal kernel trick. Gunakan kernel trick untuk memaksimumkan masalah dual pada ruang berdimensi tinggi yaitu : n
n n
i 1
i 1 j 1
max L( ) i i j yi y j K (xi x j ) dengan kendala : ∑ dari masalah dual adalah
, 0 i C untuk i = 1, ..., n. Fungsi keputusan
nSV f (x) sign i yi K (xi x) b i 1 dengan b diperoleh dari :
b yi
(2.17)
(2.18)
nSV
i yi K (xi x) i 1
Fungsi kernel K (xi , x j ) yang biasa digunakan dalam SVM (Meyer 2013) adalah :
: K (xi , x j ) (xi x j ) 1
1) Polinomial
d
dengan d adalah derajat polinom. Pada software R i386 3.0.1 dengan package e1071 digunakan default dengan d = 3. 2 : K (xi , x j ) exp xi x j 2) Radial basis function (RBF) dengan merupakan parameter positif yang mengontrol radius. Pada software R i386 3.0.1 dengan package e1071 menggunakan default = (1/dimensi). : K (xi , x j ) tanh[v(xi x j ) b] untuk nilai parameter v, b telah ditentukan. Pada software R i386 3.0.1 dengan package e1071 menggunakan default dengan v = (1/dimensi) dan b = 0.
3) Tangent hyperbolic (sigmoid)
Pohon Klasifikasi Algoritma penyusunan pohon klasifikasi dan pohon regresi telah banyak diusulkan oleh banyak penulis. Beberapa yang banyak digunakan antara lain adalah ID3 (Quinlan 1986) yang selanjutnya dikembangkan menjadi algoritma C4.5 dan C5, CHAID, CART dan QUEST (Loh dan Shih 1997). Pada penelitian ini digunakan CART sebagai algoritma penyusunan pohon klasifikasi. CART merupakan salah satu metode eksplorasi nonparametrik yang dikembangkan untuk topik analisis klasifikasi, baik untuk peubah respon kategorik maupun kontinu (Breiman et al. 1993). Tujuan utama CART adalah untuk mendapatkan suatu kelompok data yang akurat sebagai penciri dari suatu pengklasifikasian. Pohon klasifikasi merupakan penyekatan data secara berulang (rekursif) dan menghasilkan sekatan yang biner, karena selalu membagi kumpulan data menjadi dua sekatan. Hal ini dapat ditunjukkan dalam suatu gambar struktur pohon klasifikasi seperti pada Gambar 4.
9
Node/simpul
a Ya
Tidak xi
c
b Ya
Cabang
xi
d
Tidak
Simpul akhir
e
Gambar 4 Struktur pohon klasifikasi Langkah-langkah yang digunakan dalam pembentukan pohon klasifikasi (Breiman et al. 1993) adalah : 1. Pemilihan pemilah Pada tahap ini dicari pemilah dari setiap simpul yang menghasilkan penurunan tingkat keheterogenan paling tinggi. Keheterogenan suatu simpul diukur berdasarkan nilai impurity-nya. Fungsi impuritas () yang dapat digunakan adalah indeks Gini. Semakin besar impuritas suatu simpul maka semakin heterogen simpul tersebut (Breiman et al. 1993). Nilai impuritas menggunakan indeks Gini pada simpul t yang dinotasikan dengan i(t) dan diformulasikan sebagai berikut: i(t ) p(1| t ), p(2 | t ),..., p( j | t )
(2.20)
dengan p(j|t) adalah dugaan peluang unit pengamatan dalam kelas ke-j dan berada pada simpul t yang dinyatakan sebagai berikut: p( j t )
j N j (t ) / N j
j N j (t ) / N j
(2.21)
j
dengan j adalah peluang awal kelas ke-j dan Nj adalah banyaknya unit pengamatan dalam kelas ke-j, dan Nj(t) adalah banyaknya unit pengamatan dalam kelas ke-j pada simpul t. Misalkan terdapat calon pemilah s yang memilah simpul t menjadi tL (dengan proporsi pL) dan tR (dengan proporsi pR), maka kebaikan dari s didefinisikan sebagai penurunan impuritas: Δi(s,t) = i(t) – pL i(tL) – pR i(tR)
(2.22)
Pengembangan pohon dilakukan dengan cara, pada simpul t1 carilah s* yang memberikan nilai penurunan impuritas tertinggi yaitu: i(s* , t ) max i(s, t1 ) (2.23) sS
maka t1 dipilah menjadi t2 dan t3 dengan menggunakan s*. Dengan cara yang sama dilakukan juga pemilah terbaik pada t2 dan t3 secara terpisah, dan seterusnya. 2. Penentuan simpul terminal Suatu simpul t akan menjadi simpul terminal atau tidak akan dipilah kembali, apabila banyaknya pengamatan kurang dari batas minimum yang telah
10 ditentukan. Pada umumnya banyak pengamatan minimum pada simpul sebesar 5 dan terkadang sebesar 1 (Breiman et al. 1993). Selanjutnya t tidak akan dipilah lagi tetapi dijadikan simpul terminal dan hentikan pembuatan pohon. 3. Penandaan label kelas Label kelas dari simpul terminal ditentukan berdasarkan aturan jumlah terbanyak, yaitu jika P(j0|t) = maxj P(j|t) dengan j = 1, ..., j maka label kelas untuk simpul terminal t adalah j0. Andaikan max𝑗 P(𝑗|𝑡) dicapai oleh dua atau lebih kelas yang berbeda, maka label kelas untuk simpul terminal t dipilih secara acak dari kelas maksimum tersebut (Breiman et al. 1993). 4. Penentuan pohon optimum Pohon klasifikasi tidak dibatasi jumlahnya. pohon terbesar memiliki nilai salah pengklasifikasian terkecil, sehingga kita cenderung memilih pohon tersebut untuk perkiraan. Pohon yang besar cukup kompleks dalam menggambarkan struktur data sehingga perlu dipilih pohon optimal yang lebih sederhana tetapi memiliki kesalahan pengklasifikasian yang cukup kecil. Breiman et al. (1993) menyatakan bahwa salah satu cara mendapatkan pohon optimum yaitu dengan pemangkasan (pruning). Pemangkas berturut-turut memangkas pohon bagian yang kurang penting dengan tujuan untuk memperoleh pohon yang berukuran sederhana. Ukuran pemangkasan yang digunakan untuk memperoleh ukuran pohon yang optimum adalah biaya kompleksitas (cost-complexity). Persamaan ukuran biaya kompleksitas adalah: |̃ |
(2.24)
dengan adalah tingkat salah klasifikasi pada pohon bagian Tk untuk k = 1, ̃ adalah himpunan simpul terminal pada Tk, |̃ | adalah banyaknya simpul terminal pada Tk, dan adalah parameter biaya kompleksitas. Hasil proses pemangkasan berupa sederet pohon klasifikasi Tk dan dengan validasi silang vlipatan (RCV(Tk)) dapat ditentukan pohon optimum Tko (Venables & Ripley 2002) sebagai berikut: RCV (Tko ) min RCV (Tk )
(2.25)
k
Metode Gabungan Gagasan utama metodologi gabungan adalah mengkombinasikan beberapa pola pengklasifikasi tunggal seperti NN, SVM dan lain-lain dan menggabungkan pola tersebut menjadi satu nilai dugaan. Proses penggabungan yang biasa digunakan untuk kasus klasifikasi adalah suara terbanyak. Keberhasilan penerapan metode gabungan dapat ditemukan di berbagai bidang, seperti: keuangan (Leigh et al. 2002), bioinformatika (Tan et al. 2003), kesehatan (Mangiameli et al. 2004), geografi (Bruzzone et al. 2004) dan lain-lain. Bagging merupakan singkatan dari bootstrap aggregrating. Berdasarkan namanya, maka dapat diperkirakan ada dua tahapan utama dalam analisis ini, yaitu bootstrap dan aggregating yaitu menggabungkan banyak nilai dugaan menjadi satu nilai dugaan. Teknik bootstrap diperkenalkan oleh Efron (1979). Bootstrap adalah teknik memperkirakan sifat penaksir (rata-rata, median dan lainlain) dengan menggunakan teknik pengambilan contoh dengan pemulihan
11 (resampling). Bootstrap meletakkan dasar pada dua metode gabungan yaitu bagging dan random forest. Bagging pertama kali diperkenalkan oleh Breiman (1996). Ide dasar dari bagging adalah menggunakan teknik bootstrap pada data asli, membuat dugaan klasifikasi terpisah pada setiap data contoh bootstrap, dan menggabungkan dugaan klasifikasi tersebut dengan menggunakan suara terbanyak (Breiman 1996). Misalkan terdapat himpunan data = {(xn; yn)|i = n … N}, dengan y berupa label kelas atau respon kategorik. Jika input adalah x maka y diduga dengan φ(x, ) dengan φ(x, ) merupakan prediktor yang diperoleh dengan menggunakan pengulangan bootstrap yang dinotasikan dengan Pengulangan bootstrap dilakukan sebanyak k kali sehingga menjadi dan dibentuk prediktor φ(x, ) dengan teknik pengambilan contoh dengan pemulihan (resampling) (Breiman 1996). Prosedur pada teknik Bagging menurut Breiman (1996) adalah : 1) Data dibagi menjadi dua yaitu gugus data tes T dan gugus data training . 2) Tarik contoh acak dengan pengembalian sebanyak n* dari gugus data training (tahapan bootstrap) dengan n* adalah ukuran contoh bootstrap. 3) Bentuk pengklasifikasi tunggal seperti SVM dan pohon klasifikasi berdasarkan contoh acak tersebut. 4) Ulangi langkah 2 dan 3 sebanyak k kali sehingga sehingga diperoleh k buah pengklasifikasi tunggal dan dugaan. 5) Lakukan pendugaan gabungan berdasarkan k buah pengklasifikasi tunggal tersebut dengan menggunakan suara terbanyak (tahapan aggregasi). Hastie et al. (2008) menyatakan bahwa proses bagging dapat mengurangi galat baku dugaan yang dihasilkan oleh pengklasifikasi tunggal. Hal ini jelas terlihat karena dengan melakukan rata-rata misalnya maka ragam dugaan akan mengecil sedangkan tingkat bias dugaan tidak terpengaruh. Breiman (1996) mencatat bahwa pada banyak gugus data yang telah dicobakan, bagging mampu mengurangi tingkat kesalahan klasifikasi pada kasus klasifikasi. Hal ini tentu tidak berlaku secara keseluruhan. Berk (2008) mencatat beberapa kasus yang mungkin menyebabkan dugaan bagging memiliki ragam dugaan yang lebih besar atau juga bias yang lebih besar pula. Hal ini terjadi antara lain pada kasus dengan kategori peubah respon yang sangat tidak seimbang. Breiman (1996) menyebutkan bahwa banyaknya pengulangan bootstrap yang diperlukan menunjukkan bahwa 50 kali untuk kasus klasifikasi dan 25 kali untuk kasus regresi dapat memberikan hasil yang memuaskan. Semakin banyak resampling dan pengulangan dilakukan maka akurasi pengklasifikasi semakin meningkat walaupun peubahannya tidak terlalu signifikan. Ukuran Performa Pengklasifikasi Tunggal dan Gabungan Secara umum, kinerja pengklasifikasi klasifikasi dapat diukur dengan tabel klasifikasi yang merupakan tabel kontingensi 2 2 untuk peubah respon biner yang diilustrasikan pada Tabel 1 (Hosmer & Lemeshow 2000). Ketepatan klasifikasi terdiri atas specificity dan sentisivity. Specificity atau ketepatan klasifikasi dalam menduga kejadian bahwa respon tidak memiliki kriteria yang diharapkan yaitu pada y = 0 sebesar d/n0 100%. Sensitivity digunakan untuk mengevaluasi ketepatan klasifikasi dalam menduga kejadian bahwa respon memiliki kriteria
12 yang diharapkan yaitu y = 1 sebesar a/n1 100%. Ketepatan klasifikasi total (akurasi) dalam menduga kejadian secara tepat dapat diduga oleh pengklasifikasi yang nilainya (a + d)/n 100%.
Amatan 1 0 Total Proporsi Kesalahan
Tabel 1 Ketepatan klasifikasi Dugaan Total 1 0 a b n1 c d n0 n n1 n0 c / n1
d / n0
Proporsi Ketepatan a / n1 d / n0 (a + d) / n (b + c) / n
Selain ketepatan klasifikasi dapat pula diketahui persentase besarnya kesalahan klasifikasi (misclassification rate atau MCR). Kesalahan positif nilainya sebesar c/n1 100% adalah persentase besarnya kesalahan ketika respon yang diduga adalah y = 1 tapi amatan sebenarnya bernilai y = 0 dan kesalahan negatif yang bernilai d/n0 100% dinyatakan sebagai persentase besarnya kesalahan ketika respon diduga adalah y = 0 namun amatan sebenarnya bernilai y = 1. Kesalahan klasifikasi total diartikan sebagai besarnya kesalahan klasifikasi terhadap kesalahan keseluruhan kejadian yang dapat diperoleh dengan cara merasiokan total klasifikasi yang tidak terkoreksi dengan jumlah keseluruhan data yaitu sebesar (b+c) 100%.
3. METODE Data Data Simulasi Data simulasi yang digunakan untuk mengkaji dan membandingkan metode pengklasifikasi tunggal dan gabungan dari pohon klasifikasi dan SVM terdiri dari tiga skenario yaitu (1) apabila anggota kelas berbeda dapat dipisahkan secara linier sempurna, (2) apabila anggota kelas berbeda dapat dipisahkan linier secara tidak sempurna dan (3) anggota kelas berbeda dipisahkan secara tidak linier. Ukuran data simulasi yang digunakan pada penelitian ini adalah 120 data pengamatan. Data simulasi terdiri dari dua kelompok yaitu Grup 1 dan 2. Pada skenario pertama, ukuran contoh pada Grup 1 sebanyak 60 data pengamatan dan Grup 2 sebanyak 60 data pengamatan. Data dibangkitkan dari dua sebaran yang berdistribusi normal ganda sebagai Grup 1 dan Grup 2 dengan vektor rataan masing-masing adalah 2 8 μ1 , μ 2 2 8
dengan matriks ragam peragam yang sama yaitu 2 0 Σ1 Σ2 Σ 0 2
13 Pemilihan vektor rataan pada skenario pertama disebabkan karena jarak antara dua populasi yang berjauhan menyebabkan data dapat terpisahkan secara linier sempurna tanpa ada error didalamnya sehingga tidak terdapat salah klasifikasi. Dengan menggunakan ragam yang sama maka ragam peubah penjelas akan merata pada setiap populasi. Ukuran contoh pada Grup 1 pada skenario kedua adalah 60 data pengamatan dan 60 data pengamatan pada Grup 2. Data dibangkitkan dari dua sebaran yang berdistribusi normal ganda dengan vektor rataan masing-masing adalah 2 3 μ1 , μ 2 2 3
dengan matriks ragam peragam yang sama yaitu 2 0 Σ1 Σ2 Σ 0 2 Pemilihan vektor rataan pada skenario kedua disebabkan karena jarak antara kedua populasi yang berdekatan menyebabkan terdapat beberapa titik yang tumpang tindih sehingga struktur data sulit dipisahkan secara linier sempurna. Dengan menggunakan ragam yang sama maka ragam peubah penjelas akan merata pada setiap populasi. Pada skenario yang ketiga, ukuran contoh pada Grup 1 sebanyak 40 data pengamatan dan 80 data pengamatan sebagai Grup 2. Pada Grup 1, data dibangkitkan dari sebaran yang berdistribusi normal ganda dengan vektor rataan dan matriks ragam peragam masing-masing adalah 1 0.7 1 μ1 , dan Σ1 0.7 1 1 sedangkan pada Grup 2 dengan ukuran contoh sebanyak 80 data pengamatan. Data dibangkitkan dari campuran dua sebaran berdistribusi normal ganda dengan vektor rataan masing-masing adalah 3 1 μ 2 dan μ3 1 3 dan matriks ragam peragam 1 0.7 Σ2 Σ3 0.7 1 sehingga: x | w, μ2 , μ3 , Σ2 , Σ3 ~ 0.5 MVN (x ; μ2 , Σ2 ) 0.5MVN (x ; μ3 , Σ3 ) dengan MVN(x; i, i) adalah fungsi kepadatan peluang yang berdistribusi normal ganda dengan i adalah vektor rataan ke-i dan i adalah matriks ragam peragam ke-i. Pemilihan vektor rataan pada skenario ketiga didasarkan sebagai ilustrasi untuk struktur data terpisahkan secara tidak linier pada dimensi dua. Dengan menggunakan ragam yang sama maka ragam peubah penjelas akan merata pada setiap populasi. Data simulasi dibagi menjadi dua yaitu data untuk membangun suatu pengklasifikasi (gugus data training) sebanyak 70% dan data untuk menguji performa pengklasifikasi (gugus data tes) sebanyak 30% dari keseluruhan data simulasi. Pada setiap gugus data tes akan dicatat tingkat kesalahan klasifikasi dari pengklasifikasi tunggal dan gabungan yang dihasilkan.
14 Simulasi dilakukan dengan dua kondisi ukuran contoh bootstrap (n*) dan ukuran contoh data training (n). Kondisi tersebut adalah ukuran contoh yang sama antara bootstrap dan data trainingnya dan ukuran contoh bootstrap lebih kecil daripada data trainingnya. Teknik bootstrap sebagai bagian dari pendekatan metode gabungan dilakukan dengan melakukan resampling sebanyak 50, 100, dan 500 kali. Prosedur resampling digunakan untuk mengenali pengaruh frekuensi resampling terhadap performa klasifikasi. Langkah-langkah pada pembentukan pengklasifikasi gabungan akan diulang sebanyak 50, 100, 500, 1000 dan 5000 kali. Ketiga skenario data simulasi terangkum pada Tabel 2. Tabel 2 Skenario data simulasi pada tiga struktur data Skenario
Parameter
Ukuran contoh
2
Struktur data terpisahkan linier secara sempurna
Grup 1 : μ1 2
Struktur data terpisahkan linier secara tidak sempurna
Grup 1 : μ1 2
8 Grup 2 : μ 2 8
n1 = 60 n2 = 60 2 0 0 2
Matriks ragam-peragam: Σ1 Σ2 Σ 2
3 Grup 2 : μ 2 3
n1 = 60 n2 = 60 2 0 0 2
Matriks ragam-peragam: Σ1 Σ2 Σ 2
Struktur data terpisahkan tidak secara linier
Grup 1 : μ1 2
1 3 Grup 2 : μ 2 dan μ3 3 1 1 0.7 sehingga: 0.7 1
n1 = 40 n2 = 80
Matriks ragam-peragam: Σ1 Σ2 Σ
xi | w, μ2 , μ3 , Σ2 , Σ3 ~ 0.5 MVN ( xi ; μ2 , Σ2 ) 0.5MVN ( xi ; μ3 , Σ3 )
Data Terapan Data terapan yang akan digunakan pada penelitian ini adalah data mahasiswa Pascasarjana IPB Program Studi Statistika yang diperoleh dari Divisi Akademik Sekolah Pascasarjana IPB. Data tersebut akan digunakan untuk mengklasifikasikan keberhasilan studi mahasiswa Pascasarjana IPB Program Studi Statistika. Data terapan yang digunakan adalah semua data mahasiswa Pascasarjana IPB Program Studi Statistika yang berhasil lanjut ke semester dua. Kriteria mahasiswa yang berhasil lanjut ke semester dua adalah mahasiswa dengan IPK 3.00 yang berstatus percobaan dan mahasiswa dengan status biasa. Peubah respon yang akan diteliti adalah IPK mahasiswa program Pascasarjana IPB Program Studi Statistika yang dikelompokan menjadi dua bagian, yaitu : (i) mahasiswa yang berhasil dengan kriteria IPK ≥ 3. y = 1) dan (ii) mahasiswa yang kurang berhasil dengan kriteria IPK < 3.00 (y = -1) pada
15 akhir semester 2. Data mahasiswa Pascasarjana IPB Program Studi Statistika berjumlah 188 mahasiswa tetapi hanya 162 mahasiswa yang memenuhi syarat lanjut ke semester dua dengan kriteria mahasiswa yang berhasil sebanyak 143 mahasiswa dan 19 mahasiswa kurang berhasil. Karakteristik peubah penjelas yang digunakan pada penelitian ini terangkum pada Tabel 3. Tabel 3 Karakteristik peubah penjelas pada data terapan Peubah Penjelas Jenis Kelamin
Keterangan 1 = Laki-laki 2 = Perempuan
Usia Pada Saat Masuk Sekolah Pascasarjana IPB Status Perkawinan Pada Saat Masuk 1 = Menikah Sekolah Pascasarjana IPB 2 = Belum Menikah Pekerjaan pada saat tahun masuk 1 = Dosen 2 = Non Dosen Asal Perguruan Tinggi Pada Saat Sarjana 1 = PTN Jawa 2 = PTS Jawa 3 = PTN/PTS Non Jawa Program Studi Pada Saat Sarjana 1 = Statistika 2 = Matematika 3 = Pendidikan Matematika 4 = Lainnya IPK Pada Saat Sarjana Sponsor Pendidikan Pada Saat Menjadi 1 = Sendiri Mahasiswa Pascasarjana IPB 2 = BPPS/BU 3 = Instansi/Lembaga
Metode Analisis Kajian Simulasi Pada data simulasi langkah-langkah yang akan dilakukan dalam menganalisis pengklasifikasi tunggal dan gabungan dari pohon klasifikasi dan SVM adalah : 1) Menggunakan data simulasi yang dibangkitkan dengan ketiga struktur data 2) Membentuk pengklasifikasi tunggal yaitu SVM dan pohon klasifikasi 3) Membentuk pengklasifikasi gabungan yaitu ensemble tree dan ensemble SVM. Tahapan ini terdiri dari beberapa lang kah-langkah sebagai berikut : i. Membagi data menjadi dua yaitu gugus data training dan data tes. ii. Menarik contoh acak dengan pengembalian sebanyak n* dari gugus data training (tahapan bootstrap). Ukuran contoh bootsrap yang dicobakan adalah 84 dan 60 data pengamatan. iii. Membuat dugaan pada pengklasifikasi SVM dan pohon klasifikasi berdasarkan data tersebut. iv. Mengulangi langkah (ii) dan (iii) sebanyak k kali sehingga diperoleh k buah pengklasifikasi tunggal dan dugaan.
16 v. Melakukan pendugaan gabungan berdasarkan k buah pengklasifikasi tunggal tersebut dengan menggunakan suara terbanyak (tahapan aggregasi). 4) Mengevaluasi dan membandingkan performa pengklasifikasi tunggal dan gabungan dengan menggunakan tabel ketepatan klasifikasi dengan menggunakan gugus data tes. Keseluruhan proses analisis dilakukan menggunakan software R i386 3.0.1 dengan package MASS, e1071 dan rpart. Alur kerja metode penelitian disajikan pada Gambar 5. Data
Pengklasifikasi tunggal
Pengklasifikasi Gabungan Data training
Contoh 1
Contoh 2
Contoh k
Pengklasifikasi tunggal 1
Pengklasifikasi tunggal 2
Pengklasifikasi tunggal k
Agregasi
Evaluasi performa
Evaluasi performa
Perbandingan
Gambar 5 Alur kerja metode penelitian Kajian Terapan Prosedur yang dilakukan untuk contoh penerapan terdiri atas : 1) Menerapkan metode pengklasifikasi tunggal dan gabungan dari pohon klasifikasi dan SVM. 2) Mengevaluasi kinerja pengklasifikasi tunggal dan gabungan dengan tabel ketepatan klasifikasi.
17
4. HASIL DAN PEMBAHASAN Data Simulasi Data pembangkitan kasus simulasi merupakan data yang dibangkitkan dengan mengikuti distribusi tertentu dengan rataan dan ragam tertentu. Setiap kasus simulasi juga dihitung simpangan baku untuk melihat kestabilan model. Hasil pembangkitan data akan dilakukan disetiap skenario data simulasi untuk melihat kondisi data yang terbentuk. Setiap data akan dibagi menjadi dua yaitu data training dan data tes. Data training digunakan untuk pembentukan pengklasifikasi tunggal dan gabungan sedangkan data tes digunakan untuk validasi model. Guna melihat efektifitas dari pengklasifikasi tunggal dan gabungan dihitung rataan kesalahan klasifikasi tiaptiap model. Semakin kecil rataan tingkat kesalahan klasifikasi yang dihasilkan maka metode akan semakin efektif dalam mengklasifikasikan kasus simulasi. Struktur Data yang Terpisahkan secara Linier Sempurna Struktur data yang terpisahkan secara linier sempurna dapat diartikan bahwa setiap anggota dari dua kelompok berbeda dapat dipisahkan secara linier sempurna dan setiap titik berada di luar atau sama dengan batas margin. Hasil bangkitan data simulasi pada kasus ini dapat dilihat pada Gambar 6.
Gambar 6 Hasil bangkitan data simulasi pada struktur data yang terpisahkan linier secara sempurna Hasil simulasi pada skenario pertama menunjukkan bahwa persentase rataan kesalahan klasifikasi pada dua kondisi ukuran contoh bootstrap dan data training memiliki hasil yang sama sehingga akan disajikan hasil dengan kondisi ukuran contoh bootstrap lebih kecil data training. Plot perbandingan persentase rataan dan simpangan baku salah klasifikasi dengan ulangan 5000 pada struktur data terpisahkan linier secara sempurna dapat dilihat pada Gambar 7.
1 0.8 0.6 0.4 0.2 0 Tunggal
50
100
500
Banyaknya resampling Pohon Klasifikasi SVM Polinomial
(a)
SVM Linier SVM Radial
Simpangan baku
MCR(%)
18 0.02 0.015 0.01 0.005 0 Tunggal
50
100
500
Banyaknya resampling Pohon Klasifikasi SVM Polinomial
SVM Linier SVM Radial
(b)
Gambar 7 Plot perbandingan (a) persentase rataan salah klasifikasi dan (b) simpangan baku pada struktur data terpisahkan linier secara sempurna Pada pengklasifikasi tunggal, metode SVM memiliki persentase rataan tingkat kesalahan klasifikasi lebih rendah dibandingkan dengan pohon klasifikasi. Semakin banyak resampling dan pengulangan dilakukan maka persentase rataan salah klasifikasi dan simpangan baku SVM pada ketiga fungsi kernel tetap konstan yaitu sebesar 0. Metode SVM pada skenario ini tidak memiliki salah klasifikasi sehingga merupakan metode yang lebih baik dan lebih stabil dibandingkan pohon klasifikasi. Pada pengklasifikasi gabungan terjadi penurunan persentase rataan kesalahan klasifikasi dan nilai simpangan baku baik pada SVM maupun pohon klasifikasi. Hal ini menunjukkan bahwa metode gabungan meningkatkan akurasi dan menurunkan ragam pada pengklasifikasi tunggal. Sruktur Data yang Terpisahkan Linier secara Tidak Sempurna Struktur data yang terpisahkan linier secara tidak sempurna dapat diartikan bahwa setiap anggota dari dua kelompok berbeda dapat dipisahkan secara linier tetapi ada titik-titik yang berada di dalam batas margin meskipun diklasifikasikan secara benar serta titik-titik yang diklasifikasikan secara salah. Hasil bangkitan data simulasi pada kasus ini dapat dilihat pada Gambar 8.
Gambar 8 Hasil bangkitan data simulasi pada struktur data yang terpisahkan linier secara tidak sempurna
19
40 30 20 10 0 Tunggal
50
100
500
Banyaknya resampling Pohon Klasifikasi
SVM Linier
SVM Polinomial
SVM Radial
(a) Gambar 9
Simpangan baku
MCR (%)
Hasil simulasi pada skenario pertama menunjukkan bahwa persentase rataan kesalahan klasifikasi pada dua kondisi ukuran contoh bootstrap dan data training memiliki hasil yang sama sehingga akan disajikan hasil dengan kondisi ukuran contoh bootstrap lebih kecil data training. Plot perbandingan persentase rataan dan simpangan baku salah klasifikasi dengan ulangan 5000 pada struktur data terpisahkan linier secar tidak sempurna ditunjukkan pada Gambar 9. 0.1 0.08 0.06 0.04 0.02 0 Tunggal
50
100
500
Banyaknya resampling Pohon Klasifikasi SVM Polinomial
SVM Linier SVM Radial
(b)
Plot perbandingan (a) persentase rataan salah klasifikasi dan (b) simpangan baku pada struktur data terpisahkan linier secara tidak sempurna
Pada pengklasifikasi tunggal, metode SVM dengan ketiga fungsi kernel memiliki persentase rataan tingkat kesalahan klasifikasi lebih rendah dibandingkan dengan pohon klasifikasi. SVM semakin menurun dengan semakin banyaknya ulangan dengan persentase penurunan rataan tingkat kesalahan klasifikasi sebesar 1.39-1.75. Metode SVM dengan fungsi kernel radial mempunyai persentase rataan kesalahan klasifikasi terkecil sehingga merupakan metode pengklasifikasi tunggal yang mempunyai performa paling baik dibandingkan pohon klasifikasi. Pada pengklasifikasi gabungan terjadi penurunan persentase rataan kesalahan klasifikasi dan nilai simpangan baku baik pada SVM maupun pohon klasifikasi. Hal ini menunjukkan bahwa metode gabungan meningkatkan akurasi dan menurunkan ragam pada pengklasifikasi tunggal. Ensemble SVM dengan fungsi kernel radial paling baik digunakan untuk mengelompokkan objek apabila dibandingkan dengan ensemble SVM dengan fungsi kernel lainnya. Struktur Data yang Terpisahkan secara Tidak Linier Struktur data yang terpisahkan secara tidak linier dalam hal ini merupakan setiap anggota dari dua kelompok berbeda tidak dapat dipisahkan secara linier sehingga perlu ditransformasi ke dimensi yang lebih tinggi dengan menggunakan fungsi kernel sehingga anggota kelas yang ada lebih mudah dipisahkan secara linear. Fungsi kernel yang digunakan pada kasus ini adalah linier, polinomial dan radial. Hasil simulasi pada skenario pertama menunjukkan bahwa persentase rataan kesalahan klasifikasi pada dua kondisi ukuran contoh bootstrap dan data training memiliki hasil yang sama sehingga akan disajikan hasil dengan kondisi ukuran contoh bootstrap lebih kecil data training. Hasil bangkitan data simulasi pada skenario untuk struktur data yang terpisahkan secara tidak linier dapat dilihat pada Gambar 10.
20
Gambar 10
Hasil bangkitan data simulasi pada struktur data yang terpisahkan secara tidak linier
20 15 10 5 0 Tunggal
50
100
500
Banyaknya resampling Pohon Klasifikasi SVM Polinomial
(a)
Simpanan baku
MCR (%)
Plot perbandingan persentase rataan dan simpangan baku salah klasifikasi dengan ulangan 5000 pada struktur data terpisahkan secara tidak linier dapat dilihat pada Gambar 11. 0.2 0.15 0.1 0.05 0 Tunggal
50
100
500
Banyaknya resampling
SVM Linier
Pohon Klasifikasi
SVM Linier
SVM Radial
SVM Polinomial
SVM Radial
(b)
Gambar 11 Plot perbandingan (a) persentase rataan salah klasifikasi dan (b) simpangan baku pada struktur data terpisahkan secara tidak linier Pada pengklasifikasi tunggal, metode SVM dengan ketiga fungsi kernel memiliki persentase rataan tingkat kesalahan klasifikasi lebih rendah dibandingkan dengan pohon klasifikasi. SVM semakin menurun dengan semakin banyaknya ulangan dengan persentase penurunan rataan tingkat kesalahan klasifikasi sebesar 1.77-2.18. Metode SVM dengan fungsi kernel radial mempunyai persentase rataan kesalahan klasifikasi terkecil sehingga merupakan metode pengklasifikasi tunggal yang mempunyai performa paling baik dibandingkan pohon klasifikasi. Pada pengklasifikasi gabungan terjadi penurunan persentase rataan kesalahan klasifikasi dan nilai simpangan baku baik pada SVM maupun pohon
21 klasifikasi. Hal ini menunjukkan bahwa metode gabungan meningkatkan akurasi dan menurunkan ragam pada pengklasifikasi tunggal. Ensemble SVM dengan fungsi kernel radial paling baik apabila dibandingkan dengan ensemble SVM dengan fungsi kernel yang lainnya.
Data Terapan Data terapan yang akan digunakan pada penelitian ini adalah data mahasiswa Pascasarjana IPB Program Studi Statistika tahun masuk 2000-2010 yang diperoleh dari Divisi Akademik Sekolah Pascasarjana IPB. Mahasiswa Pascasarjana IPB Program Studi Statistika tahun masuk 2000-2010 berjumlah 188 mahasiswa. Data yang dibutuhkan pada penelitian ini adalah semua mahasiswa berstatus biasa dan mahasiwa berstatus percobaan yang mempunyai IPK lebih besar dari 3.00 pada semester satu. Data mahasiswa Pascasarjana IPB Prdogram Studi Statistika tahun masuk 2000-2010 terdiri dari delapan peubah penjelas dan mempunyai ukuran populasi sebanyak 162 orang. Penerapan metode tunggal dan gabungan dari SVM dan pohon klasifikasi akan diulang sebanyak 50 dan 100. Banyaknya resampling yang akan digunakan adalah 50, 100 dan 500. Sebagian besar mahasiswa Pascasarjana IPB Program Studi Statistika tahun masuk 2000-2010 diminati oleh mahasiswa berjenis kelamin perempuan, belum menikah, mempunyai pekerjaan sebagai dosen, berasal dari Perguruan Tinggi Negri di Jawa, berasal dari Program Studi Statistika saat sarjana dan mempunyai sponsor pendidikan sendiri ataupun beasiswa BBPS atau BU. Jumlah mahasiswa Pascasarjana IPB Program Studi Statistika tahun masuk 2000-2010 adalah 162 orang, 101 orang berjenis kelamin perempuan dan sisanya adalah laki-laki. Mahasiswa perempuan hampir mendominasi setiap angkatan pada Program Studi Statistika kecuali pada angkatan 2003, 2004 dan 2006. Sponsor pendidikan pada saat masuk Sekolah Pascasarjana IPB berimbang antara biaya sendiri dan beasiswa BPPS atau BU yang disebabkan sebagian besar mahasiswa Pascasarjana IPB Program Studi Statistika merupakan seorang dosen. Deskripsi data mahasiswa Pascasarjana IPB Program Studi Statistika tahun masuk 2000-2010 disajikan pada Lampiran 18. Pada pengklasifikasi tunggal, metode SVM dengan ketiga fungsi kernel memiliki persentase rataan tingkat kesalahan klasifikasi lebih rendah dibandingkan dengan pohon klasifikasi. SVM semakin menurun dengan semakin banyaknya ulangan dengan persentase penurunan rataan tingkat kesalahan klasifikasi sebesar 0.32-1.00. Metode SVM dengan fungsi kernel radial mempunyai persentase rataan kesalahan klasifikasi terkecil sehingga merupakan metode pengklasifikasi tunggal yang mempunyai performa paling baik dibandingkan pohon klasifikasi. Pada pengklasifikasi gabungan terjadi penurunan persentase rataan kesalahan klasifikasi dan nilai simpangan baku baik pada SVM maupun pohon klasifikasi. Hal ini menunjukkan bahwa metode gabungan meningkatkan akurasi dan menurunkan ragam pada pengklasifikasi tunggal. Ensemble SVM dengan fungsi kernel radial paling baik apabila dibandingkan dengan SVM dengan fungsi kernel yang lainnya sehingga merupakan metode yang paling tepat untuk
22
20 15 10 5 0 Tunggal
50
100
500
Banyaknya resampling Pohon Klasifikasi
SVM Linier
SVM Polinomial
SVM Radial
Simpangan baku
MCR (%)
mengklasifikasikan keberhasilan studi mahasiswa Pascasarjana IPB Program Studi Statistika tahun masuk 2000-2010. Plot perbandingan persentase rataan dan simpangan baku salah klasifikasi dengan ulangan 100 pada data terapan dapat dilihat pada Gambar 12. 0.05 0.04 0.03 0.02 0.01 0 Tunggal
50
100
500
Banyaknya resampling Pohon Klasifikasi SVM Polinomial
(a)
SVM Linier SVM Radial
(b)
Gambar 12 Plot perbandingan (a) persentase rataan salah klasifikasi dan (b) simpangan baku pada data terapan Tabel persentase rataan salah klasifikasi dan simpangan baku pada data terapan dengan ulangan 100 dapat dilihat pada Tabel 4. Tabel 4 Persentase rataan salah klasifikasi dan simpangan baku pada data terapan Metode Pohon Klasifikasi SVM Linier SVM Polinomial SVM Radial *n bag = banyaknya resampling
Tunggal 17.15 (0.0469) 12.83 (0.0415) 11.92 (0.0399) 11.90 (0.0398)
n bag* = 50 16.65 (0.0438) 12.08 (0.0399) 11.65 (0.0387) 11.62 (0.0378)
n bag = 100 16.56 (0.0433) 12.00 (0.0390) 11.64 (0.0385) 11.61 (0.0375)
n bag = 500 16.45 (0.0421) 11.92 (0.0389) 11.60 (0.0381) 11.58 (0.0372)
5. SIMPULAN DAN SARAN Simpulan Simpulan yang dapat diambil pada penelitian ini adalah : 1. Metode SVM pada ketiga struktur data mempunyai persentase rataan tingkat kesalahan klasifikasi lebih rendah dibandingkan dengan pohon klasifikasi. - Pada struktur data yang terpisahkan linier secara sempurna, SVM dengan ketiga fungsi kernel tidak memiliki salah klasifikasi sehingga mempunyai performa paling baik dibandingkan dengan pohon klasifikasi.
23 - Pada struktur data yang terpisahkan linier secara tidak sempurna, persentase rataan tingkat kesalahan klasifikasi SVM semakin menurun dengan semakin banyaknya ulangan dengan kisaran sekitar 1.39-1.75. SVM dengan fungsi kernel radial mempuyai performa yang paling baik dibandingkan dengan fungsi kernel lainnya. - Pada struktur data yang terpisahkan secara tidak linier, persentase rataan tingkat kesalahan klasifikasi SVM semakin menurun dengan semakin banyaknya ulangan dengan kisaran sekitar 1.77-2.18. SVM dengan fungsi kernel radial mempuyai performa yang paling baik dibandingkan dengan fungsi kernel lainnya. 2. Metode gabungan lebih stabil dan menurunkan simpangan baku dibandingkan dengan pengklasifikasi tunggal terutama ensemble SVM dengan fungsi kernel radial sehingga mempunyai performa terbaik. 3. Pada data terapan ensemble SVM dengan fungsi kernel radial mempunyai performa terbaik untuk mengklasifikasikan keberhasilan studi mahasiswa Pascasarjana Program Studi Statistika tahun masuk 2000-2010.
Saran Penelitian ini masih banyak kekurangan sehingga dapat dikembangkan dengan berbagai metode penelitian. Penelitian lanjutan yang bisa dilakukan adalah menambah kasus simulasi supaya mendapatkan hasil yang beragam. Selain itu dapat dilakukan perbandingan pengklasifikasi tunggal dan gabungan dengan menggunakan pengklasifikasi lainnya seperti NN, naive bayes, k-NN dan lainlain. Pembentukan pengklasifikasi gabungan juga dapat dilakukan dengan bagging, boosting dan random forest. Penelitian ini hanya dilakukan dengan bagging jadi selanjutnya bisa dilakukan dengan membandingkan ketiganya.
DAFTAR PUSTAKA Anderson TW, Bahadur RR. 1966. Classification into Two Multivariate Normal Distributions with Different Covariance Matrices. Ann. Math. Stat. 33: 420431. Aronszajn N. 1950. Theory of Reproducing Kernels. Transactions of the American Mathematical Society 68: 337-404. Berk RA. 2008. Statistical Learning from a Regression Perspective. New York : Springer Science + Business Media. Breiman L, Friedman JH, Olshen RA, Stone CJ. 1993. Classification and Regression Trees. New York: Chapman and Hall. Breiman L. 1996. Bagging Predictors. Machine Learning 24: 123–140. Bruzzone L, Cossu R, Vernazza G. 2004. Detection of land-cover transitions by combining multidate classifiers. Pattern Recognition Letters 25(13): 1491– 1500. Burges C. 1998. A tutorial on Support Vector Machine for Pattern Recognition. Data Mining and Knowledge Discovery, 2: 121-167.
24 Cortes C, Vapnik V. 1995. Support Vector Networks. Machine Learning 20(3): 273–297. Cover TM. 1965. Geometrical and Statistical Properties of Systems of Linier Inequalities with Applications in Pattern Recognition. IEEE Transactions on Electronic Computers 14(3): 326 – 334. Cristianini N, Shawe-Taylor J. 2004. Kernel Methods for Patern Analysis. Cambridge, UK : Cambridge University Press. Dietterich TG. 2000. An Experimental Comparison of Three Methods for Constructing Ensembles of Decision Trees: Bagging, Boosting, and Randomization. Machine Learning 40 : 139–157. Duda RO, Hart PE, Stork DG. 1973. Pattern Classification. New York: John Wiley and Sons. Efron B, Tibshirani RJ. 1998. An Introduction to the Bootstrap. Boca Raton, FL: Chapman and Hall/CRC Press. Hansen LK, Salamon P. 1990. Neural Network Ensembles. IEEE Trans. Pattern Analysis and Machine Intelligence 12 (10): 993-1001. Hastie TJ, Tibshirani RJ, Friedman JH. 2008. The Elements of Statistical Learning: Data-mining, Inference and Prediction. New York: Springer-Verlag. Hosmer D, Lemeshow S. 2000. Applied Logistic Regression. New York: John Wiley and Sons. Johnson RA, Wichern DW. 2007. Applied Multivariate Statistical Analysis Sixth Edition. New Jersey: Prentice Hall International Inc. Keckman V. 2005. Support Vector Machines – An Introduction. Studies in Fuzziness and Soft Computing 177 : 1-47. Leigh W, Purvis R, Ragusa JM. 2002. Forecasting the NYSE Composite Index with Technical Analysis, Pattern Recognizer, Neural Networks, and Genetic Algorithm: a Case Study in Romantic Decision Support. Decision Support Systems 32(4): 361–377. Loh WY, Shih YS. 1997. Split Selection Methods for Classification Tree. Statistica Sinica 7: 815–840. Mangiameli P, West D, Rampal R. 2004. Model selection for medical diagnosis decision support systems. Decision Support Systems 36(3): 247–259. Meyer D. 2013. Package „e1071‟ [Internet]. Bogor (ID): cran. hlm 49-50; [diunduh 2014 Jan 2]. Tersedia pada: cran.rproject.org/web/packages/e1071/e1071.pdf Opitz D, Maclin R. 1999. Popular Ensemble Methods: An Empirical Study. Journal Of Articial Intelligence Research 11: 169-198. Quinlan JR. 1986. Induction of Decision Tree. Machine Learning 1: 81 – 106. Rokach L. 2010. Pattern Classification using Ensemble Methods. Singapore: World Scientific Publishing Co. Pte. Ltd. Salazar DA, Velez JI, Salazar JC. 2012. Comparison between SVM and Logistic Regression: Which One is Better to Discriminate? Revista Colombiana de Estadística 35 (2): 223-237. Schoelkopf B, Smola A. 2002. Learning with kernels. Cambridge, MA : IT Press. Steinberg D, Colla P. 1995. CART: Tree-Structured Nonparametric Data Analysis. San Diego, CA : Salford Systems. Strang G. 1986. Introduction to Applied Mathematics. Wellesley: Cambridge Press.
25 Tan AC, Gilbert D, Deville Y. 2003. Multi-class Protein Fold Classification using a New Ensemble Machine Learning Approach. Genome Informatics 14: 206– 217. Valentini G, Dietterich TG. 2000. Bias–variance analysis of Support Vector Machines for the development of SVM-based ensemble methods. Journal of Machine Learning Research 1: 1-48. Vapnik V. 1995. The Nature of Statistical Learning Theory. New York: Springer Verlag. Venables WN, Ripley BD. 2002. Modern Applied Statistics with S. New York: Springer-Verlag. Wang SJ, Mathew A, Chen Y, Xi LF, Ma L, Lee J. 2009. Empirical analysis of support vector machine ensemble classifiers. Expert Systems with Applications 36: 6466–6476.
26 Lampiran 1
Persentase rataan dan simpangan baku kesalahan klasifikasi pada struktur data terpisahkan secara linier sempurna (ulangan = 50) Ukuran contoh bootstrap sama dengan data training
Metode Pohon Klasifikasi SVM Linier SVM Polinomial SVM Radial
Tunggal 0.94 (0.0165) 0.00 (0.0000) 0.00 (0.0015) 0.00 (0.0000)
n bag* = 50 0.89 (0.0153) 0.0000 (0.0000) 0.07 (0.0009) 0.0000 (0.0000)
n bag = 100 0.83 (0.0151) 0.0000 (0.0000) 0.06 (0.0008) 0.0000 (0.0000)
n bag = 500 0.82 (0.0150) 0.00 (0.0000) 0.06 (0.0008) 0.0000 (0.0000)
Ukuran contoh bootstrap lebih kecil dari data training Metode
Tunggal 0.94 Pohon Klasifikasi (0.0165) 0.00 SVM Linier (0.0000) 0.00 SVM Polinomial (0.0015) 0.00 SVM Radial (0.0000) *n bag = banyaknya resampling
Lampiran 2
n bag = 50 0.87 (0.0151) 0.00 (0.0000) 0.06 (0.0008) 0.00 (0.0000)
n bag = 100 0.78 (0.0149) 0.00 (0.0000) 0.05 (0.0007) 0.00 (0.0000)
n bag = 500 0.78 (0.0149) 0.00 (0.0000) 0.05 (0.0006) 0.00 (0.0000)
Persentase rataan dan simpangan baku kesalahan klasifikasi pada struktur data terpisahkan secara linier sempurna (ulangan=100) Ukuran contoh bootstrap sama dengan data training
Metode Pohon Klasifikasi SVM Linier SVM Polinomial SVM Radial
Tunggal 0.94 (0.0165) 0.00 (0.0000) 0.00 (0.0015) 0.00 (0.0000)
n bag* = 50 0.73 (0.0139) 0.00 (0.0000) 0.03 (0.0009) 0.00 (0.0000)
n bag = 100 0.68 (0.0127) 0.00 (0.0000) 0.02 (0.0008) 0.00 (0.0000)
n bag = 500 0.66 (0.0112) 0.00 (0.0000) 0.02 (0.0008) 0.00 (0.0000)
Ukuran contoh bootstrap lebih kecil dari data training Metode
Tunggal 0.94 Pohon Klasifikasi (0.0165) 0.00 SVM Linier (0.0000) 0.00 SVM Polinomial (0.0015) 0.00 SVM Radial (0.0000) *n bag = banyaknya resampling
n bag = 50 0.71 (0.0136) 0.00 (0.0000) 0.03 (0.0004) 0.00 (0.0000)
n bag = 100 0.67 (0.0125) 0.00 (0.0000) 0.02 (0.0003) 0.00 (0.0000)
n bag = 500 0.63 (0.1080) 0.00 (0.0000) 0.02 (0.0003) 0.00 (0.0000)
27 Lampiran 3
Persentase rataan dan simpangan baku kesalahan klasifikasi pada struktur data terpisahkan secara linier sempurna (ulangan = 500) Ukuran contoh bootstrap sama dengan data training
Metode Pohon Klasifikasi SVM Linier SVM Polynomial SVM Radial
Tunggal 0.94 (0.0165) 0.00 (0.0000) 0.00 (0.0015) 0.00 (0.0000)
n bag* = 50 0.45 (0.0121) 0.00 (0.0000) 0.00 (0.0000) 0.00 (0.0000)
n bag = 100 0.39 (0.0105) 0.00 (0.0000) 0.00 (0.0000) 0.00 (0.0000)
n bag = 500 0.38 (0.0104) 0.00 (0.0000) 0.00 (0.0000) 0.00 (0.0000)
Ukuran contoh bootstrap lebih kecil dari data training Metode
Tunggal 0.94 Pohon Klasifikasi (0.0165) 0.00 SVM Linier (0.0000) 0.00 SVM Polynomial (0.0015) 0.00 SVM Radial (0.0000) *n bag = banyaknya resampling
Lampiran 4
n bag = 50 0.42 (0.0118) 0.00 (0.0000) 0.00 (0.0000) 0.00 (0.0000)
n bag = 100 0.36 (0.0102) 0.00 (0.0000) 0.00 (0.0000) 0.00 (0.0000)
n bag = 500 0.35 (0.0099) 0.00 (0.0000) 0.00 (0.0000) 0.00 (0.0000)
Persentase rataan dan simpangan baku kesalahan klasifikasi pada struktur data terpisahkan secara linier sempurna (ulangan = 1000) Ukuran contoh bootstrap sama dengan data training
Metode Pohon Klasifikasi SVM Linier SVM Polinomial SVM Radial
Tunggal 0.94 (0.0165) 0.00 (0.0000) 0.00 (0.0015) 0.00 (0.0000)
n bag* = 50 0.41 (0.0117) 0.00 (0.0000) 0.00 (0.0000) 0.00 (0.0000)
n bag = 100 0.33 (0.0096) 0.00 (0.0000) 0.00 (0.0000) 0.00 (0.0000)
n bag = 500 0.31 (0.0094) 0.00 (0.0000) 0.00 (0.0000) 0.00 (0.0000)
Ukuran contoh bootstrap lebih kecil dari data training Metode
Tunggal 0.94 Pohon Klasifikasi (0.0165) 0.00 SVM Linier (0.0000) 0.00 SVM Polinomial (0.0015) 0.00 SVM Radial (0.0000) *n bag = banyaknya resampling
n bag = 50 0.39 (0.0095) 0.00 (0.0000) 0.00 (0.0000) 0.00 (0.0000)
n bag = 100 0.33 (0.0091) 0.00 (0.0000) 0.00 (0.0000) 0.00 (0.0000)
n bag = 500 0.31 (0.0089) 0.00 (0.0000) 0.00 (0.0000) 0.00 (0.0000)
28 Lampiran 5
Persentase rataan dan simpangan baku kesalahan klasifikasi pada struktur data terpisahkan secara linier sempurna (ulangan = 5000) Ukuran contoh bootstrap sama dengan data training
Metode
Tunggal 0.94 (0.0165) 0.00 (0.0000) 0.00 (0.0015) 0.00 (0.0000)
Pohon Klasifikasi SVM Linier SVM Polinomial SVM Radial
n bag* = 50 0.37 (0.0092) 0.00 (0.0000) 0.00 (0.0000) 0.00 (0.0000)
n bag = 100 0.26 (0.0085) 0.00 (0.0000) 0.00 (0.0000) 0.00 (0.0000)
n bag = 500 0.24 (0.0081) 0.00 (0.0000) 0.00 (0.0000) 0.00 (0.0000)
Ukuran contoh bootstrap lebih kecil dari data training Metode
Tunggal 0.94 (0.0165) 0.00 (0.0000) 0.00 (0.0015) 0.00 (0.0000)
Pohon Klasifikasi SVM Linier SVM Polinomial SVM Radial
n bag = 50 0.32 (0.0086) 0.00 (0.0000) 0.00 (0.0000) 0.00 (0.0000)
n bag = 100 0.21 (0.0077) 0.00 (0.0000) 0.00 (0.0000) 0.00 (0.0000)
n bag = 500 0.19 (0.0074) 0.00 (0.0000) 0.00 (0.0000) 0.00 (0.0000)
*n bag = banyaknya resampling
Lampiran 6
Persentase rataan dan simpangan baku kesalahan klasifikasi pada struktur data terpisahkan linier secara tidak sempurna (ulangan = 50) Ukuran contoh bootstrap sama dengan data training
Metode
Tunggal 30.94 (0.0952) 26.56 (0.0776) 27.29 (0.0782) 26.14 (0.0775)
Pohon Klasifikasi SVM Linier SVM Polinomial SVM Radial
n bag* = 50 29.11 (0.0949) 25.54 (0.0758) 26.24 (0.0768) 25.13 (0.0754)
n bag = 100 28.87 (0.0901) 25.53 (0.0754) 26.16 (0.0765) 25.03 (0.0752)
n bag = 500 28.76 (0.0883) 25.51 (0.0744) 26.14 (0.0758) 25.00 (0.0744)
Ukuran contoh bootstrap lebih kecil dari data training Metode Pohon Klasifikasi SVM Linier SVM Polinomial SVM Radial *n bag = banyaknya resampling
Tunggal 30.94 (0.0952) 26.56 (0.0776) 27.29 (0.0782) 26.14 (0.0775)
n bag = 50 29.00 (0.0891) 25.51 (0.0737) 26.20 (0.0743) 25.08 (0.0732)
n bag = 100 28.78 (0.0877) 25.44 (0.0733) 26.15 (0.0743) 24.96 (0.0731)
n bag = 500 28.50 (0.0862) 25.36 (0.0723) 26.12 (0.0737) 24.97 (0.0722)
29 Lampiran 7
Persentase rataan dan simpangan baku kesalahan klasifikasi pada struktur data terpisahkan linier secara tidak sempurna (ulangan = 100) Ukuran contoh bootstrap sama dengan data training
Metode Pohon Klasifikasi SVM Linier SVM Polinomial SVM Radial
Tunggal 30.94 (0.0952) 26.56 (0.0776) 27.29 (0.0782) 26.14 (0.0775)
n bag* = 50 28.97 (0.0925) 25.17 (0.0724) 25.92 (0.0731) 25.06 (0.0721)
n bag = 100 28.94 (0.0888) 25.14 (0.0722) 25.78 (0.0728) 25.02 (0.0720)
n bag = 500 28.83 (0.0861) 25.11 (0.0713) 25.67 (0.0725) 24.94 (0.0712)
Ukuran contoh bootstrap lebih kecil dari data training Metode
Tunggal 30.94 Pohon Klasifikasi (0.0952) 26.56 SVM Linier (0.0776) 27.29 SVM Polinomial (0.0782) 26.14 SVM Radial (0.0775) *n bag = banyaknya resampling
Lampiran 8
n bag = 50 28.94 (0.0881) 25.15 (0.0719) 25.87 (0.0729) 25.05 (0.0715)
n bag = 100 28.67 (0.0871) 25.13 (0.0717) 25.72 (0.0727) 25.01 (0.0710)
n bag = 500 28.28 (0.0856) 24.86 (0.0709) 25.64 (0.0723) 24.92 (0.0707)
Persentase rataan dan simpangan baku kesalahan klasifikasi pada struktur data terpisahkan linier secara tidak sempurna (ulangan = 500) Ukuran contoh bootstrap sama dengan data training
Metode Pohon Klasifikasi SVM Linier SVM Polinomial SVM Radial
Tunggal 30.94 (0.0952) 26.56 (0.0776) 27.29 (0.0782) 26.14 (0.0775)
n bag* = 50 28.88 (0.0887) 25.06 (0.0688) 26.22 (0.0717) 24.78 (0.0678)
n bag = 100 28.78 (0.0872) 25.06 (0.0684) 26.15 (0.0714) 24.56 (0.0675)
n bag = 500 28.72 (0.0855) 24.83 (0.0679) 25.94 (0.0707) 24.39 (0.0668)
Ukuran contoh bootstrap lebih kecil dari data training Metode
Tunggal 30.94 Pohon Klasifikasi (0.0952) 26.56 SVM Linier (0.0776) 27.29 SVM Polinomial (0.0782) 26.14 SVM Radial (0.0775) *n bag = banyaknya resampling
n bag = 50 28.85 (0.0879) 25.01 (0.0683) 26.21 (0.0713) 24.98 (0.0679)
n bag = 100 28.74 (0.0864) 24.94 (0.0678) 26.11 (0.0707) 24.86 (0.0672)
n bag = 500 28.54 (0.0850) 24.88 (0.0671) 25.95 (0.0697) 24.84 (0.0669)
30 Lampiran 9
Persentase rataan dan simpangan baku kesalahan klasifikasi pada struktur data terpisahkan linier secara tidak sempurna (ulangan = 1000) Ukuran contoh bootstrap sama dengan data training
Metode Pohon Klasifikasi SVM Linier SVM Polinomial SVM Radial
Tunggal 30.94 (0.0952) 26.56 (0.0776) 27.29 (0.0782) 26.14 (0.0775)
n bag* = 50 28.85 (0.0872) 24.90 (0.0682) 26.17 (0.0693) 24.92 (0.0676)
n bag = 100 28.69 (0.0869) 24.87 (0.0673) 26.08 (0.0688) 24.85 (0.0670)
n bag = 500 28.66 (0.0865) 24.83 (0.0669) 25.92 (0.0682) 24.81 (0.0668)
Ukuran contoh bootstrap lebih kecil dari data training Metode
Tunggal 30.94 Pohon Klasifikasi (0.0952) 26.56 SVM Linier (0.0776) 27.29 SVM Polinomial (0.0782) 26.14 SVM Radial (0.0775) *n bag = banyaknya resampling
n bag = 50 28.71 (0.0866) 24.79 (0.6800) 25.88 (0.0687) 24.69 (0.0675)
n bag = 100 28.70 (0.0862) 24.78 (0.0670) 25.87 (0.0680) 24.68 (0.0669)
n bag = 500 28.46 (0.0859) 24.76 (0.0667) 25.86 (0.0676) 24.67 (0.0666)
Lampiran 10 Persentase rataan dan simpangan baku kesalahan klasifikasi pada struktur data terpisahkan linier secara tidak sempurna (ulangan = 5000) Ukuran contoh bootstrap sama dengan data training Metode Pohon Klasifikasi SVM Linier SVM Polinomial SVM Radial
Tunggal 30.94 (0.0952) 26.56 (0.0776) 27.29 (0.0782) 26.14 (0.0775)
n bag* = 50 28.74 (0.0871) 24.85 (0.0680) 26.16 (0.0689) 24.81 (0.0674)
n bag = 100 28.66 (0.0867) 24.82 (0.0672) 26.06 (0.0682) 24.77 (0.0668)
n bag = 500 28.48 (0.0864) 24.81 (0.0667) 25.90 (0.0679) 24.71 (0.0665)
Ukuran contoh bootstrap lebih kecil dari data training Metode
Tunggal 30.94 Pohon Klasifikasi (0.0952) 26.56 SVM Linier (0.0776) 27.29 SVM Polinomial (0.0782) 26.14 SVM Radial (0.0775) *n bag = banyaknya resampling
n bag = 50 28.69 (0.0865) 24.73 (0.0677) 25.84 (0.0684) 24.67 (0.0673)
n bag = 100 28.62 (0.0864) 24.71 (0.0669) 25.83 (0.0677) 24.64 (0.0667)
n bag = 500 28.57 (0.0859) 24.70 (0.0665) 25.80 (0.0674) 24.58 (0.0665)
31 Lampiran 11 Persentase rataan dan simpangan baku kesalahan klasifikasi pada struktur data terpisahkan secara tidak linier (ulangan = 50) Ukuran contoh bootstrap sama dengan data training Metode Pohon Klasifikasi SVM Linier SVM Polinomial SVM Radial
Tunggal 15.06 (0.0969) 13.61 (0.0691) 13.44 (0.0666) 12.55 (0.0546)
n bag* = 50 13.83 (0.0890) 12.56 (0.0687) 12.61 (0.0636) 11.50 (0.0538)
n bag = 100 13.72 (0.0884) 12.50 (0.0676) 11.78 (0.0627) 11.50 (0.0538)
n bag = 500 13.44 (0.0882) 12.33 (0.0669) 11.50 (0.0615) 11.39 (0.0513)
Ukuran contoh bootstrap lebih kecil dari data training Metode
Tunggal 15.06 Pohon Klasifikasi (0.0969) 13.61 SVM Linier (0.0691) 13.44 SVM Polinomial (0.0666) 12.55 SVM Radial (0.0546) *n bag = banyaknya resampling
n bag = 50 13.88 (0.0894) 13.06 (0.0674) 12.56 (0.0633) 11.89 (0.0534)
n bag = 100 13.72 (0.0879) 12.72 (0.0672) 12.22 (0.0625) 11.61 (0.0504)
n bag = 500 13.67 (0.0865) 12.52 (0.0664) 12.11 (0.0602) 11.33 (0.0488)
Lampiran 12 Persentase rataan dan simpangan baku kesalahan klasifikasi pada struktur data terpisahkan secara tidak linier (ulangan = 100) Ukuran contoh bootstrap sama dengan data training Metode Pohon Klasifikasi SVM Linier SVM Polinomial SVM Radial
Tunggal 15.06 (0.0969) 13.61 (0.0691) 13.44 (0.0666) 12.55 (0.0546)
n bag* = 50 13.33 (0.0879) 12.59 (0.0679) 12.38 (0.0645) 11.83 (0.0527)
n bag = 100 13.32 (0.0881) 12.34 (0.0674) 12.34 (0.0623) 11.56 (0.0512)
n bag = 500 13.29 (0.0877) 12.14 (0.0653) 12.28 (0.0611) 11.28 (0.0501)
Ukuran contoh bootstrap lebih kecil dari data training Metode Pohon Klasifikasi SVM Linier SVM Polinomial SVM Radial
Tunggal 15.06 (0.0969) 13.61 (0.0691) 13.44 (0.0666) 12.55 (0.0546)
*n bag = banyaknya resampling
n bag = 50 13.83 (0.0863) 12.56 (0.0659) 12.20 (0.0627) 11.11 (0.0522)
n bag = 100 13.22 (0.0859) 12.52 (0.0648) 12.00 (0.0619) 11.00 (0.0508)
n bag = 500 13.08 (0.0842) 11.89 (0.0620) 11.81 (0.0585) 10.83 (0.0484)
32 Lampiran 13 Persentase rataan dan simpangan baku kesalahan klasifikasi pada struktur data terpisahkan secara tidak linier (ulangan = 500) Ukuran contoh bootstrap sama dengan data training Metode
Tunggal 15.06 (0.0969) 13.61 (0.0691) 13.44 (0.0666) 12.55 (0.0546)
Pohon Klasifikasi SVM Linier SVM Polinomial SVM Radial
n bag* = 50 13.30 (0.0855) 11.97 (0.0589) 11.91 (0.0581) 10.56 (0.0375)
n bag = 100 13.28 (0.0843) 11.92 (0.0580) 11.62 (0.0567) 10.39 (0.0366)
n bag = 500 13.26 (0.0842) 11.83 (0.0577) 11.61 (0.0564) 10.33 (0.0357)
Ukuran contoh bootstrap lebih kecil dari data training Metode Pohon Klasifikasi SVM Linier SVM Polinomial SVM Radial *n bag = banyaknya resampling
Tunggal 15.06 (0.0969) 13.61 (0.0691) 13.44 (0.0666) 12.55 (0.0546)
n bag = 50 12.96 (0.0795) 11.93 (0.0484) 11.30 (0.0447) 10.39 (0.0362)
n bag = 100 12.82 (0.0779) 11.82 (0.0479) 11.21 (0.0442) 10.28 (0.0358)
n bag = 500 12.74 (0.0763) 11.79 (0.0473) 11.17 (0.0436) 10.17 (0.0344)
Lampiran 14 Persentase rataan dan simpangan baku kesalahan klasifikasi pada struktur data terpisahkan secara tidak linier (ulangan = 1000) Ukuran contoh bootstrap sama dengan data training Metode
Tunggal 15.06 (0.0969) 13.61 (0.0691) 13.44 (0.0666) 12.55 (0.0546)
Pohon Klasifikasi SVM Linier SVM Polinomial SVM Radial
n bag* = 50 12.89 (0.0789) 11.83 (0.0475) 11.72 (0.0449) 10.47 (0.0364)
n bag = 100 12.87 (0.0785) 11.79 (0.0466) 11.69 (0.0441) 10.43 (0.0360)
n bag = 500 12.84 (0.0783) 11.76 (0.0462) 11.68 (0.0434) 10.40 (0.0358)
Ukuran contoh bootstrap lebih kecil dari data training Metode Pohon Klasifikasi SVM Linier SVM Polinomial SVM Radial *n bag = banyaknya resampling
Tunggal 15.06 (0.0969) 13.61 (0.0691) 13.44 (0.0666) 12.55 (0.0546)
n bag = 50 12.78 (0.0777) 11.77 (0.0474) 11.68 (0.0444) 10.33 (0.0350)
n bag = 100 12.76 (0.0774) 11.75 (0.0471) 11.67 (0.0438) 10.31 (0.0348)
n bag = 500 12.75 (0.0772) 11.74 (0.0470) 11.66 (0.0436) 10.30 (0.0347)
33 Lampiran 15 Persentase rataan dan simpangan baku kesalahan klasifikasi pada struktur data terpisahkan secara tidak linier (ulangan = 5000) Ukuran contoh bootstrap sama dengan data training Metode
Tunggal 15.06 (0.0969) 13.61 (0.0691) 13.44 (0.0666) 12.55 (0.0546)
Pohon Klasifikasi SVM Linier SVM Polinomial SVM Radial
n bag* = 50 12.85 (0.0784) 11.80 0.0470) 11.69 (0.0434) 10.44 (0.0358)
n bag = 100 12.84 (0.0782) 11.77 (0.0458) 11.68 (0.0432) 10.39 (0.0347)
n bag = 500 12.83 (0.0781) 11.75 (0.0457) 11.67 (0.0431) 10.37 (0.0346)
Ukuran contoh bootstrap lebih kecil dari data training Metode Pohon Klasifikasi SVM Linier SVM Polinomial SVM Radial *n bag = banyaknya resampling
Tunggal 15.06 (0.0969) 13.61 (0.0691) 13.44 (0.0666) 12.55 (0.0546)
n bag = 50 12.77 (0.0773) 11.71 (0.0468) 11.62 (0.0434) 10.27 (0.0349)
n bag = 100 12.70 (0.0771) 11.66 (0.0467) 11.61 (0.0433) 10.25 (0.0345)
n bag = 500 12.68 (0.0769) 11.65 (0.0466) 11.61 (0.0431) 10.24 (0.0343)
Lampiran 16 Persentase rataan dan simpangan baku kesalahan klasifikasi pada data terapan (ulangan = 50) Ukuran contoh bootstrap sama dengan data training Metode
Tunggal 17.15 (0.0469) 12.83 (0.0415) 11.92 (0.0399) 11.90 (0.0398)
Pohon Klasifikasi SVM Linier SVM Polinomial SVM Radial
n bag* = 50 17.00 (0.0440) 12.12 (0.0411) 11.91 (0.0396) 11.89 (0.0395)
n bag = 100 16.92 (0.0437) 12.00 (0.0407) 11.90 (0.0394) 11.86 (0.0389)
n bag = 500 16.54 (0.0423) 11.83 (0.0398) 11.89 (0.0389) 11.85 (0.0372)
Ukuran contoh bootstrap lebih kecil dari data training Metode Pohon Klasifikasi SVM Linier SVM Polinomial SVM Radial *n bag = banyaknya resampling
Tunggal 17.15 (0.0457) 12.83 (0.0405) 11.92 (0.0399) 11.90 (0.0398)
n bag = 50 16.58 (0.0446) 12.25 (0.0401) 11.68 (0.0394) 11.68 (0.0394)
n bag = 100 16.54 (0.0422) 12.17 (0.0394) 11.67 (0.0391) 11.66 (0.0387)
n bag = 500 16.20 (0.0420) 12.04 (0.0392) 11.65 (0.0387) 11.63 (0.0384)
34 Lampiran 17 Persentase rataan dan simpangan baku kesalahan klasifikasi pada data terapan (ulangan = 100) Ukuran contoh bootstrap sama dengan data training Metode
Tunggal 17.15 (0.0469) 12.83 (0.0415) 11.92 (0.0399) 11.90 (0.0398)
Pohon Klasifikasi SVM Linier SVM Polinomial SVM Radial
n bag* = 50 16.65 (0.0438) 12.08 (0.0399) 11.65 (0.0387) 11.62 (0.0378)
n bag = 100 16.56 (0.0433) 12.00 (0.0390) 11.64 (0.0385) 11.61 (0.0375)
n bag = 500 16.45 (0.0421) 11.92 (0.0389) 11.60 (0.0381) 11.58 (0.0372)
Ukuran contoh bootstrap lebih kecil dari data training Metode Pohon Klasifikasi SVM Linier SVM Polinomial SVM Radial *n bag = banyaknya resampling
Tunggal 17.15 (0.0469) 12.83 (0.0415) 11.92 (0.0399) 11.90 (0.0398)
n bag = 50 16.48 (0.0434) 12.05 (0.0389) 11.45 (0.0385) 11.43 (0.03882)
n bag = 100 16.44 (0.0414) 11.96 (0.0378) 11.44 (0.0373) 11.41 (0.0371)
n bag = 500 16.18 (0.0406) 11.89 (0.0379) 11.39 (0.0369) 11.37 (0.0362)
35 Lampiran 18 Jumlah mahasiswa Pascasarjana IPB Program Studi Statistika tahun masuk 2000-2010
Jenis Rata-rata Status Asal Perguruan Pekerjaan Program Studi saat S1 Rata – rata Sponsor Pendidikan Tinggi Angkatan Kelamin Usia Pernikahan IPK L P (tahun) M BM D ND PTNJ PTSJ PTNLJ St Mt PMt L S B I 2000 5 15 27 8 12 15 5 17 0 3 15 3 1 1 3.10 5 11 4 2001 8 9 30 5 12 12 5 11 0 6 5 9 2 1 3.02 5 12 0 2002 13 18 33 19 12 14 17 21 2 8 12 7 2 10 2.87 5 12 14 2003 6 3 33 4 5 3 6 7 0 2 4 1 1 3 3.06 1 3 5 2004 5 5 30 3 7 4 6 9 0 1 2 5 1 2 2.98 7 3 0 2005 2 10 27 6 6 6 6 9 1 2 6 6 0 0 3.18 8 4 0 2006 8 2 30 5 5 6 4 4 2 4 4 3 0 3 3.20 3 6 1 2007 5 12 29 7 10 11 6 8 3 6 4 11 2 0 3.25 10 6 1 2008 4 12 27 5 11 11 5 4 0 12 3 7 5 1 3.26 9 7 0 2009 4 10 26 5 9 5 9 9 1 4 5 7 2 0 3.34 9 2 3 2010 1 5 27 2 4 1 5 1 0 5 1 4 0 1 3.11 5 1 0 Jumlah 61 101 69 93 88 74 100 9 53 61 63 16 22 67 67 28 *L = Laki-laki, P = Perempuan, M = Menikah, BM = Belum Menikah, D = Dosen, ND = Non Dosen, PTNJ = PTN Jawa, PTNLJ = PTN/PTS Luar Jawa, St = Statistika, Mt = Matematika, PMt = Pendidikan Matematika, L = Lainnya, S = Sendiri, B = BPPS/BU, I = Instansi/Lembaga
36
RIWAYAT HIDUP Penulis dilahirkan di Pemalang Jawa Tengah pada tanggal 15 Juli 1982 dari pasangan Alm Bapak Ir. Amirul Iksan dan Ibu Suharti. Penulis merupakan putri kedua dari tiga bersaudara. Penulis menyelesaikan pendidikan menengah atas di SMA Negeri 1 Pemalang pada tahun 1999, kemudian pada tahun yang sama melanjutkan perkuliahan di Jurusan Statistika, Fakultas Matematika dan Ilmu Pengetahuan Alam, Universitas Padjadjaran dan lulus pada tahun 2004. Tahun 2011 penulis diterima di Program Studi Statistika Terapan pada Sekolah Pascasarjana IPB. Penulis mulai bekerja sebagai dosen di Universitas Tadulako, Fakultas Matematika dan Ilmu Pengetahuan Alam, Jurusan Matematika pada tahun 2008. Penulis mengajar mata kuliah Statsitika pada universitas tersebut.