JURNAL IT
VOLUME 15, DESEMBER 2014
STMIK HANDAYANI
BAGGING SUPPORT VECTOR MACHINES FOR LEUKEMIA CLASSIFICATION Billy Eden William Asrul
Teknik Informatika STMIK Handayani Makassar
[email protected]
Abstrak Leukemia merupakan salah satu jenis kanker yang paling umum, diagnosis dan klasifikasinya menjadi semakin kompleks dan penting. Di sini, kami menggunakan dataset ekspresi gen dan menggunakan bagging support vector machines (bSVM) untuk klasifikasi leukemia. bSVM melatih setiap SVM secara terpisah dengan menggunakan teknik bootstrap, maka mengambil kesimpulan kinerja masing-masing SVM oleh suara terbanyak. bSVM menunjukkan akurasi antara 87,5% - 92,5%, area di bawah kurva ROC antara 98,0% - 99,2%, F-measure antara 90,5% 92,7% dan selebihnya hasil SVM tunggal dan metode klasifikasi lainnya. Kami juga membandingkan hasil kami dengan hasil penelitian lain yang menggunakan dataset yang sama untuk klasifikasi leukemia. Hasil penelitian mengungkapkan bahwa bSVM menunjukkan performa terbaik dan dapat digunakan sebagai biomarker untuk diagnosis penyakit leukemia. Kata Kunci : Bagging, Leukemia diagnosis, Microarray, Support vector machines
BAGGING SUPPORT VECTOR MACHINES FOR LEUKEMIA CLASSIFICATION
52
VOLUME 15, DESEMBER 2014
JURNAL IT STMIK HANDAYANI
I. PENDAHULUAN Leukemia merupakan salah satu jenis kanker yang paling umum, diagnosis dan klasifikasi awal menjadi semakin kompleks dan penting. Untuk mengendalikan penyakit dan mendapatkan kesempatan curing tergantung pada waktu awal pengobatan. Juga, sangat penting untuk mendiagnosa leukemia sedini mungkin sebelum penyebaran sel kanker ke organ internal. Cytomorphology, multiparameter immunophenotyping, Sitogenetika, hibridisasi in situ fluoresensi dan tes berbasis polymerase chain reaction saat ini merupakan skema klasifikasi untuk membedakan subtipe leukemia [1,2] Perkembangan teknologi microarray memudahkan memantau ribuan ekspresi gen secara bersamaan dan data ekspresi gen yang diperoleh dari teknologi ini sangat berharga untuk klasifikasi kanker [3]. Teknologi microarray juga digunakan dalam sejumlah studi untuk diagnosis penyakit leukemia. [2,4,5] Selain itu, para peneliti telah menggunakan teknik machine learning pada ekspresi gen dataset untuk diagnosis penyakit [4, 6, 7, 8]. Namun, telah banyak metode yang diusulkan untuk memecahkan masalah ini dan menggunakan teknik klasifikasi yang optimal sangat penting pada klasifikasi akurasi data ekspresi gen [9]. Pada jurnal ini, kami mengadaptasi ide bagging support vector machine untuk klasifikasi penyakit leukemia dan membandingkan hasil kami dengan metode lain dan hasil studi lainnya. Makalah ini disusun sebagai berikut: Bagian 2 latar bagging SVM, bagging SVM dan dataset yang digunakan dalam penelitian ini. Hasil diberikan dalam bagian 3 dan kesimpulan pada bagian 4.
II. METODE 2.1. Support Vector Machines SVM oleh Vapnik [10], adalah alat pengenalan pola yang populer dan digunakan dalam berbagai bidang seperti bioinformatika, diagnosis kanker, klasifikasi citra, pertambangan teks dan seleksi fitur [11]. Popularitas SVM berasal dari dasar matematika yang sangat kuat yang didasarkan pada teori pembelajaran statistik dan minimalisasi risiko struktural, kapasitasnya untuk dataset dimensi tinggi, penanganan yang efektif untuk klasifikasi nonlinier menggunakan fungsi kernel dan kinerja yang akurat [12]. Untuk masalah klasifikasi, sebuah SVM membangun sebuah hyperplane atau set hyperplanes dalam ruang dimensi tinggi dan ide kunci dari SVM adalah untuk memaksimalkan margin dengan membagi ruang input menjadi dua bagian dan meminimalkan kesalahan klasifikasi keseluruhan. Untuk data pelatihan yang diberikan D = {(xi, yi)}pi=1 ∈ ℝn × {-1,+1} Tujuan klasifikasi adalah untuk menemukan fungsi (f (x) = y) yang benar mengklasifikasikan pola dari Data pelatihan dengan benar, di mana xi adalah vektor berdimensi n dan yi adalah labelnya. The hyperplanes dapat didefinisikan sebagai <w.x> + b = 0; w ∈ ℝ n, b ∈ ℝ dan data ini kemudian linear seperable, jika hyperplane tersebut ada (Gambar 1). Margin hyperplane (||w||-1) harus dimaksimalkan untuk menemukan hyperplane optimal dan pengganda Lagrange (αi) adalah digunakan untuk memecahkan masalah ini [13]. Fungsi keputusan dapat dirumuskan sebagai SVM juga dapat memecahkan masalah klasifikasi nonlinier dengan pemetaan vektor masukan ke ruang dimensi yang lebih tinggi menggunakan fungsi kernel [14]. Kemudian, fungsi keputusan dapat ditulis sebagai Ada empat fungsi kernel umum digunakan: linear, polinomial, fungsi basis radial (RBF) dan sigmoid:
BAGGING SUPPORT VECTOR MACHINES FOR LEUKEMIA CLASSIFICATION
53
VOLUME 15, DESEMBER 2014
JURNAL IT STMIK HANDAYANI
Gambar 1 (a) Klasifikasi dengan SVM (b) Hasil Klasifikasi masalah Non Linear menggunakan Fungsi Kernel [15] Untuk Masalah Multi-Class, Hasil SVM digabung dalam one-against-one atau pad skema one-against-all dan rincian dapat ditemukan hasilnya. 2.2 Bagging Support Vector Machines Bagging SVM (bSVM) atau bootstrap aggregating SVM, merupakan metode bootstrap yang menggabungkan manfaat dari bootstrap dan teknik penggabungan dengan menciptakan individu untuk ensemble nya dengan melatih setiap classifier SVM pada subset acak dari training set. Selanjutnya, SVM diterapkan untuk masing-masing dataset bootstrap . Akhirnya , estimasi bSVM diperoleh dengan menjumlahkan secara independen terlatih SVM dalam teknik agregasi yang tepat . Arsitektur umum bSVM ditunjukkan pada ( Gambar 2 ) .
BAGGING SUPPORT VECTOR MACHINES FOR LEUKEMIA CLASSIFICATION
54
VOLUME 15, DESEMBER 2014
JURNAL IT STMIK HANDAYANI
2.3. Eksperimental Dataset Kami menggunakan dataset Golub leukemia [4] untuk evaluasi eksperimental. Dataset ini berisi sampel sumsum tulang pasien leukemia akut pada diagnosis: 19 B-lineage leukemia lymphoblastic akut (ALL), 8 T-keturunan SEMUA sampel, dan 11 leukemia myeloid akut (AML) sampel. Menggunakan rasio signal-to-noise, gen yang peringkat dan top 999 gen yang dipilih menggunakan tes permutasi Slonim ini (3) pada tingkat signifikansi 0,05. Untuk pengurangan dimensi, kami melakukan Independent Component Analysis (ICA) [19] dan terpilih 37 komponen, yang menjelaskan 99,6% dari total varians. Akhirnya, kami memperoleh matriks 38x37 untuk klasifikasi.
III. HASIL Kami menerapkan bSVM ke dataset leukemia menggunakan fungsi kernel yang paling umum: linear, polynomial, RBF dan sigmoid. Sebagai perbandingan, kami menerapkan SVM untuk dataset menggunakan fungsi yang sama, tetapi tanpa mengantongi. Kami juga membandingkan hasil kami dengan beberapa metode klasifikasi. Untuk semua model klasifikasi, kami melakukan 5 kali lipat teknik validasi silang, dan dihitung beberapa ukuran kinerja. Selain itu, kami menguji kemanjuran bSVM dengan membandingkan dengan hasil penelitian lain. Hasil diberikan dalam Tabel 1. bSVM melakukan akurasi 90,0% untuk fungsi linear, akurasi 87,5% untuk fungsi polinomial, akurasi 92,5% untuk fungsi basis radial dan akurasi 90,0% untuk fungsi sigmoid. bSVM mengungguli metode SVM tunggal, hanya sama-sama dilakukan untuk fungsi polinomial. juga dengan 92,5% akurasi, metode bSVM mengungguli metode lain yang digunakan dalam penelitian yang lainnya. Tabel 1. Hasil Klasifikasi dari data Set Lukimia
BAGGING SUPPORT VECTOR MACHINES FOR LEUKEMIA CLASSIFICATION
55
VOLUME 15, DESEMBER 2014
JURNAL IT STMIK HANDAYANI
Selain itu, hasil dari Area Under Curve (AUC) dan F Measure (FM) adalah serupa. Sigmoid kernel bSVM dengan AUC 99,2% dan RBF kernel bSVM dengan 92,7% FM menunjukkan kinerja tertinggi.
IV. KESIMPULAN Dalam studi ini, kami menyesuaikan ide bagging support vector machine bSVM untuk klasifikasi penyakit leukemia. bSVM melatih masing-masing SVM secara terpisah menggunakan bootstrap teknik, maka agregat kinerja masing-masing SVM oleh strategi agregasi, seperti suara terbanyak. Hasil yang diperoleh dari dataset leukemia Golub mengungkapkan bahwa bSVM melebihi SVM tunggal dan metode klasifikasi lainnya dan dapat digunakan sebagai biomarker untuk klasifikasi penyakit leukemia.
DAFTAR PUSTAKA [1] [2] [3] [4] [5] [6]
[7]
[8] [9] [10] [11] [12]
R.J. Olsen, C.C. Chang, J.L. Herrick, et al. “Acute Leukemia Immunohistochemistry - A Systematic Diagnostic Approach”, Arch Pathol Lab Med, Vol. 132, 2008, pp. 462-475. A. Kohlmann, C. Schoch, Martin Dugas, et al. “Pattern Robustness of Diagnostic Gene Expression Signatures in Leukemia”, Genes, Chromosomes & Cancer, Vol. 42, 2005, pp. 299-307. C. Ray, “Cancer Identification and Gene Classification using DNA Microarray Gene Expression Patterns”, IJCSI International Journal of Computer Science Issues, Vol. 8, No. 2, 2011, pp. 155-160. T.R. Golub, D.K. Slonim, P. Tamayo, et al. “Molecular Classification of Cancer: Class Discovery and Class Prediction by Gene Expression Monitoring”, Science, Vol. 286, 1999, pp. 531-537. M.E. Ross, X. Zhou, G. Song, et al. “Classification of pediatric acute lymphoblastic leukemia by gene expression profiling”, Blood, Vol. 102, 2003, pp. 2951-2959. T. Chandrasekhar, K. Thangavel and E.N. Sathishkumar, “Verdict Accuracy of Quick Reduct Algorithm using Clustering and Classification Techniques for Gene Expression Data”, IJCSI International Journal of Computer Science Issues, Vol. 9, No. 1, 2012, pp. 357- 363. A. Bhattacharjee, W.G. Richards, J. Staunton, et al. “Classification of Human Lung Carcinomas by mRNA Expression Profiling Reveals Distinct Adenocarcinoma Subclasses”, Proc. Natl. Acad. Sci., Vol. 98, 2001, pp. 13790-13795. M. Bittner, P. Meltzer, Y. Chen, et al. “Molecular Classification of Cutaneous Malignant Melanoma by Gene Expression Profiling”, Nature, Vol. 406, 2000,pp. 536-540. S.B. Cho and H.H. Won, “Machine Learning in DNA Microarray Analysis for Cancer Classification”, In Proc. First Asia-Pacific Bioinformatics Conference, 2003, pp.189-198. V. Vapnik. “The Nature of Statistical Learning Theory”, New York: Springer-Verlag, 1995. J. Xie, J. Wang, and S. Jiang, “Clustering Support Vector Machines for Unlabeled Data Classification”, ICTM, 2009, pp. 34-38. M. Pirooznia and Y. Deng, “SVM Classifier – a comprehensive java interface for support vector machine classification of microarray data”, BMC Bioinformatics, Vol. 7, 2006, pp.4-25.
BAGGING SUPPORT VECTOR MACHINES FOR LEUKEMIA CLASSIFICATION
56