Konferensi Nasional Ilmu Sosial & Teknologi (KNiST) Maret 2017, pp. 19~24
19
PENDEKATAN METODE FEATURE EXTRACTION DENGAN ALGORITMA NAÏVE BAYES Riski Annisa AMIK BSI Pontianak e-mail:
[email protected] Abstrak Feature adalah alat ukur proses yang sedang diamati. Menggunakan seperangkat feature, setiap algoritma pembelajaran dapat melakukan proses klasifikasi. Penelitian ini akan melakukan pendekatan metode feature extraction. Dengan metode principal componen analysis (PCA), independent component analysis (ICA), dan self organizing map (SOM) dengan algoritma klasifikasi Naïve Bayes. Pendekatan feature extraction yang diusulkan bertujuan untuk mengatasi masalah yang timbul dari klasifikasi Naïve Bayes dengan mengukur kinerja pengurangan dimensi algoritma klasifikasi Naïve Bayes menggunakan dataset heart disease for male. Untuk validasi menggunakan 10-fold cross validation. Hasil pengukuran algoritma dengan membandingkan accuracy dan tingkat error dari ketiga metode yang digabung dengan algoritma Naïve Bayes. Metode feature extraction dan Naïve Bayes tersebut dimanfaatkan sebagai pendekatan klasifikasi dan perbandingan yang dibuat diukur dengan membandingkan accuracy dari ketiganya. Hasil penelitian didapatkan dari Confusion Matrix untuk mendapatkan nilai accuracy, sensitivity/recall, specitifity, FPrate, precision, F measure, dan G-mean. Hasilnya didapatlah nilai accuracy dan tingkat error yang menunjukkan metode feature extraction ICA lebih baik kinerja pengurangan dimensinya diimplementasikan menggunakan Naïve Bayes dibandingkan PCA dan SOM yaitu sebesar 69.84%. Keywords: Feature Extraction, Naïve Bayes, PCA, ICA, SOM
1. Pendahuluan Feature adalah alat ukur proses yang sedang diamati. Menggunakan seperangkat feature, setiap algoritma pembelajaran dapat melakukan proses klasifikasi. Dalam beberapa tahun terakhir dalam aplikasi pembelajaran algoritma atau pengenalan pola, domain feature telah diperluas dari puluhan hingga ratusan variabel atau feature yang digunakan dalam aplikasi tersebut. Beberapa teknik yang dikembangkan untuk mengatasi masalah mengurangi variabel yang tidak relevan dan berlebihan yang merupakan tugas menantang (Chandrashekar & Sahin, 2014). Ada dua pendekatan utama untuk pengurangan dimensi: feature extraction dan feature selection (Bonev, Escolano, & Cazorla, 2008). Feature extraction merupakan masalah penting dalam klasifikasi data dengan dimensi besar. Tujuan dari feature extraction adalah untuk menghasilkan satu set fitur yang memiliki dimensi lebih kecil dari dimensi dari data asli, sementara untuk tetap mempertahankan karakteristik data asli yang cukup untuk mengklasifikasikan data (Park & Choi, 2009). Metode feature extraction digambarkan dari dimensi data
yang tinggi ke ruang dimensi rendah dengan membangun ruang fitur baru. Saat ini, ada banyak metode ekstraksi fitur, seperti analisis komponen utama (PCA), non-linear dimensionality reduction (NLDR), independent component analysis (ICA), linear discriminant analysis (LDA), etc (Wang & Wei, 2016). Beberapa teknik klasifikasi yang telah diusukan dan meningkat selama beberapa tahun misalnya: Linear supervised classification yaitu: Rule-based classifier, Nearest-Neighbor classifier, Bayesian classifier, Principal Component Analysis (PCA), Decision Trees, Fisher discriminant analysis (FDA), Partial Least Squares (PLS); dan teknik non-linear classification yaitu: Artificial Neural Networks (ANN), Support Vector Machine (SVM), dan lainnya (Jing & Hou, 2015). Klasifikasi Naïve Bayes adalah klasifikasi probabilistik yang sederhana menerapkan teorema Bayes dengan asumsi independensi yang kuat (Li, Wu, & Ye, 2015) dan Principal Component Analysis dan Independent Component Analysis banyak digunakan adalah baik pengurangan dimensi dan alat diagnosis kesalahan. Selain diterapkan sebagai pengurangan dimensi,
Diterima 28 Februari 2017; Revisi 07 Maret 2017; Disetujui 15 Maret 2017
ISBN: 978-602-61242-0-3 juga diterapkan untuk kesalahan klasifikasi (Jing & Hou, 2015)(Cai, Tian, & Chen, 2014). Penelitian ini akan melakukan pendekatan metode feature extraction. Dengan metode principal componen analysis (PCA), independent component analysis (ICA), dan self organizing map (SOM) dengan algoritma klasifikasi Naïve Bayes. Metode feature extraction dan Naïve Bayes tersebut dimanfaatkan sebagai pendekatan klasifikasi dan perbandingan yang dibuat diukur dengan membandingkan accuracy dari ketiganya. Paper ini disusun dengan urutan sebagai berikut: Pada bagian 2, menjelaskan metode penelitian yang diusulkan akan dipaparkan. Selanjutnya pada bagian 3 akan menyajikan pembahasan. Kemudian pada bagian akhir bagian 4 akan disampaikan kesimpulan dari penelitian yang dilakukan. 2. Metode Penelitian Penelitian ini membahas performa salah satu teknik feature extraction yaitu PCA dengan algoritma klasifikasi Naïve Bayes. Dalam penelitian ini menerapkan tiga aturan pengurangan dimensi algoritma klasifikasi Naïve Bayes, yaitu (NB + PCA), (NB + ICA), dan (NB + SOM). Karena pendekatan feature extraction yang diusulkan bertujuan untuk mengatasi masalah yang timbul dari klasifikasi Naïve Bayes. Naïve Bayes didasarkan pada teorema Bayes. Oleh karena itu, meninjau teorema Bayes dan kemudian menggambarkan klasifikasi. List dari paket software data mining yang mendukung pembelajaran klasifikasi Naïve Bayes tersedia. Beberapa aplikasi klasifikasi Naïve Bayes tersedia dengan referensi (Brown, 2014). Teorema Bayes berasal dari persamaan: ( | ) ( ) ( )
( | )
Klasifikasi Naïve Bayes memperkirakan persamaan probabilitas berikut: ( ) ( | ) Keterangan: n , total nomor dari point data pada data set training ny , nomor dari point data target class y ny&xi , nomor dari point data dengan target class y KNiST, 30 Maret 2017
i , variabel atribut yang mengambil nilai dari xi PCA adalah teknik pengurangan variabel. Hal ini digunakan ketika variabel yang sangat berkorelasi. Hal ini mengurangi jumlah variabel yang diamati untuk sejumlah kecil komponen utama yang menjelaskan sebagian dari varians dari variabel yang diamati. Ini adalah prosedur sampel yang besar. Jumlah total varians dalam PCA adalah sama dengan jumlah variabel yang diamati dianalisis. Dalam PCA, mengamati variabel yang standar, misalnya, mean = 0, standar deviasi = 1, diagonal dari matriks sama dengan 1. jumlah perbedaan dijelaskan sama dengan jejak matriks (jumlah dari diagonal dari korelasi membusuk matriks). Jumlah komponen diekstraksi adalah sama dengan jumlah variabel yang diamati dalam analisis (Chandrashekar & Sahin, 2014). Konsep sentral dari PCA adalah untuk menurunkan dimensi dari dataset yang memiliki berbagai variabel yang saling terkait sementara tetap variasi di dalamnya sebanyak mungkin. Ini membangun yang disebut pemuatan vektor terdiri dari sekelompok vektor orthogonal. vektor ini diurutkan menurut nilai varians. Mempertimbangkan n × m dataset training (n observasi dan variabel pengamatan m) dan susun nilai tersebut ke matriks X, maka pemuatan vektor dihitung melalui dekomposisi eigenvalue.
mxm
Dimana V ∈ R adalah matriks kesatuan, dan Λ adalah matriks diagonal utama yang diurutkan berdasarkan besarnya penurunan nilai eigen nyata non negatif di sepanjang diagonal utamanya, (yaitu, λ1 ≥ λ2 ... ≥ λm ≥ 0) dan unsur-unsur sisa diagonal utama adalah nol. Vektor-vektor kolom dalam matriks V ortogonal, dan vektor dalam matriks yang diberi nama pemuatan vektor, th λi adalah i nilai karakteristik dari dataset 2 pelatihan. Statistik T dapat digunakan untuk mendeteksi kesalahan untuk proses data yang berhubungan antara dua variabel. T n×m Beranggapan bahwa Λ=Σ Σ , Σ∈R adalah terbalik, representasi PCA berikut digunakan 2 untuk menghitung statistik T secara langsung. ( ) 2
Statistik T untuk ruang dimensi yang lebih rendah harus dihitung sebagai berikut:
20
ISBN: 978-602-61242-0-3
Dimana P terdiri dari nilai-nilai singular terbesar, Σα mengandung baris pertama dari 2 Σ. Statistik T berasal dari: (
)( (
) )
( (
))
Dimana α adalah tingkat signifikan (Jing & Hou, 2015). SOM adalah salah satu model jaringan saraf yang paling populer untuk belajar tanpa pengawasan. kelompok SOM contoh data yang sama ke dalam 2D atau 3D kisi, yaitu, peta output. Di sisi lain, contoh data yang berbeda akan terpisah dalam peta output. Selain itu, beberapa sifat ruang input penting dapat disimpulkan dari itu peta keluaran. Algoritma SOM secara singkat dijelaskan n dalam apa yang berikut. Misalkan X ϵ R data manifold n-dimensi (De la Hoz, De La Hoz, Ortiz, Ortega, & Prieto, 2015). Peta SOM terdiri dari unit d, masing-masing diwakili oleh ωi model vektor n-dimensi. Untuk setiap input data misalnya v, Best Matching Unit (BMU) didefinisikan sebagai unit ωi terdekat v:
faktor tersembunyi yang mendasari satu set variabel acak. Dibandingkan dengan analisis komponen utama yang mencoba untuk mengubah Ulasan variabel ini menjadi satu set variabel berkorelasi, ICA mencoba untuk mengubah mereka menjadi variabel baru yang saling independen atau sebagai independen mungkin satu sama lain. Oleh karena itu teknik yang lebih kuat yang telah Banyak digunakan dalam memecahkan berbagai masalah klasifikasi, misalnya analisis microarray data dan klasifikasi EKG beat (Fan, Poh, & Zhou, 2009). Untuk mengukur kinerja pengurangan dimensi algoritma klasifikasi Naïve Bayes dengan menggunakan dataset heart disease for male. Untuk validasi menggunakan 10fold cross validation. Hasil pengukuran algoritma dengan membandingkan accuracy ketiga metode yang digabung dengan algoritma Naïve Bayes. Partisi Dataset Validation - 1 Validation - 2 Validation - 3 Validation - 4 Validation - 5
∈
Validation - 6
Dimana adalah jarak Euclidean dan X adalah dataset pelatihan. Setelah BMU ditentukan untuk iterasi saat ini, vektor Model diperbarui sesuai dengan aturan:
Validation - 7 Validation - 8 Validation - 9 Validation - 10
(
)
( )
( ) ( )(
( )) Gambar 1. Stratified 10 Fold Cross Validation
dimana α(t) adalah tingkat pembelajaran dan hi(t) adalah fungsi yang mendefinisikan lingkungan sekitar ωi BMU. Biasanya, α(t) berkurang menyusul aturan peluruhan eksponensial dan hi adalah teknik Gaussian yang lebar menyusut dalam waktu (iterasi). SOM telah diinisialisasi linear sebagai berikut untuk menghindari efek acak. Linear SOM prototipe inisialisasi bertujuan untuk mengakomodasi nilai-nilai eigen data training dan vektor eigen. Metode inisialisasi ini menyiratkan bahwa dimensi pertama dari prototipe diatur secara proporsional ke komponen utama pertama dan bahwa dimensi kedua diatur proporsional untuk komponen utama kedua (De la Hoz et al., 2015). Independent Component Analysis (ICA) adalah yang teknik multivariate statistical yang relatif baru untuk menemukan faktor-
KNiST, 30 Maret 2017
Proses pengujian metode dimulai dari pembagian dataset dengan metode 10-fold cross validation yang membagi dataset menjadi dua yaitu data training dan data testing. Selanjutnya diterapkan tahapan evaluasi menggunakan Area Under Curve (AUC) untuk mengukur hasil akurasi dari performa model klasifikasi. Hasil akurasi dilihat menggunakan curva Receiver Operating Characteristic (ROC) dan hasil confusion matrix. ROC menghasilkan dua garis dengan bentuk true positive sebagai garis vertikal dan false positive sebagai garis horizontal. Pengukuran akurasi dengan confusion matrix dapat dilihat pada tabel berikut ini:
21
ISBN: 978-602-61242-0-3
Tabel 1. Confusion Matrix Actual True Actual False True False Predicted Positive Negative(FN) True (TP) False True Predicted Positive Negative False (FP) (TN) Formulasi berikut:
perhitungan
adalah
sebagai
Gambar 2. Model Penerapan Pendekatan Feature Extraction dengan Algoritma Naïve Bayes
√
Dalam pengklasifikasian data menggunakan AUC penjelasannya sebagai berikut: Tabel 2. Nilai AUC dan Keterangan Nilai AUC Klasifikasi excellent classification 0.90 - 1.00 good classification 0.80 - 0.90 fair classification 0.70 - 0.80 poor classification 0.60 - 0.70 failure 0.50 - 0.60 Hasil pengukuran algoritma dengan membandingkan accuracy ketiga metode yang digabung dengan algoritma Naïve Bayes. 3. Pembahasan Dalam eksperimen ini menggunakan dataset heart disease male. Dataset diambil dari UCI repository yang terdiri dari data numerik dan nominal.
KNiST, 30 Maret 2017
Metode yang diuji untuk pengurangan dimensi algoritma klasifikasi Naïve Bayes dengan principal component analysis (PCA), independent component analysis (ICA), dan self organizing map (SOM). Hasil eksperimen yang disajikan dalam confusion matrix untuk mendapatkan hasil accuracy, sensitivity/recall, specitifity, FPrate, precision, F measure, dan G-mean. Confusion matrix merupakan matrik 2 dimensi yang menggambarkan perbandingan antara hasil prediksi dengan kenyataan. 3.1. Naïve Bayes dan PCA Berikut ini tabel pengukuran menggunakan Confusion Matrix yang didapat dari algoritma Naïve Bayes dengan Metode Principal Component Analysis (PCA): Tabel 3. Confusion Matrix NB+PCA True False Pred. True 19 10 Pred. False 10 24 Dari tabel tersebut didapat perhitungan accuracy, sensitivity/recall, specitifity, FPrate, precision, F measure, dan G-mean.
22
ISBN: 978-602-61242-0-3 3.3. Naïve Bayes dan SOM Berikut ini tabel pengukuran menggunakan Confusion Matrix yang didapat dari algoritma Naïve Bayes dengan Metode Self Organizing Map (SOM): Tabel 5. Confusion Matrix NB+SOM True False Pred. True 11 5 Pred. False 18 29 Dari tabel tersebut sebagai berikut:
didapat
perhitungan
√
3.2. Naïve Bayes dan ICA Berikut ini tabel pengukuran menggunakan Confusion Matrix yang didapat dari algoritma Naïve Bayes dengan Metode Independent Component Analysis (PCA): Tabel 4. Confusion Matrix NB+ICA True False Pred. True 13 7 Pred. False 12 31 Dari tabel tersebut sebagai berikut:
didapat
perhitungan √
Berdasarkan perhitungan dari penggabungan ketiga metode dengan algoritma Naïve bayes, dapat dijabarkan dalam tabel berikut: Tabel 6. Hasil Perhitungan dari Confusion Matrix NB+PCA NB+ICA NB+SOM Accuracy Recall Spesificity FPrate Precision F-Measure √
KNiST, 30 Maret 2017
Dari tabel diatas menunjukkan hasil accuracy dan spesificity tertinggi pada metode NB+ICA, sedangkan nilai recall dan FPrate oleh metode NB+SOM, serta nilai precision dan f-measure oleh metode NB+PCA. Dikukur dari tingkat akurasinya maka metode
23
ISBN: 978-602-61242-0-3 ICA lebih baik dibanding PCA dan SOM pada Naïve Bayes. Jika kita bandingkan lagi dengan tingkat error masing-masing metode dengan Naïve Bayes maka didapatkan data sebagai berikut: Tabel 7. Tingkat Error masing-masing metode NB+PCA NB+ICA NB+SOM 0.3175 0.3016 0.3651 Dari data tabel diatas didapatkan hasil bahwa NB+ICA memiliki tingkat error yang jauh lebih kecil dari pada PCA dan SOM yaitu sebesar 0.3016. Semakin kecil implikasi error suatu metode maka metode tersebut semakin baik. Dari hasil perbandingan nilai accuracy tertingi sebesar 69.86% dan memiliki tingkat error terkecil maka kinerja pengurangan dimensinya akan semakin baik. 4. Simpulan Penelitian ini menggunakan dataset heart disease for male dengan mengkomparasi algoritma Naïve Bayes dengan metode feature extraction untuk mengukur kinerja pengurangan dimensi algoritma Naïve Bayes. Dengan menggunakan validasi 10-fold cross validation. Dengan menggunakan dataset untuk menguji metode feature extraction terbaik dengan algoritma Naïve Bayes. Menggunakan Confusion Matrix untuk mendapatkan nilai accuracy, sensitivity/recall, specitifity, FPrate, precision, F measure, dan G-mean. Hasil penelitian dengan menggunakan pengukuran accuracy dan tingkat error menunjukkan metode feature extraction ICA lebih baik kinerja pengurangan dimensinya diimplementasikan menggunakan Naïve Bayes dibandingkan PCA dan SOM yaitu sebesar 69.84%. Referensi Bonev, B., Escolano, F., & Cazorla, M. (2008). Feature selection, mutual information, and the classification of high-dimensional patterns: Applications to image classification and microarray data analysis. Pattern Analysis and Applications, 11(3–4), 309–319. https://doi.org/10.1007/s10044-0080107-0 Brown, M. S. (2014). (For Dummies) Meta S. Brown-Data Mining For Dummies-Wiley Publishing Inc. (2014).pdf. Retrieved
KNiST, 30 Maret 2017
from www.wiley.com Cai, L., Tian, X., & Chen, S. (2014). A process monitoring method based on noisy independent component analysis. Neurocomputing, 127, 231–246. https://doi.org/10.1016/j.neucom.2013.0 7.029 Chandrashekar, G., & Sahin, F. (2014). A survey on feature selection methods. Computers and Electrical Engineering, 40(1), 16–28. https://doi.org/10.1016/j.compeleceng.2 013.11.024 De la Hoz, E., De La Hoz, E., Ortiz, A., Ortega, J., & Prieto, B. (2015). PCA filtering and probabilistic SOM for network intrusion detection. Neurocomputing, 164, 71–81. https://doi.org/10.1016/j.neucom.2014.0 9.083 Fan, L., Poh, K. L., & Zhou, P. (2009). A sequential feature extraction approach for na??ve bayes classification of microarray data. Expert Systems with Applications, 36(6), 9919–9923. https://doi.org/10.1016/j.eswa.2009.01.0 75 Jing, C., & Hou, J. (2015). SVM and PCA based fault classification approaches for complicated industrial process. Neurocomputing, 167, 636–642. https://doi.org/10.1016/j.neucom.2015.0 3.082 Li, L., Wu, Y., & Ye, M. (2015). Experimental comparisons of multi-class classifiers. Informatica (Slovenia), 39(1), 71–85. Park, M. S., & Choi, J. Y. (2009). Theoretical analysis on feature extraction capability of class-augmented PCA. Pattern Recognition, 42(11), 2353–2362. https://doi.org/10.1016/j.patcog.2009.04. 011 Wang, S., & Wei, J. (2016). Feature selection based on measurement of ability to classify subproblems. Neurocomputing, (March), 0–1. https://doi.org/10.1016/j.neucom.2016.1 0.062
24