Prosiding SENTIA 2014-Politeknik Negeri Malang
Volume 6~ISSN:2085-2347
UJI KINERJA DAN ANALISIS K-SUPPORT VECTOR NEAREST NEIGHBOR DENGAN SVM DAN ANN BACK-PROPAGATION Eko Prasetyo1), Syariful Alim2), Harunur Rosyid3) 1,2) 3)
Program Studi Teknik Informatika, Fakultas Teknik Universitas Bhayangkara Surabaya Program Studi Teknik Informatika Fakultas Teknik Universitas Muhammadiyah Gresik email:
[email protected]),
[email protected]),
[email protected])
Abstrak Algoritma K-Support Vector Nearest Neighbor (K-SVNN) menjadi salah satu alternative metode hasil evolusi K-Nearest Neighbor (K-NN) yang bertujuan untuk mengurangi waktu yang digunakan pada saat prediksi tetapi diharapkan dapat tetap mempertahankan akurasi prediksi. Metode ini masih relatif muda sehingga baru dibandingkan hanya dengan metode-metode berbasis K-NN lainnya. Dalam penelitian ini dilakukan analisis perbandingan kesamaan, perbedaan, dan kinerja terhadap metode ANN Error Back-Propagation dan Support Vector Machine (SVM). Pengujian dengan perbandingan ini penting untuk mengetahui keunggulan dan kelemahan relatif yang dimiliki oleh K-SVNN. Dengan mengetahui keunggulan dan kelemahan maka metode tersebut dapat dibuktikan baik tidaknya ketika diimplementasikan. Hasil pengujian menunjukkan bahwa K-SVNN pada satu sisi lebih baik sedangkan pada sisi lain tidak lebih baik daripada dua metode pembanding lainnya. Pengujian dilakukan baik pada saat pelatihan maupun prediksi. Kinerja pelatihan diukur dalam hal waktu yang digunakan untuk pelatihan, kinerja prediksi diukur dalam hal waktu yang digunakan untuk prediksi dan akurasi prediksi yang didapat.
Kata kunci: Support Vector; Nearest Neighbor; Back-propagation; perbandingan; kinerja.
1.
Pendahuluan
Salah satu algoritma klasifikasi yang banyak mendapat perhatian para peneliti dan pembangun aplikasi adalah K-Nearest Neighbor (K-NN). K-NN juga masuk dalam jajaran 10 metode popular dalam data mining [4]. Kesederhanaan pada algoritma yang membuat K-NN mempunyai daya tarik untuk diimplementasikan dalam berbagai aplikasi. Tetapi kelemahan yang dihadapi K-NN adalah lamanya waktu yang digunakan untuk melakukan prediksi [2]. Masalah ini juga menjadi perhatian banyak peneliti untuk memperbaikinya agar kinerja waktu prediksi menjadi lebih singkat tetapi kinerja akurasi tetap baik. Karena hal tersebut maka algoritma K-NN telah mengalami banyak evolusi dalam berbagai penelitian baik untuk meningkatkan kinerja akurasi maupun kinerja waktu prediksi [5][6][7]. Hal lain yang penting untuk diketahui adalah bahwa jika K-NN versi klasik tidak ada proses pelatihan sama sekali, maka pada metode-metode berbasis K-NN yang berkembang ternyata secara implisit langung maupun tidak langsung memerlukan waktu untuk melakukan pelatihan. Algoritma K-Support Vector Nearest Neighbor (K-SVNN) [1] yang diusulkan Prasetyo bertujuan untuk melakukan reduksi pada set data latih yang digunakan untuk acuan dalam proses prediksi. Parameter penting yang berpengaruh pada hasil reduksi adalah K, dimana K adalah jumlah tetangga terdekat yang dilibatkan untuk mendapat support vector yang mempunyai pengaruh dalam penentuan
keputusan hasil prediksi. Support vector yang dimaksud disini adalah data-data yang berada pada posisi disekitar garis keputusan. Garis keputusan adalah garis yang membagi data menjadi dua kelas atau lebih berbeda. Pada berbagai kasus garis ini tidak linear, tetapi K-SVNN dan metode-metode berbasis K-NN lainnya dapat memproses data dengan garis keputusan yang tidak linear. K-SVNN membutuhkan K sebagai parameter yang menentukan jumlah data yang direduksi. Pengujian kinerja metode secara lokal untuk mengamati penggunaan K menyatakan bahwa semakin kecil nilai K maka jumlah data yang tersisa sebagai support vector semakin sedikit, begitu pula sebaliknya. Hasil pengujian kinerja metode secara lokal lainnya menyatakan bahwa prediksi yang dilakukan K-SVNN tidak dipengaruhi secara signifikan oleh nilai K yang digunakan pada saat reduksi. Pengujian kinerja secara global yang dilakukan sebelumnya adalah membandingkan K-SVNN dengan metode-metode berbasis K-NN lainnya seperti: KNN, Template Reduction K-Nearest Neighbor (TRKNN), dan Support Vector K-NN (SV-KNN). Hasil pengujian menyatakan bahwa kinerja akurasi prediksi dan waktu prediksi K-SVNN relatif lebih baik dibanding metode lainnya, hal ini terlihat dari akurasi yang didapatkan K-SVNN pada sebagian set data yang diujikan lebih baik daripada metode lainnya tetapi pada set data yang lain tidak lebih baik daripada metode lainnya. Sedangkan jumlah data yang dikeluarkan dari set data lebih banyak dibanding
B-173
Prosiding SENTIA 2014-Politeknik Negeri Malang
Volume 6~ISSN:2085-2347
metode lainnya, tetapi untuk hal ini masih dipengaruhi nilai K yang digunakan. Pengujian yang belum dilakukan pada K-SVNN adalah uji kinerja K-SVNN yang dibandingkan dengan metode klasifikasi yang lain. Perbandingan kinerja yang diamati adalah waktu yang digunakan untuk pelatihan, waktu yang digunakan untuk prediksi, dan akurasi kinerja prediksi. Makalah ini dibagi menjadi 5 bagian. Bagian 1 menyajikan pendahuluan yang melatarbelakangi penulis melakukan penelitian. Bagian 2 menyajikan penelitian-penelitian terkait yang menjadi dasar bagi penulis untuk melakukan penelitian. Bagian 3 menyajikan analisis perbandingan berbagai aspek ketiga metode yang dibandingkan. Bagian 4 menyajikan pengujian dan analisis yang dilakukan untuk mengukur kinerja ketiga metode. Dan bagian 5 menyajikan simpulan dari hasil penelitian dan saran untuk penelitian berikutnya. 2.
digunakan, semakin tinggi nilai K yang digunakan maka waktu yang dibutuhkan untuk melakukan prediksi juga semakin lama, begitu pula sebaliknya. K-SVNN juga melakukan generalisasi terhadap KNN dimana untuk K sama dengan jumlah data, maka tidak data yang dikeluarkan sehingga K-SVNN menghasilkan support vector yang sama dengan data latih sebelumnya. Hasil uji kinerja yang dibandingkan dengan metode-metode serumpun yaitu TR-KNN dan SVKNN menunjukkan bahwa kinerja akurasi prediksi dan waktu prediksi K-SVNN relatif lebih baik dibanding metode lainnya, hal ini terlihat dari akurasi dan waktu prediksi yang didapatkan K-SVNN pada sebagian set data yang diujikan lebih baik daripada metode lainnya tetapi pada set data yang lain tidak lebih baik daripada metode lainnya. Sedangkan jumlah data yang dikeluarkan dari set data lebih banyak dibanding metode lainnya, tetapi untuk hal ini masih dipengaruhi nilai K yang digunakan.
Tinjauan Pustaka 2.2 ANN Error Back-Propagation
2.1 K-Support Vector Nearest Neighbor Prasetyo [1] mengusulkan K-SVNN sebagai metode untuk mereduksi data latih sebelum melakukan prediksi. Ada waktu yang diperlukan KSVNN untuk melakukan tahap reduksi (disebut sebagai pelatihan). Hasil reduksi adalah sejumlah data latih yang punya pengaruh pada fungsi tujuan kemudian data latih yang didapatkan tersebut disimpan untuk digunakan sebagai acuan pada saat prediksi. Prasetyo menyatakan bahwa K-SVNN termasuk dalam kategori semi eiger learning. Hasil pengujian Parameter penting yang berpengaruh pada hasil reduksi adalah K, dimana K adalah jumlah tetangga terdekat yang dilibatkan untuk mendapat support vector yang mempunyai pengaruh dalam penentuan keputusan hasil prediksi. Support vector yang dimaksud disini adalah data-data yang berada pada posisi disekitar garis keputusan. Garis keputusan adalah garis yang membagi data menjadi dua kelas atau lebih berbeda. Pada berbagai kasus garis ini tidak linear, tetapi K-SVNN dan metode-metode berbasis K-NN lainnya dapat memproses data dengan garis keputusan yang tidak linear. K-SVNN membutuhkan K sebagai parameter yang menentukan jumlah data yang direduksi. Pengujian kinerja metode secara lokal untuk mengamati penggunaan K menyatakan bahwa semakin kecil nilai K maka jumlah data yang tersisa sebagai support vector semakin sedikit, begitu pula sebaliknya. Hasil pengujian kinerja metode secara lokal lainnya menyatakan bahwa prediksi yang dilakukan K-SVNN tidak dipengaruhi secara signifikan oleh nilai K yang digunakan pada saat reduksi. Waktu yang diperlukan untuk melakukan prediksi juga berbanding lurus terhadap nilai K yang
Artificial Neural Network (ANN) merupakan suatu konsep rekayasa pengetahuan dalam bidang kecerdasan buatan yang didesain dengan mengadopsi sistem saraf manusia, dimana pemrosesan utama sistem syaraf manusia ada di otak. ANN terdiri dari sebuah unit pemroses yang disebut neuron yang berisi penambah (adder) dan fungsi aktivasi, sejumlah bobot, dan sejumlah vektor masukan [3]. Fungsi aktivasi yang berguna untuk mengatur keluaran yang diberikan oleh neuron. ANN membutuhkan proses pelatihan agar ANN dapat melakukan prediksi kelas suatu data uji baru yang ditemukan. Proses pelatihan dalam ANN dapat menggunakan algoritma-algoritma seperti: Perceptron, Backpropagation, Self Organizing Map (SOM), Delta, Associative Memori, Learning Vector Quantization, dan sebagainya. Multi Layer Percetron (MLP) merupakan ANN turunan dari perceptron, berupa ANN feedforward dengan satu atau lebih layer tersembunyi (hidden layer). Biasanya, jaringan terdiri dari satu layer masukan, setidaknya satu layer neuron komputasi ditengah (tersembunyi/hidden), dan sebuah layer neuron komputasi keluaran. Sinyal masukan dipropagasikan dengan arah maju pada layer-perlayer. Banyak algoritma pelatihan yang tersedia, tetapi yang paling popular adalah back-propagation. Metode ini diusulkan pertama kali pada tahun 1969 oleh Bryson dan Ho. Cara pelatihan yang dilakukan algoritma back-propagation sama dengan perceptron. Sejumlah data latih sebagai pola masukan diberikan pada jaringan. Jaringan menghitung pola keluaran, jika ada error (perbedaan antara target keluaran yang diinginkan dengan nilai keluaran) maka bobot dalam jaringan akan diubah untuk mengurangi error tersebut.
B-174
Prosiding SENTIA 2014-Politeknik Negeri Malang
Volume 6~ISSN:2085-2347
Dalam MLP back-propagation, algoritma pelatihan mempunyai dua fase. Fase pertama, vektor/pola masukan diberikan pada layer masukan. Jaringan kemudian merambatkan pola masukan dari layer masukan ke hidden layer pertama, kemudian diteruskan ke layer hidden berikutnya sampai nilai keluaran dibangkitkan oleh layer keluaran. Fase kedua, jika nilai/pola keluaran berbeda dengan nilai keluaran yang diinginkan, error akan dihitung kemudian dirambatkan balik dari layer keluaran sampai kembali ke layer masukan. Bobot dimodifikasi selama proses perambatan balik. Parameter-parameter yang mempengaruhi kinerja ANN Error Back-propagation sebagai berikut: 1. Jumlah layer tersembunyi. Layer ini berfungsi untuk memetakan fitur-fitur tersembunyi dari fungsi tujuan kemudian menyalurkan sinyal keluarannya ke layer setelahnya. Dengan satu hidden layer, dapat merepresentasikan sembarang fungsi kontinyu dari sinyal masukan, dan dengan dua hidden layer fungsi diskontinyupun dapat direpresentasikan. 2. Jumlah neuron dalam layer tersembunyi. Neuron dalam hidden layer mendeteksi fiturfitur tersembunyi, bobot dari neuron dalam hidden layer merepresentasikan fitur tersembunyi dalam vektor masukan. Fitur-fitur tersembunyi ini kemudian digunakan oleh layer keluaran dalam penentuan pola/kelas keluaran. Semakin besar jumlah neuron dalam layer tersembunyi maka proses pelatihan menjadi lebih lama, tetapi jumlah yang sedikit dapat menyebabkan ANN manjadi underfitting. 3. Laju pelatihan (), digunakan untuk menentukan laju perubahan bobot. Nilainya dalam jangkauan 0 ≤ ≤ 1. 4. Momentum (), digunakan untuk menyeimbangkan proses pelatihan dengan overfitting yang kemungkinan dapat terjadi. Nilainya dalam jangkauan 0 ≤ ≤ 1. 5. Target error, digunakan untuk menentukan kriteria error yang harus dicapai sebagai ukuran bahwa ANN berhasil melakukan generalisasi data dengan baik. Nilainya biasanya kecil, e ≤ 0.001 6. Jumlah iterasi, nilainya digunakan untuk membatasi jumlah pelatihan jika targer error belum tercapai. 2.3 Support Vector Machine Metode klasifikasi yang kini banyak dikembangkan dan diterapkan adalah Support Vector Machine (SVM). Metode ini berakar dari teori pembelajaran statistik yang hasilnya sangat menjanjikan untuk memberikan hasil yang lebih baik dari metode yang lain [3]. SVM juga bekerja dengan baik pada dat set dengan dimensi yang tinggi, bahkan
SVM yang menggunakan teknik kernel harus memetakan data asli dari dimensi asalnya menjadi dimensi lain yang relatif lebih tinggi. Jika pada ANN, semua data latih akan dipelajari selama proses pelatihan, SVM tidak seperti itu, hanya sejumlah data terpilih saja yang berkontribusi untuk membentuk model yang digunakan dalam klasifikasi yang akan dipelajari. Hal ini menjadi kelebihan SVM karena tidak semua data latih akan dipandang untuk dilibatkan dalam setiap iterasi pelatihannya. Data-data yang berkontribusi tersebut disebut Support Vector. Konsep klasifikasi dengan SVM dapat dijelaskan secara sederhana sebagai usaha mencari hyperplane terbaik yang berfungsi sebagai pemisah dua buah kelas data pada input space. Hyperplane (decision boundary) pemisah terbaik antara kedua kelas dapat ditemukan dengan mengukur margin hyperplane tersebut dan mencari titik maksimalnya. Margin adalah jarak antara hyperplane tersebut dengan data terdekat dari masing-masing kelas. Data yang paling dekat ini disebut sebagai support vector. Usaha untuk mencari lokasi hyperplane ini merupakan inti dari proses pelatihan pada SVM. Parameter-parameter yang berpengaruh dalam kinerja SVM adalah sebagai berikut: 1. Alpha, nilai Lagrange multiplier () yang didapatkan dari proses pelatihan. 2. Bias, nilai bias (b) yang didapat dari pelatihan. Fungsi kernel, pilihan yang bisa digunakan: linear, quadratic, rbf, polynomial. 3.
Analisis Perbandingan
Metode-metode yang dilakukan pengujian kinerja dan analisis yaitu K-SVNN, ANN Error BackPropagation (ANN-EBP), dan SVM. Ketiga metode ini dapat digunakan untuk klasifikasi, tetapi berasal dari rumpun yang berbeda. K-SVNN diturunkan dari K-NN, ANN-EBP diturunkan dari Perceptron yang masih keluarga Artificial Neural Network, sedangkan SVM diturunkan dari formula-formula statistik. Karena berasal dari induk berbeda maka penggunaan parameter-parameter dalam penggunaannya juga berbeda, tetapi ketiga bertujuan sama, yaitu melakukan klasifikasi. K-SVNN yang dibandingkan terhadap ANN-EBP dan SVM tidak dibandingkan dalam hal parameter melainkan dalam hal kinerja, baik kinerja pada saat pelatihan maupun pada saat prediksi. Parameter-parameter untuk ketiga metode dipilih nilai-nilai yang dapat mengoptimalkan akurasi. Kinerja pelatihan diukur dalam hal waktu yang digunakan untuk pelatihan, kinerja prediksi diukur dalam hal waktu yang digunakan untuk prediksi dan akurasi prediksi yang didapat. Skema sistem yang dilakukan dalam penelitian ini seperti pada gambar 1.
B-175
Prosiding SENTIA 2014-Politeknik Negeri Malang
Volume 6~ISSN:2085-2347
4.
K-SVNN
ANN-EBP
PERBANDINGAN KINERJA: akurasi, waktu pelatihan, waktu prediksi
SVM
Hasil Perbandingan
Gambar 1. Skema perbandingan metode Hasil analisis yang dilakukan penulis dalam menemukan persamaan yang dimiliki oleh ketiga metode tersebut adalah sebagai berikut: 1. Ketiga metode memerlukan proses pelatihan sebelum model digunakan pada saat prediksi. 2. Ketiga metode dapat memproses data-data yang mempunyai garis keputusan yang tidak linear. Sedangkan perbedaan ketiga metode disajikan pada tabel 1. Hasil analisis pada saat pengamatan proses metode dapat dijelaskan sebagai berikut: 1. Penyimpanan sebagian set data latih ANN-EBP sama sekali tidak menyimpan satupun data yang digunakan pada saat pelatihan, hanya bobot terakhir yang didapat pada saat pelatihan saja yang disimpan. SVM menyimpan sebagian data yang mempunyai pengaruh pada fungsi tujuan (hyperplane). Sedangkan K-SVNN juga menyimpan sebagian data yang berpengaruh pada fungsi tujuan, tetapi komposisi data yang lolos menjadi support vector disini tidak sama dengan SVM. Dalam SVM, support vector didapat setelah melalui pemetaan oleh fungsi kernel, sedangkan KSVNN tidak menggunakan pemetaan. 2. Kriteria yang mempengaruhi kinerja ANN-EBP menggunakan banyak parameter yang harus ditetapkan diawal proses, pemilihan nilai ini juga menjadi hal yang sangat merepotkan, perlu pengetahuan yang luas untuk dapat memberikan set nilai yang tepat. SVM hanya menetapkan parameter fungsi kernel yang digunakan. Sedangkan K-SVNN hanya menggunakan K tetangga terdekat. Pemilihan nilai K juga menjadi hal yang sensitif. 3. Solusi global optima Solusi global optima merupakan solusi yang selalu mengarah pada jawaban yang sama pada setiap kali percobaan. Hanya SVM yang bisa dipastikan mengarah pada solusi yang global optima. Sedangkan K-SVNN relatif dipengaruhi oleh nilai K yang digunakan, untuk K yang sama pada setiap percobaan K-SVNN dapat mengarah pada solusi global optima, tetapi untuk K berbeda pada setiap percobaan KSVNN dapat terjebak pada solusi lokal optima.
Secara implisit/eksplisit menggunakan fungsi kernel SVM secara eksplisit menggunakan fungsi kernel. ANN-EBP secara implicit menggunakan fungsi kernel, ini bisa diamati pada layer tersembunyi, dimana latyer tersembunyi seolah memetakan data masukan ke dimensi yang relatif lebih tinggi. Sedangkan K-SVNN sama sekali tidak menggunakan fungsi kernel, hal ini menjadi salah satu keunggulan K-SVNN dibandingkan dua metode lainnya. 5. Kebutuhan memori Memori yang digunakan oleh SVM adalah untuk menyimpan hasil pemetaan pasangan data hasil dari fungsi kernel. ANN-EBP hanya membutuhkan sejumlah variabel untuk menyimpan nilai bobot. Sedangkan ukuran memori yang dibutuhkan K-SVNN setara dengan SVM karena K-SVNN harus menyimpan semua jarak pasangan data. 4.
Pengujian Kinerja dan Analisis Hasil
Pengujian dilakukan terhadap empat set data publik yang diunduh dari UCI Machine Learning Repository [8], yaitu: Iris (150 record, 4 fitur), Vertebral Column (310 record, 6 fitur), Wine (178 record, 13 fitur), dan Glass (214 record, 9 fitur). Sistem pengujian menggunakan 5 fold, dimana 80% digunakan sebagai data latih dan 20% digunakan sebagai data uji. K-SVNN yang diuji dalam penelitian ini masih bekerja hanya pada dua kelas saja, sehingga harus dilakukan penggabungan beberapa kelas berbeda menjadi satu kelas pada data set yang komposisi kelasnya lebih dari dua, yaitu Iris, dilakukan penggabungan data dengan label kelas „setosa‟ dan „versicolor‟ menjadi satu kelas. Karena data-data pada setiap fitur mempunyai jangkauan nilai yang berbeda,maka dilakukan pra-pemrosesan yaitu normalisasi. Sebelum dilakukan proses pengujian, semua data pada setiap fitur dilakukan normalisasi agar nilai pada setiap fitur menggunakan jangkauan yang sama yaitu [0,1]. Untuk K-SVNN, pengujian dilakukan menggunakan nilai K = 13 baik untuk pelatihan maupun prediksi. Untuk ANN-EBP menggunakan parameter-parameter sebagai berikut: jumlah layer tersembunyi = 1, jumlah neuron dalam layer tersembunyi = 150, laju pembelajaran = 0.1, momentum = 0.95, target error = 0.001, dan jumlah iterasi maksimal = 1000. Sedangkan SVM diuji menggunakan fungsi kernel rbf. Hasil pengujian untuk akurasi disajikan pada tabel 2, hasil pengujian untuk waktu yang digunakan dalam proses pelatihan disajikan pada tabel 3, hasil pengujian untuk waktu yang digunakan dalam proses prediksi disajikan pada tabel 4. Dari hasil disajikan pada tabel 2, dapat diamati bahwa K-SVNN mempunyai akurasi prediksi yang relatif lebih baik
B-176
Prosiding SENTIA 2014-Politeknik Negeri Malang
Volume 6~ISSN:2085-2347
daripada metode pembanding, kolom keterangan memberikan point keunggulan K-SVNN dibanding metode lainnya. Khusus perbandigan dengan SVM, ternyata K-SVNN unggul pada 2 set data yaitu Iris dan Wine, sedangkan untukVertebral Column dan Glass masih dibawah SVM, hal ini menjadi kelebihan relatif K-SVNN dibanding SVM mengingat SVM mempunyai kinerja prediksi sudah terbukti baik tetapi dengan komputasi yang lebih mahal. Hasil pengujian waktu yang digunakan selama proses pelatihan menunjukkan bahwa K-SVNN juga relatif lebih singkat dibanding metode lainnya. Untuk set data Iris, perbandingan dengan SVM ternyata KSVNN 14 kali lebih singkat, sedangkan dengan ANNEBP 655 kali lebih singkat. Khusus untuk Wine, SVM lebih unggul dibanding K-SVNN, walaupun hanya beda tipis 6 mili detik. Tabel 2. Akurasi prediksi Akurasi (%) Set data Ket. K-SVNN ANN-EBP SVM
Daftar Pustaka:
44.00
96.00
**
77.10
62.90
83.55
*
87.13
48.90
82.08
**
Glass
88.37
74.35
90.70
*
Ket.
Iris
23.03
15070.08
336.78
**
Ver. Col.
58.77
28772.44
2781.90
**
Wine
32.26
3990.88
26.94
Glass
37.12
21848.48
1196.36
Tabel 4. Waktu prediksi Waktu (milidetik) Set data K-SVNN ANN-EBP
SVM
Simpulan
Ket.
96.67
SVM
5.
Dari pengujian dan analisis yang dilakukan dalam penelitian ini dapat disimpulkan sebagai berikut: 1. K-SVNN mempunyai akurasi yang relatif lebih baik dan waktu pelatihan yang relatif lebih singkat daripada ANN-EBP dan SVM 2. Dalam hal waktu prediksi, K-SVNN tidak lebih baik dari pada SVM, tetapi lebih baik daripada ANN-EBP. 3. Waktu yang digunakan K-SVNN untuk pelatihan masih boleh dikatakan jauh lebih singkat jika dibandingkan dua metode lainnya. Saran yang dapat diberikan dari hasil penelitian ini adalah sebagai berikut: 1. Pengujian dalam penelitian ini hanya diterapkan pada 4 set data saja, sehingga hasil yang didapat dari penelitian ini masih relatif terhadap set data yang sudah diuji saja. Perlu pendalaman lebih lanjut dengan mengujinya pada set data yang lain. 2. K-SVNN masih perlu dibandingkan dengan metode-metode klasifikasi yang lain, seperti: decision tree, atau naïve bayes, untuk mengetahui sejauh mana perbandingan kinerja dari metode yang lain ketika diimplementasikan. 3. K-SVNN mempunyai peluang untuk dapat digunakan sebagai pekerjaan pra-pemrosesan pada set data sebelum digunakan sebagai data latih baik pada ANN-EBP maupun SVM, tetapi tentu saja hal ini harus dibayar oleh waktu komputasi yang dibutuhkan untuk melakukan reduksi.
Iris Ver. Col. Wine
Tabel 3. Waktu pelatihan Waktu (milidetik) Set data K-SVNN ANN-EBP
melakukannya, yang secara komputasi tentu saja lebih mahal. Dari analisis pengujian yang dilakukan pada 3 masalah tersebut, dapat dinyatakan bahwa K-SVNN pada satu sisi lebih baik sedangkan pada sisi lain tidak lebih baik daripada dua metode pembanding lainnya.
* **
Iris
2.38
1.72
10.86
*
Ver. Col.
6.09
3.38
13.10
*
Wine
6.92
2.40
11.53
*
Glass
3.64
2.20
18.02
*
E. Prasetyo, “K-Support Vector Nearest Neighbor untuk Klasifikasi Berbasis K-NN”, in proceding Seminar Nasional Sistem Informasi Indonesia, Jurusan Sistem Informati ITS, Surabaya, 2012. [2] P.N. Tan, M. Steinbach, V. Kumar, “ Introduction to Data Mining”, 1st Ed, Pearson Education: Boston San Fransisco New York, 2006. [3] E. Prasetyo, “Data Mining – Konsep dan Aplikasi Menggunakan Matlab”, edisi 1, Andi Offset: Yogyakarta, 2012. [4] X. Wu, V. Kumar, “The Top Ten Algorithms in Data Mining”, CRC Press Taylor & Francis Group: Boca Raton London, 2009. [1]
Hasil pengujian untuk waktu prediksi menunjukkan bahwa K-SVNN masih kalah dibandingkan ANN-EBP pada semua set data. Hal ini sangat beralasan karena ANN-EBP tidak menggunakan sama sekali set latih yang sudah dilatihkan terhadapnya sehingga proses prediksi menjadi lebih singkat. Sedangkan K-SVNN selalu lebih unggul dibanding SVM, hasil juga sangat beralasan mengingat K-SVNN tidak menggunakan fungsi kernel untuk memetakan data ke dimensi baru yang relatif lebih tinggi, sedangkan SVM
B-177
Prosiding SENTIA 2014-Politeknik Negeri Malang
Volume 6~ISSN:2085-2347
K.C. Gowda, G. Krishna, G, “The Condensed Nearest Neighbor Rule Using the Concept of Mutual Nearest Neighborhood”, IEEE Transactions on Information Theory. 25 (4), 1979, pp.488-490. [6] A. Srisawat, T. Phienthrakul, B. Kijsirikul, “SVKNNC: An Algorithm for Improving the Efficiency of K-Nearest Neighbor”, In: Qiang Yang, Geoffrey I. Webb. The 09th Pacific Rim International Conference on Artificial [5]
Intelligence (PRICAI-2006). Guilin, China, 7-11 August 2006. Springer-Verlag Berlin Heidelberg, 2006. [7] H.A. Fayed, A.F. Atiya, “A Novel Template Reduction Approach for the K-Nearest Neghbor Method”, IEEE Transaction on Neural Network, 20(5), 2009, pp.890-896. [8] UCI Machine Learning Repository , 20 Mei 2012, http://archive.ics.uci.edu/ml/datasets.html
B-178