Vol 2, No 3 Juni 2012
ISSN 2088-2130
PEMILIHAN FITUR OPTIMAL UNTUK TUGAS AKHIR MAHASISWA DENGAN METODE SUPPORT VECTOR MACHINE Devie Rosa Anamisa1), Eka Mala Sari Rochman2) 1,2
Teknik Informatika, Fakultas Teknologi Informasi Institut Teknologi Sepuluh Nopember Surabaya, Indonesia 1
[email protected]
ABSTRAK Kategorisasi teks merupakan salah satu solusi untuk mengelola informasi yang berkembang pesat dan tidak terorganisir. Meningkatnya kebutuhan para pengembang tugas akhir untuk mendapatkan informasi yang terkait dengan dokumen yang dibacanya saat ini, maka timbul permasalahan yaitu bagaimana mengelompokan dokumen tugas akhir secara otomatis yang sesuai bidang minat untuk membantu kategorisasi tugas akhir mahasiswa dengan mengusulkan fitur penting dari meta data antara lain dari sisi topik, abstrak, bidang minat dosen pembimbing dan referensi yang menjadi rujukan dalam dokumen tugas akhir sesuai dengan bidang minat jurusan, yaitu jaringan komputer, kecerdasan buatan dan sistem informasi. Tujuan penelitian ini adalah mengimplementasikan pemilihan fitur optimal menggunakan metode Support Vector Machine (SVM), yang nantinya digunakan sebagai masukkan klasifikasi tugas akhir. Metode SVM dapat meminimalisir tingkat error dengan memilih batas hyperplane yang terbaik. Analisis pengaruh dari pemilihan fitur tersebut dengan melihat performansi dari hasil klasifikasi berdasarkan precision dan recall. Dari percobaan yang telah dilakukan penerapan metode SVM dalam klasifikasi tugas akhir memiliki akurasi yang baik terbukti dengan tingkat presisi sebesar 56% dan recall sebesar 57% dan akurasi 61% untuk kategorisasi teks dengan lima fitur optimal. Kata kunci: Kategorisasi teks, Dokumen tugas akhir, SVM, Feature Selection.
ABSTRACT Text Categorization is one of solution to manage the rapidly growing information and disorganized.The increasing needs of the the final project developers to get more information are related the documents, so it raised problems are how to classify documents automatically appropriate with interest to help categorization final project of students with proposed important feature of the meta-data such as from the topic, abstract, field supervisor and the reference interest as the reference in the final document in accordance with their interests majors, namely computer networks, artificial intelligence and information systems.The purpose of the research is to implemention to optimal feature selection using support vector machine (SVM), which will be used as the desired classification of final project in universitas. SVM method can minimized the level of error with selecting the best hyperplane boundarys.Analysis of the effect from selection of features by looking at the performance from classification results based on precision and recall. From the experiments have been carried out applying with SVM method in the classification of final project has good accuracy as evidenced by a 56% level of precision and recall by 57% and 61% accuracy for text categorization with an optimal features. Keywords: text categorization, document the final task, SVM, Feature Selection.
350
Vol 2, No 3 Juni 2012
PENDAHULUAN Beberapa penelitian yang terkait dengan kategori teks menyatakan bahwa kateogorisasi teks merupakan salah satu penelitian penting dalam data mining. Untuk mengenali, memahami dan mengelompokkan tipe teks dari sebuah dokumen merupakan unsur penting dalam kategorisasi teks [1]. Kategorisasi teks merupakan sebuah permasalahan pemilihan kategori untuk sebuah teks yang memiliki karakteristik atau tanda-tanda umum yang dimiliki oleh teks, artikel atau dokumen tersebut. Suatu teks, artikel, atau dokumen berita dapat dikategorisasikan oleh beberapa kategori, tepat satu kategori, atau tidak termasuk dalam kategori manapun [2]. Permasalahan yang signifikan dalam kategorisasi teks adalah dimensionalitas data yang sangat tinggi. Dimensionalitas data yang sangat tinggi tersebut menyebabkan waktu pemrosesan menjadi lama dan membutuhkan memori yang lebih besar. Kategorisasi teks pada penelitian ini menggunakan formulasi analisa diskriminan serta untuk mengatasi ketogorisasi teks yang multi-class menggunakan metode SVM. Namun penambahan kriteria pada klasifikasi dokumen masih merupakan permasalahan karena analisa diskriminan menggunakan invers matriks untuk komputasinya sehingga prosesnya lama dan membutuhkan banyak dimensi data. Salah satu cara untuk mengatasi hal tersebut adalah dengan melakukan feature selection terhadap data. Feature selection dilakukan untuk memilih fitur-fitur penting dan relevan terhadap data dan membuang fitur-fitur yang tidak berpengaruh terhadap proses kategorisasi teks. Dengan demikian, dimensionalitas data dapat dikurangi. Namun kemudian muncul permasalahan, berapa banyak fitur yang harus digunakan, dan bagaimana untuk mem-validasi skema pemilihan tersebut. Untuk menjawab pertanyaan tersebut, Tae Yue Wang menggunakan metode klasifikasi teks, yaitu Support Vector Machine. Pemilihan metode tersebut didasarkan pada penelitianpenelitian sebelumnya yang menyebutkan bahwa metode tersebut memiliki performansi yang baik dalam permasalahan kategorisasi teks. Metode SVM (Support Vector Machines) berdasarkan pada prinsip Structural Risk Minimization (SRM) dimana penanganan terhadap error dilakukan terhadap kesalahan
pada training-set dan factor yang dipengaruhi oleh dimensi VC(Vapnik-Chervokinensis). Selain itu, pada SVM juga digunakan teknik mapping vektor input pada high dimensional feature space. Pada penelitian sebelumnya, SVM menunjukkan hasil yang baik untuk kategorisasi teks. Metode ini menghindari overfitting. Selain itu, SVM merupakan metode yang generalized, mampu mengklasifikasikan suatu pattern yang tidak termasuk data yang dipakai dalam fase learning. Beberapa studi empiris menunjukkan bahwa pendekatan SVM memberikan error generalisasi yang lebih sedikit dibandingkan metode lain yang menggunakan Empirical Risk Minimization yaitu strategi minimisasi kesalahan pada training-set [3]. Seleksi fitur adalah salah satu metode pengolahan awal data untuk menentukan fiturfitur yang akan diolah pada tahap berikutnya. seleksi fitur mereduksi jumlah fitur dan menghilangkan data yang tidak relevan. Meta data merupakan hal penting dalam kategorisasi teks, banyak penelitian yang membahas tentang content namun jarang sekali penelitian yang membahas tentang meta data. Dalam penelitian ini mengusulkan beberapa fitur penting dari meta data antara lain dari sisi topik, abstrak, bidang minat dosen pembimbing dan referensi yang menjadi rujukan dalam dokumen tugas akhir.
Kategorisasi Teks Pengklasifikasian teks sangat dibutuhkan dalam berbagai macam aplikasi, terutama aplikasi yang jumlah dokumennya bertambah dengan cepat. Ada dua cara dalam penggolongan teks, yaitu clustering teks dan klasifikasi teks. Clustering teks berhubungan dengan menemukan sebuah struktur kelompok yang belum kelihatan (tak terpandu atau unsupervised) dari sekumpulan dokumen. Sedangkan pengklasifikasian teks dapat dianggap sebagai proses untuk membentuk golongan-golongan (kelas-kelas) dari dokumen berdasarkan pada kelas kelompok yang sudah diketahui sebelumnya (terpandu atau supervised) Proses klasifikasi teks dapat dibagi ke dalam dua fase, yaitu [2], yang pertama fase information retrieval (IR) untuk mendapatkan data numerik dari dokumen teks. Pendekatan yang umum digunakan adalah distribusi 351
Devie Rosa Anamisa dkk, Pemilihan Fitur Optimal...
frekuensi kata. Nilai numerik yang diperoleh dapat berupa berapa kali suatu kata muncul di dalam dokumen, 1 jika kata ada di dalam dokumen atau 0 jika tidak ada (biner), atau jumlah kemunculan kata pada awal dokumen. Feature yang diperoleh dapat direduksi agar dimensi vektor menjadi lebih kecil. Beberapa pendakatan feature reduction dapat diterapkan seperti menghapus stop-words,stemming, statistical filtering. Sedangkan fase klasifikasi utama ketika suatu algoritma memroses data numerik tersebut untuk memutuskan ke kategori mana teks ditempatkan. Terdapat beberapa algoritma klasifikasi yang merupakan kajian di bidang statistika dan machine learning yang dapat diterapkan pada fase ini, di antaranya adalah k-Nearest Neighbor, Neural Network, dan Support Vector Machines. Teknik-teknik tersebut berbeda dalam mekanisme pembelajaran dan representasi model yang dipelajari [3].
METODE Support Vector Machine (SVM) adalah sistem pembelajaran yang menggunakan ruang hipotesis berupa fungsi-fungsi linier dalam sebuah ruang fitur (feature space) berdimensi tinggi, dipelatihan dengan algoritma pembelajaran yang didasarkan pada teori optimasi dengan mengimplementasikan learning bias yang berasal dari teori pembelajaran statistic[3]. Teori yang mendasari SVM sendiri sudah berkembang sejak 1960-an, tetapi baru diperkenalkan oleh Vapnik, Boser dan Guyon pada tahun 1992 dan sejak itu SVM berkembang dengan pesat. SVM adalah salah satu teknik yang relatif baru dibandingkan dengan teknik lain, tetapi memiliki performansi yang lebih baik di berbagai bidang aplikasi seperti bioinformatics, pengenalan tulisan tangan, klasifikasi teks dan lain sebagainya.
Gambar 1. Diagram Alir Proses Klasifikasi Dokumen
Gambar 2. Tahapan Feature Selection
SVM dibangun dengan konsep kebalikan dengan penerapan Neural Network (NN). SVM dibangun bermula dari penyampaian suatu konsep kemudian diekperimenkan dan diterapkan dalam suatu aplikasi, sedangkan NN berdasarkan heuristik (heuristics) yaitu berdasarkan pengalaman, kemudian diaplikasikan kemudian baru dibangun teorinya. Metode yang digunakan adalah Support Vektor Mechine dalam teknik klasifikasi dengan tahapan, ditunjukkan pada Gambar 1. Feature selection dilakukan pada proses feature selection dilakukan pemilihan atau penentuan karakteristik dari masing-masing teks atau dokumen. Terdapat beberapa fitur dalam dokumen tugas akhir berupa topik, abstrak, bidang minat dosen pembimbing dan referensi yang menjadi rujukan dalam dokumen tugas akhir tersebut. Kemudian sejumlah dokumen tersebut diolah menjadi representasi kata atau string (yang dipisahkan oleh spasi) yang merupakan bagian dari teks atau dokumen tersebut menjadi matrik vektor. Feature selection perlu dikakukan karena karakteristik yang di dapatkan akan menjadi sangat banyak, dapat dilihat pada Gambar 2. Preprocessing adalah Proses untuk mengkonsentrasikan input kepada fitur – fitur. Fitur dalam penelitian ini (topik, abstrak, bidang minat dosen pembimbing dan referensi yang menjadi rujukan dalam dokumen). Fitur tersebut akan menjadi input bagi SVM, yang kemudian akan mengklasifikasinya ke dalam kelas – kelasnya [4]. Tahapan yang dilakukan SVM untuk kategorisasi teks dapat dilihat pada Gambar 3.
Gambar 3. Proses SVM
352
Vol 2, No 3 Juni 2012
Pembentukan model adalah melakukan learning metode terhadap dokumen atau teksteks yang telah dikumpulkan sebagai data uji. data uji secara bersamaan akan diubah menjadi data vektor. Proses pengubahan data teks menjadi data vektor dilakukan dengan membaca kata satu persatu dan menghitung nilai tf-idf. Nilai tf-idf adalah kemunculan kata (term frequency) dalam kalimat dikalikan log jumlah dokumen/record dibagi jumlah dokumen/record yang mengandung kata yang dimaksud. Dinotasikan sebagai berikut [3] :
dihitung menggunakan suatu fungsi ukuran kemiripan (similarity measure). Ukuran ini memungkinkan perankingan dokumen sesuai dengan kemiripan (relevansi)nya terhadap query. Setelah dokumen diranking, sejumlah tetap dokumen top-scoring dikembalikan kepada pengguna. Alternatifnya, suatu threshold dapat digunakan untuk memutuskan berapa banyak dokumen akan dikembalikan. Threshold dapat digunakan untuk mengontrol tarik-ulur antara presisi dan recall.
w t ,d (1 log tft ,d ) log N / df t
Tabel 1. Hasil Implementasi Metode SVM Kategorisasi Akurasi Presisi (%) (%)
Recall (%)
Semua fitur
60,7
55,6
56,5
Dosen Pembimbing
58,7
84,6
38,9
Daftar Referensi
83,6
81,7
87,5
(1)
. tft,d adalah jumlah kemunculan term t pada dokumen d dibagi dengan jumlah kemunculan semua fitur pada dokumen d, sedangkan dft adalah invers dari frekuensi dokumen dan N adalah jumlah dokumen dalam korpus.
HASIL DAN PEMBAHASAN Eksperimen yang dilakukan adalah melihat kinerja dari algoritma klasifikasi dokumen teks yaitu metode SVM. Data eksperimen berupa evaluasi kinerja sebuah algoritma dalam pengkategorian teks antara lain adalah recall dan precision, dapat dilihat pada persamaan (2). Ukuran untuk mengevaluasi kinerja yang digunakan pada eksperimen adalah accuracy. Accuracy merupakan jumlah rata-rata dari hasil recall pada tiap kelasnya. Pada penelitian ini menggunakan proses steaming dan stopword yang dilakukan oleh [5]. |
| | | | | | | | | | |
(2)
TPi (true positive) adalah kumpulan dokumen yang memiliki klasifikasi benar berdasarkan kategori Ci, FP i adalah kumpulan dokumen false positive, dan FNi adalah kumpulan dokumen false negative. Model ruang vektor dan pembobotan tfidf digunakan untuk merepresentasikan nilai numerik dokumen sehingga kemudian dapat dihitung kedekatan antar dokumen. Semakin dekat dua vektor di dalam suatu SVM maka semakin mirip dua dokumen yang diwakili oleh vektor tersebut. Kemiripan antar dokumen
Beberapa studi empiris menunjukkan bahwa pendekatan SVM memberikan nilai presisi tinggi dan recall rendah dibandingkan metode lain contohnya pada penelitian[1] menyatakan nilai recall 3.6 % untuk SVM dan 8,3% untuk KNN (K-Nearest Neighbour). Sedangkan nilai presisi 99% untuk SVM dan 93% untuk KNN. Tabel 1 merupakan hasil implementasi pemilihan fitur optimal menggunakan metode support vector machine (SVM), yang nantinya digunakan sebagai masukkan klasifikasi tugas akhir. Pada penelitian ini masih terdapat kesalahan pada proses prediksi untuk menentukan tugas akhir yang sesuai dengan bidang minatnya. Dari 116 data yang telah diinputkan terdapat 25 tugas akhir yang tidak sesuai dengan bidang minat. Hal ini dikarenakan banyak terjadi kesamaan pada fitur Dosen pembimbing yaitu tidak sesuai dengan bidang minat. Fitur dosen pembimbing tidak menjadi pembeda yang baik sehingga nilai bobotnya kecil.
SIMPULAN DAN SARAN Dengan pengkategorisasian teks secara otomatis ini dapat membantu untuk mengalokasikan dan klasifikasikan dokumen dengan mudah karena dapat memudahkan
353
Devie Rosa Anamisa dkk, Pemilihan Fitur Optimal...
mahasiswa dalam mencari tugas akhir yang sesuai dengan bidang minat. Pembobotan pada tiga fitur optimal dalam kategorisasi teks ini dilakukan dengan perankingan pada setiap fitur. Hasil dari perankingan tersebut membuktikan bahwa fitur daftar referensi memiliki nilai ranking yang paling tinggi sedangkan untuk fitur dosen pembimbing berada pada ranking yang rendah. Kategorisasi dokumen tugas akhir dengan metode SVM dapat dikembangkan dengan menambahkan jumlah dokumen hingga lebih dari seratus lima puluh data latih dan menambahkan satu parameter minimum frekuensi untuk menghindari pemakaian kata yang tidak penting dalam percobaan.
DAFTAR PUSTAKA [1] Guo. Y, Shao. Z, Hua. N, Automatic Text Categorization Based on Content Analysis with Cognitive Situation Models, www.elsevier.com/locate/ins 180 613–630, 2010 [2] Li. T, Zhu. S, Ogihara. M, Text Categorization Via Generalized Discriminant Analysis, www.elsevier.com/locate/infoproman 44 1684–1697, 2008 [3] Wang. T.Y, Chiang H.M, Fuzzy Support Vector Machine for Multi-Class Text Categorization, www.elsevier.com/locate/infoproman 43 914–929, 2007 [4] Krisantus S, Support Vector Machine, Bandung, S1 Teknik Informatika, Sekolah Teknik Elektro dan Informatika, ITB, 2007. [5] Mahendra I.P.A, Penggunaan Algoritma Semut dan Confix Tripping Steammer untuk Klasifikasi Dokumen Berita Berbahasa Indonesia, Surabaya, Tugas Akhir Jurusan Teknik Informatika ITS, 2008.
354