BAB I. PENDAHULUAN 1.1. Latar Belakang Perkembangan dan luasnya penggunaan teknologi informasi dewasa ini mendorong banyak informasi yang tersedia dalam bentuk digital. Informasi tersebut dapat berupafile dokumen maupun multimedia. Penyimpanan digital memudahkan orang untuk mencari dan menemukan informasi berdasarkan kriteria tertentu dengan lebih mudah dan cepat.Salah satu cara yang digunakan adalah membuat klasifikasi sehingga pengguna dapat memilih informasi yang termasuk dalam kategori tertentu. Artikel jurnal merupakan salah satu jenis dokumen yang banyak disimpan dalam bentuk digital. Menurut estimasi dari Jinha(2010), terdapat 50 juta artikel jurnal dengan pertumbuhan 1,4 juta artikel per tahun. Artikel jurnal tersebut dipublikasikan oleh 25000 hingga 40000 jurnal dan 96% di antaranya terpublikasi online. Beberapa situs menyediakan bibliographic database untuk mengindeks dan mempermudah akses ke artikel dari berbagai jurnal. Bibliographic database biasanya juga menyediakan klasifikasi artikel jurnal yang dimuat di dalamnya. Klasifikasi artikel jurnal memiliki tantangan tersendiri, yaitu banyaknya istilah baru yang diperkenalkan kalangan ilmiah, serta penelitian lintas bidang ilmu, sehingga satu artikel bisa tergolong dalam lebih dari satu kategori. Oleh karena itu, multi-label classification diperlukan untuk artikel jurnal. Secara
umum,
classification(Tsoumakas
ada &
2
pendekatan
Katakis, 1
2007),
terhadap
antara
lain:
multi-label (1)
problem
2
transformation, yaitu objek multi-label diubah menjadi objek single-label kemudian diklasifikasikan seperti single-label classification dan (2) algorithm adaption, yaitu algoritma diubah agar dapat melakukan klasifikasi terhadap objek multi-label. Kelemahan dari problem transformation adalah output klasifikasinya berupa satu label untuk setiap objek. Pendekatan algorithm adaption mampu menerima input dan menghasilkan output berupa objek multi-label, tetapi pendekatan ini tidak memungkinkan untuk didahului oleh feature selection, yaitu proses mengurangi jumlah fitur yang digunakan untuk mempercepat klasifikasi. Sebagian besar algoritma feature selection hanya sesuai untuk data single-label, sehingga tidak dapat digunakan secara langsung pada himpunan data multi-label. Spolaor, Cherman, Monard, dan Lee (2013) merancang suatu model agar dapat menggunakan feature selection dan algorithm adaption. Kumpulan objek multi-label
dijadikan
kumpulan
objek
single-label
melalui
problem
transformation terlebih dahulu. Hal ini dilakukan agar dapat menerapkan algoritma feature selection yang hanya sesuai untuk single-label classification. Setelah
dilakukan
feature
selection,
data
kemudian
diklasifikasikan
menggunakan algoritma yang sudah disesuaikan untuk menghasilkan output objek multi-label. FSkNN adalah salah satu algoritma multi-label classification dengan pendekatan algorithm adaption yang cepat dan akurat. Algoritma ini lebih cepat dan akurat dibandingkan dengan MLkNN (Jiang, Tsai, & Lee, 2012). Sejauh pengetahuan
penulis,
hingga
saat
ini
belum
ada
penelitian
yang
mengkombinasikan feature selection dengan algoritma ini. Padahal, feature
3
selection bermanfaat dalam mengurangi waktu yang dibutuhkan dalam klasifikasi (Guyon & Elisseeff, 2003). Dalam penelitian ini, dua alternatif model dibuat, yaitu LP-ReliefF-FSkNN dan LP-DFS-FSkNN. Model dibuatmenggunakan pendekatan Spolaor, Cherman, Monard (2013) dengan urutan tahapanproblem transformation, feature selection, kemudian algoritma machine learninguntuk klasifikasi. FSkNN digunakan sebagai algoritma machine learning dalam model ini karena belum pernah dikombinasikan
dengan
problem
transformation
dan
feature
selection
sebelumnya. Algoritma feature selectionyang digunakan antara lainReliefF (RF) yang dikemukakan oleh Kononenko (1994) dan Distinguishing Feature Selector (DFS) yang dikemukakan oleh Uysal dan Gunal (2012). RF merupakan algoritma yang digunakan dalam penelitian asal dari Spolaor, Cherman, Monard, dan Lee (2013). Meskipun demikian, algoritma tersebut cukup kompleks bila dibandingkan dengan DFS sehingga mungkin memperlambat klasifikasi. Algoritma DFS digunakan dalam penelitian Uysal dan Gunal (2012). Algoritma ini cepat dan akurat dibandingkan dengan algoritma lain dalam penelitian tersebut, meskipun belum pernah diuji untuk masalah multi-label classification. Algoritma problem transformation yang digunakan adalah Label Powerset (LP) yang dikemukakan oleh Maimon dan Rokach(2009). Algoritma ini sesuai untuk kasus di mana satu label/kategori mungkin terkait dengan label/kategori lain seperti dalam penelitian ini. Penelitian ini bertujuan membuat dua buah model multi-label classification untuk artikel jurnal dengan dengan dua kombinasi algoritma, yaitu LP-ReliefF-
4
FSkNN dan LP-DFS-FSkNN, serta mengusulkan model yang terbaik dari kedua model tersebut berdasarkan kecepatan dan akurasinya.
1.2. Perumusan Masalah 1. Model multi-label classification mana yang lebih baik dari segi kecepatan dan akurasi antara LP-ReliefF-FSkNN dan LP-DFS-FSkNN?
1.3. Tujuan Penelitian Tujuan penelitian ini adalah: 1. Merancang dua model multi-label classification yang menggunakan kombinasi algoritma LP-ReliefF-FSkNN dan LP-DFS-FSkNN. 2. Mengusulkan model paling baik dari kedua model tersebut dari sisi kecepatan dan akurasi.
1.4. Manfaat Penelitian Manfaat penelitian ini adalah: 1. Menawarkan alternatif kombinasi algoritma yang cepat dan akurat untuk digunakan dalam masalah klasifikasi teks multi-label. 2. Menambah referensi dalam penelitian di bidang klasifikasi teks. 3. Sebagai rujukan dalam otomatisasi klasifikasi artikel dari berbagai jurnal di bibliographic database.
1.5. Ruang Lingkup Ruang lingkup penelitian ini adalah sebagai berikut: -
Jenis dokumen yang digunakan dibatasi hanya pada artikel jurnal.
5
-
Penelitian dilakukan dengan menggunakan data artikel jurnal pada bibliographic database Q-Journal (PT. Telkom Indonesia) dan proQuest.
-
Artikel jurnal yang digunakan hanya artikel berbahasa Inggris.
-
Penelitian dibatasi pada mengukur dan membandingkan waktu yang diperlukan dan akurasi dari model yang dibuat.
-
Kombinasi algoritma yang digunakan dibatasi pada LP-ReliefF-FSkNN dan
LP-DFS-FSkNN
6