KLASIFIKASI DOKUMEN MENGGUNAKAN METODE ROCCHIO DENGAN PEMILIHAN FITUR MENGGUNAKAN CHI-SQUARE
R. ANANDA RIZKI RAMDANI
DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2014
KLASIFIKASI DOKUMEN MENGGUNAKAN METODE ROCCHIO DENGAN PEMILIHAN FITUR MENGGUNAKAN CHI-SQUARE
R. ANANDA RIZKI RAMDANI
Skripsi sebagai salah satu syarat untuk memperoleh gelar Sarjana Komputer pada Program Studi Ilmu Komputer
DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2014
ABSTRACT R. ANANDA RIZKI RAMDANI. Documents Classification Using Rocchio Method With Feature Selection Using Chi-square. Supervised by JULIO ADISANTOSO. The drawback of document classification technique of a classification system is the significant increase of efforts when the contents of each document are large. One way to improve the performance of the classification system is by implementing the feature selection technique. This research implemented the Rocchio method as the document classifier and Chi-square as the feature selection technique at the significant level of 0.05 and 0.001. The document collections utilized in this research was taken from Reuters-21578 with 20 categories. The result showed that the effectiveness of classification in terms of F-measure and accuracy was insignificant. The highest F-measure value of 72.57% was achieved at a significant level of 0.001, or increasing 2.28% if compared with the previous F-measure value before feature selection method was applied. At a significant level of 0.05, the F-measure value was 72.42%. The obtained classification accuracy with feature selection technique was 83.67% at a significant level of 0.001 and 83.96% at a significant level of 0.05. These classification accuracies were higher than that without feature selection technique of 83.08%.
Keywords: document classification, feature selection, rocchio, chi-square
Penguji:
1 Mushthofa, S.Kom., M.Sc. 2 Sony Hartono Wijaya, S.Kom., M.Kom.
Judul Skripsi
: Klasifikasi Dokumen Menggunakan Metode Rocchio Dengan Pemilihan Fitur Menggunakan Chi-square
Nama
: R. Ananda Rizki Ramdani
NRP
: G64076047
Disetujui: Pembimbing
Ir. Julio Adisantoso, M.Kom. NIP. 19620714 198601 1 002
Diketahui: Ketua Departemen Ilmu Komputer
Dr. Ir. Agus Buono, M.Si., M.Kom. NIP. 19660702 199302 1 001
Tanggal Lulus:
PRAKATA Alhamdulillahi Rabbil’alamin, puji syukur penulis panjatkan ke hadirat Allah Subhanahu Wa Taala atas segala rahmat dan karunia-Nya, sehingga tugas akhir ini dengan judul Klasifikasi Dokumen Menggunakan Metode Rocchio dengan Pemilihan Fitur Menggunakan Chi-square dapat diselesaikan. Shalawat dan salam semoga Allah limpahkan kepada Nabi Muhammad Salallahu Alaihi Wasalam, keluarganya, sahabatnya, serta umatnya. Penelitian ini dilaksanakan mulai November 2011 sampai dengan Februari 2012, bertempat di Departemen Ilmu Komputer. Penulis menyadari bahwa tugas akhir ini tidak dapat terselesaikan tanpa bantuan dari berbagai pihak. Pada kesempatan ini penulis ingin mengucapkan terima kasih kepada: 1 Keluarga tercinta, almarhum Ayahanda Sastra Atmadja dan Ibunda Dedeh Nurhasanah selaku orang tua. Sellymia Sastra Muthia, Adinda Methanelia, dan Suriah Bahrami, selaku kakak dan adik-adik tercinta. Endang Sari Fatonah selaku istri. Terima kasih selalu memberikan doa, nasihat, semangat, dukungan dan kasih sayang yang luar biasa kepada penulis. 2 Bapak Ir. Julio Adisantoso, M.Kom. selaku dosen pembimbing sekaligus Ketua Program S1 Ilmu Komputer Penyelenggaraan Khusus yang telah membantu memberikan bimbingan, nasehat, dan motivasi kepada penulis. 3 Bapak Mushthofa, S.Kom., M.Sc. dan Sony Hartono Wijaya, S.Kom., M.Kom. selaku dosen penguji yang telah memberikan masukan, saran, dan motivasi kepada penulis. 4 Boma, Sandi, Ezha, Ahmad, Teguh, Waldy, dan Imam. Terima kasih atas kebersamaannya 5 Iqbal, Imam, Munarni, Andy, Wanda, Fitra, Arifa, Ziah, Helli, Fauzi, Joko, Decky, Kamal, Anggi, Jaka, Bursa, Tanti, serta seluruh rekan seperjuangan Ilmu Komputer Program Penyelenggaraan Khusus. 6 Ali Alkautsar dan Ade Opik selaku adik kelas. Terima kasih atas diskusinya selama ini. 7 Seluruh staf pengajar dan karyawan Departemen Ilmu Komputer FMIPA IPB. Semoga karya ilmiah ini bermanfaat.
Bogor, Februari 2014
R. Ananda Rizki Ramdani
RIWAYAT HIDUP Penulis dilahirkan di Bogor, pada tanggal 24 Januari 1984 merupakan anak kedua dari pasangan Ibu Dedeh Nurhasanah dan almarhum Bapak Sastra Atmadja. Pada tahun 2002 penulis lulus dari SMUN 1 Ciawi – Bogor dan pada satu tahun berikutnya penulis melanjutkan pendidikan Diploma 3 program Manajemen Informasi dan Dokumentasi, Departemen Ilmu Komputer, Insititut Pertanian Bogor dan lulus pada tahun 2006. Pada tahun 2007 penulis resmi sebagai mahasiswa Program Studi S1 Penyelenggaraan Khusus Departemen Ilmu Komputer, Institut Pertanian Bogor Penulis pernah bekerja sebagai web designer di PT. Pasarhosting Indonesia pada tahun 2005. Sejak tahun 2006 sampai dengan tahun 2010, penulis bekerja di PT. Pusat Media Indonesia dengan posisi yang sama yaitu sebagai web designer. Saat ini penulis berprofesi sebagai pekerja lepas di beberapa perusahaan untuk menangani perancangan antarmuka website.
DAFTAR ISI Halaman DAFTAR TABEL ............................................................................................................................ vi DAFTAR GAMBAR........................................................................................................................ vi DAFTAR LAMPIRAN .................................................................................................................... vi PENDAHULUAN ..............................................................................................................................1 Latar Belakang ..............................................................................................................................1 Tujuan ...........................................................................................................................................1 Ruang Lingkup .............................................................................................................................1 TINJAUAN PUSTAKA .....................................................................................................................1 Sistem Temu Kembali Informasi ..................................................................................................1 Klasifikasi .....................................................................................................................................1 Model Ruang Vektor ....................................................................................................................2 Pemilihan Fitur Dokumen .............................................................................................................2 Chi-square (𝜒2) .............................................................................................................................2 Klasifikasi Rocchio .......................................................................................................................3 Confusion Matrix ..........................................................................................................................3 METODE PENELITIAN ...................................................................................................................4 Gambaran Umum Sistem ..............................................................................................................4 Koleksi Dokumen .........................................................................................................................4 Praproses .......................................................................................................................................4 Pemilihan fitur ..............................................................................................................................4 Pembobotan ..................................................................................................................................5 Klasifikasi Rocchio .......................................................................................................................5 Evaluasi Hasil Klasifikasi .............................................................................................................5 HASIL DAN PEMBAHASAN ..........................................................................................................5 Pengembangan Sistem ..................................................................................................................5 Praproses Data ..............................................................................................................................5 Pemilihan Fitur .............................................................................................................................6 Evaluasi Hasil Klasifikasi .............................................................................................................6 KESIMPULAN DAN SARAN ..........................................................................................................8 Kesimpulan ...................................................................................................................................8 Saran .............................................................................................................................................9 DAFTAR PUSTAKA .........................................................................................................................9
DAFTAR TABEL Halaman 1 Tabel kontingensi ............................................................................................................................2 2 Nilai kritis 𝜒2 untuk taraf nyata 𝛼 dengan derajat bebas satu .......................................................3 3 Hasil pengukuran recall. .................................................................................................................7 4 Hasil pengukuran precision. ............................................................................................................8
DAFTAR GAMBAR Halaman 1 Matriks term-documents ..................................................................................................................2 2 Format Confusion Matrix (Hamel 2008) ........................................................................................3 3 Metode Penelitian. ...........................................................................................................................4 4 Jumlah kata pada tahap praproses data (jumlah awal) dan setelah pemilihan fitur (𝛼=0.05 dan 𝛼=0.001). .........................................................................................................................................6 5 Jumlah kata unik pada tahap praproses data (jumlah awal) dan setelah pemilihan fitur (𝛼=0.05 dan 𝛼=0.001). ..................................................................................................................................6 6 Grafik Akurasi pada setiap taraf nyata. ...........................................................................................7 7 Grafik F-measure (F1) pada setiap taraf nyata. ...............................................................................8
DAFTAR LAMPIRAN Halaman 1 Contoh isi dokumen .......................................................................................................................11 2 Daftar kelas ....................................................................................................................................12 3 Daftar tabel basisdata ....................................................................................................................13 4 Tampilan antarmuka sistem ...........................................................................................................14 5 Stoplist ...........................................................................................................................................17 6 Confusion matrix hasil klasifikasi tanpa pemilihan fitur ...............................................................18 7 Confusion matrix gasil klasifikasi dengan pemilihan fitur (𝛼=0.05) ............................................19 8 Confusion Matrix hasil klasifikasi dengan pemilihan fitur (𝛼=0.001) ..........................................20
1
PENDAHULUAN Latar Belakang Kemudahan dalam mengakses dan menyebarkan informasi saat ini menyebabkan informasi menjadi banyak dan beragam. Sejalan dengan hal ini, banyak orang cenderung lebih memilih informasi yang berguna secara selektif. Untuk itu diperlukan suatu metode dalam menyajikan dan mengorganisasikan informasi agar memudahkan pengguna dalam mencari informasi yang dibutuhkan. Salah satu metode pengorganisasian informasi adalah klasifikasi berdasarkan kategori atau kelas yang telah ditentukan. Salah satu tujuan dari klasifikasi teks atau dokumen adalah menggolongkan atau mengelompokkan suatu dokumen ke dalam suatu kategori tertentu (Manning et al. 2008). Isi dari uraian setiap dokumen dalam jumlah yang banyak mengakibatkan kerja yang lebih berat harus dilakukan oleh sistem classifier jika hanya mengandalkan teknik klasifikasi dokumen. Salah satu cara untuk meningkatkan kinerja dari sistem klasifikasi adalah dengan menerapkan teknik pemilihan fitur dokumen. Ada beberapa teknik yang digunakan untuk melakukan pemilihan fitur dokumen antara lain Document Frequency, Information Gain, Mutual Information, Term Strength, dan Chisquare (Yang & Pederson 1997). Pada penelitian sebelumnya, Paskianti (2011) dan Herawan (2011) yang masingmasing menggunakan teknik klasifikasi Naïve Bayes dan KNN Fuzzy menyimpulkan bahwa pemilihan fitur menggunakan Chi-square (𝜒2 ) pada 93 dokumen tumbuhan obat tidak memengaruhi kinerja klasifikasi. Data yang digunakan pada penelitian-penelitan tersebut dianggap kurang beragam dan jumlahnya sedikit sehingga Paskianti (2011) menyarankan agar penelitian berikutnya menggunakan data yang lebih banyak dan beragam. Selain itu, metode klasifikasi yang berbeda perlu dicoba dengan harapan dapat meningkatkan kinerja klasifikasi. Penelitian ini akan menerapkan metode Rocchio untuk klasifikasi dokumen dengan menggunakan pemilihan fitur Chi-square (𝜒2 ). Tujuan Tujuan penelitian ini adalah menerapkan metode Rocchio sebagai pengklasifikasi dokumen dengan menggunakan pemilihan fitur Chi-square (𝜒2 ) terhadap kinerja klasifikasi.
Ruang Lingkup Penelitian ini dibatasi pada klasifikasi dokumen berita berbahasa Inggris dan hanya memiliki satu domain.
TINJAUAN PUSTAKA Sistem Temu Kembali Informasi Sistem temu kembali informasi merupakan sistem pencari pada sekumpulan dokumen elektronik yang memenuhi kebutuhan informasi tertentu (Manning et al. 2008). Sistem temu kembali informasi bertujuan untuk menjembatani kebutuhan informasi pengguna dengan sumber informasi. Temu kembali informasi berkaitan dengan cara mempresentasikan, menyimpan, mengorganisasikan, dan mengakses informasi. Merepresentasikan dan mengorganisasikan suatu informasi harus membuat pengguna lebih mudah dalam mengakses informasi yang diinginkannya. Akan tetapi, bukan merupakan suatu hal yang mudah untuk mengetahui informasi yang diinginkan pengguna. Untuk itu, pengguna harus mentransformasikan informasi yang dibutuhkan ke dalam suatu kueri yang akan diproses mesin pencari sehingga kueri tersebut merepresentasikan informasi yang dibutuhkan oleh pengguna. Dengan kueri tersebut, mesin pencari akan menemukembalikan informasi yang relevan terhadap kueri (Baeza-Yates & Ribeiro-Neto 1999). Klasifikasi Klasifikasi dokumen merupakan proses menemukan sekumpulan model yang mendeskripsikan dan membedakan kelas-kelas data sesuai dengan kategori yang dimilikinya. Tujuan klasifikasi untuk memprediksikan kelas dari objek yang belum diketahui kelasnya dengan karakteristik tipe data yang bersifat kategorik. Proses klasifikasi dibagi menjadi dua fase, yaitu learning dan test. Pada fase learning, sebagian data yang telah diketahui kelas datanya (training set) digunakan untuk membentuk model. Selanjutnya pada fase test, model yang sudah terbentuk diuji dengan sebagian data lainnya untuk mengetahui akurasi model tersebut. Jika akurasinya mencukupi maka model tersebut dapat dipakai untuk memprediksi kelas data yang belum diketahui (Han & Kamber 2001).
2
Secara garis besar, klasifikasi dokumen terbagi dalam dua pendekatan, yaitu pendekatan berbasis peluang dan pendekatan ruang vektor. Pada klasifikasi dengan pendekatan berbasis peluang, kelas sebuah dokumen ditentukan dengan cara menghitung peluang dari sebuah dokumen berada di sebuah kelas. Metode yang sering digunakan pada pendekatan ini diantaranya Naïve Bayes dan Bernoulli Model. Pada pendekatan ruang vektor, setiap dokumen dianggap sebuah vektor. Pada pendekatan ini, kelas sebuah dokumen ditentukan dengan cara menghitung jarak atau kemiripan dokumen dengan pusat sebuah kelas. Metode yang sering digunakan pada pendekatan ini di antaranya Rocchio dan k Nearest Neighbor (KNN). Model Ruang Vektor Model ruang vektor atau vector space model (VSM) merupakan metode yang paling populer dalam temu kembali informasi (Manning et al. 2008). Dalam model ini, koleksi dokumen direpresentasikan oleh matriks term-documents. Setiap sel dalam matriks bersesuaian dengan bobot yang diberikan dari suatu term (T) dalam dokumen (D) yang ditentukan. Matriks termdocuments dapat didefiniskan pada Gambar 1. 𝑇1 𝑇2 𝐷1 𝑊11 𝑊21 𝐷2 𝑊12 𝑊22 ⋯ ⋯ ⋯ [𝐷𝑛 𝑊1𝑛 𝑊2𝑛
⋯ 𝑇𝑡 ⋯ 𝑊𝑡1 ⋯ 𝑊𝑡1 ⋯ ⋯ ⋯ 𝑊𝑡𝑛 ]
Bobot term i pada sebuah dokumen j (wij) dapat dihitung menggunakan ukuran tf-idf yang didefinisikan dengan persamaan berikut: 𝑁
𝑖
Chi-square (𝝌𝟐 ) Chi-square (𝜒2 ) adalah suatu ukuran yang menyatakan perbedaan antara frekuensi observasi (O) dan frekuensi harapan (E) untuk setiap term (i) yang dirumuskan dengan persamaan: 𝑛
𝜒2 = ∑ 𝑖=1
(𝑂𝑖 − 𝐸𝑖 )2 𝐸𝑖
(2)
Berdasarkan nilai 𝜒2 pada persamaan (2) dapat diambil suatu keputusan statistik apakah terdapat perbedaan antara pola frekuensi observasi dengan frekuensi harapan. Hipotesis nol (H0) diterima jika nilai perhitungan 𝜒2 lebih kecil dari nilai kritis pada derajat bebas dan tingkat nyata tertentu. Hipotesis nol (H0) ditolak jika nilai perhitungan 𝜒2 lebih besar dari nilai kritis pada derajat bebas dan tingkat nyata tertentu. Perhitungan nilai 𝜒2 pada setiap kata i yang muncul pada setiap kelas c dapat dibantu dengan menggunakan tabel kontingensi (Tabel 1). Tabel 1 Tabel kontingensi
Gambar 1 Matriks term-documents
𝑤𝑖𝑗 = 𝑡𝑓𝑖𝑗 × 𝑙𝑜𝑔 (𝑑𝑓 )
menjadi lebih sederhana serta untuk meningkatkan akurasi sistem klasifikasi. Peningkatan akurasi sistem klasifikasi disebabkan karena pada proses pemilihan fitur akan dihilangkan kata-kata yang bukan merupakan penciri dokumen (Manning et al. 2008).
(1)
dengan tfij merupakan frekuensi kemunculan term i di dalam dokumen j, N merupakan jumlah keseluruhan dokumen, dan dfi merupakan frekuensi kemunculan dokumen d yang mengandung term i. Pembobotan dilakukan jika tfij > 0. Pemilihan Fitur Dokumen Pemilihan fitur adalah proses memilih subset kata (term) yang dianggap mewakili informasi penting dari suatu dokumen. Fitur inilah yang kemudian digunakan pada tahap klasifikasi dokumen. Pemilihan fitur dokumen memiliki dua tujuan utama yaitu membuat data latih yang diterapkan oleh sistem klasifikasi
c
¬c
t
A
B
¬t
C
D
Perhitungan nilai 𝜒2 berdasarkan Tabel 1 disederhanakan dalam persamaan: 𝑁(𝐴𝐷−𝐶𝐵)2
𝜒2 (𝑡, 𝑐) = (𝐴+𝐶)(𝐵+𝐷)(𝐴+𝐵)(𝐶+𝐷)
(3)
dengan t merupakan kata yang sedang diujikan terhadap suatu kelas c, N merupakan jumlah dokumen latih, A merupakan banyaknya dokumen pada kelas c yang memuat kata t, B merupakan banyaknya dokumen yang tidak berada di kelas c yang memuat kata t, C merupakan banyaknya dokumen yang berada di kelas c yang tidak memuat kata t, dan D merupakan banyaknya dokumen yang tidak berada di kelas c dan tidak memuat kata t. Kata yang dipilih sebagai fitur adalah kata yang memiliki pengaruh terhadap kelas c. Kata yang memiliki nilai 𝜒2 di atas nilai kritis pada
3
taraf nyata 𝛼 dan derajat bebas satu adalah kata yang akan terpilih sebagai fitur. Jika jumlah kelas lebih dari dua, diutamakan untuk memilih satu set fitur yang sama untuk seluruh kelas daripada memilih set fitur yang berbeda untuk setiap kelas (Manning et al. 2008). Salah satu cara untuk melakukan hal ini yaitu dengan menghitung nilai 𝜒2 kata t pada setiap kelas. Kemudian term yang dipilih adalah term dengan nilai 𝜒2 tertinggi. Nilai kritis 𝜒2 dengan derajat bebas satu dan taraf nyata 𝛼 dapat dilihat pada Tabel 2. Tabel 2 Nilai kritis 𝜒2 untuk taraf nyata 𝛼 dengan derajat bebas satu 𝜶
Nilai kritis
0.1
2.71
0.05
3.84
0.01
6.63
0.005
7.83
0.001
10.83
Klasifikasi Rocchio Klasifikasi Rocchio merupakan metode klasifikasi yang merepresentasikan setiap dokumen dalam ruang vektor dan membagi ruang vektor tersebut menjadi beberapa bagian berdasarkan centroid yang ada. Klasifikasi Rocchio mudah dan sederhana, tetapi akurasinya buruk jika jarak antar-centroid-nya sama (Manning et al. 2008). Nilai centroid diperoleh dengan menghitung rata-rata vektor pada semua dokumen. Centroid kelas c dihitung dengan persamaan:
𝜇⃗(𝑐) =
1 ∑ 𝑣⃗(𝑑) |𝐷𝑐 |
(4)
𝑑∈𝐷𝑐
dengan Dc adalah gugus dokumen di kelas c, 𝑣⃗(𝑑) adalah vektor kata-kata dalam kelas c, dan 𝜇⃗(𝑐) adalah centroid masing-masing kelas. Salah satu cara untuk menentukan kecocokan dokumen uji terhadap kelas adalah dengan menghitung jarak Euclidean antara kedua titik (x dan y) yang didefinisikan dengan persamaan:
Confusion Matrix Confusion matrix atau disebut juga matriks klasifikasi adalah suatu alat visual yang biasanya digunakan dalam supervised learning. Matriks klasifikasi berisi jumlah kasus-kasus yang diklasifikasikan dengan benar dan kasuskasus yang salah diklasifikasikan. Pada Kasus yang diklasifikasikan dengan benar muncul pada diagonal, karena kelompok prediksi dan kelompok aktual adalah sama. Elemen-elemen selain diagonal menunjukkan kasus yang salah diklasifikasikan. Jumlah elemen diagonal dibagi total jumlah kasus adalah rasio tingkat akurasi dari klasifikasi. Format dari confusion matrix dapat dilihat pada Gambar 3.
Gambar 2 Format Confusion Matrix (Hamel 2008) Evaluasi kesamaan dokumen dapat diukur menggunakan recall, precision dan F-measure. Hasil klasifikasi (predicted class) memiliki kemungkinan yaitu benar dalam kelasnya (TP dan TN) atau salah, masuk kelas lainnya (FP dan FN). Hasil pengukuran (performace metric) dapat diperoleh dengan melihat pada format confusion matrix di atas. Akurasi dari pengklasifikasian diperoleh dari formula: Akurasi=
𝑖=1
(5)
(6)
Pengukuran lain yaitu recall, precision, F-measure (F1) dapat dinotasikan sebagai berikut: Recall=
TP TP+FN
Precision=
𝑚
|𝑥⃗ − 𝑦⃗| = √∑(𝑥𝑖 − 𝑦𝑖 )2
TP+TN TP+TN+FP+FN
F1=
TP TP+FP
2*Recall*Precision Recall+Precision
(7) (8)
(9)
Recall adalah tingkat keberhasilan pengenalan suatu kelas yang harus dikenali. Recall dinyatakan dalam jumlah pengenalan
4
entitas bernilai benar, dibagi dengan jumlah entitas yang seharusnya dapat dikenali oleh sistem. Sedangkan Precision adalah tingkat ketepatan hasil klasifikasi dari seluruh dokumen. Precision dihitung dari jumlah pengenalan yang bernilai benar oleh sistem, dibagi dengan jumlah keseluruhan pengenalan yang dilakukan oleh sistem. F-measure adalah nilai yang mewakili keseluruhan kinerja sistem dan merupakan gabungan nilai recall dan precision.
dokumen. Kata yang dihilangkan adalah kata yang sering muncul dalam koleksi dokumen dan tidak memunyai arti. 3 Proses stemming yaitu mengambil kata dasar dengan membuang imbuhan dari sebuah kata. Proses stemming dalam penelitian ini menggunakan metode Porter Stemmer.
METODE PENELITIAN Gambaran Umum Sistem Secara garis besar penelitian dilakukan dalam beberapa tahap meliputi praproses, pemilihan fitur dengan 𝜒2 , pembobotan term, pengklasifikasian dengan Rocchio, dan evaluasi hasil klasifikasi. Metode penelitian diilustrasikan pada Gambar 3. Koleksi Dokumen Koleksi dokumen yang digunakan adalah Reuters-21578 yang merupakan kumpulan artikel berita berbahasa inggris (David 1997). Jumlah seluruh dokumen yaitu 21578 yang terbagi ke dalam 118 kelas. Dalam penelitian ini jumlah kelas yang akan digunakan yaitu sebanyak 20 kelas. Kelas dipilih berdasarkan jumlah dokumen terbanyak. Setelah kelas yang akan digunakan terpilih, isi dokumen pada setiap kelas dibandingkan dengan isi dokumen pada kelas lainnya. Dokumen yang memiliki lebih dari satu kelas dihapus, sehingga dapat dipastikan tidak terdapat duplikasi dokumen yang akan digunakan pada proses pelatihan dan pengujian. Dari rangkaian proses tersebut diperoleh dokumen latih sebanyak 7107 dan dokumen uji sebanyak 2712. Contoh isi dokumen dan jumlah dokumen pada setiap kelas dapat dilihat pada Lampiran 1 dan 2. Praproses Praproses merupakan tahapan awal dalam proses klasifikasi dokumen setelah koleksi dokumen terkumpul. Praproses dalam penelitian ini dilakukan dalam beberapa tahapan, yaitu: 1 Tokenisasi dilakukan dengan memilah dokumen menjadi unit-unit yang lebih kecil berupa kata, kemudian seluruh huruf kapital dikecilkan (lower-casing). 2 Proses pembuangan stopwords yaitu dihilangkannya kata yang tidak berhubungan dengan subjek utama dari
Gambar 3 Metode penelitian. Pemilihan fitur Pada penelitian ini, pemilihan fitur dilakukan dengan metode uji 𝜒2 untuk melihat pengaruh term terhadap kelas. Penentuan fitur pada dokumen latih dilakukan dengan menghitung nilai 𝜒2 setiap term t pada kelas c yang dinyatakan dalam persamaan (3) kemudian diujikan pada taraf nyata 𝛼=0.05 dan 𝛼=0.001 dengan derajat bebas satu. Term yang dipilih sebagai penciri adalah term yang memiliki nilai 𝜒2 di atas nilai kritis 3.84 untuk 𝛼=0.05 dan 10.83 untuk 𝛼=0.001. Fitur yang dihasilkan pada proses ini kemudian digunakan untuk membangun model berbasis vektor. Model terdiri dari beberapa dokumen yang direpresentasikan sebagai vektor dari frekuensi kemunculan fitur. Proses pemilihan fitur pada dokumen uji cukup dilakukan dengan mencocokkan keberadaan term dokumen uji dengan dokumen latih. Jika term yang terdapat
5
pada dokumen uji tidak terdapat pada dokumen latih, term tersebut dihapus.
database dan tampilan utama antarmuka sistem dapat dilihat pada Lampiran 3 dan 4.
Pembobotan
Untuk melakukan pengindeksan, dokumen dikelompokan dan disimpan dalam sebuah direktori berdasarkan kelas. Kemudian class ‘indexer’ membaca isi seluruh dokumen untuk memperoleh indeks berdasarkan dokumen dan kelas. Keluaran yang dihasilkan pada proses ini berupa array yang berisi nama kelas dokumen, nama dokumen, nama term, dan jumlah term yang selanjutnya disimpan di dalam tabel ‘corpusTrain’ dan ‘token’.
Fitur yang terpilih diberi bobot (w) dengan pendekatan tf-idf menggunakan persamaan (1), dan dilanjutkan dengan normalisasi menggunakan persamaan:
𝑤𝑡,𝑑
𝑤𝑡,𝑑 =
2 √∑𝑚 𝑖=1 𝑤𝑖,𝑑
dengan 𝑤𝑡,𝑑 merupakan bobot term t pada dokumen d, dan wi,d merupakan bobot term ke-i pada dokumen d, dan m merupakan jumlah kata unik. Klasifikasi Rocchio Pada tahap ini centroid masing-masing kelas dihitung menggunakan persamaan (4). Kemudian, jarak Euclidean antara centroid setiap kelas dan vektor dokumen uji dihitung menggunakan persamaan (5). Hasil perhitungan ini digunakan untuk menentukan kelas untuk dokumen uji, yaitu dengan cara memilih nilai hasil perhitungan yang terkecil (terdekat). Klasifikasi dilakukan terhadap dua kelompok dokumen latih secara terpisah, yaitu dokumen latih yang telah melalui tahap pemilihan fitur dan dokumen latih tanpa melalui tahap pemilihan fitur. Evaluasi Hasil Klasifikasi Evaluasi dilakukan dengan cara membandingkan nilai akurasi (6), recall (7), precision (8), dan F-measure (9) yang diperoleh dari hasil uji klasifikasi pada setiap taraf. Tujuan tahap ini adalah untuk menganalisis pengaruh taraf nyata (𝛼) pada proses pemilihan fitur terhadap kinerja klasifikasi.
HASIL DAN PEMBAHASAN Pengembangan Sistem Sistem dibangun dengan menggunakan PHP 5.3.2 sebagai bahasa pemrograman, MySQL 5.1.44 sebagai basis data, dan Apache 2.0.63 sebagai webserver. Pengembangan sistem dilakukan dengan konsep pemrograman berbasis objek dengan empat class utama yang terlibat yaitu ‘indexer’ (indexer.php), ‘chisquare’ (chisquare.php), ‘rocchio’ (rocchio.php), dan ‘evaluator’ (evaluator.php). Tabel-tabel yang digunakan pada database yaitu tabel ‘corpusTrain’, ‘token’, ‘chiSquare’, ‘dictionary’, ‘termWeight’, ‘centroid’, ‘corpusTest’, dan ‘testResult’. Daftar tabel
Perhitungan nilai 𝜒2 dilakukan oleh class ‘chisquare’ dengan menggunakan data yang diperoleh dari tabel ‘token’ dan ‘corpusTrain’. Keluaran yang dihasilkan oleh class ini berupa array yang berisi nama kelas, nama term, dan nilai 𝜒2 yang selanjutnya disimpan di dalam tabel ‘chiSquare’. Untuk keperluan proses klasifikasi, daftar fitur yang telah diperoleh disimpan pada tabel ‘dictionary’ berdasarkan taraf nyata yang telah ditentukan. Fitur-fitur yang telah diperoleh selanjutnya digunakan untuk proses pelatihan dan pengujian klasifikasi yang dilakukan oleh class ‘rocchio’. Beberapa method utama yang berperan pada class ‘rocchio’ yaitu ‘countWeight’, ‘countCentroid’, dan ‘countDistance’ yang masing-masing berperan sebagai pembobot fitur, penghitung centroid, dan penghitung jarak Euclidean. Keluaran yang dihasilkan pada proses pelatihan berupa daftar nilai centroid pada setiap kelas dan taraf nyata yang selanjutnya disimpan pada tabel ‘centroid’. Keluaran yang dihasilkan pada proses pelatihan berupa array yang berisi nama kelas beserta hasil perhitungan jarak Euclidean antara centroid setiap kelas dan vektor dokumen uji yang selanjutnya disimpan pada tabel ‘testResult’. Evaluasi hasil klasifikasi dilakukan oleh class ‘evaluator’ dengan menggunakan data yang terdapat pada tabel ‘testResult’. Keluaran yang dihasilkan pada proses ini langsung ditampilkan pada antarmuka sistem berupa grafik perbandingan nilai akurasi, recall, precision, dan F-measure. Praproses Data Tahapan yang dilakukan pada praproses data adalah tokenisasi, pembuangan stopwords, dan stemming. Proses tokenisasi dilakukan dengan membaca setiap karakter pada sebuah dokumen untuk memperoleh kata tunggal. Pada proses ini, kata didefinisikan sebagai unit terkecil sebuah dokumen yang dipisahkan oleh karakter
6
selain huruf seperti spasi, titik, koma, dan tanda baca lainnya. Setelah hasil tokenisasi diperoleh, selanjutnya dilakukan penghilangan stopwords berdasarkan stoplist yang dapat dilihat pada Lampiran 5. Untuk memperoleh kata dasar, imbuhan setiap kata dihilangkan dengan menggunakan Porter Stemmer.
600000 503651 500000
338347
Dari seluruh rangkaian proses diatas, jumlah token yang dihasilkan pada 7107 dokumen latih yaitu sebanyak 503651 dengan total kata unik sebanyak 17623. Seluruh term yang diperoleh pada tahap ini akan digunakan untuk proses klasifikasi tanpa pemilihan fitur.
300000
Pemilihan Fitur
100000
Kata unik yang telah dihasilkan dari tahapan praproses kemudian diproses pada tahap pemilihan fitur. Pemilihan fitur dengan metode pengujian 𝜒2 dilakukan pada dua taraf nyata, yaitu 0.05 dan 0.001. Berdasarkan teori terpenuhinya hipotesis, taraf nyata 0.05 dapat diartikan bahwa kriteria kata yang dipilih adalah kata yang memiliki nilai 𝜒2 di atas 3.84 dan taraf nyata 0.001 diartikan sebagai kriteria kata yang dipilih adalah kata yang memiliki nilai 𝜒2 di atas 10.83. Pada taraf nyata 0.05, jumlah kata berkurang sebanyak 21.37% atau menjadi 396005, dan jumlah kata unik berkurang sebanyak 38.52% atau menjadi 10834. Pada taraf nyata 0.001, jumlah kata berkurang sebanyak 32.82% atau menjadi 299359, dan jumlah kata unik berkurang sebanyak 47.62% atau menjadi 9231. Hal ini menunjukkan bahwa proses pemilihan fitur dapat mengurangi jumlah kata karena yang terpilih hanyalah kata yang dianggap dapat menjadi penciri sebuah dokumen. Himpunan kata penciri pada taraf nyata 0.001 berjumlah lebih sedikit daripada jumlah kata penciri yang dihasilkan pada taraf nyata 0.05, hal ini disebabkan karena jumlah term pada masing-masing kelas yang memiliki nilai 𝜒2 di atas nilai kritis 10.83 lebih sedikit daripada jumlah term yang memiliki nilai 𝜒2 di atas nilai kritis 3.84. Perbandingan jumlah kata dan kata unik pada tahap praproses dan setelah pemilihan fitur dapat dilihat pada Gambar 4 dan 5.
396005
400000
200000
0 Jumlah awal
α = 0.05
α = 0.001
Gambar 4 Jumlah kata pada tahap praproses data (jumlah awal) dan setelah pemilihan fitur (𝛼=0.05 dan 𝛼=0.001).
20000 18000
17623
16000 14000 12000
10834 9231
10000 8000 6000 4000 2000 0 Jumlah awal
α = 0.05
α = 0.001
Gambar 5 Jumlah kata unik pada tahap praproses data (jumlah awal) dan setelah pemilihan fitur (𝛼=0.05 dan 𝛼=0.001). Evaluasi Hasil Klasifikasi Uji coba klasifikasi dilakukan menggunakan metode Rocchio dengan tiga perlakuan, yaitu klasifikasi tanpa melakukan pemilihan fitur dan klasifikasi yang terlebih dahulu dilakukan
7
pemilihan fitur menggunakan uji 𝜒2 pada taraf nyata 0.05 dan 0.001. Penilaian kinerja klasifikasi dilakukan dengan cara menghitung nilai akurasi, recall, precision, dan F-measure dengan bantuan tabel confusion matrix pada Lampiran 6, 7, dan 8. Proses pemilihan fitur mampu mengurangi jumlah term cukup signifikan, namun tidak membuang informasi penting pada setiap kelasnya. Hal ini ditunjukan dengan nilai akurasi pada setiap taraf nyata tidak memiliki perbedaan yang signifikan. Pada klasifikasi tanpa pemilihan fitur diperoleh nilai akurasi sebesar 83.08%, klasifikasi dengan pemilihan fitur pada taraf nyata 0.05 dan 0.001 masingmasing diperoleh nilai akurasi sebesar 83.96% dan 83.67%. Nilai akurasi pada setiap taraf nyata tidak banyak mengalami perubahan karena jumlah fitur yang diperoleh pada kedua taraf nyata tersebut tidak jauh berbeda. 100 90 80
70.29
72.42
72.57
Akurasi (%)
70 60 50 40 30 20 10 0 -
0.05 0.001 Taraf nyata (α)
Secara umum klasifikasi tanpa pemilihan fitur memiliki nilai recall lebih baik dibandingkan dengan klasifikasi tanpa pemilihan fitur yaitu sebesar 78.57%. Taraf nyata 0.001 memiliki nilai recall terendah yaitu sebesar 77.26%, dan nilai recall pada taraf nyata 0.05 adalah sebesar 78.55%. Tabel 3 Hasil pengukuran recall. Recall (%) -
0.05
0.001
acq bop carcass cocoa
81.64 63.33 76.47 100.00
86.23 66.67 76.47 100.00
86.23 66.67 76.47 100.00
coffee corn cpi crude dlr
92.31 72.22 62.50 83.52 81.40
92.31 72.22 62.50 78.57 81.40
88.46 59.26 62.50 81.32 72.09
earn gnp gold grain interest money-fx
88.27 94.74 86.21 71.11 66.93 56.70
88.18 94.74 86.21 70.00 66.93 56.70
87.90 94.74 82.76 71.11 64.57 63.92
money-supp oilseed ship sugar trade
75.86 83.33 69.77 96.00 69.05
72.41 83.33 67.44 96.00 72.62
65.52 83.33 72.09 96.00 70.24
78.57
78.55
77.26
Macro Average Gambar 6 Grafik Akurasi pada setiap taraf nyata. Terdapat beberapa term yang menghasilkan nilai perhitungan 𝜒2 yang tidak jauh berbeda pada setiap kelas menyebabkan adanya kemiripan makna isi dokumen pada beberapa kelas yang berbeda, sehingga terjadi kesalahan pelabelan kelas. Misalnya kata ‘saving’ dan ‘loan’ yang menjadi penciri kelas ‘money-supp’ banyak terdapat pada dokumen uji pada kelas ‘acq’, sehingga tidak sedikit dokumen yang tidak relevan yang seharusnya masuk ke dalam kelas ‘acq’ masuk ke dalam kelas ‘moneysupp’. Grafik Akurasi pada setiap taraf nyata dapat dilihat pada Gambar 6.
Taraf Nyata (𝜶)
Kelas
Penurunan nilai recall terjadi karena proses pemilihan fitur telah menghilangkan beberapa term yang memiliki informasi penting pada beberapa kelas, sehingga pengklasifikasi tidak mampu memberi label kelas yang benar untuk beberapa dokumen uji. Hal ini selaras dengan perbedaan jumlah fitur yang dihasilkan oleh kedua taraf nyata yaitu taraf nyata 0.05 menghasilkan fitur lebih banyak dibandingkan dengan jumlah fitur yang dihasilkan pada taraf nyata 0.001. Pada kelas ‘cocoa’ dan ‘sugar’, nilai recall yang diperoleh cenderung lebih tinggi dan tidak terdapat perubahan pada setiap taraf nyata. Hal ini karena term dokumen uji pada kedua kelas tersebut banyak yang tidak dimiliki oleh kelas
8
lain. Misalnya kata ‘arroba’ dan ‘brazilian’ hanya dimiliki oleh kelas ‘cocoa’ sehingga kemiripan fitur dokumen uji dengan fitur dokumen latih pada kelas lain sangat kecil. Selain itu jumlah fitur pada setiap taraf nyata pada dokumen latih kedua kelas tersebut tidak jauh berbeda, sehingga nilai recall pada setiap taraf nyata sama. Hasil pengukuran nilai recall dapat dilihat pada Tabel 3. Dari hasil perhitungan precision, klasifikasi dengan pemilihan fitur pada taraf nyata 0.001 memiliki nilai tertinggi yaitu sebesar 72.81%, sedangkan klasifikasi tanpa pemilihan fitur nilai terendah yaitu sebesar 77.26%. Hal ini menunjukkan bahwa pemilihan fitur berpengaruh terhadap rasio umlah dokumen relevan yang berhasil diklasifikasikan. Tabel 4 Hasil pengukuran precision. Precision (%) Taraf Nyata (𝜶)
Kelas -
0.05
dibandingkan dengan dokumen pada kelas lainnya. Hal ini menunjukkan bahwa perbedaan jumlah fitur pada setiap kelas mempengaruhi nilai precision pada setiap kelasnya. Kinerja klasifikasi secara keseluruhan dapat ditentukan dengan membandingkan nilai Fmeasure (F1) yang dihitung berdasarkan nilai recall dan precision yang diperlihatkan pada Tabel 3 dan 4. Pada Gambar 7 dapat dilihat bahwa nilai pemilihan F-measure mengalami peningkatan pada setiap taraf nyata. Nilai Fmeasure tertinggi diperoleh pada taraf nyata 0.001 yaitu sebesar 72.57% atau meningkat sebanyak 2.28% jika dibandingkan dengan nilai F-measure pada sebelum pemilihan fitur yang sebesar 70.29%. Pada taraf nyata 0.05 diperoleh nilai F-measure sebesar 72.42%. Peningkatan nilai F-measure lebih banyak dipengaruhi oleh meningkatnya nilai recall pada klasifikasi dengan pemilihan fitur. Karena nilai precision tidak menunjukkan perbedaan yang signifikan.
0.001
100
92.88
92.40
91.99
90
bop carcass cocoa coffee corn cpi
32.20 81.25 60.71 96.00 79.59 42.86
35.71 86.67 94.44 96.00 82.98 68.18
34.48 86.67 94.44 95.83 82.05 75.00
80
crude dlr earn gnp gold grain
86.86 66.04 99.58 26.47 78.13 78.05
85.12 63.64 99.69 30.51 75.76 79.75
85.55 70.45 99.69 27.69 77.42 80.00
interest money-fx money-supp
76.58 63.95 14.86
78.70 63.22 13.46
78.85 61.39 11.45
oilseed ship
83.33 52.63
83.33 50.88
100.00 58.49
sugar trade
77.42 63.74
75.00 66.30
80.00 64.84
Macro Average
67.66
71.09
72.81
Nilai precision yang tinggi cenderung dimiliki oleh dokumen uji dengan jumlah yang relatif besar pada setiap kelasnya seperti kelas ‘acq’ dan ‘earn’. Selain itu dokumen-dokumen yang terdapat pada kelas tersebut cenderung memiliki jumlah fitur yang lebih banyak
F-measure (%)
acq
70.29
72.42
72.57
70 60 50 40 30 20 10 0 -
0.05 0.001 Taraf nyata (α)
Gambar 7 Grafik F-measure (F1) pada setiap taraf nyata.
KESIMPULAN DAN SARAN Kesimpulan Penelitian ini menerapkan metode 𝜒2 untuk pemilihan fitur dan metode Rocchio untuk klasifikasi dokumen. Pemilihan fitur dilakukan dengan dua taraf nyata, yaitu 0.05 dan 0.001. Pemilihan fitur mampu mengurangi jumlah kata dan kata kunci yang akan digunakan untuk proses klasifikasi. Taraf nyata yang lebih tinggi menghasilkan jumlah fitur yang lebih sedikit.
9
Dengan mengacu kepada nilai evaluasi yang dihasilkan pada setiap taraf nyata, klasifikasi dengan pemilihan fitur dapat menghasilkan nilai kinerja yang lebih baik dibandingkan dengan klasifikasi tanpa pemilihan fitur. Meskipun terdapat peningkatan nilai kinerja, namun tidak ditemukan perbedaan nilai yang signifikan pada setiap taraf nyata. Saran Kesalahan pelabelan kelas pada beberapa dokumen uji disebabkan karena term yang memiliki nilai 𝜒2 tinggi pada salah satu kelas dapat dijadikan fitur untuk kelas yang lainnya, sehingga beberapa kelas memiliki fitur yang sama. Untuk penelitian selanjutnya disarankan untuk mengembangkan metode yang memungkinkan fitur yang terpilih tiap kelas berbeda sehingga diharapkan kinerja sistem klasifikasi dapat meningkat.
DAFTAR PUSTAKA Baeza-Yates R, Riberio-Neto B. 1999. Modern Information Retrieval. Harlow: Addison Wesley. David D. 1997. Reuters-21578 Text Categorization Test Collection Distribution 1.0. http://www.daviddlewis.com/resources/ testcollections/reuters21578/. [2 Nov 2011] Lutz Hamel. Model Assessment with ROC Curves. 2008. The Encyclopedia of Data Warehousing and Mining.2nd Edition.Idea Group Publishers. http://homepage.cs.uri. edu/faculty/hamel/pubs/. [28 Okt 2011]. Han J, Kamber M. 2001. Data Mining: Concept and Techniques. Ed. ke-2. San Francisco: Morgan Kaufmann Publishers. Herawan Y. 2011. Ekstraksi Ciri Dokumen Tumbuhan Obat Menggunakan Chi-kuadrat Dengan Klasifikasi Naïve Bayes. [Skripsi]. Bogor: Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor. Manning C, Raghavan P, Schűtze H. 2008. Introduction to Information Retrieval. Cambridge: Cambridge University Press. Paskianti K. 2011. Klasifikasi Dokumen Tumbuhan Obat Menggunakan Algoritme KNN Fuzzy [Skripsi]. Bogor: Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor. Yang Y, Pederson J. 1997. A Comparative Study on Feature Selection in Text
Categorization. Nashville, Tennessee, USA: International Conference Machine Learning 1997: 412-420. [8-12 Jul 1997]
LAMPIRAN
11
Lampiran 1 Contoh isi dokumen
INDIA TO GET U.K. COAL, STEEL INDUSTRY GRANTS NEW DELHI, March 14 - India will get 104.65 mln stg as grants from Britain to develop its coal, zinc and lead industries, the British Information Services said in a statement. It said a 31 mln stg grant would be disbursed over three to four years under an agreement signed here yesterday between the Indian Finance Ministry and the British Overseas Development Administration. The British grants for developing the Indian coal industry using British mechanised longwall technology totalled 52 mln stg in the past 10 years, it said. Under a separate agreement, the British government agreed to provide 73.65 mln stg as a grant to develop a zinc and lead mine at Rampura-Agucha and an associated smelting complex at Chaneriya, both in India's northern state of Rajasthan, the statement said. The grant will finance the basic engineering for the smelter complex to be undertaken by Britain's
of Stockton. It will also help develop the mine complex, it added.
12
Lampiran 2 Daftar kelas Kelas
Jumlah Dokumen Latih
Uji
acq
1650
719
bop
75
30
carcass
49
17
cocoa
55
17
coffee
101
26
corn
157
54
cpi
67
24
crude
370
182
dlr
126
43
earn
2843
1083
gnp
82
19
gold
83
29
grain
218
90
interest
329
127
money-fx
266
97
money-supply
123
29
49
18
ship
112
43
sugar
98
25
trade
254
84
7107
2712
oilseed
Jumlah
13
Lampiran 3 Daftar tabel basisdata
Tabel 'corpusTrain'
Tabel 'token'
Field
Tipe Data
Keterangan
Field
Tipe Data
Keterangan
docID
varchar (20)
Id dokumen latih
term
varchar (50)
class
varchar (20)
Nama kelas latih
docID
varchar (20)
tf
int (11)
Nama term (t) Id dokumen latih (d) yang mengandung term I Jumlah kemunculan term t pada dokumen d
Tabel 'chiSquare' Field
Tipe Data
Keterangan
term
varchar (50)
Nama term (t)
class
varchar (20)
x2
float
Nama kelas (c) Nilai 𝜒2 term t pada kelas c
Tabel 'termWeight'
Tabel 'dictionary' Field
Tipe Data
Keterangan
term
varchar (20)
tf
varchar (20)
df
text float
Nama term (t) Jumlah kemunculan term t Jumlah dokumen yang mengandung term t Taraf nyata
Field
Tipe Data
Keterangan
docID
varchar (20)
Id dokumen latih
term
varchar (50)
alpha
tf
int (11)
tfidf
float
Nama term (t) Jumlah kemunculan term t Bobot term t
alpha
float
Taraf nyata
Field
Tipe Data
Keterangan
class
varchar (20)
Nama kelas
term
varchar (20)
Nama term
centroid
float
Nilai centroid
alpha
float
Taraf nyata
Tabel 'corpusTest' Field
Tipe Data
Keterangan
docID
varchar (20)
Id dokumen uji
class
varchar (20)
Nama kelas uji
Tabel 'testResult' Field
Tipe Data
Keterangan
docID
varchar (20)
actual
varchar (20)
prediction
varchar (20)
Id dokumen uji Kelas aktual dokumen uji Kelas hasil pengujian uji
distance
float
Jarak Euclidean
alpha
float
Taraf nyata
Tabel 'centroid'
14
Lampiran 4 Tampilan antarmuka sistem
Halaman hasil proses pelatihan
Halaman Confusion Matrix
15
Lampiran 4 (Lanjutan)
Halaman hasil perhitungan recall
Halaman hasil perhitungan precision
16
Lampiran 4 (Lanjutan)
Halaman hasil perhitungan F-measure
Halaman hasil proses klasifikasi
17
Lampiran 5 Stoplist
a about above across after again against all almost alone along already also although always among an and another any anybody anyone anything anywher e are area areas around as ask asked asking asks at away b back backed backing backs be became because become becomes been before
began behind being beings best better between big both but by c came can cannot case cases certain certainly clear clearly come could d did differ different different ly do does done down down downed downing downs during e each early either end ended ending ends enough even
evenly ever every everybo dy everyon e everythi ng everywh ere f face faces fact facts far felt few find finds first for four from full fully further furthere d furtherin g furthers g gave general generall y get gets give given gives go going good goods got
great greater greatest group grouped groupin g groups h had has have having he her here herself high high high higher highest him himself his how however i if importa nt in interest intereste d interesti ng interests into is it its itself j just k keep keeps
kind knew know known knows l large largely last later latest least less let lets like likely long longer longest m made make making man many may me member member s men might more most mostly mr mrs much must my myself n necessar y need needed needing
needs never new new newer newest next no nobody non noone not nothing now nowhere number numbers o of off often old older oldest on once one only open opened opening opens or order ordered ordering orders other others our out over p part parted parting parts per
perhaps place places point pointed pointing points possible present presente d presenti ng presents problem problem s put puts q quite r rather really right right room rooms s said same saw say says second seconds see seem seemed seeming seems sees several shall she should show showed
showing shows side sides since small smaller smallest so some somebo dy someone somethi ng somewh ere state states still still such sure t take taken than that the their them then there therefor e these they thing things think thinks this those though thought thoughts three through
thus to today together too took toward turn turned turning turns two u under until up upon us use used uses v very w want wanted wanting wants was way ways we well wells went were what when where whether which while who whole whose why will with
within without work worked working works would x y year years yet you young younger younges t your yours z
Lampiran 6 Confusion matrix hasil klasifikasi tanpa pemilihan fitur Prediksi Aktual
acq bop carcass cocoa coffee corn cpi crude dlr
earn gnp gold grain interest
money- moneyoilseed ship sugar trade fx supp
acq bop
587 0
1 19
3 0
11 0
1 0
0 0
14 0
13 0
0 0
3 0
8 10
5 0
0 0
11 0
7 0
44 1
1 0
3 0
1 0
6 0
carcass
0
0
13
0
0
1
0
0
0
0
0
0
2
0
0
0
0
0
0
1
cocoa
0
0
0
17
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
coffee corn
0 0
0 1
0 0
0 0
24 0
0 39
0 0
0 0
0 0
0 0
0 0
0 0
0 13
0 0
0 0
0 0
0 0
1 0
0 1
1 0
cpi
0
1
0
0
0
0
15
1
0
0
6
0
0
1
0
0
0
0
0
0
crude
1
0
0
0
0
1
1
152
0
0
0
0
0
0
0
7
0
18
0
2
dlr earn
0 43
0 16
0 0
0 0
0 0
0 0
1 1
0 5
35 2
0 956
1 15
0 1
0 0
2 3
3 5
1 35
0 1
0 0
0 0
0 0
gnp
0
1
0
0
0
0
0
0
0
0
18
0
0
0
0
0
0
0
0
0
gold
0
0
0
0
0
0
0
0
1
0
0
25
0
0
0
2
0
0
0
1
grain interest
0 0
0 0
0 0
0 0
0 0
7 0
1 0
0 0
0 3
1 0
1 4
0 0
64 0
0 85
0 14
2 17
1 0
5 0
3 0
5 4
money-fx
0
1
0
0
0
0
1
0
12
0
1
0
0
5
55
15
0
0
0
7
money-supp oilseed
0 0
0 0
0 0
0 0
0 0
0 1
1 0
0 0
0 0
0 0
2 0
0 0
0 0
3 1
1 0
22 0
0 15
0 0
0 0
0 1
ship
1
0
0
0
0
0
0
3
0
0
0
1
1
0
0
1
0
30
2
4
sugar trade
0 0
0 19
0 0
0 0
0 0
0 0
0 0
0 1
0 0
0 0
0 2
0 0
0 2
0 0
0 1
0 1
0 0
0 0
24 0
1 58
18
Lampiran 7 Confusion matrix gasil klasifikasi dengan pemilihan fitur (𝛼=0.05) Prediksi Aktual
acq bop carcass cocoa coffee corn cpi crude dlr
earn gnp gold grain interest
money- moneyoilseed ship sugar trade fx supp
acq
620
1
2
1
1
0
0
16
0
1
1
6
1
8
5
46
0
3
2
5
bop carcass
0 0
20 0
0 13
0 0
0 0
0 1
0 0
0 0
0 0
0 0
9 0
0 0
0 2
0 0
0 0
1 0
0 0
0 0
0 0
0 1
cocoa
0
0
0
17
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
coffee
0
0
0
0
24
0
0
0
0
0
0
0
0
0
0
0
0
1
0
1
corn cpi
0 0
1 1
0 0
0 0
0 0
39 0
1 15
0 1
0 0
0 0
0 6
0 0
12 0
0 1
0 0
0 0
0 0
0 0
1 0
0 0
crude
1
0
0
0
0
1
0
143
0
0
1
0
0
0
1
11
1
20
0
3
dlr
0
0
0
0
0
0
1
0
35
0
1
0
0
1
3
2
0
0
0
0
earn gnp
49 0
13 1
0 0
0 0
0 0
0 0
0 0
4 0
2 0
955 0
15 18
1 0
0 0
3 0
5 0
36 0
0 0
0 0
0 0
0 0
gold
0
0
0
0
0
0
0
0
1
0
0
25
0
0
0
2
0
0
0
1
grain
0
0
0
0
0
6
3
0
0
1
1
0
63
0
0
4
2
4
2
4
interest
0
0
0
0
0
0
0
0
3
0
3
0
0
85
16
16
0
0
0
4
money-fx
0
1
0
0
0
0
1
0
14
0
1
0
0
5
55
15
0
0
0
5
money-supp
0
0
0
0
0
0
1
0
0
0
2
0
0
4
1
21
0
0
0
0
oilseed ship
0 1
0 0
0 0
0 0
0 0
0 0
0 0
0 3
0 0
1 0
0 0
0 1
0 0
1 0
0 0
0 1
15 0
0 29
0 3
1 5
sugar
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
24
1
trade
0
18
0
0
0
0
0
1
0
0
1
0
1
0
1
1
0
0
0
61
19
Lampiran 8 Confusion Matrix hasil klasifikasi dengan pemilihan fitur (𝛼=0.001) Prediksi Aktual
acq bop carcass cocoa coffee corn cpi crude dlr
earn gnp gold grain interest
money- moneyoilseed ship sugar trade fx supp
acq bop
620 0
1 20
2 0
1 0
1 0
0 0
0 0
15 0
0 0
1 0
1 9
6 0
1 0
8 0
4 0
48 1
0 0
3 0
1 0
6 0
carcass
0
0
13
0
0
1
0
0
0
0
0
0
2
0
0
0
0
0
0
1
cocoa
0
0
0
17
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
coffee corn
0 0
0 0
0 0
0 0
23 0
0 32
0 1
0 0
0 0
0 0
0 2
0 0
0 12
0 0
0 0
0 7
0 0
1 0
0 0
2 0
cpi
0
1
0
0
0
0
15
1
0
0
6
0
0
1
0
0
0
0
0
0
crude
1
0
0
0
0
1
0
148
0
0
1
0
0
0
2
11
0
15
0
3
dlr earn
0 52
0 15
0 0
0 0
0 0
0 0
0 0
0 4
31 2
0 952
1 14
0 1
0 0
2 2
7 6
2 35
0 0
0 0
0 0
0 0
gnp
0
1
0
0
0
0
0
0
0
0
18
0
0
0
0
0
0
0
0
0
gold grain
0 0
0 0
0 0
0 0
0 0
0 5
0 2
0 1
1 0
0 1
0 1
24 0
0 64
0 0
0 0
2 6
0 0
0 3
0 2
2 5
interest
0
0
0
0
0
0
0
0
2
0
4
0
0
82
18
17
0
0
0
4
money-fx
0
1
0
0
0
0
1
0
8
0
1
0
0
5
62
16
0
0
0
3
money-supp oilseed
0 0
0 0
0 0
0 0
0 0
0 0
1 0
0 0
0 0
0 1
5 0
0 0
0 0
3 1
1 0
19 0
0 15
0 0
0 0
0 1
ship
1
0
0
0
0
0
0
3
0
0
0
0
0
0
0
1
0
31
3
4
sugar trade
0 0
0 19
0 0
0 0
0 0
0 0
0 0
0 1
0 0
0 0
0 2
0 0
0 1
0 0
0 1
0 1
0 0
0 0
24 0
1 59
20