BAB I Pendahuluan
1. Latar Belakang Masalah Semakin canggihnya teknologi di bidang komputasi dan telekomunikasi pada masa kini, membuat informasi dapat dengan mudah didapatkan oleh banyak orang. Kemudahan ini menyebabkan informasi menjadi semakin banyak dan beragam. Informasi dapat berupa dokumen, berita, surat, cerita, laporan penelitian, data keuangan, dan lain-lain. Tidak dapat dipungkiri lagi informasi telah menjadi komoditi yang paling penting dalam dunia modern masa kini. Seiring dengan perkembangan informasi, banyak pihak menyadari bahwa masalah utama telah bergeser dari cara mengakses informasi menjadi memilih informasi yang berguna secara selektif. Usaha untuk memilih informasi ternyata lebih besar dari sekedar mendapatkan akses terhadap informasi. Pemilihan atau penemuan kembali informasi ini tidak mungkin dilakukan secara manual karena kumpulan informasi yang sangat besar dan terus bertambah besar.maka perlu adanya suatu proses pengolahan dokumen-dokumen yang berisi informasi.Proses mencari dan mendapatkan informasi merupakan hal yang berkaitan erat dengan dunia informasi. Ketepatan hasil pencarian dan waktu pencarian menjadi beberapa faktor yang diperhatikan. Dokumen berbasis teks menjadi salah satu bentuk penyimpanan informasi. Biasanya pencarian dilakukan pada koleksi dokumen yang menjadi objek pencarian. Pencarian secara manual dapat dilakukan dengan membaca setiap dokumen pada koleksi dokumen untuk mendapatkan dokumen yang tepat dan sesuai kebutuhan. Namun dari hasil temuan kembali dokumen, pengguna tidak dapat melihat peran dari query dalam proses pencarian dokumen tersebut, urutan dokumen yang di-retrieve dinilai tidak informatif berdasarkan tingkat kesesuaiannya dengan query. Oleh karena itu dibutuhkan kategorisasi teks. Salah satu cara untuk mengatasi masalah ini adalah mengkategorisasikan teks sesuai dengan topik/kategori dokumen tersebut. Dalam kategorisasi teks, ada beberapa fase yang harus dilalui yaitu document indexing yang terdiri dari fase term selection dan term weighting, dan classifier learning. Dalam Skripsi ini yang menjadi focus dalam penelitian 1
adalah fase term weighting. Dalam beberapa penelitian, term weighting memiliki peranan penting dalam kesuksesan kategorisasi teks. Pernyataan tersebut dibuktikan dengan penelitian yang dilakukan Gerrard Salton dan Christopher Buckley [2] menyatakan bahwa term weighting memegang peranan penting dalam kategorisasi teks, selanjutnya penelitian yang dilakukan Christopher Buckley [3] menyatakan bahwa metode pembobotan yang lebih baik memiliki peranan lebih penting dibandingkan proses penyeleksian fitur dan akan lebih baik jika keduanya dijalankan secara hand-in-hand agar bisa lebih efektif. Salah satu metode pembobotan yang dikenal adalah TF-IDF dimana dalam metode ini setiap term/kata dalam sebuah dokumen dihitung frekuensinya dalam sebuah dokumen (term frequency) yang kemudian hasilnya dikombinasikan dengan frekuensi kemunculan term pada suatu kumpulan dokumen (inverse document frequency). Term yang sering muncul pada dokumen tapi jarang muncul pada kumpulan dokumen memberikan nilai bobot yang tinggi. TF-IDF akan meningkat dengan jumlah kemunculan term pada sebuah dokumen dan berkurang dengan jumlah term yang muncul pada kumpulan dokumen. Namun mengingat text categorization bersifat terawasi dimana menggunakan dataset yang dibagi menjadi dataset training dan dataset testing, maka diperlukan suatu metode yang memenuhi syarat diatas. Dalam konteks standar Information Retrieval, asumsi IDF cukup beralasan karena dapat menginterpretasikan term dengan baik karena term yang sering muncul dalam banyak dokumen adalah diskriminator yang tidak baik. Tapi ketika data training untuk query tersedia, cara yang lebih baik harus digunakan yang dapat membedakan term yang terdistribusi ke dalam kumpulan data training baik kategori positif maupun negative. Data training tidak tersedia dalam query di konsep standar IR, namun lebih sering tersedia untuk kategori dalam konteks TC, dimana gagasan “relevansi dengan query” digantikan dengan “keanggotaan dalam kategori” [4]. Maka dari itu digunakanlah Category-based Function yang ada pada Term Evalution Function seperti MaxStr sebagai pengganti fungsi IDF pada TF-IDF. Metode ini disebut ConfWeight Term Weighting. Penelitian dilakukan dengan menerapkan metode Supervised Term Weighting dan TFIDF pada dataset Reuters dengan 10 kategori. Skema yang digunakan adalah TF-IDF dan ConfWeight. Setelah itu dilakukan klasifikasi dokumen dengan menggunakan metode Support Vector Machine (SVM) pada tools Weka. Analisis difokuskan pada pengaruh TFIDF, TF-Chisquare, TF-IG, dan TF-GR terhadap performansi klasifier berdasarkan nilai precision, recall, dan f-measure.
2
2. Perumusan Masalah Dari latar belakang diatas maka masalah-masalah yang dihadapi, yaitu : 1. Bagaimana menerapkan term weighting dengan metode A Weighting Methods based on Confidence (ConfWeight) dalam pembobotan teks untuk mengkategorisasikan teks berdasarkan terms yang ada ke dalam sistem yang telah diintegrasikan dengan tools Weka untuk diklasifikasi. 2. Bagaimana menganalisis performansi dari penerapan term weighting dengan metode A Weighting Methods based on Confidence. Performansi diukur berdasarkan Precision, Recall, dan F-Measure, dengan data yang sudah dilakukan tahap preprocessing. Dalam menganalisis performansi akan digunakan teknik term weighting TFIDF sebagai pembanding.
3. Batasan Masalah 1. Data yang digunakan adalah dataset Reuteters-21578 dengan 10 kategori 2. Stopwords yang ada telah dihilangkan berdasarkan daftar stopwords yang terdiri dari 571 kata yang tertera pada http://search.cpan.org/~kwilliams/reuters-21578/. 3. Tanda baca telah dihapus, semua huruf telah dikonversi menjadi huruf kecil, dan angka yang telah dihapus. 4. Proses stemming dilakukan menggunakan algoritma Porter Stemming [10]. 5. Metode klasifikasi yang digunakan adalah dengan menggunakan SVM yang diadopsi dari tools Weka 6. Parameter ukur yang digunakan adalah recall, precision, dan f-measure untuk menghitung performansi metode yang digunakan
4. Tujuan 1. Mengimplementasi
metode ConfWeight
Term
Weighting
dengan
Term
Evaluation Functions untuk mengkategorisasikan teks berdasarkan terms yang ada pada dataset kemudian diklasifikasi dengan SVM yang diadopsi dari tools Weka. 2. Menguji dan menganalisa performansi metode ConfWeight Term Weighting baik dengan local policy maupun global policy dari hasil ujicoba dengan parameter 3
evaluasi precision, recall, dan f-measure dengan metode pembanding TF-IDF dengan threshold local policy maupun global policy.
5. Metodologi Penyelesaian Masalah a)
Studi Literatur Langkah ini bertujuan untuk memahami dasar teori mengenai indexing, Term Wieghting dan metode ConfWeight serta hal lain yang mendukung penyelesaian tugas akhir ini. Sumber dasar teori dapat berupa buku, paper, maupun halaman web.
b)
Pengumpulan dan Pemahaman Data Mencari dan mengumpulkan data yang berasal dari dataset reuters-21578.
c)
Analisis Kebutuhan dan Perancangan perangkat lunak Melakukan analisis kebutuhan perangkat lunak yang akan dibangun, agar didapatkan gambaran umum seperti apa perangkat lunak yang ingin dibangun, kemudian merancang perangkat lunak yang sesuai untuk memenuhi kebutuhan. Rancangan perangkat lunak dapat menjadi panduan saat implementasi perangkat lunak.
Gambar 1.1 gambaran sistem
4
1. Proses input dokumen tekstual. 2. Melakukan preprocessing (tokenization, stopwords removal, stemming). 3. Proses input dataset ke dalam database.
Proses tokenization. Proses tokenization merupakan proses pengubahan setiap huruf menjadi bentuk lowercase, dan penghilangan tanda baca yang terdiri dari: “., ,, !, :, ;, ?, &, (, ), [,],{,},_,-,%,$,@,<,>,#, *,‘, “,|, /”. Tujuan dari proses ini adalah untuk mempermudah dalam proses indexing yang lain.
Proses stopword removal. Proses stopword removal adalah proses penghilangan stopword pada dokumen. Stopword merupakan kata yang tergolong sebagai kata umum dan sering muncul.
Proses stemming. Proses stemming merupakan proses pengubahan setiap kata ke dalam bentuk kata dasar. Proses stemming dilakukan menggunakan algoritma Porter. Sebagai contoh kata “writing”, “wrote”, dan “writed” diubah menjadi kata “write”.
4. Melakukan Term Weighting dengan meode ConfWeight dan TF-IDF. 5. Melakukan feature selection denagn mendapatkan nilai MaxStr dan dirangking dengan Information Gain (IG) dan threshold yang telah ditentukan 6. Klasifikasi dengan machine learning SVM, Machine learning Dengan menggunakan SVM yang diadopsi dari tools Weka 7. Proses penghitungan Precission, Recall, F-Measure. d)
Implementasi Menganalisis segala kebutuhan sistem dalam proses pembuatan sistem serta melakukan implementasi sistem sesuai kebutuhan dan perancangan yang telah dilakukan.
e)
Pengujian dan Analisis hasil Implementasi Pengujian system berdasarkan dataset yang telah dipilih dan metode pembobotan term yang telah didefinisikan sebelumnya.
5
f)
Pembuatan Laporan Tugas Akhir Pada tahap akhir, akan dilakukan pembuatan dokumentasi yang berupa laporan Skripsi.
6