KLASIFIKASI DOKUMEN MENGGUNAKAN BACKGROUND SMOOTHING
ANDY PRAMURJADI
DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2010
KLASIFIKASI DOKUMEN MENGGUNAKAN BACKGROUND SMOOTHING
ANDY PRAMURJADI
Skripsi Sebagai salah satu syarat untuk memperoleh gelar Sarjana Komputer pada Departemen Ilmu Komputer
DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2010
ABSTRACT ANDY PRAMURJADI. Document Classification Using Background Smoothing. Supervised by JULIO ADISANTOSO. Naïve Bayes Classifier (NBC) is one of the methods for text or document classification. A common problem that often occurs on NBC method is data sparsity, especially when the size of training data is too small. One way to handle the sparsity problem is to use background smoothing technique. The aims of this research are to look at the background smoothing effect on short and long query, and to compare it with NBC on small training data. In this research, we use documents from the Agricultural Research Journal of horticultural domain. The results indicate that the accuracy of document classification on NBC+Background Smoothing is 92.3%, not significantly different from that obtained using only NBC. Improvement of the accuracy is only 1.78% from the results obtained on NBC. However, the results of the classification with NBC+Background Smoothing has been able to properly classify documents of Agriculture Research Journal at horticultural domain, so that it can be used to organize documents much easier for users to find information related to the documents.
Keywords: classification, background smoothing, language model, naïve bayes classifier
Dosen Penguji: 1. Dr. Yeni Herdiyeni, S.Kom, M.Kom 2. Sony Hartono Wijaya, S.Kom, M.kom
Judul Nama NRP
: Klasifikasi Dokumen Menggunakan Background Smoothing : Andy Pramurjadi : G64076001
Menyetujui,
Pembimbing
Ir. Julio Adisantoso, M.Kom NIP. 19620714 198601 1 002
Mengetahui, Ketua Departemen
Dr. Ir. Sri Nurdiati, M.Sc NIP. 19601126 198601 2 001
Tanggal Lulus:
PRAKATA Alhamdulillahi Rabbil’alamin, puji syukur penulis panjatkan ke hadirat Allah SWT atas segala rahmat dan karunia-Nya, sehingga tugas akhir ini dengan judul Klasifikasi Dokumen Menggunakan Background Smoothing dapat diselesaikan. Penelitian ini dilaksanakan mulai November 2009 sampai dengan April 2010, bertempat di Departemen Ilmu Komputer. Penulis berterima kasih kepada Bapak Ir. Julio Adisantoso, M.Kom selaku pembimbing yang telah banyak memberikan arahan, bimbingan, waktu, serta kesabarannya selama pengerjaan tugas akhir ini. Terima kasih yang setulus-tulusnya juga Penulis tujukan bagi istri dan anak tercinta yaitu Yurida Amdani Putri dan Salma Lathifah Pramdani, serta keluarga besar Penulis atas doa serta dukungan untuk keberhasilan Penulis. Joko Purwanto, Ahmad Zafaroni, Decky Prayoga, Teguh, Dodot, Wanda, Arifa, Annissa, dan seluruh rekan ektensi S1 Ilkom Angkatan 2 atas dukungan, bantuan, serta kebersamaannya selama ini, semoga sukses selalu dan tetap semangat; juga untuk Pak Henky dan Arlan Hernawan staf Jasa Penelitian di Balai Penelitian Tanaman Hias yang telah membantu Penulis dalam mengumpulkan bahan dan data pendukung untuk tugas akhir ini. Penulis juga mengucapkan terima kasih kepada semua pihak yang telah membantu selama penyelesaian tugas akhir ini yang tidak dapat disebutkan satu-persatu. Semoga karya ilmiah ini bermanfaat.
Bogor, Mei 2010
Andy Pramurjadi
RIWAYAT HIDUP Penulis dilahirkan di Bogor pada tanggal 2 Oktober 1971, dari pasangan Bapak Prabowo dan Ibu Ellin. Penulis merupakan putra ketiga dari empat bersaudara. Pada Tahun 1991 penulis lulus dari SMAN 3 Bogor dan pada tahun yang sama, penulis melanjutkan pendidikan Diploma 3 di Program Studi Manajemen Keuangan dan Perbankan, STIE Perbanas Jakarta dan lulus pada tahun 1996. Tahun 1997, penulis bekerja di BII Jakarta, setahun kemudian penulis pindah bekerja di Balai Penelitian Tanaman Buah, Solok, Sumatera Barat. Tahun 2000, penulis diangkat sebagai Pegawai Negeri Sipil golongan II/a dan dipindahtugaskan di Balai Penelitan Tanaman Hias, Pacet, Jawa Barat sampai dengan sekarang. Tahun 2002, penulis mendapat beasiswa sekolah dari tempat bekerja untuk mengikuti pendidikan Diploma 3 Informatika pada Departemen Ilmu Komputer, Fakultas Matematika dan Ilmu Pengetahuan Alam dan lulus pada tahun 2004. Pada pertengahan tahun 2007, penulis mendapatkan lagi kesempatan untuk melanjutkan pendidikan dari tempat penulis bekerja, di Institut Pertanian Bogor untuk mendapatkan gelar sarjana. Pada bulan September 2007 penulis resmi sebagai mahasiswa Program Studi S1 Penyelenggaraan Khusus Departemen Ilmu Komputer, Fakultas Matematika dan Ilmu Pengetahuan Alam, IPB.
DAFTAR ISI
Halaman DAFTAR TABEL ………………………………………………………………………………….. vii
DAFTAR GAMBAR ………………………………………………………………………………. vii DAFTAR LAMPIRAN …………………………………………………………………………….. vii
PENDAHULUAN …………………………………………………………………………………. Latar Belakang …………………………………………………………………………………. Tujuan …………………………………………………………………………………………... Ruang Lingkup …………………………………………………………………………………. Manfaat Penelitian ………………………………………………………………………………
1 1 1 1 1
TINJAUAN PUSTAKA …………………………………………………………………………… Sistem Temu Kembali Informasi ………………………………………………………………. Klasifikasi Dokumen …………………………………………………………………………... Naïve Bayes Classifier (NBC)…………………………………………………………………... Language Model dalam Temu Kembali Informasi ………….......……………………………... Smoothing………………………………………………………………………………………. Laplace Smoothing ….………….......…………………………………………………………... Background Smoothing …………..........……………………………………………………...... Confusion Matrix …. ……….………………………………………..…………………….……….
2 2 2 3 3 4 4 4 4
METODE PENELITIAN …………………………………………………………………………... Gambaran Umum Sistem ………………………………………………………………………. Koleksi Dokumen ………………………………………………………………………………. Praproses………………………………………………………………………………………... Naïve Bayes dengan Background Smoothing ………..………………………………………… Evaluasi Hasil Klasifikasi ……………………………………………………………………...
5 5 5 5 6 6
HASIL DAN PEMBAHASAN …………………………………………………………………….. Uji Coba Klasisfikasi Dokumen ………………………………………………………………... NBC+Background Smoothing………………………………………………………………….. NBC dan NBC+Background Smoothing ……..…………………………………………………
6 6 7 8
KESIMPULAN DAN SARAN …………………………………………………………………….. 10 Kesimpulan …………………………………………………………………………………….. 10 Saran ……………………………………………………………………………………………. 10 DAFTAR PUSTAKA ……………………………………………………………………………… 11 LAMPIRAN ………………………………………………………………………………………... 12
vi
DAFTAR TABEL 1 2 3 4 5 6 7 8
Halaman Micro Average untuk Short Query……………………………………………………………………….. 7 Confusion Matrix Short Query ……………………………………………………………..……… 7 Micro Average untuk Long Query……………………………………………………………….. 8 Confusion Matrix Long Query ….…………………………………………………………………. 8 Micro Average NBC dan NBC+Background Smoothing λ =0.3 ………………….…………….. 9 Confusion Matrix NBC dan NBC+Background Smoothing (Short Query)………………………. 9 Micro Average NBC dan NBC+Background Smoothing λ =0.7 ………………………………... 9 Confusion matrix NBC dan NBC+Background Smoothing (Long Query) ………………………. 10
DAFTAR GAMBAR Halaman 1 2 3 4 5 6 7 8
Proses Sistem Temu Kembali Informasi ………………………………………….……………... 2 Proses Klasifikasi Dokumen ……………………………………………………………………... 3 Format Confusion Matrix ….…………………………………………………………………….. 4 Gambaran Umum Sistem ………………………………………………………………………… 5 Tingkat Akurasi Koefisien λ pada Short Query …………………….…………………………… 7 Tingkat Akurasi Koefisien λ pada Long Query ……………………..…………………………... 8 Perbandingan Tingkat Akurasi pada Short Query ………………………………….………….. 9 Perbandingan Tingkat Akurasi pada Long Query …………….……….……………… ………. 10
DAFTAR LAMPIRAN Halaman 1 2 3 4 5 6
Confusion Matrix untuk Semua Koefisien λ pada Short Query………………………..…………. Hasil Pengukuran NBC+ Backgorund Smoothing pada Short Query…………………………… Confusion Matrix Semua Koefisien λ pada Long Query………………………………………… Hasil Pengukuran NBC+ Backgorund Smoothing pada Long Query………………...………… Confusion Matrix NBC dan NBC+ Backgorund Smoothing …………………………………… Hasil Pengukuran NBC dan NBC+ Backgorund Smoothing ……………………………………
13 14 15 16 17 18
vii
PENDAHULUAN Latar Belakang Kemudahan dalam mengakses dan menyebarkan informasi saat ini menyebabkan informasi menjadi banyak dan beragam. Sejalan dengan hal tersebut, banyak orang cenderung lebih memilih informasi yang berguna secara selektif. Untuk itu diperlukan suatu metode dalam menyajikan dan mengorganisasikan informasi agar memudahkan pengguna dalam mencari informasi yang dibutuhkan. Agar informasi lebih mudah untuk diorganisasikan dan dikelompokkan, dalam temu kembali informasi dapat dilakukan dengan klasifikasi dokumen berdasarkan kategori atau kelas yang telah ditentukan. Salah satu tujuan dari klasifikasi teks atau dokumen adalah proses menggolongkan atau mengelompokkan suatu dokumen ke dalam suatu kategori tertentu (Christopher et al. 2009). Ada banyak algoritme yang digunakan untuk klasifikasi dokumen, di antaranya adalah Naïve Bayes, k-Nearest Neighbor, Support Vector Machines, Decision Trees, dan Neural Network. Diantara algoritme klasifikasi tersebut, Naïve Bayes Classifier (NBC) atau sering juga disebut sebagai simple bayesian classification merupakan algoritme klasifikasi yang paling mudah untuk diimplementasikan. Masalah umum yang sering terjadi pada metode tersebut, yaitu adanya sparsity data terutama bila ukuran data latih (training) yang digunakan terlalu kecil. Hal ini biasanya terjadi ketika ada kata-kata atau terms yang ada pada dokumen uji tidak muncul pada dokumen latih, sehingga menggunakan metode smoothing untuk menghindarinya. Tujuan utama dari metode smoothing adalah memberikan suatu nilai pada kata atau term yang tersembunyi (unseen) dan untuk menambah keakurasian dari penduga peluang kata yang ada pada dokumen latih. Saat ini telah banyak metode smoothing yang dihasilkan, di antaranya adalah KneiserNey, Katz, Good-turing Estimation, Dirichlet Prior, Witten-Bell, Jelinek-Mercer (Chen & Goodman 1998) , dan Semantic Smoothing yang menggunakan pendekatan melalui language modeling (Zhou et al. 2008). Studi tentang language model saat ini menjadi topik yang banyak dibicarakan dalam komunitas temu kembali informasi seiring dengan meningkatnya popularitas penggunaan dari languange modeling dalam sistem temu kembali informasi (Zhou et al. 2007). Jelinek-Mercer Smoothing
merupakan teknik smoothing yang menggunakan metode interpolasi linier antara maximum likelihood model dengan collection background model, dan sebagai parameter pengontrolnya adalah koefisien λ. Teknik ini biasa disebut dengan simple languange model atau dalam semantic smoothing teknik ini digunakan sebagai background smoothing. Pada penelitian ini metode smoothing yang digunakan adalah background smoothing. Selanjutnya proses pengklasifikasian dokumen menggunakan algoritme klasifikasi NBC untuk melihat pengaruh parameter koefisien λ pada query yang pendek (short query) dan panjang (long query) serta membandingkan tingkat keakurasian klasifikasi NBC dan NBC+ background smoothing. Tujuan Penelitian ini bertujuan untuk 1) melihat pengaruh metode background smoothing dengan parameter kontrol (koefisien λ) yang berbeda pada short query dan long query, dan 2) membandingkan tingkat akurasi klasifikasi NBC dan NBC+Background Smoothing dengan nilai koefisien λ terbaik. Ruang Lingkup Adapun ruang lingkup penelitian ini dibatasi pada: 1. Evaluasi keakurasian klasifikasi dokumen menggunakan background smoothing dengan nilai parameter pengontrol yang berbeda pada short dan long query. 2. Membandingkan nilai parameter koefisien λ terbaik pada background smoothing dengan NBC. 3. Dokumen yang digunakan adalah artikel dari jurnal penelitian terbatas pada bidang pertanian dengan domain tanaman hortikultura. 4. Proses yang terlibat dalam pembentukan collection background model tidak memperhatikan semantic language model. Manfaat Penelitian Manfaat yang diharapkan dari penelitian ini adalah 1) dapat menambah khazanah metode klasifikasi dokumen pada sistem temu kembali informasi dengan pendekatan background smoothing, dan 2) sebagai sarana untuk mengorganisasikan kumpulan dokumen secara otomatis sehingga dapat mempermudah dalam menyajikan dan menyeleksi informasi agar lebih selektif.
1
TINJAUAN PUSTAKA Sistem Temu Kembali Informasi Sistem temu kembali informasi adalah suatu bentuk sistem yang melakukan proses penemuan kembali informasi yang relevan terhadap kebutuhan pengguna dari kumpulan informasi secara otomatis. Sistem temu kembali informasi berhubungan dengan pencarian informasi yang isinya tidak memiliki struktur. Demikian pula ekspresi kebutuhan pengguna yang disebut query, juga tidak memiliki struktur. Hal ini yang membedakan sistem temu kembali informasi dengan sistem basis data. Ada tiga komponen yang mendasari proses dari sistem temu kembali informasi, yaitu representasi dokumen, representasi informasi yang dibutuhkan dari pengguna, dan perbandingan dari kedua representasi tersebut. Proses tersebut di atas diilustrasikan seperti Gambar 1. Representasi dari dokumen adalah pengindeksan yang dilakukan menggunakan teknik pengindeksan tertentu seperti tokenisasi kata, membuang stopword, dan stemming sehingga menghasilkan himpunan kosa kata sebagai dokumen indeks. Proses pengindeksan tersebut melibatkan isi dari seluruh kumpulan dokumen atau biasanya hanya terdiri atas judul atau kata kunci dan abstrak dari kumpulan dokumen. Proses informasi yang dibutuhkan (information need) oleh pengguna berupa suatu query dari pengguna yang merepresentasikan permintaan informasi. Query umumnya tidak memiliki struktur, untuk itu query perlu diformulasikan (formulasi query) sehingga terjadi dialog interaktif antara pengguna dan sistem agar pengguna memahami betul akan permintaan informasi yang dibutuhkannya (feedback). Kebutuhan informasi
Dokumen
Formulasi query
pengindeksan
Dokumen terindeks
Query
Penyesuaian
feedback
Dokumen retrieved
Gambar 1 Proses Sistem Temu Kembali Informasi (Hiemstra, 2001)
Perbandingan query terhadap permintaan informasi disebut proses penyesuaian (matching process). Pada proses inilah diharapkan dapat dihasilkan suatu keluaran yang relevan dengan permintaan pengguna. Salah satu pendekatan dalam merepresentasikan informasi yang terorganisasi adalah dengan mengelompokkan dokumen ke dalam beberapa kategori atau klasifikasi. Dengan klasifikasi dokumen diharapkan informasi yang diambil dari kumpulan dokumen dapat lebih relevan. Klasifikasi Dokumen Klasifikasi dokumen adalah proses pengelompokan dokumen sesuai dengan kategori yang dimilikinya. Sebuah dokumen dapat dikelompokkan ke dalam kategori tertentu berdasarkan kata-kata dan kalimat-kalimat yang ada di dalam dokumen tersebut. Metode klasifikasi dokumen secara otomatis pun memiliki tingkat keakuratan yang tinggi jika aturan (rule) dibuat dengan baik. Metode klasifkasi dibagi menjadi dua, yaitu klasifikasi secara manual dan klasifikasi dokumen secara otomatis. Klasifikasi manual umumnya akurat karena dilakukan oleh tenaga ahli dan konsisten, namun cenderung sulit dilakukan dan butuh waktu yang lama. Klasifikasi dokumen secara otomatis terdiri atas dua kategori, yaitu hand‐coded rule‐based systems dan supervised learning (Christopher et al. 2009). Hand‐coded rule‐ based systems tingkat akurasinya tinggi jika rule dibuat dengan sangat baik oleh ahlinya dan sangat kompleks serta dibutuhkan biaya yang mahal. Pada supervised learning menggunakan data latih (learning) untuk memberikan label kategori yang telah terdefinisi sebelumnya. Dengan semakin meningkatnya kebutuhan untuk klasifikasi dokumen, algoritme untuk membantu melakukan aktivitas tersebut juga semakin dikembangkan. Ada banyak model yang digunakan dalam supervised learning, di antaranya adalah Vector Space Model (VSM), Naïve Bayes, Bernoulli, k‐Nearest Neighbors (KNN), dan maximum a posteriori. Klasifikasi dokumen dilakukan dalam dua tahap. Tahap pertama adalah pelatihan (training) terhadap kumpulan dokumen. Sedangkan tahap kedua adalah proses klasifikasi dokumen yang belum diketahui kategorinya (testing). Proses pengklasifikasian terhadap dokumen dapat dilihat pada Gambar 2.
2
Dokumendokumen
Praproses
Pengindeksan
Hasil pengukuran
Menerapkan algoritme klasfikasi
Pembobotan indeks
Gambar 2 Proses Klasifikasi Dokumen Naïve Bayes Classifier (NBC) Metode klasifikasi Bayesian adalah bagian dari teknik klasifikasi berbasis statistik. Metode ini dapat memprediksi kemungkinan anggota sebuah kelompok atau kategori, berdasarkan sampel yang berasal dari anggota kelompok tersebut. Klasifikasi NBC termasuk dalam model multinomial yang mengambil jumlah kata yang muncul pada sebuah dokumen. Pada model ini, sebuah dokumen terdiri atas beberapa kejadian kata dan diasumsikan panjang dokumen tidak bergantung pada kelasnya. Dengan menggunakan asumsi Bayes bahwa kemungkinan tiap kejadian kata dalam sebuah dokumen adalah bebas tidak terpengaruh dengan konteks kata dan posisi kata dalam dokumen. NBC adalah penyederhanaan dari Bayesian Classification, metode ini sering juga disebut sebagai Simple Bayesian Classification. NBC merupakan klasifikasi peluang sederhana yang didasarkan asumsi yang kuat (naïve) dan bebas (independence), serta dapat dilatih dengan sangat efisien pada kondisi supervised learning. Penggunaan NBC dalam klasifikasi teks pada sistem temu kembali informasi sebagai penduga peluang suatu dokumen dalam kelas atau kategori tertentu (Christopher et al. 2009). Peluang dari suatu dokumen d ada pada kelas c dapat diformulasikan sebagai berikut: | ∞ ∏ k|
(1)
Dengan P(tk|c) adalah peluang kata atau term tk muncul pada dokumen kelas c, dan P(c) merupakan prior probability peluang dokumen ada pada kelas c. Pendekatan yang digunakan untuk menduga parameter P(c) dan P(tk|c) adalah dengan formula berikut:
|
ct
∑ ct
Nc adalah banyaknya dokumen dalam kelas c, N adalah total dokumen. Tct adalah banyaknya t dalam dokumen latih dari kelas c. Language Model dalam Temu Kembali Informasi Penggunaan Language Modeling (LM) atau statistical language modeling muncul sebagai probabilistic framework yang baru untuk menangkap ketidakteraturan statistik yang menjadi ciri dari ketidakteraturan penggunaan bahasa. Sebuah LM adalah suatu model tentang distribusi kondisional dari identitas kata-kata dalam sebuah rangkaian, yang ditentukan oleh identitas dari semua kata-kata sebelumnya. Dalam bidang penelitian Information Retrieval (IR), LM yang digunakan adalah unigram model karena urut-urutan kata tidak terlalu dipermasalahkan, tidak seperti dalam pengenalan suara (speech recognition) otomatis yang sangat bergantung pada kemampuan mesin memahami urutan kata-kata. Salah satu model IR yang menggunakan LM adalah Query-Likelihood Model yang pertama diusulkan oleh Ponte dan Croft (dalam Liu & Croft 2004) yang menganggap sebuah query sebagai sebuah vektor dari atribut biner, masing-masing atribut untuk sebuah istilah yang unik di dalam kosa kata indeks, dan menandakan ada atau tidaknya istilah tersebut di dalam query. Jumlah kemunculan istilah tersebut di dalam query sendiri tidak diperhitungkan. Ada dua asumsi yang mendasari model ini, pertama adalah semua atribut bernilai biner. Jika sebuah istilah ada di query, maka atribut yang mewakili istilah tersebut bernilai 1 dan jika tidak bernilai 0. Kedua, istilah dianggap tidak berkaitan di dalam sebuah dokumen. Asumsi ini mirip dengan dugaan yang digunakan dalam teori-teori peluang pada IR. Berdasarkan dua asumsi di atas, maka query likelihood P(Q|D) dapat dirumuskan sebagai hasil dari dua peluang, yaitu peluang kemunculan istilah pada query dan peluang ketidak-munculan istilah itu. | ! | !"1.0 & | ' (*
()*
P(t|D) dihitung dengan metode nonparametrik yang memanfaatkan peluang ratarata dari t (term) di dalam dokumen yang mengandung term tersebut. Untuk istilah-istilah yang tidak muncul, maka peluang global dari t dalam koleksi dokumen yang digunakan.
3
Smoothing Smoothing adalah bagian penting dari LM yang berfungsi untuk membandingkan peluang kata yang muncul dan yang tidak muncul dalam suatu dokumen. Smoothing akan menambah keakurasian perkiraan peluang kata yang ada pada dokumen latih. Dengan kata lain, smoothing juga memberikan nilai (non zero) peluang pada kata yang tidak muncul.
Model background smoothing dinyatakan dalam bentuk:
tersebut
b |j 1 & < ml |? @ < | (3) Dengan ml |? adalah model kelas unigram dengan pendugaan parameter maximum likelihood, b |j adalah model kelas unigram dengan background smoothing. | adalah simple language model yang mengkombinasikan frekuensi kata (t) query di dalam seluruh koleksi dokumen D dengan jumlah seluruh kata dalam koleksi dokumen.
Pada konteks LM, smoothing dapat dikatakan sebagai pengontrol dari maximum likelihood estimator agar hasilnya lebih akurat (Zhai dan Lafferty 2001). Menurut Chen dan Goodman (1998) telah banyak metode smoothing yang dihasilkan, antara lain adalah Laplace smoothing, Katz smoothing, Goodturing Estimation, Dirichlet Prior, Witten-Bell, Jelinek-Mercer Smoothing, dan Semantic Smoothing (Zhou et al. 2008)
Sedangkan koefisien λ gunanya sebagai collection parameter pengontrol dari background model, dalam semantic smoothing digunakan sebagai komponen pengontrol pada pemetaan topic signature sebagai model campuran atau mixture model (Zhou et al. 2007).
Laplace Smoothing
Confusion Matrix
Laplace smoothing merupakan teknik smoothing yang biasa digunakan pada penghitungan Maximum Likelihood Estimation (MLE). Kegunaannya untuk menghilangkan dugaan parameter yang bernilai nol.
Confusion matrix atau disebut juga matriks klasifikasi adalah suatu alat visual yang biasanya digunakan dalam supervised learning. Matriks klasifikasi berisi jumlah kasus-kasus yang diklasifikasikan dengan benar dan kasuskasus yang salah diklasifikasikan. Pada Kasus yang diklasifikasikan dengan benar muncul pada diagonal, karena kelompok prediksi dan kelompok aktual adalah sama. Elemen-elemen selain diagonal menunjukkan kasus yang salah diklasifikasikan. Jumlah elemen diagonal dibagi total jumlah kasus adalah rasio tingkat akurasi dari klasifikasi. Format dari confusion matrix dapat dilihat pada Gambar 3.
Laplace smoothing disebut juga dengan add-one karena pada notasi P(t|c) setiap penghitungan kata dalam kelas c, ditambah dengan satu. Formula laplace smoothing untuk MLE sebagai berikut:
|
+,-. ∑234/01 .
+,-. ∑234 +,-5 .65
(2)
dengan B’ = |V| = banyaknya term dalam kosa kata atau vocabulary dan ∑-59: 7 8 = banyaknya kata unik. Background Smoothing Teknik smoothing ini biasa disebut dengan simple languange model atau background collection model. Dalam semantic smoothing teknik ini digunakan sebagai background smoothing (Zhou et al. 2008). Dalam komunitas Temu Kembali Informasi, teknik ini dikenal dengan Jelinek-Mercer Smoothing (JM Smoothing) yang menggunakan metode interpolasi linier untuk memodelkan kelas unigram dari maximum likelihood model dengan collection background model dan parameter pengontrol yang mempengaruhinya adalah koefisien λ. Tujuannya adalah untuk menduga peluang dari kata yang tidak muncul (unseen) berdasarkan background model atau seluruh koleksi dokumen latih.
Gambar 3 Format Confusion Matrix (Hamel 2008) Evaluasi kesamaan dokumen dapat diukur menggunakan recall, precision dan F-measure. Hasil klasifikasi (predicted class) memunyai kemungkinan yaitu benar dalam kelasnya (TP dan TN) atau salah, masuk kelas lainnya (FP dan FN). Hasil pengukuran (performace metric) dapat diperoleh dengan melihat pada format confusion
4
matrix di atas. Akurasi dari pengklasifikasian diperoleh dari formula: ABCDEFG
7 @ 7H 7 @ 7H @ I @ IH
(4)
Pengukuran lain yaitu recall, precision, F-measure (F1) dapat dinotasikan sebagai berikut: JKELL
7 7 @ IH
DKGFGNO I1
agronomi, proteksi.
pemuliaan-teknologi
Koleksi Dokumen
7 7 @ I
Recall adalah tingkat keberhasilan pengenalan suatu kelas yang harus dikenali. Recall dinyatakan dalam jumlah pengenalan entitas bernilai benar, dibagi dengan jumlah entitas yang seharusnya dapat dikenali oleh sistem. Sedangkan Precision adalah tingkat ketepatan hasil klasifikasi dari seluruh dokumen. Precision dihitung dari jumlah pengenalan yang bernilai benar oleh sistem, dibagi dengan jumlah keseluruhan pengenalan yang dilakukan oleh sistem. F-measure adalah nilai yang mewakili keseluruhan kinerja sistem dan merupakan gabungan nilai recall dan precision.
METODE PENELITIAN Gambaran Umum Sistem Secara garis besar pengerjaan sistem dilakukan dalam beberapa tahap, seperti yang terlihat pada Gambar 4. Koleksi Dokumen Koleksi dokumen yang digunakan sebagai dokumen latih dan dokumen uji adalah hasil penelitian dari Jurnal Penelitian Hortikultura tahun 2002 sampai dengan tahun 2009. Namun tidak semua edisi jurnal tersebut digunakan karena tidak semua jurnal tersebut disimpan dalam format file yang sama, sehingga butuh waktu lama untuk dilakukan kompilasi data. Adapun pembagian jenis tanaman hortikultura adalah komoditas tanaman hias, buah tropik, buah sub tropik, dan sayuran. Dokumen tersebut terdiri atas berbagai bidang penelitian pertanian yaitu ekofisiologi-
dan
Proporsi dokumen yang digunakan adalah dengan 70 % untuk data latih dan 30 % untuk data uji. Dokumen uji untuk setiap dokumen dibagi menjadi dua, yaitu untuk short dan long query.
(5 5)
2 Q JKELL Q DKGFGNO JKELL @ DKGFGNO
benih,
Praproses
Maximum Likelihood Model
Background Collection Model
Naïve Bayes Classifier Evaluasi Hasil Klasifikasi
Gambar 4 Gambaran Umum Sistem Praproses Praproses merupakan tahapan awal dalam proses klasifikasi dokumen setelah koleksi dokumen terkumpul. Praproses dalam penelitian ini dilakukan dalam beberapa tahapan, yaitu: 1. Pengelompokan dan kompilasi dokumen. Pada tahap ini koleksi dokumen diseleksi berdasarkan kategori atau kelas yang telah ditentukan sebelumnya. 2. Indexing. Proses indexing melibatkan konsep linguistic processing dengan tujuan untuk mengekstrak kata-kata dari dokumen yang merupakan representasi dari bag-of-words. Ekstraksi kata yang pada penelitian ini melibatkan tiga operasi utama, yaitu: a.
Proses parsing yaitu dilakukan dengan memilah dokumen menjadi unit-unit yang lebih kecil berupa kata.
b.
Proses stopwords yaitu dihilangkannya kata yang tidak berhubungan dengan subyek utama dari dokumen. Kata yang dihilangkan adalah kata yang sering muncul dalam koleksi dokumen dan tidak memunyai arti seperti: dan, yang, ini, itu serta string yang berupa angka, dilanjutkan dengan kata-kata
5
yang tidak berarti sebagai pembeda antar dokumen. c.
Pembobotan indeks yaitu pembobotan secara lokal dan global. Pembobotan lokal dilakukan dengan cara menghitung frekuensi kemunculan kata dan total seluruh kata pada kelas dari dokumen. Pembobotan global akan menghasilkan total kata dan jumlah total kata unik yang ada pada dokumen latih.
Naïve Bayes Classifier (NBC) dengan Background Smoothing Proses pengklasifikasian dokumen pada penelitian ini menggunakan algoritme klasifikasi NBC yang merupakan multinomial model. Agar mudah dalam implementasinya maka digunakan teknik background smoothing sebagai pengontrol dari penghitungan maximum likelihood estimator melalui pendekatan simple language model agar hasil klasifikasinya lebih akurat. Pada tahap ini diawali dengan penghitungan peluang setiap kata dalam dokumen latih menggunakan Maximum Likelihood Estimation (MLE) berdasarkan kata pada dokumen uji. Proses penghitungan tersebut dimulai dengan pendugaan parameter peluang kata pada dokumen kelas ci sesuai dengan formula (2). Selanjutnya melakukan kombinasi linier pada unigram class model menggunakan collection background model dengan parameter pengontrol λ sesuai dengan formula (3) pada dokumen latih. Setelah didapatkan peluang tiap kata dari dokumen uji berdasarkan dokumen latih, proses akhir adalah penghitungan peluang dari masing-masing kelas terhadap dokumen uji dengan formula (1). Evaluasi Hasil Klasifikasi Evaluasi hasil klasifikasi dokumen dilakukan untuk menganalisis tingkat keakurasian klasifikasi dokumen dengan metode background smoothing pada parameter pengontrol λ yang berbeda. Hal ini dimaksudkan untuk menentukan nilai ideal dari parameter pengontrol λ yang sesuai dengan data training. Setelah diperoleh nilai koefisien λ yang terbaik untuk short dan long query, evaluasi dilanjutkan pada perbandingan klasifikasi dokumen antara NBC dengan NBC+ Background Smoothing. Pengukuran kesamaan dokumen yang digunakan adalah tingkat akurasi, recall, precision, dan F-1
menggunakan formula (4) dan (5) untuk setiap kelasnya berdasarkan tabel confusion matrix.
HASIL DAN PEMBAHASAN Dokumen yang digunakan sebagai dokumen latih dan uji perlu dikompilasi karena hasil klasifikasi bergantung pada koleksi dokumen yang akan dijadikan dokumen latih. Hasil kompilasi menghasilkan 249 dokumen. Isi dari koleksi dokumen tersebut merupakan judul penelitian, kata kunci dan abstrak dari 3 (tiga) kelas, yaitu: a) Kelas Ekofisiologi dan Agronomi b) Kelas Pemuliaan dan Teknologi Benih c) Kelas Proteksi (Hama dan Penyakit) Masing-masing kelas terdiri atas 83 dokumen. Dokumen tersebut dibagi lagi untuk dijadikan sebagai data latih dan data uji. Data latih untuk setiap kelas terdiri atas 58 dokumen, sedangkan untuk data uji terdiri atas 25 dokumen. Pembagian tersebut sesuai dengan proporsi dokumen pada Bab Metodologi Penelitian, yaitu 70 % untuk data latih dan 30 % untuk data uji. Setelah melalui proses indexing, diperoleh pembobotan indeks yang diperlukan dalam proses klasifikasi dokumen. Bagian penting dari tahap ini adalah penentuan stoplist atau kata yang akan dibuang sebagai stopword. Penghilangan stopword disesuaikan dengan kebutuhan penelitian, yaitu kata yang sering muncul dalam koleksi dokumen dan tidak memunyai arti dan dilanjutkan dengan menghilangkan kata-kata yang tidak berarti dalam membedakan dokumen. Hasil dari penghilangan stopword dan pembobotan indeks kata, diperoleh total jumlah kata sebanyak 20605 dan jumlah kata unik sebanyak 2949 untuk pembobotan global. Uji Coba Klasifikasi Dokumen Uji coba dilakukan dengan dua kombinasi perlakuan, yaitu: Smoothing dengan 1. NBC+Background parameter pengontrol λ= 0.1 sampai dengan 0.9, agar diperoleh nilai koefisien λ terbaik pada short dan long query. 2. Setelah diperoleh parameter pengontrol koefisien λ yang terbaik, selanjutnya dilakukan perbandingan klasifikasi dokumen NBC dengan NBC+Background Smoothing. Tujuannya adalah untuk mengetahui apakah akurasi klasifikasi dokumen menggunakan
6
Perbedaan tersebut nampak pada kelas b (Pemuliaan dan Teknologi Benih) dan kelas c (Proteksi). Sedangkan untuk kelas a (Fisiologi dan Agronomi) nilai yang diperoleh adalah sama. Pada Koefisien λ=0.1, nilai pada kelas c lebih tinggi dan pada kelas b nilainya lebih rendah. Hal ini disebabkan karena pada kelas c dokumen yang dikenali dengan benar lebih tinggi daripada koefisien λ= 0.4, 0.5, 0.6, 0.7, dan 0.8. Demikian pula sebaliknya yang terjadi pada kelas b, dokumen yang dikenali dengan benar lebih rendah dibandingkan dengan λ= 0.1.
Background Smoothing lebih baik daripada NBC. NBC+Background Smoothing Tingkat keakurasian yang paling baik untuk short query diperoleh pada parameter pengontrol koefisien λ=0.3, seperti yang terlihat pada Gambar 5. Rata-rata nilai recall, precision dan F-measure untuk semua kelas atau micro average pada koefisien λ=0.3 adalah 84 % dan akurasi yang didapat adalah 89.3 %. Hasil penghitungan pada micro average untuk semua nilai koefisien λ dapat dilihat pada Tabel 1. Hasil klasifikasi dokumen untuk semua koefisien λ pada short query dalam bentuk confusion matrix ada pada Lampiran 1. Tabel 1 Micro Average untuk Short Query parameter pengontrol koefisien λ 0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
rec 82,7 81,3 84,0 82,7 82,7 82,7 82,7 82,7 83,1 pre 82,7 81,3 84,0 82,7 82,7 82,7 82,7 82,7 74,7 F-1 82,7 81,3 84,0 82,7 82,7 82,7 82,7 82,7 78,7 acc 88,4 87,6 89,3 88,4 88,4 88,4 88,4 88,4 85,8 ≠
rec=recall (%); pre=Precision (%); F-1= F-measure (%); acc= Accuracy (%)
Tingkat Akurasi
Pada Gambar 5 terlihat bahwa parameter pengontrol koefisien λ=0.1, 0.4, 0.5, 0.6, 0.7, dan 0.8 memiliki nilai akurasi yang sama, yaitu sebesar 88.4 %. Walaupun nilai yang diperoleh adalah sama, namun untuk nilai macro average berbeda. Nilai macro average yang berbeda adalah pada koefisien λ=0.1. Sedangkan untuk koefisien λ= 0.4, 0.5, 0.6, 0.7 dan 0.8 nilainya sama. Hasil pengukuran macro dan micro average untuk semua koefisien pada short query dapat dilihat di Lampiran 2.
Pada Tabel 2 terlihat bahwa total pengujian untuk tiga kelas a, b, dan c yang diklasifikasikan benar adalah 555, dan yang diklasifikasi salah adalah sebanyak 120. Sedangkan untuk dokumen yang diklasifikasikan dari total tiga kelas dengan banyaknya koefisien λ yang diujikan, diperoleh nilai sebanyak 1230. Nilai tersebut diperoleh dengan penghitungan sebagai berikut: ((75 x 3)*9) - (555+120+120) = 2025 - 796 = 1230 Nilai 75 adalah total dokumen uji dan nilai 3 merupakan jumlah kelas atau kategori. Nilai 555 adalah total dokumen yang diklasifikasikan benar di tiga kelas pada semua koefisien λ, dan 120 adalah total dokumen yang diklasifikasikan salah di tiga kelas pada semua koefisien λ. Tabel 2 Confusion Matrix Short Query TRUE
FALSE
TRUE
555
120
FALSE
120
1230
Tingkat Akurasi Parameter Pengontrol Koefisien λ pada Short Query
100 % 98 % 96 % 94 % 92 % 90 % 88 % 86 % 84 % 82 % 80 % 78 % 76 % 74 % 72 % 0% 70 % 0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
Koefisien λ Gambar 5 Tingkat Akurasi Koefisien λ pada Short Query
7
Pada long query, tingkat keakurasian terbaik diperoleh pada parameter pengontrol koefisien λ=0.7 dan λ=0.8. Nilai micro average untuk recall, precision dan F-measure adalah 89.3 %. Sedangkan akurasi yang didapat adalah 92.8 %. Hasil penghitungan micro average tersebut dapat pada tabel dibawah ini.
0.6, kelas a salah dikenali ke dalam kelas b sebanyak 2 (dua) dokumen uji dan kelas c sebanyak satu dokumen uji. Nilai Micro Average untuk total seluruh nilai parameter pengontrol koefisien λ mulai dari 0.1 sampai dengan 0.9, dapat dilihat pada tabel 4. Tabel 4 Confusion Matrix Long Query
Tabel 3 Micro Average untuk Long Query parameter pengontrol koefisien λ 0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
TRUE 594
FALSE 81
FALSE
81
1269
0.9
rec 88,0 88,0 88,0 88,0 88,0 88,0 89,3 89,3 85,3 pre 88,0 88,0 88,0 88,0 88,0 88,0 89,3 89,3 85,3 F-1 88,0 88,0 88,0 88,0 88,0 88,0 89,3 89,3 85,3 acc 92,0 92,0 92,0 92,0 92,0 92,0 92,9 92,9 90,2 ≠
TRUE
rec = recall (%); pre=Precision (%); F-1= F1 (%); acc= Accuracy (%)
Hasil klasifikasi dokumen untuk semua koefisien λ pada long query dalam bentuk confusion matrix dapat dilihat pada Lampiran 3 dan hasil pengukuran untuk semua koefisien λ pada long query ada di Lampiran 4. Dari Gambar 6 terlihat bahwa parameter pengontrol koefisien λ=0.1 sampai dengan 0.6 memiliki nilai akurasi yang sama, sebesar 92 %. Demikian juga untuk recall, precision dan Fmeasure pada micro average adalah sama, yaitu 88 %. Perbedaan yang tampak pada koefisien λ=0.1 sampai dengan 0.3, dan koefisien λ=0.4 sampai 0.6. Perbedaan tersebut tidak terlalu berarti, hanya pada koefisien λ=0.1 sampai 0.3, kelas a dikenali salah ke dalam kelas b sebanyak satu dokumen uji dan kelas c sebanyak dua dokumen uji. Sebaliknya pada koefisien λ=0.4 sampai
Pada Tabel 4 terlihat bahwa total pengujian untuk kelas a, b, dan c yang diklasifikasikan benar adalah 594, dan yang diklasifikasikan salah adalah sebanyak 81. Dari total kelas dengan banyaknya koefisien λ yang diujikan sebanyak 1269. NBC dan NBC+Background Smoothing Perbedaan antara klasifikasi dokumen NBC dengan NBC+Background Smoothing adalah Maximum Likelihood Estimation (MLE). Penghitungan MLE pada NBC seperti pada formula (2), menggunakan jumlah seluruh kata unik dokumen latih di semua kelas, sedangkan pada Background Smoothing tidak menambahkan jumlah seluruh kata unik dalam dokumen uji untuk penghitungannya. Hasil pengukuran ini dilakukan pada nilai parameter pengontrol koefisien λ yang terbaik untuk background smoothing. Dari hasil pengukuran sebelumnya telah diperoleh nilai koefisien terbaik untuk short query adalah λ=0.3 dan long query pada λ=0.7.
Tingkat Akurasi
Tingkat Akurasi Parameter Pengontrol Koefisien λ pada Long Query 100 % 98 % 96 % 94 % 92 % 90 % 88 % 86 % 84 % 82 % 80 % 78 % 76 % 74 % 72 % 0% 70 0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
Koefisien λ Gambar 6 Tingkat Akurasi Koefisien λ pada Long Query
8
Hasil klasifikasi dokumen untuk short query terlihat pada Tabel 5 dan Gambar 7 bahwa tingkat akurasi NBC+Background Smoothing dengan koefisien λ=0.3 lebih baik dibandingkan dengan NBC. Hasil pengukuran selengkapnya dapat dilihat pada Lampiran 6 dimana nilai Fmeasure pada tabel macro average untuk kelas a dan kelas b, lebih tinggi dibandingkan dengan F-measure pada NBC. Hanya kelas c dokumen uji diklasifikasikan dengan baik terhadap kelas a dan b oleh NBC.
daripada NBC, walaupun tidak terlalu berbeda. Hasil klasifikasi dokumen pada tiap kelas, selengkapnya dapat dilihat pada Lampiran 5. Tabel 6 Confusion Matrix NBC dan NBC+ Background Smoothing (Short Query) TRUE
FALSE NBC
TRUE
62
13
FALSE
13
137
NBC+Background Smoothing
Tabel 5 Micro Average NBC dan NBC+ Background Smoothing λ=0.3
TRUE
63
12
FALSE
12
138
Pengukuran Micro Average (%)
recall precision
F-1
Akurasi
NBC
82,67
82,67
82,67
88,44
NBC+BgS
84,00
84,00
84,00
89,33
Tingkat Kinerja NBC dan NBC+ Background Smoothing pada Short Query 100 % 90 %
Tingkat Kinerja
80 % 70 % 60 %
NBC
50 % 40 %
NBC +BgS
30 % 20 % 10 % 0%
Gambar 7 Perbandingan Tingkat Akurasi pada Short Query Berdasarkan Tabel 6 pengujian dokumen untuk tiga kelas a, b, dan c pada NBC yang diklasifikasikan dengan benar adalah 62, dan yang diklasifikasikan salah yaitu 13 dokumen uji dari total 75 dokumen yang diujikan. Sedangkan dokumen uji yang diklasifikasikan dari total dokumen pada tiga kelas sebanyak 137. Sedangkan pada NBC+Background Smoothing mengklasifikasikan dokumen dengan benar sebanyak 63 dokumen uji. Hal inilah yang membuat tingkat akurasi NBC+Background Smoothing lebih baik
Hasil klasifikasi untuk long query dapat dilihat pada Tabel 7 dan Gambar 8. Terlihat bahwa tingkat akurasi klasifikasi dokumen NBC+Background Smoothing dengan koefisien λ=0.7 lebih baik dibandingkan dengan NBC. Dimana nilai micro average untuk recall, precision, dan F-measure pada NBC+ Background Smoothing dengan koefisien λ=0.7 adalah sebesar 89.3 %, sedangkan pada NBC diperoleh sebesar 86.6 %. Tingkat akurasi NBC +Background Smoothing mencapai 92.9 %, sedangkan NBC menghasilkan tingkat akurasi sebesar 91.1 %. Hasil pengukuran macro dan micro average untuk long query dapat dilihat pada Lampiran 6. Pada tabel macro average terlihat bahwa nilai F-measure pada kelas a dan kelas b lebih tinggi dibandingkan dengan F-measure pada NBC. Namun sebaliknya pada kelas c terlihat bahwa nilai F-measure yang diperoleh NBC lebih tinggi dibandingkan dengan NBC+Background Smoothing. Hal inilah yang menyebabkan hasil klasifikasi dokumen menggunakan NBC+ Background Smoothing tidak terlalu berbeda dengan NBC karena pada tabel macro average (Lampiran 6) terlihat bahwa nilai recall untuk kelas c lebih tinggi dibandingkan dengan NBC+Background Smoothing. Tabel 7 Micro Average NBC dan NBC+ Background Smoothing λ=0.7 Pengukuran Micro Average (%)
recall
precision
F-1
Akurasi
NBC
86,67
86,67
86,67
91,11
NBC+BgS
89,33
89,33
89,33
92,89
9
Tingkat Kinerja NBC dan NBC+ Background Smoothing pada Long Query 100 % 90 %
Tingkat Kinerja
80 % 70 % 60 % NBC 50 % NBC+ BgS
40 % 30 % 20 %
yang disesuaikan dengan data training, sehingga hasilnya lebih baik dibandingkan dengan NBC kendati tidak terlalu berbeda. Sedangkan nilai λ terbaik pada short dan long query, terkait dengan domain klasifikasi dokumen yang digunakan sebagai collection background model. Pada penelitian ini menggunakan domain tanaman hortikultura pada penelitian tentang pertanian. Bisa saja nilai koefisien λ untuk domain selain hortikultura, misalnya untuk domain tanaman pangan nilai koefisien λ pada short query bukan di λ=0.3, dan sebaliknya untuk long query tidak pada λ=0.7.
10 % 0%
KESIMPULAN DAN SARAN
Gambar 8 Perbandingan Tingkat Akurasi pada Long Query Selain dari hasil pengukuran pada macro average, terlihat juga pada Tabel 8 confusion matrix, bahwa tingkat akurasi NBC+ Background Smoothing lebih baik daripada NBC, walaupun hasil yang diperoleh tidak terlalu berbeda seperti halnya pada short query. Dimana total pengujian dokumen untuk tiga kelas a, b, dan c pada NBC yang diklasifikasikan dengan benar sebanyak 65, dan yang diklasifikasikan salah yaitu 10 dokumen dari total 75 dokumen yang diujikan. Sedangkan NBC+Background Smoothing mengklasifikasikan dokumen dengan benar sebanyak 67 dokumen.
Tabel 8 Confusion Matrix NBC dan NBC+ Background Smoothing (Long Query) TRUE
FALSE NBC
TRUE FALSE
65
10
10
140
NBC+Background Smoothing
TRUE
67
8
FALSE
8
142
Dari hasil penelitian ini menunjukkan bahwa hasil klasifikasi menggunakan background smoothing tidak bergantung pada panjang atau pendeknya query karena hasil yang hampir sama dicapai pula oleh NBC, baik untuk short maupun long query. Hal yang mempengaruhi hasil klasifikasi dengan background smoothing adalah adanya nilai parameter pengontrol λ
Kesimpulan Background smoothing merupakan teknik smoothing dengan pendekatan languange model. Pada penelitian ini, background smoothing memodelkan seluruh dokumen latih sebagai collection background model. Dari hasil klasifikasi terlihat bahwa tingkat akurasi NBC+ Background Smoothing tidak banyak pengaruhnya dibandingkan dengan NBC. Peningkatan akurasi tersebut hanya sebesar 1.78% dari hasil yang diperoleh pada NBC. Untuk dapat menambah tingkat keakurasian perlu melibatkan keterkaitan antar kata atau semantic. Hasil klasifikasi dengan background smoothing dipengaruhi oleh nilai parameter pengontrol λ yang disesuaikan dengan data training. Nilai λ terbaik yang diperoleh pada short dan long query bergantung pada domain klasifikasi dokumen yang digunakan sebagai collection background model. Hasil pengukuran klasifikasi pada dokumen bidang kajian pertanian untuk domain hortikultura menunjukkan bahwa nilai parameter koefisien λ yang terbaik pada short query adalah pada λ=0.3 dengan akurasi sebesar 89.3 % dan pada long query diperoleh pada λ=0.7 dengan akurasi 92.8 %. Oleh karena itu, nilai λ yang kecil sebaiknya digunakan pada data training yang kecil untuk klasifikasi short query. Sebaliknya untuk long query dibutuhkan nilai λ yang lebih besar. Saran Pada penelitian selanjutnya metode Background Smoothing perlu diujikan pada koleksi dokumen selain domain pertanian
10
hortikultura agar dapat dilihat hasil klasifikasi dan pengaruh nilai λ terbaik untuk short dan long query sama atau berbeda. Selain dipadankan dengan NBC, metode Background Smoothing dapat juga dipadankan dengan teknik smoothing yang lain seperti pada Semantic Smoothing.
DAFTAR PUSTAKA Christopher D Manning, Raghavan P, Hinrich Schütze.2009. An Introduction to Information Retrieval. http://nlp.stanford. edu/ IRbook/pdf/irbookprint. Pdf. [12 Jun 2009].
Zhou X, Zhang X, Hu X. 2008. Semantic Smoothing for Bayesian Text Classification with Small Training Data. Dalam: SIAM SDM 08. Proc of the 2008, SIAM International Conference on Data Mining; Georgia, Atlanta, 24-26 Apr 2008. http:// www.siam.org/proceedings/datamining/ 2008/dm08_26_Zhou.pdf. [7 Jul 2009]. Zhou X, Hu X, Zhang X. 2007. Topic Signature Language Model for Ad Hoc Retrieval. J IEEE Trans Knowledge and Data Eng (TKDE).19:9: 1276-1287. http:// www. daviszhou.net/research. [12 Agu 2009].
Djoerd Hiemstra. 2001.Using Language Models for Information Retrieval.[tesis]. Centre for Telematics and Information Technology, University of Twente. ISSN 1381-3617 no. 01-32; ISBN 90-75296-05-3. http://www home.cs.utwente.nl/~hiemstra/ publications. [7 Feb 2010]. Chen, SF, Goodman J. 1998. An Empirical Study of Smoothing Techniques for Language Modeling. TR-10-98, Harvard University. http://research.Microsoft.com/ en-us/um/people/joshuago/publications. [12 jun 2009]. Kartika I.2005. Evaluasi Penambahan Dokumen Dalam Sistem Temu Kembali Informasi. [skripsi].Bogor: Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor. Liu X, Croft WB. 2004. Statistical Language Modeling For Information Retrieval. Annual Review of Information Science and Technology, vol. 39, pp. 3-31. http://ciir. cs.umass.edu/pubfiles. [7 Feb 2010]. Lutz Hamel. Model Assessment with ROC Curves.2008. The Encyclopedia of Data Warehousing and Mining.2nd Edition.Idea Group Publishers. http://homepage.cs.uri. edu/faculty/hamel/pubs. [15 Mar 2010]. Zhai C, Lafferty J. 2001. A study of Smoothing Methods for Language Models Applied to Ad Hoc Information Retrieval, Proceedings of the 24th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR'01), hlm 334-342. http://sifaka. cs.uiuc.edu/czhai/ selected.html. [7 Feb 2010]
11
LAMPIRAN
12
Lampiran 1 Confusion Matrix untuk Semua Koefisien λ pada Short Query Kelas A
Kelas B
Kelas C
Koefisien λ
AA
AB
AC
BA
BB
BC
CA
CB
CC
0.1
17
3
5
3
22
0
1
1
23
0.2
17
3
5
3
22
0
2
1
22
0.3
18
2
5
2
23
0
2
1
22
0.4
17
2
6
2
23
0
2
1
22
0.5
17
2
6
2
23
0
2
1
22
0.6
17
2
6
2
23
0
2
1
22
0.7
17
2
6
2
23
0
2
1
22
0.8
17
2
6
2
23
0
2
1
22
0.9
14
5
6
3
22
0
0
2
23
≠ Kelas A = Fisiologi dan Agronomi Kelas B = Pemuliaan dan Teknologi Benih Kelas C = Proteksi
13
Lampiran 2 Hasil Pengukuran Macro dan Micro Average pada Short Query MACRO AVERAGE (%)
Koefisien λ
Recall
Precision
MICRO AVERAGE (%)
F-measure
Accuracy
Recall
Precision
F-measure
Accuracy
90.67
82.67
82.67
82.67
88.44
90.67
89.33
81.33
81.33
81.33
87.56
85.33
93.33
89.33
84.00
84.00
84.00
89.33
83.02
84.00
93.33
88.00
82.67
82.67
82.67
88.44
90.20
83.02
84.00
93.33
88.00
82.67
82.67
82.67
88.44
73.91
90.20
83.02
84.00
93.33
88.00
82.67
82.67
82.67
88.44
88.00
73.91
90.20
83.02
84.00
93.33
88.00
82.67
82.67
82.67
88.44
92.00
88.00
73.91
90.20
83.02
84.00
93.33
88.00
82.67
82.67
82.67
88.44
88.00
92.00
66.67
81.48
85.19
81.33
86.67
89.33
78.67
78.67
78.67
85.78
A
B
C
A
B
C
A
B
C
A
B
C
0.1
80.95
84.62
82.14
68.00
88.00
92.00
73.91
86.27
86.79
84.00
90.67
0.2
77.27
84.62
81.48
68.00
88.00
88.00
72.34
86.27
84.62
82.67
0.3
81.82
88.46
81.48
72.00
92.00
88.00
76.60
90.20
84.62
0.4
80.95
88.46
78.57
68.00
92.00
88.00
73.91
90.20
0.5
80.95
88.46
78.57
68.00
92.00
88.00
73.91
0.6
80.95
88.46
78.57
68.00
92.00
88.00
0.7
80.95
88.46
78.57
68.00
92.00
0.8
80.95
88.46
78.57
68.00
0.9
82.35
75.86
79.31
56.00
≠ A = Kelas Fisiologi dan Agronomi B = Kelas Pemuliaan dan Teknologi Benih C = Kelas Proteksi
14 14
Lampiran 3 Confusion Matrix Semua Koefisien λ pada Long Query Kelas A
Koefisien
Kelas B
Kelas C
λ
AA
AB
AC
BA
BB
BC
CA
CB
CC
0.1
22
1
2
3
22
0
2
1
22
0.2
22
1
2
3
22
0
2
1
22
0.3
22
1
2
3
22
0
2
1
22
0.4
22
2
1
3
22
0
2
1
22
0.5
22
2
1
3
22
0
2
1
22
0.6
22
2
1
3
22
0
2
1
22
0.7
22
2
1
2
23
0
2
1
22
0.8
22
2
1
2
23
0
2
1
22
0.9
19
4
2
2
23
0
2
1
22
≠ Kelas A = Fisiologi dan Agronomi Kelas B = Pemuliaan dan Teknologi Benih Kelas C = Proteksi
15
Lampiran 4 Hasil Pengukuran Macro dan Micro Average pada Long Query MACRO AVERAGE (%)
Koefisien λ
Recall
Precision
MICRO AVERAGE (%)
F-measure
Accuracy
Recall
Precision
F-measure
Accuracy
93.33
88.00
88.00
88.00
92.00
93.33
93.33
88.00
88.00
88.00
92.00
89.33
93.33
93.33
88.00
88.00
88.00
92.00
91.67
89.33
92.00
94.67
88.00
88.00
88.00
92.00
88.00
91.67
89.33
92.00
94.67
88.00
88.00
88.00
92.00
84.62
88.00
91.67
89.33
92.00
94.67
88.00
88.00
88.00
92.00
88.00
86.27
90.20
91.67
90.67
93.33
94.67
89.33
89.33
89.33
92.89
92.00
88.00
86.27
90.20
91.67
90.67
93.33
94.67
89.33
89.33
89.33
92.89
92.00
88.00
79.17
86.79
89.80
86.67
90.67
93.33
85.33
85.33
85.33
90.22
A
B
C
A
B
C
A
B
C
A
B
C
0.1
81.48
91.67
91.67
88.00
88.00
88.00
84.62
89.80
89.80
89.33
93.33
0.2
81.48
91.67
91.67
88.00
88.00
88.00
84.62
89.80
89.80
89.33
0.3
81.48
91.67
91.67
88.00
88.00
88.00
84.62
89.80
89.80
0.4
81.48
88.00
95.65
88.00
88.00
88.00
84.62
88.00
0.5
81.48
88.00
95.65
88.00
88.00
88.00
84.62
0.6
81.48
88.00
95.65
88.00
88.00
88.00
0.7
84.62
88.46
95.65
88.00
92.00
0.8
84.62
88.46
95.65
88.00
0.9
82.61
82.14
91.67
76.00
≠ A = Kelas Fisiologi dan Agronomi B = Kelas Pemuliaan dan Teknologi Benih C = Kelas Proteksi
16 16
Lampiran 5 Confusion Matrix NBC dan NBC+ Background Smoothing Kelas A
Short Query
Kelas B
Kelas C
AA
AB
AC
BA
BB
BC
CA
CB
CC
NBC+BgS (λ = 0.3)
18
3
4
4
21
0
1
1
23
NBC
18
2
5
2
23
0
2
1
22
Kelas A
Long Query
Kelas B
Kelas C
AA
AB
AC
BA
BB
BC
CA
CB
CC
NBC+BgS (λ = 0.7)
22
1
2
2
23
0
2
1
22
NBC
22
2
1
4
21
0
2
1
22
≠ Kelas A = Kelas B = Kelas C = NBC = NBC+BgS =
Fisiologi dan Agronomi Pemuliaan dan Teknologi Benih Proteksi Naïve Bayes Classifier Naïve Bayes Classifier+Background Smoothing
17
Lampiran 6 Hasil Pengukuran NBC dan NBC+ Backgorund Smoothing MACRO AVERAGE (%)
Short Query
Recall
Precision
MICRO AVERAGE (%)
F-measure
Accuracy
Recall
Precision
F-measure
Accuracy
89.33
84.00
84.00
84.00
89.33
92.00
82.67
82.67
82.67
88.44
A
B
C
A
B
C
A
B
C
A
B
C
NBC+BgS (λ = 0.3)
81.82
88.46
81.48
72.00
92.00
88.00
76.60
90.20
84.62
85.33
93.33
NBC
78.26
84.00
85.19
72.00
84.00
92.00
75.00
84.00
88.46
84.00
89.33
MACRO AVERAGE (%)
Long Query
Recall
Precision
MICRO AVERAGE (%)
F-measure
Accuracy
Recall
Precision
F-measure
Accuracy
93,33
89.33
89.33
89.33
92.89
94,67
86.67
86.67
86.67
91.11
A
B
C
A
B
C
A
B
C
A
B
C
NBC+BgS (λ = 0.7)
84,62
92,00
91,67
88,00
92,00
88,00
86,27
92,00
89,80
90,67
94,67
NBC
78,57
87,50
95,65
88,00
84,00
88,00
83,02
85,71
91,67
88,00
90,67
≠A = B = C = NBC = NBC+BgS =
Kelas Fisiologi dan Agronomi Kelas Pemuliaan dan Teknologi Benih Kelas Proteksi Naïve Bayes Classifier Naïve Bayes Classifier+Background Smoothing
18 18