PERBANDINGAN EFISIENSI MODEL RUANG VEKTOR PADA SISTEM TEMU KEMBALI INFORMASI
ARI ALKAUTSAR
DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2012
1
PERBANDINGAN EFISIENSI MODEL RUANG VEKTOR PADA SISTEM TEMU KEMBALI INFORMASI
ARI ALKAUTSAR
Skripsi Sebagai salah satu syarat untuk memperoleh gelar Sarjana Komputer pada Departemen Ilmu Komputer
DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2012
2
ABSTRACT ARI ALKAUTSAR Comparison of Efficiency Vector Space Model on Information Retrieval System. Supervised by SONY HARTONO WIJAYA. Information retrieval system is a system to represent, store, organize, and process informations. Discovered documents were ranked by vector space model . Normalization of the vector space models similarity consist of cosine, Jaccard, and Dice. This research aims to compare efficiency of three vector space models based on recall and average precision (AVP), computation time, and algorithm complexcity. A thousand document were used in this research. The result showed that each coefficient of vector space model yield equal value for recall and AVP. The measure of similarity in cosine coefficient vector space model better than Jaccard coefficient and Dice coefficient, in terms of algorithms complexity and 3.1% faster than Jaccard coefficient and 9.4% than Dice coefficient, in terms of computation time. Keywords : cosine, Dice, Information Retrieval System, Jaccard, tf-idf, Vector Space Model.
3
Judul Skripsi Nama NRP
: Perbandingan Efisiensi Model Ruang Vektor pada Sistem Temu Kembali Informasi : Ari Alkautsar : G64096011
Disetujui Pembimbing
Sony Hartono Wijaya, S.Kom, M.Kom NIP 198108092008121002
Diketahui Ketua Departemen Ilmu Komputer
Dr. Ir. Agus Buono, M.Si, M.Kom NIP 196607021993021001
Tanggal Lulus:
4
PRAKATA
Puji dan syukur penulis panjatkan ke hadirat Tuhan Yang Maha Esa karena berkat rahmat dan karunia-Nya penulis dapat menyelesaikan skripsi ini. Skripsi ini merupakan hasil penelitian yang dilakukan dari bulan September sampai bulan Februari dengan bidang kajian Perbandingan Efisiensi Model Ruang Vektor pada Sistem Temu Kembali Informasi. Pembuatan skripsi ini tak lepas dari dukungan dan bantuan dari berbagai pihak. Oleh karena itu, penulis menyampaikan rasa terima kasih kepada: 1 2 3
4 5 6 7 8 9
Tuhan Yang Maha Esa atas rahmat dan karunia-Nya. Bapa, Mamah, Ira, Teteh, A Iwan, dan Rafi yang selalu memberikan dukungan, motivasi, kasih sayang, serta doanya. Bapak Sony Hartono Wijaya, S. Kom, M.Kom selaku dosen pembimbing tugas akhir. Terima kasih atas kesabaran, bimbingan serta dukungan dalam penyelesaian tugas akhir ini. Bapak Ir. Julio Adisantoso, M.Kom dan Bapak Ahmad Ridha, S.Kom, MS selaku dosen penguji. Teman-teman satu bimbingan, Selamat Subu dan Debi, terima kasih atas semangat dan kebersamaannya selama penyelesaian tugas akhir ini Teman-teman seperjuangan Ekstensi Departemen Ilmu Komputer angkatan 4. Teman-teman seperjuangan Manajemen Informatika angkatan 43. Teman-teman kosan White House beserta Dell Inspiron-ku. Seluruh pihak yang turut membantu baik secara langsung maupun tidak langsung dalam pelaksanaan tugas akhir.
Semoga hasil penelitian ini dapat bermanfaat dan dapat terus dikembangkan di masa mendatang.
Bogor, April 2012
Ari Alkautsar
5
RIWAYAT HIDUP Penulis yang dilahirkan di Serang pada tanggal 10 November 1988 merupakan anak kedua dari tiga bersaudara dengan ayah bernama Dedi Cunyadi Atmadipraja dan ibu bernama Mei Heryati. Pada tahun 2006 penulis lulus dari Sekolah Menengah Atas (SMA) Negeri 1 Serang dan diterima di Diploma Tiga Program Keahlian Manajemen Informatika, Institut Pertanian Bogor (IPB) setelah lulus pada tahun 2009, kemudian melanjutkan kuliah untuk gelar sarjana pada tahun 2009 di Departemen Ilmu Komputer, Fakultas Matematika dan Ilmu Pengetahuan Alam, IPB. Pada tahun 2009 penulis berkerja di perusahaan Property Manajemen Mall (PT. Bogor Anggana Cendekia) sebagai IT Support dan pada tahun 2011 penulis bergabung dengan Team Rainvolution untuk mengerjakan project system.
6
DAFTAR ISI
Halaman DAFTAR TABEL...................................................................................................................... vi DAFTAR GAMBAR ................................................................................................................. vi DAFTAR LAMPIRAN .............................................................................................................. vi PENDAHULUAN Latar Belakang ....................................................................................................................... 1 Tujuan .................................................................................................................................... 1 Ruang Lingkup ....................................................................................................................... 1 Manfaat .................................................................................................................................. 1 TINJAUAN PUSTAKA Sistem Temu Kembali Informasi ............................................................................................. 1 Pembobotan tf-idf ................................................................................................................... 1 Model Ruang Vektor............................................................................................................... 2 Kompleksitas Algoritme ......................................................................................................... 2 Evaluasi Sistem Temu Kembali Informasi ............................................................................... 2 METODE PENELITIAN Koleksi Dokumen Pengujian ................................................................................................... 3 Praproses ................................................................................................................................ 3 Pemrosesan Dokumen ............................................................................................................. 3 Evaluasi .................................................................................................................................. 4 Lingkungan Pengembangan .................................................................................................... 4 HASIL DAN PEMBAHASAN Koleksi Dokumen Pengujian ................................................................................................... 4 Praproses ................................................................................................................................ 4 Pemrosesan Dokumen ............................................................................................................. 4 Waktu Komputasi ................................................................................................................... 5 Kompleksitas Algoritme ......................................................................................................... 5 Evaluasi .................................................................................................................................. 7 KESIMPULAN DAN SARAN Kesimpulan ............................................................................................................................ 8 Saran ...................................................................................................................................... 8 DAFTAR PUSTAKA ................................................................................................................. 8 LAMPIRAN ..............................................................................................................................10
7
DAFTAR TABEL Halaman 1 2 3 4 5 6
Ilustrasi Recall dan Precision ................................................................................................. 3 Kompleksitas algoritme koefisien cosine. ............................................................................... 5 Kompleksitas algoritme koefisien Jaccard. ............................................................................. 6 Kompleksitas algoritme koefisien Dice ................................................................................... 6 Nilai rata-rata waktu komputasi untuk masing-masing koefisien.............................................. 7 Nilai perbandingan kompleksitas Algoritme............................................................................ 8
DAFTAR GAMBAR Halaman 1 Diagram Alur Metode Penelitian ........................................................................................... 3 2 Grafik recall precision........................................................................................................... 7
DAFTAR LAMPIRAN Halaman 1 2 3 4 5 6
Contoh Koleksi Dokumen .....................................................................................................11 Daftar Kueri dan Dokumen yang Relevan ..............................................................................12 Tampilan Sistem ...................................................................................................................19 Tabel Recall dan Preccision untuk Semua Ukuran Kesamaan.................................................20 Grafik Waktu Komputasi.......................................................................................................21 Tabel Waktu Komputasi ........................................................................................................22
1
PENDAHULUAN
precision, waktu komputasi, kompleksitas algoritme.
dan
Latar Belakang Semakin populernya penggunaan internet memengaruhi jumlah sumber daya informasi yang semakin besar keragamannya. Informasi yang jumlahnya sedikit dapat dicari secara manual dengan mudah, namun untuk informasi yang jumlahnya besar dibutuhkan suatu sistem yang dapat mencari dengan cepat informasi tersebut. Masalah lain yang dihadapi adalah sistem tidak mampu memeringkat dokumen relevan yang diinginkan pengguna berdasarkan urutan awal hasil pencarian. Untuk memecahkan masalah tersebut, salah satu pendekatan yang digunakan adalah sistem temu kembali informasi. Sistem temu kembali informasi digunakan untuk menemukembalikan informasi yang dianggap relevan terhadap kebutuhan pengguna. Temu kembali informasi yang baik menghasilkan dokumen relevan pada urutan awal hasil pencarian. Banyak model yang dapat digunakan untuk memeringkat dokumen hasil temu kembali informasi, salah satunya adalah model ruang vektor. Idenya adalah memeringkat dokumen hasil temu kembali informasi berdasarkan tingkat relevansi suatu dokumen. Dalam ukuran kesamaan model ruang vektor, terdapat tiga buah koefisien, yaitu koefisien cosine, koefisien Jaccard, dan koefisien Dice. Penelitian model ruang vektor umumnya menggunakan koefisien cosine, seperti Paiki (2006), Rusidi (2008), dan Rahayuni (2011) untuk memeringkat dokumen hasil pencarian. Intan & Defeng (2006) menggabungkan metode tf-idf dan koefisien Jaccard dalam memperkenalkan suatu algoritme search engine berdasarkan konsep High Accuracy Retrieval from Documents (HARD). Nurhanifah (2001) menggunakan metode trigram dengan ukuran kesamaan Dice dalam bentuk hypertext. Penelitian-penelitian tersebut hanya menggunakan satu koefisien model dalam penelitiannya dan tidak ada yang membandingkan kinerja dari model model ruang vektornya.
Tujuan Penelitian ini bertujuan membandingkan efisiensi ukuran koefisien kesamaan model ruang vektor berdasarkan recall dan average
Ruang Lingkup Ruang lingkup penelitian ini ialah: 1 Model sistem temu kembali informasi yang digunakan adalah model ruang vektor. 2 Terbatas pada perbandingan koefisien model ruang vektor yang dilihat berdasarkan recall dan average precision, waktu komputasi, dan kompleksitas algoritme. Manfaat Kinerja mesin pencari dapat dikembangkan berdasarkan berbagai macam model. Dari penelitian ini, diharapkan dapat diketahui hasil perbandingan pemeringkatan model ruang vektor dan dapat menjadi pembanding kinerja model lain.
TINJAUAN PUSTAKA Sistem Temu Kembali Informasi Temu kembali informasi mempelajari algoritme dan model untuk memperoleh informasi dari koleksi dokumen. Sistem temu kembali informasi merupakan sistem untuk merepresentasikan, menyimpan, mengorganisasikan, dan memproses informasi. Sistem temu kembali informasi menyediakan kemudahan akses informasi bagi pengguna. Pengguna harus menerjemahkan kebutuhan informasinya ke dalam bentuk kueri. Dengan adanya kueri yang diberikan pengguna, tujuan utama dari sistem temu kembali informasi adalah mengembalikan informasi yang relevan dengan kueri dan informasi yang tidak relevan sesedikit mungkin (Baeza-Yates & Ribeiro-Neto 1999). Pembobotan tf-idf Metode tf-idf merupakan suatu cara untuk memberikan bobot hubungan suatu kata (term) terhadap dokumen. Menurut Robertson (2005) dalam Intan & Defeng (2006), metode ini menggabungkan dua konsep untuk perhitungan bobot yaitu, frekuensi kemunculan sebuah kata di dalam sebuah dokumen tertentu dan inverse dokumen frekuensi yang mengandung kata tersebut.
2
Persamaan metode tf-idf sebagai berikut:
secara umum
𝑁
Wij = tfij × (log( )) 𝑛
3 Koefisien Dice ditemukan oleh Lee Raymond Dice yang merupakan metode ukuran kesamaan yaang berhubungan dengan koefisien Jaccard. Persamaannya sebagai berikut:
dengan: Wij
:
bobot kata/term dokumen di
tj
terhadap
tfij
:
jumlah kemunculan kata/term tj dalam di
N
:
jumlah semua dokumen yang ada dalam pangkalan data
n
:
jumlah dokumen yang mengandung kata/term tj (minimal ada satu kata yaitu term tj)
Model Ruang Vektor Pengukuran kesamaan (similarity measure) model ruang vektor digunakan untuk memeringkat dokumen hasil temu kembali informasi. Salton (1989) dalam Adisantoso (1996) melakukan normalisasi ukuran koefisien kesamaan ini menjadi tiga, yaitu: 1 Koefisien cosine merupakan metode ukuran kesamaan yang paling popular, yaitu dengan menghitung sudut antara vektor dokumen dengan vektor kueri. Persamaannya sebagai berikut: similarity dj ,q =
|dj ∙q | dj x q
dengan: dj: vektor dokumen q : vektor kueri
similarity dj ,q =
2|dj ∙q | dj x q
dengan: dj: vektor dokumen q : vektor kueri
Kompleksitas Algoritme Untuk menyelesaikan suatu masalah pemrograman, terdapat berbagai algoritme yang dapat digunakan. Dalam algoritme, harus ada parameter yang bisa dibandingkan agar dapat diselesaikan secara efektif. Dalam aplikasinya, setiap algoritme memiliki dua buah ciri khas yang dapat digunakan sebagai parameter pembanding, yaitu jumlah proses yang dilakukan dan jumlah memori yang digunakan untuk melakukan proses. Jumlah proses ini dikenal sebagai kompleksitas waktu yang disimbolkan dengan T(n), sedangkan jumlah memori ini dikenal sebagai kompleksitas ruang yang disimbolkan dengan S(n). Kompleksitas waktu diukur berdasarkan jumlah proses khas suatu algoritme, bukan berdasarkan run-time secara nyata ketika aplikasi dilakukan. Hal ini disebabkan oleh arsitektur komputer dan kompilator yang berbeda-beda sehingga suatu algoritme yang sama akan menghasilkan waktu eksekusi yang berbeda, pada komputer dan penyusun yang berbeda (Rheinadi 2009). Evaluasi Sistem Temu Kembali Informasi
2 Koefisien Jaccard adalah salah satu metode yang dipakai untuk menghitung similarity antara dua obyek. Ditemukan oleh Paul Jaccard yang merupakan metode ukuran kesamaan yang digunakan untuk membandingkan kesamaan dan keragaman set sampel. Persamaannya sebagai berikut: |dj ∙q | similarity dj ,q = dj x q -|dj ∙q | dengan: dj: vektor dokumen q : vektor kueri
Terdapat banyak jenis ukuran yang dapat digunakan untuk mengevaluasi kinerja suatu sistem temu kembali informasi. Pengukuran yang paling umum menggunakan recall dan precision. Recall adalah rasio jumlah dokumen relevan yang ditemukan kembali dengan total jumlah dokumen dalam kumpulan dokumen yang dianggap relevan, sedangkan precision adalah rasio jumlah dokumen relevan yang ditemukan dengan total jumlah dokumen yang ditemukembalikan (Manning et al. 2008). Ilustrasi recall dan precision dapat dilihat di Tabel 1.
3
Tabel 1 Ilustrasi recall dan precision Relevan
Non relevan
Retrieved
tp
fp
Non retrieved
fn
tn
Recall=
|tp| (|tp|+|fn|)
|tp| Precision= (|tp|+|fp|) Pengukuran kinerja pemeringkatan dapat dilakukan dengan interpolasi average precision. Interpolasi average precision adalah suatu ukuran evaluasi kinerja temukembali yang diperoleh dengan menghitung rata-rata precision pada berbagai tingkat recall. Standar yang digunakan adalah standar tingkat recall, yaitu 0.0, 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, 0.10. Average precision diformulasikan sebagai berikut: 𝑁𝑞
𝑃 𝑟 = 𝑖=1
𝑃𝑖 (𝑟) 𝑁𝑞
𝑃 𝑟 adalah average precision pada level recall r, Nq adalah jumlah kueri yang digunakan, dan Pi (r) adalah precision pada level recall r untuk kueri ke-i (Baeza-Yates & Ribeiro-Neto 1999). METODE PENELITIAN Tahapan yang akan dilakukan pada penelitian secara umum terdiri atas tiga tahap, yaitu: 1 praproses, 2 pemrosesan dokumen, dan 3 evaluasi. Koleksi Dokumen Pengujian Data didapat dari 1000 dokumen pertanian yang ada di pangkalan data Laboratorium Temu Kembali Informasi, Departemen Ilmu Komputer, Institut Pertanian Bogor hasil penelitian Adisantoso & Ridha (2004). Praproses Pada praproses akan dilakukan tiga tahap, yaitu:
1 Proses tokenisasi (tokenizing) yang membagi teks input menjadi unit-unit kecil yang disebut token, yang dapat berupa suatu kata, suatu angka, atau suatu tanda baca. 2 Proses pembuangan kata yang tidak perlu digunakan (stopwords) seperti “dan” atau “yang”. indexing menggunakan 3 Proses pembobotan tf-idf. Gambaran sistem dalam penelitian ini dapat dilihat pada Gambar 1.
Kueri
Dokumen
Praproses
Praproses
Pemrosesan Dokumen Ukuran kesamaan koefisien cosine
Ukuran kesamaan koefisien Jaccard
Ukuran kesamaan koefisien Dice
Hasil
Evaluasi
Gambar 1 Diagram alur metode penelitian. Pemrosesan Dokumen Pengukuran kesamaan yang dibandingkan menggunakan metode dari model ruang vektor yaitu koefisien cosine, Jaccard, dan Dice. Hasil temu kembali dari masing-masing ukuran koefisien kesamaan akan dibandingkan berdasarkan 3 hal yaitu recall dan average precision, waktu komputasi dan kompleksitas algoritme.
4
Evaluasi Pengukuran yang digunakan untuk mengevaluasi kinerja suatu sistem temu kembali informasi dalam penelitian ini adalah recall dan precision. Hasil perhitungan recall dan precision untuk masing-masing pembobotan akan digambarkan dalam dilakukan bentuk grafik, kemudian perhitungan interpolasi maksimum untuk mendapatkan nilai average precision yang akan digambarkan melalui tabel. Dihitung juga nilai kompleksitas algoritme dan waktu komputasi, kemudian dibandingkan untuk masing-masing koefisien. Lingkungan Pengembangan Penelitian ini dilakukan dengan menggunakan bantuan perangkat keras dan perangkat lunak dengan spesifikasi sebagai berikut: Perangkat lunak: Microsoft Windows 7 Ultimate, xampp sebagai web server. Perangkat keras: AMD E-350 Processor 1.6 GHz, 2 GB RAM, Hard disk 300 GB.
HASIL DAN PEMBAHASAN Koleksi Dokumen Pengujian Koleksi dokumen yang digunakan untuk menguji sistem berasal dari korpus yang sudah tersedia di Laboratorium Temu Kembali Informasi, Departemen Ilmu Komputer IPB. Koleksi terdiri atas 1000 dokumen dengan format teks (.txt) dengan struktur tag XML pada masing-masing dokumen. Contoh dokumen uji dapat dilihat di Lampiran 1. Tag yang digunakan dalam dokumen, yaitu : <doc> mewakili keseluruhan dokumen. Di dalamnya terdapat tag lain yang mendeskripsikan isi dokumen lebih jelas. <docno> mewakili ID dokumen. ID yang dipakai merupakan kombinasi nama sumber berita, tanggal, dan urutan berita pada tanggal yang sama.
mewakili judul dokumen.
mewakili penulis dokumen.
mewakili isi dokumen. Jumlah kueri uji yang akan digunakan dalam penelitian ini adalah 30 kueri uji dokumen pertanian yang berasal dari
Laboratorium Temu Kembali Informasi. Daftar kueri uji yang digunakan dalam penelitian ini dapat dilihat pada Lampiran 2. Praproses Praproses dilakukan dengan tahapan tokenisasi, pembuangan kata yang tidak perlu, dan pembobotan. Tahap tokenisasi dilakukan dengan pembacaan karakter per karakter. Tujuannya untuk membedakan karakter-karakter yang bersifat separator. Separator yang dihilangkan, yaitu: karakter pemisah indeks istilah (whitespace), karakter angka, titik, koma, dan karakter lainnya yang dianggap kurang representasif dalam mencirikan suatu dokumen. Tahap pembuangan stopword dilakukan setelah hasil tokenisasi dokumen didapatkan. Hasil tokenisasi dibandingkan dengan stopword. Jika token berada di dalam stopword, token tersebut harus dihilangkan. Pembuangan token juga dilakukan untuk token yang terdiri atas dua huruf karena token tersebut kurang representatif dalam mencirikan suatu dokumen. Pembobotan dimulai dengan mendapatkan frekuensi tiap token di dalam setiap dokumen (tf), setelah itu dihitung jumlah dokumen yang mengandung token tertentu (df). Hasil dari df akan digunakan untuk mendapatkan nilai idf (Inverse document frequency) dari setiap token. Hasil idf ini disimpan dalam file “Idf.txt”. Pembobotan tf-idf didapatkan dari hasil perkalian antara tf dan idf. Hasil perhitungan tf-idf juga disimpan ke dalam file “tf-idf.txt” untuk mempermudah proses perhitungan selanjutnya. Hasil pemrosesan dokumen digunakan untuk menghitung kesamaan kueri dengan dokumen menggunakan tiga koefisien model ruang vektor. Pemrosesan Dokumen Ukuran kesamaan yang digunakan untuk Menghitung bobot antara dokumen dan kueri yang pertama adalah koefisien cosine. Hasil dari koefisien cosine akan diurutkan berdasarkan dokumen yang memunyai kesamaan terbesar sampai terkecil. Di bawah ini adalah 10 hasil teratas dari dokumen koefisien cosine dengan kueri “bencana kekeringan”.
5
mediaindonesia110703 => 0.14686 gatra070203 => 0.1260200519299 indosiar310504 => 0.11737558600 mediaindonesia160603 => 0.1130521579 kompas250803 => 0.10169930497365 mediaindonesia260803 => 0.0963119982 indosiar170603 => 0.0863044 mediaindonesia050604-001 => 0.080123 indosiar010903 => 0.078978547799479 republika030903-002 => 0.07173908795 Ukuran kesamaan kedua adalah koefisien Jaccard, dengan urutan yang tidak berbeda jika dibandingkan dengan cosine. Di bawah ini adalah 10 hasil teratas dari koefisien Jaccard. mediaindonesia110703 => 0.18368283 gatra070203 => 0.1765258240 indosiar310504 => 0.146857896 mediaindonesia160603 => 0.13315907 kompas250803 => 0.1203722 mediaindonesia260803 => 0.11458805 indosiar170603 => 0.105969455 mediaindonesia050604-001 => 0.09603 indosiar010903 => 0.08789476 republika030903-002 => 0.083524681 Begitu juga dengan koefisien Dice tidak terlihat perbedaan urutan dalam pemeringkatan hasil temu kembali informasi. Di bawah ini adalah 10 hasil teratas dari koefisien Dice. mediaindonesia110703 => 0.17214 gatra070203 => 0.144191010 indosiar310504 => 0.1329847 mediaindonesia160603 => 0.127462013 kompas250803 => 0.11321298707296 mediaindonesia260803 => 0.106576603 indosiar170603 => 0.094456514765376 mediaindonesia050604-001 => 0.087102 indosiar010903 => 0.085751040446215 republika030903-002 => 0.07728332306 Waktu Komputasi Waktu komputasi dalam ukuran detik, diambil sebanyak 5 kali, kemudian dibuat nilai rata-rata dari masing-masing nilai berdasarkan kueri. Grafik waktu komputasi dapat dilihat di Lampiran 5 dan tabel waktu komputasi dapat dilihat di Lampiran 6.
Kompleksitas Algoritme Kompleksitas algoritme diambil dari masing-masing nilai koefisien. Setiap proses dihitung kompleksitasnya, kemudian dibuat nilai notasi Big-O untuk hasilnya. Notai BigO yang digunakan karena notasi ini mendeskripsikan kinerja kasus terburuk (worst-case) dari suatu algoritme, sehingga Big-O dapat menjamin bahwa suatu algoritme tidak akan lebih buruk dari worst-case. Tabel 2, 3, dan 4 menunjukkan hasil perhitungan kompleksitas untuk masing-masing koefisien model ruang vektor. Tabel 2
Kompleksitas algoritme koefisien cosine.
Algoritme procedure cosine() cosine <- 0 ids <- '' data <- array() Idf <- idf in procedure idf for each idf in array to length(id) do: for each array in termFreq to length(term) do: if term <- q1 or term <- q2 do: termFreq_q <- 1 Else termFreq_q <- 0 end if tfidf_d
T(n) 1 1 1 1 3*n = 3n 3*n*n = 3 n2 4 n2 2 n2 2 n2 4 n2 4 n2 2 n2 3 n2 3 n2 3 n2 n2 3 n2 3 n2 3 n2 3 n2 n2 n2
6
Algoritme bawah1 += $tfidf_d*$tfidf_d bawah2 += $tfidf_q*$tfidf_q end if ids <- id end for hasilbawah1 <sqrt(bawah1) hasilbawah2 <sqrt(bawah2) hasilbawah
Tabel 3
T(n) 3 n2 3 n2 2n
2
3n 3n 3n 3n
53 n2 + 12 n + 4
Kompleksitas algoritme koefisien Jaccard.
Algoritme procedure Jaccard() Jaccard <- 0 ids <- '' data <- array() Idf <- idf in procedure idf for each idf in array to length(id) do: for each array in termFreq to length(term) do: if term <- q1 or term <- q2 do: termFreq_q <- 1 else termFreq_q <- 0 end if tfidf_d
T(n) 1 1 1 1
Algoritme atas += tfidf_d*tfidf_q hasilbawah1 <sqrt(bawah1) hasilbawah2 <sqrt(bawah2) hasilbawah
3*n = 3n 3*n*n = 3 n2 4 n2 2 n2 2 n2 4 n2 4 n2 2 n2 3 n2 3 n2 3 n2 2
n
Tabel 4
T(n) 3 n2 3 n2 3 n2 3 n2 n2 n2 3 n2 3 n2 2 n2 3n 3n 3n 3n 4n
53 n2 + 16 n + 4
Kompleksitas algoritme koefisien Dice.
Algoritme procedure Dice() Dice <- 0 ids <- '' data <- array() Idf <- idf in procedure idf for each idf in array to length(id) do: for each array in termFreq to length(term) do: if term <- q1 or term <- q2 do: termFreq_q <- 1 else termFreq_q <- 0 end if
T(n) 1 1 1 1 3*n = 3n 3*n*n = 3 n2 4 n2 2 n2 2 n2
7
Algoritme tfidf_d
T(n) 4 n2 4 n2 2 n2 3 n2
Evaluasi ini precision.
menggunakan
nilai
recall
Hasil evaluasi recall precision dari masing-masing kueri diinterpolasi maksimum untuk mencari nilai average precision dan digambarkan dalam bentuk grafik serta tabel di Gambar 2.
3 n2 3 n2 n2 3 n2 3 n2 3 n2 3 n2 n2 n2 3 n2 3 n2 2 n2 3n 3n 3n 2n 3n
56 n2 + 14 n + 4
Kompleksitas algoritme cosine adalah 53 n + 12 n + 4, Jaccard 53 n2 + 16 n + 4, dan Dice 56 n2 + 14 n + 4 sehingga semua koefisien memiliki notasi Big-O yang sama yaitu O(n2). 2
Evaluasi Proses evaluasi dokumen menggunakan 30 pasangan kueri dengan dokumen relevan.
Gambar 2 Grafik recall precision Gambar 2 menggambarkan bahwa temu kembali menghasilkan nilai average precision (AVP) sebesar 0.6284 dengan recall rata-rata 0.5821. Dari ketiga perhitungan koefisien di atas, tidak dapat disimpulkan mana yang terbaik karena masing-masing koefisien memiliki nilai keterurutan yang sama. Dalam waktu komputasi, diperoleh perbandingan nilai rata-rata koefisien cosine 15.2378 detik, Jaccard 16.7311 detik, dan Dice 16.8261 detik. Tabel 5 akan menunjukkan perbandingan nilai rata-rata waktu komputasi. Tabel 5
Nilai rata-rata waktu komputasi masing-masing koefisien.
Koefisien
Waktu Komputasi
Cosine
15.2378
Jaccard
15.7311
Dice
16.8261
Nilai rata-rata koefisien cosine 3.1% lebih cepat dari koefisien Jaccard dan 9.4% lebih cepat dari koefisien Dice. Kompleksitas algoritme cosine 53 n2 + 12 n + 4, Jaccard 53 n2 + 16 n + 4, dan Dice 56 n2 + 14 n + 4. Tabel 6 akan menunjukkan perbandingan nilai kompleksitas algoritme dari masing-masing koefisien.
8
Tabel 6
Nilai perbandingan kompleksitas algoritme.
Koefisien
Kompleksitas Alg
Cosine
53 n2 + 12 n + 4
Jaccard
53 n2 + 16 n + 4 2
Dice
56 n + 14 n + 4
Dari ketiga koefisien di Tabel 6, disimpulkan bahwa nilai notasi Big-O adalah O(n2). Koefisien cosine memiliki kompleksitas terbaik dengan tingkat kompleksitas yang lebih rendah dibanding koefisien lain. KESIMPULAN DAN SARAN Kesimpulan Penelitian ini membandingkan efisiensi model ruang vektor pada sistem temu kembali informasi. Dari hasil yang didapat, dapat disimpulkan bahwa: 1 Masing-masing koefisien dalam ukuran kesamaan model ruang vektor memiliki nilai yang sama untuk recall dan AVP. 2 Ukuran kesamaan model ruang vektor koefisien cosine lebih baik dibanding dengan koefisien Jaccard dan koefisien Dice dalam hal kompleksitas algoritme dan waktu komputasi. Saran Beberapa hal yang perlu dikembangkan dalam penelitian selanjutnya ialah: 1 Penggunaan variant lain dari pembobotan tf-idf. 2 Perlu diujicoba dengan menggunakan dokumen yang jumlahnya lebih banyak dan ukuran dokumen yang sama, seperti berita.
DAFTAR PUSTAKA Adisantoso J. 1996. Pendekatan kuantitatif untuk penelusuran informasi. Forum Statistika dan Komputasi 2(1): 24-29. Adisantoso J, Ridha A. 2004. Corpus Dokumen Teks Bahasa Indonesia untuk Pengujian Efektivitas Temu Kembali Informasi. Bogor: Fakultas Matematika dan Ilmu Pengetahuan Alam, Istitut Pertanian Bogor.
Aly AA. 2008. Using a query technique to improve document retrieval. Information Technologies and Knowledge 2:343-348. Baeza-Yates R, Ribeiro-Neto B. 1999. Modern Information Retrieval. New York: Addison-Wesley. Intan R, Defeng A. 2006. Hard: subject-based search engine menggunakan tf-idf dan Jaccard’s coefficient. Jurnal Teknik Industri 8(1): 61-72. Manning CD, Raghavan P, Schütze H. 2008. Introduction to Information Retrieval. Cambridge: Cambridge University Press. Nurhanifah S. 2001. Pencarian informasi dengan metode trigram [skripsi]. Bogor: Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor. Paiki FF. 2006. Evaluasi penggunaan similarity thesaurus terhadap ekspansi kueri dalam sistem temu kembali informasi berbahasa Indonesia [skripsi]. Bogor: Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor. Rahayuni N. 2011. Ekspansi kueri pada sistem temu kembali informasi berbahasa Indonesia menggunakan thesaurus [skripsi]. Bogor: Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor. Rheinadi R. 2009. Analisis algoritme bubble sort [skripsi]. Bandung: Sekolah Teknik Elektro dan Informatika, Institut Teknologi Bandung. Ridha A. 2002. Pengindeksan otomatis dengan istilah tunggal untuk dokumen berbahasa Indonesia [skripsi]. Bogor: Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor. Robertson S. 2004. Understanding Inverse Document Frequency: On theoretical arguments for IDF: Journal of Documentation 60(5): 503-520. Rusidi. 2008 Ekspansi kueri dalam sistem temu kembali informasi berbhasa Indonesia menggunakan peluang bersyarat [skripsi]. Bogor: Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor.
9
Salton, G. 1989. Automatic Text Processing: The Transformation, Analysis, and Retrieval of Information by Computer. New York: Addison-Wesley. Sitohang NL. 2009. Ekspansi kueri pada sistem temu kembali informasi berbahasa Indonesia menggunakan kamus dwibahasa [skripsi]. Bogor: Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor. Telaumbanua P. 2011. Analisis perbandingan algoritme kompresi Lempel Ziv Welch, Arithmetic Coding, dan Run-Length Encoding pada file teks [skripsi]. Universitas Sumatera Utara.
10
LAMPIRAN
11
Lampiran 1 Contoh koleksi dokumen gatra011102 <TITLE>Banten Kembangkan Agroindustri Ark, Ant Selain industri kimia dan parawisata, provinsi Banten juga melirik agroindustri. Provinsi pecahan Jawa Barat ini akan mengembangkan `Agroindustrial Park`, yaitu sebuah kawasan indutri pengolahan hasil pertanian, di Cilegon itu diungkapkan Gubernur Banten, Dr Djoko Munandar, di Serang, Jumat.
"Nantinya kawasan ini akan menjadi pusat pengolahan berbagai produk pertanian, walaupun bahan bakunya tidak hanya dipasok dari Banten, tetapi akan makin memacu kemajuan pertanian di provinsi ini," katanya, seusai acara gelar wicara tentang upaya peningkatan produk olahan dan pemasaran hasil pertanian, di Aula Kantor Gubernuran.
Program itu menurut Djoko merupakan program makro pengembangan pertanian Banten dengan konsep `Banten Sebagai Bagian Dari Agroindustri Nasional`.
Sementara itu, program mikro berupa pemberdayaan petani kecil tetap berjalan dan menjadi prioritas.
Djoko menjelaskan Banten mempunyai posisi yang strategis karena berada di lintasan JawaSumatera, mempunyai prasarana yang lengkap mulai dari Pelabuhan, Bandara, jaringan jalan tol, serta dekat dengan akses pasar dalam negeri seperti Jakarta dan Jawa Barat.
Untuk mendukung kawasan tersebut, maka Pemprov Banten juga merencanakan membangun Terminal Agribisnis di Cilegon serta Sub Terminal yang ada di ibukota kabupaten, sehingga akses pasar petani akan semakin mudah.
Pada acara itu, Dekan Fakultas Pertanian Untirta Ir Mukhtar mengatakan, Banten ke depan perlu mengembangkan pertanian berbasis teknologi, dan tidak sekedar tergantung pada lahan seperti pengembangan pertanian hidroponik dan rekayasa genetik.
"Saat ini saya perkirakan baru 60 persen saja petani yang benar-benar menggarap tanaman padi sesuai panca usaha tani," ujarnya.
Selain itu, ia mengungkapkan keberadaan beberapa pabrik makanan ternak skala besar di Banten belum mampu menggairahkan petani untuk berlomba memasok bahan baku seperti jagung dan kedele, karena produk mereka sering ditolak oleh pabrik, karena alasan tidak memenuhi standar mutu.
"Oleh karena itu, perlu peningkatan pengetahuan petani tentang mutu produksi dan pasca panen, sehingga hasil pertanian mereka tidak lagi ditolak," katanya.
Sementara itu, Kepala Dinas Pertanian dan Peternakan Banten Ir Hilman mengatakan, pengembangan pabrik pakan ternak rakyat perlu ditumbuhkan untuk menampung bahan baku yang ditolak pabrik hanya karena kadar air yang masih tinggi.
"Di daerah lain ternyata berhasil membangun pabrik skala kecil yang dikelola dengan sistem kemitraan dengan para peternaknya seperti di Pangalengan, Bandung dan di Bogor," ujarnya.
12
Lampiran 2 Tabel daftar istilah kueri dan dokumen yang relevan No
Kueri
Gugus Jawaban
1
bencana kekeringan
2
dukungan pemerintah pada pertanian
3
flu burung
4
gabah kering giling
5
gagal panen
gatra070203.txt, gatra161002.txt, gatra210704.txt, gatra301002.txt, indosiar010903.txt, indosiar170603.txt, indosiar220503.txt, indosiar260803003.txt, indosiar310504.txt, kompas210504.txt, kompas250803.txt, mediaindonesia050604-001.txt, mediaindonesia110703.txt, mediaindonesia160603.txt, mediaindonesia240503.txt, mediaindonesia260803.txt, mediaindonesia270803.txt, mediaindonesia310503.txt, pikiranrakyat020704.txt, republika030903001.txt, republika030903-002.txt, republika070604-001.txt, republika090804-01.txt, republika120804-01.txt, republika120804-04.txt, republika130804-02.txt, republika200603.txt, republika210704-004.txt, republika250604.txt, republika270503.txt, republika270704-002.txt, situshijau181103-001.txt, suarakarya000000-002-01.txt, suarakarya000000021.txt, suaramerdeka130602.txt, suaramerdeka190903.txt, suarapembaruan150903.txt, suarapembaruan180303.txt, suarapembaruan260703-002.txt. indosiar070504.txt, jurnal000000-026.txt, kompas030401.txt, kompas050303.txt, kompas060503.txt, kompas071100.txt, kompas150201.txt, kompas200802.txt, kompas300402.txt, mediaindonesia130204.txt, mediaindonesia220303.txt, pembaruan110903.txt, poskota040804.txt, republika100903.txt, republika180303.txt, republika210902.txt, republika230903.txt, republika251102-001.txt, republika251102-002.txt, republika300604-001.txt, situshijau150504-002.txt, situshijau190303-002.txt, situshijau200103002.txt, situshijau201003-001.txt, situshijau281003-002.txt, suarakarya000000-028.txt, suaramerdeka130902.txt, wartapenelitian000000002.txt, wartapenelitian000000-007.txt. gatra220604.txt, gatra270104-001.txt, gatra270104-002.txt, gatra300104.txt, indosiar020304.txt, indosiar240204.txt, mediaindonesia090204.txt, mediaindonesia140704.txt, mediaindonesia200204.txt, republika090604.txt, republika120704-005.txt, republika190504-001.txt, republika190604-005.txt, republika210504-001.txt, republika290704-002.txt, situshijau280404-004.txt, suarakarya000000-001.txt, suarakarya000000-008.txt, suarakarya000000014.txt, suaramerdeka160204.txt, suaramerdeka200104.txt. indosiar180603.txt, indosiar240703.txt, indosiar300304.txt, kompas 170402.txt, kompas030502-001.txt, kompas160704.txt, kompas170903.txt, mediaindonesia250304.txt, pikiranrakyat300604.txt, republika040303.txt, republika060804-003.txt, republika100704-003.txt, republika100804.txt, republika120804-01.txt, republika180504-002.txt, republika210704-001.txt, republika230704-001.txt, republika231202-001.txt, republika231202-002.txt, republika290604-003.txt, republika290604-007.txt, situshijau281003-004.txt, suarakarya000000-007.txt, suaramerdeka090104.txt. gatra070203.txt, gatra190802.txt, gatra190902-02.txt, gatra301002.txt, indosiar010504.txt, indosiar031203.txt, indosiar040903.txt, indosiar050704002.txt, indosiar070504.txt, indosiar130504.txt, indosiar140204.txt, indosiar160304.txt, indosiar170603.txt, indosiar180304.txt, indosiar240703.txt, indosiar260803-001.txt, indosiar260803-003.txt, kompas030704.txt, kompas031003.txt, kompas170504.txt, mediaindonesia030603.txt, mediaindonesia050604-001.txt, mediaindonesia110703.txt, mediaindonesia140203.txt, mediaindonesia160603.txt, mediaindonesia240503.txt, mediaindonesia310503.txt,
13
Lampiran 2 Lanjutan No
Kueri
6
harga komoditas pertanian
7
impor beras indonesia
8
industri gula
Gugus Jawaban republika030903-002.txt, republika060804-001.txt, republika080703.txt, republika090804-01.txt, republika120804-04.txt, republika130704-001.txt, republika130804-02.txt, republika200603.txt, republika230704-005.txt, republika260604-003.txt, situshijau091203-002.txt, situshijau100603-003.txt, situshijau110303-002.txt, situshijau280404-002.txt, suarakarya000000-00202.txt, suarakarya000000-011.txt, suaramerdeka120104.txt, suaramerdeka130602.txt, suarapembaruan120104.txt, suarapembaruan260703-001.txt, suarapembaruan260703-002.txt. indosiar071103.txt, indosiar180603.txt, indosiar221003.txt, indosiar240604.txt, indosiar300304.txt, jurnal000000-027.txt, kompas030502-001.txt, kompas030502-002.txt, kompas080702.txt, kompas100399.txt, kompas101004.txt, kompas111099.txt, kompas140802.txt, kompas160304.txt, kompas170104.txt, kompas171002.txt, kompas180502.txt, kompas180504.txt, kompas230603.txt, kompas250901.txt, kompas270203-001.txt, kompas270401.txt, kompas270502-001.txt, kompas280602.txt, kompas311203.txt, mediaindonesia060803.txt, mediaindonesia310503.txt, pikiranrakyat240404.txt, pikiranrakyat300604.txt, poskota000000-002.txt, poskota000000-003.txt, republika030804-002.txt, republika060503.txt, republika060804-001.txt, republika060804-003.txt, republika061102.txt, republika090902.txt, republika140704-004.txt, situshijau050703-002.txt, situshijau070503.txt, situshijau130203-002.txt, situshijau240203-002.txt, situshijau280203.txt, situshijau280404-001.txt, situshijau280404-002.txt, situshijau280404-003.txt, suarakarya000000-002-02.txt, suarakarya000000021.txt, suaramerdeka170602-001.txt, suaramerdeka290802.txt, suaramerdeka311003.txt, suarapembaruan100903.txt, suarapembaruan220403.txt, trubus000004.txt, wartapenelitian000000002.txt. gatra180103.txt, gatra220802.txt, indosiar180603.txt, indosiar180703.txt, indosiar200304.txt, indosiar300703-002.txt, kompas 170402.txt, kompas 170402.txt, kompas050602.txt, kompas101002.txt, kompas101004.txt, kompas160704.txt, kompas180504.txt, kompas270401.txt, kompas270502002.txt, kompas310702.txt, mediaindonesia050104.txt, mediaindonesia060803.txt, mediaindonesia100203.txt, mediaindonesia131003.txt, mediaindonesia160603.txt, mediaindonesia250304.txt, republika020604-001.txt, republika060804001.txt, republika090902.txt, republika100703.txt, republika100704-003.txt, republika180504-002.txt, republika210704-001.txt, republika230704-001.txt, republika231202-001.txt, republika231202-002.txt, republika240604-001.txt, republika300704-002.txt, situshijau281003-004.txt, suarakarya000000007.txt, suarakarya000000-023.txt, suaramerdeka120104.txt, suaramerdeka130104.txt, suaramerdeka170602-001.txt, suaramerdeka270601.txt, suarapembaruan100903.txt, suarapembaruan110903.txt. gatra200103.txt, kompas031003.txt, kompas250901.txt, mediaindonesia120604-002.txt, pikiranrakyat300704-002.txt, republika010704-003.txt, republika020804.txt, republika090902.txt, republika100902.txt, republika220604-002.txt, republika280704-002.txt, republika301002.txt, situshijau210103-001.txt, suarakarya000000-001-01.txt, suarakarya000000-007.txt, suarakarya000000-028.txt, suaramerdeka130902.txt, suarapembaruan100903.txt, suarapembaruan220403.txt.
14
Lampiran 2 Lanjutan No
Kueri
9
institut pertanian bogor
10
kelangkaan pupuk
11
kelompok masyarakat tani
12
laboratoriu m pertanian
13
musim panen
Gugus Jawaban gatra020804.txt, gatra180304.txt, gatra180702.txt, gatra220704.txt, gatra290903.txt, gatra300404.txt, kompas100399.txt, kompas111099.txt, kompas121099.txt, kompas150304-001.txt, kompas200704.txt, kompas200799.txt, kompas230704.txt, mediaindonesia080704.txt, mediaindonesia090704.txt, mediaindonesia101003.txt, mediaindonesia290903-002.txt, republika010704-001.txt, republika061003.txt, republika070604-002.txt, republika100604-002.txt, republika100704-002.txt, republika110604-002.txt, republika140704-002.txt, republika160604-002.txt, republika170604-001.txt, republika180303.txt, republika180604.txt, republika190604-001.txt, republika190604-002.txt, republika211002.txt, republika220604-001.txt, republika230704-08.txt, situshijau070503.txt, situshijau101103-004.txt, situshijau281003-003.txt, suarakarya000000-005.txt, suarakarya000000-010.txt, suarapembaruan150903.txt, suarapembaruan260703-001.txt. indosiar010704.txt, indosiar060204.txt, indosiar190504-001.txt, indosiar200104.txt, indosiar260504.txt, indosiar290604.txt, kompas210504.txt, kompas300502-001.txt, pikiranrakyat010504-003.txt, republika050604.txt, republika160604-001.txt, suarakarya000000-001-02.txt, suarakarya000000-002.txt, suarakarya000000-006.txt, suarakarya000000026.txt, suarakarya000000-029.txt, suarakarya000000-030.txt, suarakarya000000-032.txt, suarakarya000000-038.txt, suaramerdeka161101.txt. bitraindonesia000000-001.txt, indosiar021203-002.txt, jurnal000000-017.txt, kompas180502.txt, kompas211103.txt, kompas250901.txt, kompas260304.txt, kompas260902.txt, kompas270203-002.txt, kompas270502-002.txt, kompas300502-001.txt, replubika110804.txt, republika030304.txt, republika110604-004.txt, republika131203-001.txt, republika140703.txt, republika151202.txt, republika180303.txt, republika270704-001.txt, republika280703.txt, republika300704-001.txt, situshijau070503.txt, situshijau120303-003.txt, situshijau130303-001.txt, situshijau190303-002.txt, situshijau200103-002.txt, situshijau281003004.txt, suarakarya000000-001-02.txt, suarakarya000000-037.txt, suaramerdeka260902.txt, suarapembaruan090202.txt, suarapembaruan130103.txt. balaipenelitian000000-010.txt, gatra100203.txt, indobic130504-002.txt, indosiar010704.txt, jurnal000000-027.txt, kompas220801.txt, kompas241203.txt, kompas300502-002.txt, mediaindonesia290903-002.txt, republika050804-007.txt, republika120704-005.txt, republika230704-004.txt, republika300604-002.txt, situshijau040603.txt, situshijau051103-02.txt, situshijau100603-001.txt, situshijau140503-001-01.txt, situshijau150403002.txt, situshijau180603-003.txt, suarakarya000000-003.txt, suaramerdeka031101.txt. gatra190902-02.txt, gatra230103-001.txt, gatra240203.txt, indosiar010504.txt, indosiar021203-002.txt, indosiar060204.txt, indosiar071103.txt, indosiar110304.txt, indosiar240604.txt, indosiar300304.txt, kompas030502-001.txt, kompas041103.txt, kompas220901-001.txt, kompas240103.txt, kompas300502-001.txt, mediaindonesia131203-001.txt, mediaindonesia230604.txt, pikiranrakyat240404.txt, pikiranrakyat300604.txt, poskota261202.txt, republika060804-001.txt, republika060804-003.txt, republika100704-003.txt, republika151202.txt, republika171102.txt, republika240604-005.txt, republika290604-007.txt, republika300704-002.txt, situshijau000000-001.txt, situshijau040603.txt, situshijau080503-004.txt, situshijau250403-004.txt,
15
Lampiran 2 Lanjutan No
Kueri
14
pembangun an untuk sektor pertanian
15
penerapan bioteknolo gi di indonesia
16
penerapan teknologi pertanian
Gugus Jawaban situshijau270503-002.txt, situshijau280404-002.txt, suarakarya000000007.txt, suarakarya000000-023.txt, suarakarya000000-028.txt, suaramerdeka120104.txt, suaramerdeka290901.txt, suarapembaruan031002.txt. gatra180304.txt, jurnal000000-002.txt, kompas020803.txt, kompas031003.txt, kompas060203.txt, kompas060503.txt, kompas100399.txt, kompas101004.txt, kompas110201.txt, kompas111099.txt, kompas121099.txt, kompas150304-002.txt, kompas190802.txt, kompas191099.txt, kompas200799.txt, kompas210502.txt, kompas220901-002.txt, kompas230603.txt, kompas240803.txt, kompas260203.txt, kompas270204.txt, kompas280602.txt, kompas290404.txt, mediaindonesia050604-002.txt, mediaindonesia060903.txt, mediaindonesia090903.txt, mediaindonesia160903.txt, pembaruan110903.txt, poskota110703.txt, republika060903.txt, republika070104.txt, republika080703.txt, republika100804.txt, republika100903.txt, republika101203.txt, republika110604-002.txt, republika131203-001.txt, republika150604-003.txt, republika150903.txt, republika190803.txt, republika251002-003.txt, republika290704-003.txt, republika300604-001.txt, situshijau091203-002.txt, situshijau280203.txt, suarapembaruan140303.txt. jurnal000000-018.txt, kompas121099.txt, puslitbang000000-001.txt, republika220604-003.txt, republika290704-002.txt, situshijau000000-002.txt, situshijau030603-001.txt, situshijau040603.txt, situshijau050703-001.txt, situshijau070103-001.txt, situshijau070103-002.txt, situshijau070103003.txt, situshijau100603-002.txt, situshijau100603-003.txt, situshijau110303-002.txt, situshijau130103-001.txt, situshijau130503001.txt, situshijau130503-002.txt, situshijau140103-002.txt, situshijau140103-003.txt, situshijau140503-001-01.txt, situshijau140903001.txt, situshijau150403-001.txt, situshijau150403-002.txt, situshijau160103.txt, situshijau180603-003.txt, situshijau180803-003.txt, situshijau200103-001.txt, situshijau210103-003.txt, situshijau210503001.txt, situshijau270303-004.txt, situshijau270503-002.txt, situshijau270703-005.txt, situshijau300403.txt, situshijau310303.txt, situshijau310303-No.txt, suarakarya000000-001-02.txt, suarakarya000000014.txt, suarapembaruan020603.txt, suarapembaruan020603-No.txt, suarapembaruan151102.txt, wartapenelitian000000-009.txt. indosiar250204-001.txt, jurnal000000-001.txt, jurnal000000-011.txt, jurnal000000-013.txt, jurnal000000-017.txt, jurnal000000-024.txt, kompas121099.txt, kompas251003.txt, kompas290402.txt, mediaindonesia170403.txt, republika050903.txt, republika131203-001.txt, republika140604-001.txt, republika180504-001.txt, republika201102.txt, republika220604-003.txt, republika230704-08.txt, republika260803.txt, situshijau030603-001.txt, situshijau080103.txt, situshijau100603-003.txt, situshijau140103-002.txt, situshijau140903-001.txt, situshijau140903003.txt, situshijau180603-003.txt, situshijau180803-002.txt, situshijau181103-002.txt, situshijau270303-004.txt, situshijau270503002.txt, situshijau270703-005.txt, situshijau281003-003.txt, situshijau290503-003.txt, suarakarya000000-034.txt, suarapembaruan020603-No.txt, suarapembaruan060602.txt, suarapembaruan160702.txt, wartapenelitian000000-003.txt, wartapenelitian000000-007.txt, wartapenelitian000000-009.txt.
16
Lampiran 2 Lanjutan No
Kueri
Gugus Jawaban
17
peningkata n pendapatan petani
18
penyakit hewan ternak
19
penyuluhan pertanian
20
perdaganga n hasil pertanian
21
pertanian organik
22
petani tebu
indosiar150104-001.txt, jurnal000000-017.txt, kompas030502-001.txt, kompas031003.txt, kompas100399.txt, kompas170903.txt, kompas200802.txt, kompas210502.txt, kompas260702.txt, kompas270203001.txt, kompas300402.txt, kompas300502-002.txt, pembaruan110903.txt, poskota110703.txt, republika030804-002.txt, republika030903-001.txt, republika060804-001.txt, republika060804-003.txt, republika230404.txt, republika231202-001.txt, republika231202-002.txt, republika240604-005.txt, republika241203.txt, republika281202.txt, republika300704-002.txt, situshijau140503-001.txt, situshijau180803-002.txt, situshijau181103002.txt, situshijau200103-001.txt, situshijau280203.txt, suaramerdeka120104.txt, suaramerdeka170602-001.txt, suarapembaruan060602.txt, suarapembaruan290802-001.txt, wartapenelitian000000-005.txt. gatra270104-002.txt, gatra270104-003.txt, gatra300104.txt, mediaindonesia090204.txt, republika150103.txt, republika160704-003.txt, republika260704-004.txt, republika300604-002.txt, suarakarya000000004.txt, suarakarya000000-008.txt, suarakarya000000-014.txt, suarakarya000000-017.txt, suaramerdeka260302-01.txt. bitraindonesia000000-001.txt, gatra190902-02.txt, indosiar310504.txt, jurnal000000-005.txt, jurnal000000-014.txt, kompas050802.txt, kompas130699.txt, kompas170104.txt, kompas200503-002.txt, mediaindonesia160603.txt, poskota110703.txt, republika030903-002.txt, republika050804-001.txt, republika061003.txt, republika171003.txt, republika180303.txt, republika200203.txt, republika210504-001.txt, republika220604-003.txt, republika260604-003.txt, republika300604-003.txt, situshijau201003-002.txt, situshijau230103-001.txt, situshijau270703001.txt, suaramerdeka271102.txt, wartapenelitian000000-002.txt, wartapenelitian000000-007.txt. gatra011102.txt, indosiar070204.txt, indosiar201103.txt, jurnal000000002.txt, jurnal000000-027.txt, kompas031003.txt, kompas041102.txt, kompas101002.txt, kompas140802.txt, kompas160304.txt, kompas270401.txt, kompas270502-001.txt, kompas271103.txt, kompas311203.txt, mediaindonesia030104.txt, mediaindonesia101003.txt, mediaindonesia150903.txt, mediaindonesia170303.txt, republika020604001.txt, republika041102.txt, republika281202.txt, situshijau130303-001.txt, situshijau191103.txt, situshijau240203-002.txt, suarakarya000000-013.txt, suaramerdeka120104.txt, suaramerdeka270601.txt, suarapembaruan080903001.txt, suarapembaruan080903-002.txt, wartapenelitian000000-006.txt. indosiar250204-002.txt, jurnal000000-017.txt, kompas010499.txt, kompas030502-002.txt, kompas050802.txt, kompas081203.txt, kompas181099.txt, kompas221001.txt, kompas241203.txt, kompas260304.txt, kompas270502-002.txt, kompas300502-001.txt, republika131203-001.txt, republika150303.txt, republika180303.txt, situshijau070503.txt, situshijau091203-001.txt, situshijau091203-004.txt, situshijau290503-003.txt, suarakarya000000-001-02.txt, suarapembaruan000000-002.txt, suarapembaruan090202.txt, suarapembaruan110702-01.txt, suarapembaruan160702.txt. indosiar190504-002.txt, indosiar290604.txt, kompas031003.txt, kompas250901.txt, kompas310702.txt, republika010704-003.txt, republika020804.txt, republika100902.txt, republika140704-004.txt, republika150604-002.txt, republika200704-001.txt, republika220604-002.txt, republika280704-002.txt, republika310704-001.txt, situshijau280203.txt, suarakarya000000-007.txt, suarakarya000000-028.txt,
17
Lampiran 2 Lanjutan No
Kueri
23
peternak unggas
24
produk usaha peternakan rakyat
25
pupuk organik
26
riset pertanian
Gugus Jawaban suaramerdeka130902.txt, suarapembaruan100903.txt, suarapembaruan220403.txt. gatra270104-001.txt, gatra270104-002.txt, gatra300104.txt, indosiar020304.txt, indosiar161203.txt, indosiar240204.txt, jurnal000000009.txt, kompas051103.txt, kompas120101.txt, mediaindonesia090204.txt, republika061003.txt, republika100604-002.txt, republika190504-001.txt, republika210504-001.txt, situshijau280404-004.txt, suarakarya000000001.txt, suarakarya000000-008.txt, suarakarya000000-014.txt, suarakarya000000-017.txt, suarapembaruan220802.txt. jurnal000000-003.txt, kompas120101.txt, kompas150201.txt, mediaindonesia010304.txt, mediaindonesia090204.txt, republika100604002.txt, republika150303.txt, republika170704-007.txt, republika210504001.txt, republika220704-003.txt, republika260604-001.txt, republika290704-002.txt, republika300604-002.txt, situshijau190303-001.txt, suarakarya000000-001.txt, suarakarya000000-008.txt, suarakarya000000013.txt, suarakarya000000-014.txt, suarapembaruan151102.txt. balaipenelitian000000-001.txt, kompas270502-002.txt, kompas280502.txt, kompas300502-001.txt, republika050804-007.txt, republika190104.txt, republika201102.txt, republika270604.txt, situshijau091203-004.txt, situshijau140103-001.txt, suarakarya000000-001-02.txt, suarakarya000000037.txt, suaramerdeka031101.txt, suaramerdeka170602-002.txt, suarapembaruan090202.txt, suarapembaruan130103.txt, suarapembaruan160702.txt, suarapembaruan220802.txt, wartapenelitian000000-002.txt, wartapenelitian000000-008.txt. balaipenelitian000000-012.txt, gatra270104-002.txt, indobic130504-001.txt, jurnal000000-008.txt, jurnal000000-015.txt, jurnal000000-018.txt, jurnal000000-019.txt, jurnal000000-026.txt, kompas010499.txt, kompas170104.txt, kompas221003.txt, kompas230603.txt, mediaindonesia131003.txt, puslitbang000000-001.txt, republika030903002.txt, republika070604-002.txt, republika100704-002.txt, republika140104.txt, republika170604-001.txt, republika190604-001.txt, republika190604-002.txt, republika210704-001.txt, republika210704-003.txt, republika220604-003.txt, republika241203.txt, republika260803.txt, republika280703.txt, republika300604-003.txt, situshijau040603.txt, situshijau070503.txt, situshijau080503-001.txt, situshijau091203-003.txt, situshijau101103-004.txt, situshijau130103-001.txt, situshijau130503002.txt, situshijau140103-002.txt, situshijau140903-001.txt, situshijau140903-003.txt, situshijau150403-002.txt, situshijau180803002.txt, situshijau181103-002.txt, situshijau200103-001.txt, situshijau200103-001-No.txt, situshijau201003-002.txt, situshijau210103003.txt, situshijau210503-001.txt, situshijau250203.txt, situshijau270303004.txt, situshijau290503-001.txt, situshijau300403.txt, situshijau310303.txt, suarakarya000000-001-02.txt, suarakarya000000-010.txt, suarakarya000000019.txt, suarakarya000000-027.txt, suarakarya000000-034.txt, suarakarya000000-037.txt, suaramerdeka270601.txt, suarapembaruan000000-002.txt, suarapembaruan020603.txt, suarapembaruan060602.txt, suarapembaruan110702.txt, suarapembaruan110702-01.txt, suarapembaruan151102.txt, suarapembaruan160702.txt, suarapembaruan241003.txt, suarapembaruan290802-001.txt, wartapenelitian000000-007.txt, wartapenelitian000000-009.txt.
18
Lampiran 2 Lanjutan No
Kueri
Gugus Jawaban
27
swasembad a pangan
28
tadah hujan
indosiar021203-002.txt, kompas060503.txt, kompas100901.txt, kompas110201.txt, kompas150304-002.txt, kompas170104.txt, kompas230603.txt, kompas230899.txt, kompas270203-001.txt, kompas270401.txt, kompas270502-002.txt, mediaindonesia160603.txt, republika030304.txt, republika060503.txt, republika061003.txt, republika080703.txt, republika100704-005.txt, republika220604-003.txt, republika230902-001.txt, republika230902-002.txt, republika231202-001.txt, republika231202-002.txt, suarakarya000000-001-02.txt, suarakarya000000002-02.txt, suarakarya000000-016.txt, suarakarya000000-021.txt, suaramerdeka170602-001.txt, suarapembaruan110903.txt, suarapembaruan221102.txt. gatra210704.txt, gatra301002.txt, indosiar260803-001.txt, indosiar310504.txt, jurnal000000-001.txt, kompas270502-002.txt, mediaindonesia160603.txt, mediaindonesia310503.txt, republika09080401.txt, republika210704-004.txt, republika230704-005.txt, republika240604005.txt, republika290604-007.txt, suarakarya000000-001-02.txt, suarakarya000000-030.txt, suaramerdeka130602.txt, suarapembaruan260703-002.txt, wartapenelitian000000-004.txt.
29
tanaman obat
30
tanaman pangan
balaipenelitian000000-008.txt, balaipenelitian000000-009.txt, indobic120504.txt, indosiar010704.txt, indosiar260803-002.txt, republika020604-003.txt, republika030804-002.txt, republika270604.txt, republika290604-001.txt, situshijau030203-001.txt, situshijau041203.txt, situshijau060503.txt, situshijau070103-004.txt, situshijau070103-005.txt, situshijau100603-002.txt, situshijau101103-003.txt, situshijau120303004.txt, situshijau130103-002.txt, situshijau130503-001.txt, situshijau140103-003.txt, situshijau140903-004.txt, situshijau180203001.txt, situshijau180203-002.txt, situshijau201003-002.txt, situshijau270303-001.txt, situshijau270303-003.txt, situshijau270503002.txt, situshijau270703-002.txt, situshijau290503-001.txt. bitraindonesia000000-001.txt, indosiar021203-001.txt, indosiar030304.txt, indosiar050704-002.txt, indosiar130104.txt, indosiar130504.txt, indosiar160304.txt, indosiar180304.txt, indosiar310504.txt, kompas020603.txt, kompas120102.txt, kompas120702.txt, kompas171002.txt, kompas180701.txt, kompas240302.txt, kompas260203.txt, kompas311203.txt, mediaindonesia030104.txt, mediaindonesia160603.txt, mediaindonesia170303.txt, mediaindonesia220303.txt, republika030304.txt, republika050903.txt, republika080604-004.txt, republika150903.txt, republika200603.txt, republika220604-003.txt, republika230704-006.txt, republika241203.txt, republika260604-001.txt, republika271003.txt, situshijau070103-003.txt, situshijau140903-001.txt, situshijau181103-001.txt, situshijau290403002.txt, suarakarya000000-001-02.txt, suarakarya000000-011.txt, suarakarya000000-013.txt, suarakarya000000-031.txt, suaramerdeka160703.txt, suaramerdeka250302.txt, suarapembaruan151102.txt, suarapembaruan260703-002.txt.
19
Lampiran 3 Tampilan sistem
20
Lampiran 4 Tabel recall dan precision untuk semua ukuran kesamaan Kueri bencana kekeringan dukungan pemerintah pada pertanian flu burung gabah kering giling gagal panen harga komoditas pertanian impor beras indonesia industri gula institut pertanian bogor kelangkaan pupuk kelompok masyarakat tani laboratorium pertanian musim panen pembangunan untuk sektor pertanian penerapan bioteknologi di indonesia penerapan teknologi pertanian peningkatan pendapatan petani penyakit hewan ternak penyuluhan pertanian perdagangan hasil pertanian pertanian organik petani tebu peternak unggas produk usaha peternakan rakyat pupuk organik riset pertanian swasembada pangan tadah hujan tanaman obat tanaman pangan Nilai rata-rata
Recall 0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
1.00
1.00
1.00
1.00
1.00
0.79
0.79
0. 79
0. 79
0. 79
0. 79
0.33 1.00
0.25 1.00
0.25 1.00
0.25 1.00
0.23 0.94
0.22 0.94
0.22 0.94
0. 22 0.94
0. 22 0.91
0. 22 0.91
0. 22 0.91
1.00 1.00
1.00 1.00
0.71 0.88
0.61 0. 88
0.55 0.86
0.54 0.84
0.53 0.82
0.53 0.75
0.52 0. 75
0.50 0. 75
0.47 0. 75
1.00
0.76
0. 76
0. 76
0.67
0.51
0.50
0. 50
0. 50
0. 50
0. 50
1.00 1.00
1.00 1.00
1.00 1.00
0.87 1.00
0.79 1.00
0.70 1.00
0.60 0.80
0.54 0.45
0.47 0.39
0. 47 0. 39
0. 47 0. 39
1.00
0.61
0.61
0.49
0. 49
0. 49
0. 49
0. 49
0. 49
0.45
0.45
1.00
1.00
1.00
1.00
0.92
0.92
0.90
0.90
0.90
0.90
0.86
0.83
0.83
0.70
0.68
0.48
0.46
0. 46
0. 46
0.43
0.40
0.40
1.00 1.00
0.75 0.85
0.71 0.69
0.66 0.48
0.52 0.48
0.42 0.36
0. 42 0.36
0. 42 0.34
0. 42 0.32
0. 42 0.32
0. 42 0.32
1.00
0.71
0.58
0.54
0.54
0.54
0.51
0.48
0.47
0.46
0.36
1.00
1.00
1.00
1.00
1.00
1.00
1.00
1.00
1.00
1.00
1.00
1.00
0.77
0.76
0.72
0.69
0.65
0.65
0. 65
0. 65
0. 65
0. 65
0.31
0.31
0.22
0. 22
0. 22
0. 22
0. 22
0. 22
0. 22
0. 22
0. 22
0.00
0. 00
0.00
0. 00
0. 00
0. 00
0. 00
0. 00
0. 00
0. 00
0.00
1.00
0.60
0.59
0. 59
0. 59
0. 59
0. 59
0. 59
0.57
0. 57
0. 57
1.00
0.63
0. 63
0.48
0.48
0.35
0.28
0. 28
0. 28
0. 28
0. 28
0.83 1.00 0.00
0. 83 1.00 0.00
0. 83 0.91 0.00
0. 83 0. 91 0.00
0. 83 0. 91 0.00
0. 83 0. 91 0.00
0. 83 0.68 0.00
0. 66 0.68 0.00
0. 64 0.65 0.00
0. 63 0.64 0.00
0. 63 0.61 0.00
1.00 1.00 1.00
1.00 0.71 0.75
1.00 0.71 0.64
1.00 0.70 0.56
1.00 0.58 0.56
1.00 0.58 0. 56
1.00 0.57 0. 56
1.00 0.55 0. 56
1.00 0.46 0. 56
1.00 0.45 0. 56
1.00 0.43 0. 56
1.00 0.90 1.00 0.50 0.85
1.00 0.90 1.00 0.42 0.75
0.88 0. 90 0.87 0.42 0.71
0.85 0. 90 0.84 0.35 0.67
0. 85 0. 90 0.72 0.26 0.63
0. 85 0. 90 0.60 0.26 0.60
0. 85 0.80 0.45 0.26 0.57
0.75 0.73 0.41 0.23 0.54
0. 75 0.75 0.41 0.23 0.53
0. 75 0.63 0.41 0.22 0.52
0. 75 0.56 0.40 0.22 0.51
21
Lampiran 5 Grafik waktu komputasi
22
Lampiran 6 Tabel waktu komputasi
Dokumen
Cosine
Jaccard
Dice
bencana kekeringan
3.732
4.278
4.28
dukungan pemerintah pada pertanian
17.816
21.594
22.23
flu burung
3.534
3.918
4.124
gabah kering giling
9.36
9.564
10.332
gagal panen
6.942
7.54
7.842
harga komoditas pertanian
29.782
41.216
46.424
impor beras indonesia
32.454
43.414
42.762
industri gula
13.24
15.898
14.488
institut pertanian bogor
18.164
17.648
19.012
kelangkaan pupuk
3.652
3.746
3.788
kelompok masyarakat tani
16.756
19.26
18.974
laboratorium pertanian
11.294
12.134
12.296
musim panen
23.47
24.868
24.506
pembangunan untuk sektor pertanian
35.56
40.148
36.566
penerapan bioteknologi di indonesia
3.866
4.228
3.874
penerapan teknologi pertanian
11.336
12.894
13.486
peningkatan pendapatan petani
12.52
13.186
13.568
penyakit hewan ternak
3.772
3.99
3.892
penyuluhan pertanian
10.154
11.17
10.714
perdagangan hasil pertanian
26.17
30.94
30.888
pertanian organik
20.608
26.196
32.314
petani tebu
18.24
23.024
23.358
peternak unggas
2.346
2.458
2.596
produk usaha peternakan rakyat
4.534
4.844
4.326
pupuk organik
13.762
14.544
16.278
riset pertanian
12.588
15.63
16.872
swasembada pangan
19.552
24.376
24.44
tadah hujan
7.166
7.708
7.536
tanaman obat
19.566
35.678
33.562
tanaman pangan
41.52
50.532
52.05
15.2378
15.7311
16.8261
Rata-rata