BAB I PENDAHULUAN
1.1.
Latar Belakang Masalah Seiring dengan perkembangan informasi, banyak pihak menyadari bahwa
masalah utama telah bergeser dari cara mengakses atau bagaimana mencari informasi, namun menjadi bagaimana memilih informasi yang berguna secara selektif. Usaha untuk memilih informasi ternyata lebih besar dari sekedar mendapatkan akses terhadap informasi. Pemilihan atau penemuan kembali informasi ini tidak mungkin dilakukan secara manual karena kumpulan informasi yang sangat besar dan terus bertambah besar. Suatu sistem otomatis diperlukan untuk membantu pengguna dalam menemukan informasi. Sistem inilah yang disebut information retrieval system. Pencarian yang melibatkan banyak data secara tidak langsung membutuhkan sebuah proses yang mana akan memilah dan menentukan data atau dokumen mana yang cocok dengan apa yang di inginkan oleh pencari. Proses inilah yang kemudian menjadi persoalan utama dalam sistem information retrieval dan yang menentukan seberapa relevan data yang dicari dengan yang ditemukan. Penggunaan query expansion terhadap sistem juga diharapkan dapat menambah fungsionalitas pencarian. Sehingga pada akhirnya data yang didapat sesuai dengan data yang di inginkan oleh pencari data. Hasil yang diharapkan dari sistem ini adalah terciptanya sebuah sistem pencarian yang dapat memberikan sebuah hasil yang mendekati bahkan sama dengan apa yang di inginkan oleh pencari. Dengan adanya penambahan fungsi query expansion juga akan menambah performa dari sistem yang dibangun.
1
1.2.
Perumusan Masalah Aplikasi yang akan dibuat akan mencoba menerapkan sebuah teknik untuk
mencari dan menghitung relevansi dokumen dengan query input yang diperluas dengan sinonim dari tiap term query itu sendiri. Dengan melakukan perluasan terhadap query awal, diharapkan akan menambah nilai recall dan precision terhadap dokumen. Perluasan query dilakukan dengan menambah sinonim kata – kata pada query dengan WordNet Dari perkiraan tersebut, yang menjadi perumusan masalah dalam tugas akhir ini adalah sebagai berikut: 1.
Apakah query expansion akan membantu meningkatkan nilai precision dan recall dalam pencarian dokumen.
1.3.
Batasan Masalah Luasnya pembahasan tentang topik ini sehingga dalam penulisan diberikan
parameter – parameter yang menjadi batasan dalam kasus ini, yaitu sebagai berikut: 1. Berupa aplikasi dekstop yang berjalan di atas sistem operasi Windows. 2. Data yang digunakan untuk melakukan uji coba adalah data set dalam kelompok computer sience, yang telah dipakai dalam percobaan sistem information retrieval, yaitu ADI data test. ADI (American Documentation Institute) data test merupakan kumpulan corpus dalam lingkungan computer science yang di publikasikan oleh lab Electrical Engineering dan Computer Science Universitas Tennessee. Koleksi ini sering dipakai dalam pengujian sistem information retrieval. Koleksi corpus ini dapat diunduh dari halaman ftp yang beralamat pada ftp://ftp.cs.cornell.edu/pub/smart/adi . Koleksi data test ini terdiri dari: a.
ADI.all
2
Merupakan kumpulan dokumen yang terdiri dari judul, aurthor dan deskripsi dokumen yang di jadikan dalam satu file. Total dokumen adalah 82. b.
ADI.bln Merupakan kumpulan kemungkinan boolean terhadap query yang ada dari koleksi query.
c.
ADI.qry Merupakan koleksi query yang diujikan terhadap koleksi dokumen. Setiap query telah mempunyai list dimana query relevan terhadap sebuah atu lebih dokumen
d.
ADI.rel Merupakan list dimana setiap query mempunyai sebuah atau lebih dokumen yang relevan.
3. Seluruh kumpulan data, query, koleksi stop word dan sinonim dalam bahasa inggris. 4. Hanya bagian sinonim noun dari WordNet 2.1 yang akan dipakai dalam proses query expansion. 5. Proses perluasan (query expansion) tidak mengikut sertakan sinonim dari term yang berupa frasa dan hanya akan diambil maksimal 5 sense untuk tiap term. 6. Proses perluasan query tidak memperhatikan panjang keterkaitan antar kata / relasi antar kata dalam database wordnet. 7. Algoritma stemming yang dipergunakan adalah algoritma porter yang dibangun
oleh
Porter.
Algoritma
di
peroleh
dari
http://www.tartarus.org/~martin/PorterStemmer.
3
1.4.
Tujuan Penelitian Adapun tujuan dari penulisan tugas ahir ini adalah sebagai berikut:
1. Membangun sistem information retrieval dengan perluasan query input. 2. Membuktikan pengaruh query expansion dalam sistem information retrieval terhadap perolehan dokumen yang dicari.
1.5.
Metode Penelitian Metodologi penelitian yang dilakukan dalam tugas akhir ini dibagi dalam
dua tahap yaitu sebagai berikut: 1. Tahap pengumpulan data yang akan digunakan selama proses penelitian tugas ahir, yang terbagi dalam beberapa langkah, yaitu: a. Melakukan studi literatur mengenai konsep sistem information retrieval, teori query expansion dan pengimplementasiannya ke dalam sistem information retrieval. b. Mencari kumpulan data test atau kumpulan dokumen yang sering dipergunakan dalam proses pembuatan sistem information retrieval. Data – data ini di dapat dengan cara mendownload dari situs penyedia test collection. 2. Tahap pengembangan sistem. Proses yang terjadi dalam tahap pengembangan sistem terdiri dari 2 tahap, yaitu: a. Pra pemrosesan. Tahap pra pemrosesan dilakukan proses tokenisasi dan normalisasi terhadap kumpulan data yang ada.
4
b. Pemrosesan Tahap pemrosesan dilakakukan dengan mengimpelementasikan metode ruang vektor untuk melakukan indexing terhadap koleksi dokumen. Proses ini akan dilanjutkan dengan melakukan proses pencarian atas query inputan yang akan di perluas dengan bantuan wordNet. Hasil dari proses akan di uji untuk mendapatkan sistem yang fungsionalitas nya tinggi.
1.6.
Sistematika Penulisan Dalam tugas akhir ini dibahas mengenai latar belakang dan tujuan
penelitian beserta batasan-batasan mengenai apa yang akan dilakukan. Kemudian pembahasan dilanjutkan mengenai teori - teori yang berhubungan dengan information retrieval dan query expansion. Implementasi metode dan query expansion kedalam program merupakan pokok bahasan utama penelitian ini yang diikuti dengan pengujian dan ditutup dengan kesimpulan dan saran. Bab satu merupakan pendahuluan dari laporan. Dalam bab ini dijelaskan mengenai latar belakang, tujuan, rumusan dan batasan masalah. Bab ini ditutup dengan metodologi penelitian yang dilakukan. Bab kedua merupakan penjelasan awal mengenai kosep pokok dan teori dasar mengenai information retrieval, query expansion dan WordNet. Bagian ini juga menjelaskan mekanisme kerja sebuah sistem information retrieval baik dengan atau tanpa query expansion. Bab ketiga menjelaskan tentang perancangan sistem yang akan dibangun. Dalam bagian ini akan dibahas lebih rinci tentang alat dan bahan, data dan variabel serta simulasi awal yang ada. Seluruh desain interface akan di bahas dalam bab ini.
5
Bab keempat menjelaskan mengenai implementasi model ruang vektor dengan query expansion ke dalam program, hasil implementasi, perbandingan sistem serta analisa terhadap program dan hasil yang telah dibuat. Bab kelima merupakan bagian kesimpulan dan saran.
6