1. Pendahuluan 1.1 Latar belakang Informasi telah menjadi kebutuhan primer pada kehidupan saat ini. Informasi seakan-akan menjadi mata uang baru yang membuat akurasi menjadi sangat penting ketika mencari informasi. Salah satu cara untuk mendapatkan informasi yang akurat dan relevan adalah dengan menggunakan sistem temu balik informasi. Sistem temu balik informasi adalah ilmu yang mempelajari tentang pecarian informasi pada kumpulan dokumen, pencarian dokumen itu sendiri, pencarian metadata untuk dokumen tersebut. Sistem temu balik informasi digunakan untuk mengurangi informasi yang terlalu banyak sehingga sulit untuk dikelola. Dengan adanya sistem temu balik informasi diharapkan pencarian informasi dapat dilakukan dengan efektif dan memberikan hasil yang tepat yaitu dapat menemukan data yang relevan. Ada dua buah jenis pembobotan dokumen yang sering digunakan, yaitu vector space model dan model probabilistic (binary independence retrival dan okapi BM25). Metode vector space model mengibaratkan query dan dokumen sebagai sebuah vektor ndimensi yang tiap dimensinya diwakili oleh satu kata pada query. Relevansi tertinggi ditentukan menurut vektor yang paling mendekati dengan vektor query. Model ini mudah diimplementasikan, dan pembobotan diperngaruhi oleh term frequency. Kekurangan dari model ini adalah sangat panjang dokumen akan mempersulit perhitungan similarity dan semakin panjang dokumen dapat mempengaruhi ranking dari suatu dokumen. Binary Independence Retrieval adalah gabungan model biner dengan probabilistic. Jika model lain jumlah kemunculan sebuah term diperhitungkan, maka pada model BIR ini nilainya berupa biner, yaitu ada atau tidak. Bagian probabilistic pada model ini terdapat pada perhitungan similaritas sebuah dokumen dengan query. Model ini menganggap kata yang muncul pada sebuah dokumen tidak saling berkaitan. Model ini berdasarkan teori perhitungan yang terlah teruji dan meranking berdasarkan probabilitas sehingga stabil untuk dokumen yang panjang maupun pendek. Model okapi BM25 ini dikembangkan oleh City University London dan berdasarkan pada model probabilistik dasar yang mengurutkan dokumen dalam urutan menurun terhadap nilai relevansi sebuah dokumen terhadap informasi yang dibutuhkan. Okapi BM25 meranking dokumen berdasarkan probabilitas dan menggunakan term frequency untuk meranking similarity. Dari gabungan Binary independence retrieval dan okapi BM25 diharapkan bisa menangani kekurangan dari metode vector space model, Binary independence retrieval, okapi BM25 dan dapat menghasilkan dokumen terangking yang lebih relevan terhadap query. 1.2 Perumusan masalah Dalam tugas akhir ini terdapat beberapa rumusan masalah sebagai berikut : a. Bagaimana menggabungkan metode binary independence retrieval dan Okapi BM25 dalam sistem temu balik informasi?
1
b. Bagaimana gabungan metode binary independence retrieval dan Okapi BM25 bisa menangani kekurangan-kekurangan metode yang lain. c. Bagaimana menganalisis performansi sistem temu balik informasi yang menerapkan binary independence retrieval dan Okapi BM25 serta gabungan keduanya? d. Bagaimana perbandingan performansi pembobotan dokumen dengan penggabungan binary independence retrieval dan Okapi BM25 dibanding dengan metode vector space model.
a. b. c. d.
Adapun batasan masalah yang ada dalam Tugas Akhir ini adalah: Hanya membandingkan antara binary independence retrieval dengan okapi BM25 dan penggabungan Binary Independence Retrieval dengan Okapi BM25 Koleksi dokumen yang digunakan untuk Tugas Akhir ini merupakan berkas teks dengan query yang telah ditentukan sebelumnya yaitu dengan menggunakan dataset cornell. Bahasa yang digunakan adalah bahasa inggris. Aplikasi ini dijalankan secara offline pada komputer yang sekaligus menjadi web server dan web client yang berbasis web.
1.3 Tujuan Tujuan dari penelitian ini adalah: a. Merancang dan membangun suatu sistem temu balik informasi berupa search engine yang mengimplementasikan binary independence retrieval dan okapi BM25 serta penggabungan metode binary independence retrieval dan Okapi BM25. b. Menganalisis performansi metode binary independence retrieval, Okapi BM25 dan penggabungan metode binary independence retrieval dengan Okapi BM25 berdasarkan parameter recall, precision dan Non-interpolasi average precision untuk menghitung relevansi. c. Dengan gabungan dua metode yaitu binary independence retrieval dan Okapi BM25 dapat menghasilkan performansi yang lebih baik di banding dengan metode vector space model, binary independence retrieval dan Okapi BM25. Dan dengan penambahan penggunaan banyaknya frekwensi term yang muncul pada metode Binary Independence Retrieval dapat meningkatkan performansi dari Binary Independence Retrieval itu sendiri. 1.4
Metodologi
a. Studi Literatur Tahap ini dilakukan dengan cara mempelajari literatur-literatur baik yang berupa buku (textbook), jurnal dan artikel ilmiah, maupun website yang berhubungan dengan sistem temu balik informasi dan metode-metode yang dipakai dalam pembobotan dokumen. b. Pengumpulan Data Mencari data/dokumen yang sesuai yang akan digunakan sebagai pengujian, dalam tugas akhir ini adalah data dokumen yang yang telah disediankan pada web site. c. Analisis dan Perancangan Menganalisis kebutuhan sistem terhadap perangkat lunak yang dibuat dalam hal ini aplikasi sistem temu balik informasi. Komponen-komponen sistem temu balik informasi dapat dilihat di gambar 1.1.
2
Query
Input
Processor
Output
Documents
Gambar 1.1 Komponen-Komponen Sistem Temu Balik Informasi[12].
a.
b. c. d. e.
Penjelasan dari gambar 1.1 : Input adalah masukan yang diberikan oleh pengguna. Pengguna adalah pemilik kebutuhan akan informasi, yang kemudian menerjemahkan kebutuhannya menjadi sebuah query. Input harus berupa representasi yang tepat dari setiap document dan query agar dapat diolah pemroses. Pemroses/Processor adalah bagian yang paling krusial dalam sistem sistem temu balik informasi. Tugas yang dilakukan pemroses antara lain adalah: Menstrukturkan informasi dalam bentuk yang tepat, misalnya dengan pengindeksan. Melakukan proses seaching (pencarian), yaitu dengan menjalankan suatu strategi pencarian sebagai respon dari query. Output adalah keluaran yang diberikan oleh pemroses. Output biasanya berbentuk informasi tentang suatu dokumen, dokumen itu sendiri, dan acuan ke dokumen lain. Arsitektur penggabungan BIR dan Okapi BM2. Binary Independence Retrieval
Binary Independence Retrieval
If algoritma = Okapi
Proses
Okapi BM25
Dokumen relevan system
Dokumen relevan system
Pilih algoritma: BIR dan Okapi
If algoritma = BIR
Okapi BM25
Gambar 1.2 Arsitektur Penggabungan BIR Dan Okapi BM25. Penjelasan dari gambar 1.2 : Metode binary independence retrieval dan Okapi BM25 digabungkan dengan operasi Bir kemudian Okapi atau sebaliknya serta penggunaan konstanta jika diperlukan. d. Implementasi. Melakukan coding dengan membangun perangkat lunak untuk implementasi pembobotan dokumen pada sistem temu balik informasi. e. Pengujian dan analisis hasil Pengujian metode akan dilakukan dengan menggunakan input berupa koleksi dokumen dengan query sebagai keyword Pada aplikasi ini menggunakan tiga test collection yang
3
masing-masing terdiri dari koleksi dokumen, query dan relevance judgement. Berikut rinciannya : 1. MED: 1033 dokumen, 15 query 2. TIME: 423 dokumen, 10 query 3. ADI: 82 dokumen, 15 query. Skenario pengujian sangat diperlukan agar proses pengujian yang dilakukan dapat mencapai tujuan yang diinginkan. Adapun deskripsi mengenai skenario pengujian yang dilakukan adalah sebagai berikut : 1. Skenario 1 Menguji algorima BIR dan Okapi BM25 dalam sistem information retrieval. Hal yang dianalisis pada skenario 1 ini adalah pengaruh penerapan kedua metode terhadap performansi sistem information retrieval. Berikut skenario yang dilakukan a. Menggunakan query-query uji sesuai dengan koleksi dokumen yang digunakan, Selain akan dihitung rata-rata keseluruhan parameter nilai performansi untuk tiap dokumen uji, total jumlah keunggulan tiap parameterparemeter uji dari semua query yang diujikan serta akan diambil bebarapa sampling query saja. b. Menganalisis parameter nilai performansi yang dihasilkan antara lain recall, precision dan non interpolasi average precision. 2. Skenario 2 Menguji Gabungan antara metode BIR dan Okapi BM25. Berikut skenario yang dilakukan : a. Menggunakan query-query uji sesuai dengan koleksi dokumen yang digunakan, Selain akan dihitung rata-rata keseluruhan parameter nilai performansi untuk tiap dokumen uji, total jumlah keunggulan tiap parameterparemeter uji dari semua query yang diujikan serta akan diambil bebarapa sampling query saja. b. Menganalisis parameter nilai performansi yang dihasilkan antara lain recall, precision dan non interpolasi average precision. 3. Skenario 3 Membandingkan antar metode Binary Independence Retrieval, Okapi BM25 dan gabungan BIR dan Okapi BM25. a. Menganalisis parameter nilai performansi yang dihasilkan berdasarkan nilai non interpolasi average precisionPenyususnan f. Laporan Tugas Akhir dan Kesimpulan Akhir. 1. 5 Sistematika Penulisan Sistematika dari Penulisan Tugas Akhir ini adalah sebagai berikut : BAB I PENDAHULUAN Bab ini membahas mengenai latar belakang pembuatan tugas akhir ini, rumusan masalah yang akan di analisis, ruang lingkup masalah yang ada pada tugas akhir ini, tujuan dari pembuatan tugas akhir ini, metodologi pemecahan masalah serta sistematika penulisan dokumentasi.
4
BAB II LANDASAN TEORI Bab ini terdiri dari teori-teori yang digunakan dalam mendukung dalam penyelesaian tugas akhir ini, dalam hal ini adalah pengertian sistem temu balik informasi dan metode yang digunakan pada pembuatan sistem. BAB III ANALISIS DAN PERANCANGAN SISTEM Bab ini berisi kebutuhan sistem dan perancangan perangkat lunak. Analisis kebutuhan dilakukan dengan pembuatan sistem kebutuhan perangkat lunak dan perancangan meliputi gambaran sistem dan perancangan antarmuka sistem. BAB IV IMPLEMENTASI DAN PENGUJIAN Berisi tentang pengujian dan analisis terhadap sistem. Pengujian dilakukan dengan menggunakan metode Binary Independence Retrieval dan Okapi BM25 serta hasil gabungannya. BAB V KESIMPULAN DAN SARAN Berisi mengenai kesimpulan dan saran-saran yang dapat diambil oleh penulis dari keseluruhan sistem yang telah dibuat untuk pengembangan tugas akhir ini.
5