MENGUJI EFEKTIVITAS ALGORITMA PENGINDEKSAN META SEARCH ENGINE DENGAN METODE PENILAIAN RELATIVE RECALL & PRECISION UNTUK HASIL PENCARIAN ORGANIK BIDANG ILMU PERPUSTAKAAN DAN INFORMASI Wishnu Hardi*
Abstrak Makalah ini menguji efektivitas algoritma pengindeksan lima meta search engine yaitu Speres, Ixquick, Meta Search Engine, Clusty dan Polymeta. Ada lima belas pertanyaan yang dipilih terkait istilah Ilmu Perpustakaan dan Informasi. Setiap pertanyaan kemudian dikirim ke semua meta search engine tersebut. Hasil dari percobaan ini lalu dievaluasi dan dibandingkan dengan cara penilaian relative recall dan precision. Hasil dari penelitian ini menunjukkan bahwa masalah yang dihasilkan tetap menjadi tantangan dalam membangun meta search engine yang baik. A. Pendahuluan Search engine mulai diperkenalkan pada tahun 1993 dan berbagai teknik untuk mengevaluasi performa search engine dipublikasikan tahun 1996. Selama periode 10 tahun terakhir sejak kemunculannya, teknologi search engine mengalami kemajuan yang sangat dramatis. Saat ini search engine merupakan perangkat web yang paling berpengaruh karena peranannya dalam proses temu kembali informasi. Pesatnya perkembangan teknologi search engine dan proliferasi website menciptakan tantangan-tantangan baru dalam dunia temu kembali informasi. Menurut survey yang dilakukan Situs Netcraft jumlah website yang ada di dunia sejak tahun 1995 hingga Maret 2012 telah mencapai 644,275,754 website. S e m e n t a r a i t u , K e v i n K e l l y, p e n d i r i m a j a l a h Wi r e d ¸ seperti yang dikutip oleh Sutter (2011), kolumnis CNN Tech, menulis bahwa saat ini di dunia terdapat lebih dari satu triliun halaman web. Dari jumlah tersebut, han y a se k i t a r 1% saja yang berada ‘ pe rm u k a a n ’ dan mudah ditemukan. Kini, proses mencari informasi relevan menjadi semakin rumit dan memakan waktu. * Pegawai pada National Library of Australia Jakarta Office
VISI PUSTAKA Vol. 15, No. 1, April 2013
Pengguna sering menemui kesulitan ketika mengkonversi bahasa alami menjadi konsep atau istilah yang dikenal oleh search engine. Sifat ambiguitas bahasa alami menyebabkan satu kata bisa memiliki lebih dari satu makna, di sisi lain, beberapa kata dapat mengekspresikan konsep yang sama. Efektivitas search engine untuk penelusuran query yang bersifat luas atau ambigu masih dipertanyakan oleh karena hasil penelusuran masih menc a mp u r a duka n be r a ga m subtopik a ta u k o n s e p de nga n inf or ma si ya ng kur a ng relevan. Kendala bahasa (language barrier) akan terus menjadi tantangan yang mendorong pengembangan model search engine yang lebih baik lagi. Diskusi mengenai efektivitas kinerja dari sebuah search engine selalu dikaitkan dengan tingkat relevansi hasil pencarian. Meskipun demikian, definisi konsep relevansi telah menjadi perdebatan bertahun-tahun d a l a m Ilmu Perpustakaan dan Informasi. Artikel ini mengevaluasi efektivitas algoritma pengindeksan lima meta search engine untuk temu kembali informasi ilmiah untuk bidang Ilmu Perpustakaan dan Informasi. Pengujian dilakukan dengan mengukur tingkat relative recall dan precision pada
37
masing-masing meta search engine. Precision adalah proporsi hasil pencarian dari suatu query yang benar-benar relevan. Dalam hal ini, precision mengukur tingkat “gangguan” dari akurasi i nform asi yang ditampilka n. Sedangkan, relative recall adalah proporsi seluruh hasil pencarian relevan yang ditemukan oleh sistem. Studi Literatur Kajian mengenai meta search engine telah dimulai sejak tahun 90-an seiring perkembangan search engine yang kian pesat. D re i l i n er (1996) dalam tesisnya mengevaluasi efektivitas meta search engine dalam memilah dan memberikan peringkat hasil pencarian dengan menguji algoritma meta indeks. Meng, Yu, dan Liu (2002) mensurvey berbagai teknik yang sering digunakan untuk mengatasi masalah mendasar dalam membangun meta search engine yang baik. Namun, penelitian ini belum dapat dikatakan berhasil menemukan solusi untuk tiga masalah utama meta search engine, yakni penyeleksian database, penyeleksian dokumen, dan penggabungan hasil, oleh karena masih memerlukan informasi lebih jauh mengenai komponen search engine yang diteliti.
Kuma r da n Pa vithr a ( 2010 ) me n g u ji kapabilitas meta search engine dengan melakukan perbandingan dengan search engine. Penelitian ini membuktikan bahwa meta search engine mampu menghasilkan nilai precision yang lebih baik dari search engine. Sebaliknya, nilai relative recall meta search engine masih rendah meskipun memiliki berbagai keunggulan teoretis dalam hal pencarian ke database-database tunggal. Srinivas, Srinivas, dan Govardhan (2011) melakukan survey komprehensif meta search engine dengan menggunakan paramater, antara lain, keterhubungan meta search engine dengan search engine lokal, waktu respon, dan algoritma pemeringkatan. Hasil studi membuktikan bahwa meta search engine memiliki superioritas dibandingkan search engine biasa dalam hal relative recall and precision. Mahabhashyam dan Singitham (2012) mengevaluasi strategi pemeringkatan meta search engine. Dari hasil evaluasi ditemukan bahwa kompleksitas komputasional dari algoritma pemeringkatan dan performa meta search engine adalah parameter yang saling bertentangan.
L u , Me n g , S hu, dan Yu (2005) me nginvestigasi variasi algoritma penggabungan hasil pencarian meta search engine. Dujmovic dan B a i ( 2 0 0 6) m elakukan evaluasi da n p er b a n d i n g a n search engine dengan metode Logic Scoring of Preference (LSP). Model pendekatan kuantitatif ini cukup efektif mengukur fungsionalitas, penggunaan, dan performa search engine karena menggunakan mekanisme struktur dekomposisi yang meliputi keseluruhan atribut sistem yang berpengaruh terhadap search engine yang sedang dievaluasi.
Meta search engine Istilah meta search engine digunakan untuk menjelaskan paradigma pencarian ke banyak sumber data secara real time. Meta search engine menyediakan akses tunggal ke berbagai search engine dan mengkombinasikan hasil penelusuran yang kemudian dig a b u n g k a n dan ditampilkan berdasarkan peringkat. Meta search engine dirancang untuk dapat situs-situs yang sulit ditemukan (deep web). Hal ini didasari fakta bahwa pesatnya pertumbuhan web menyebabkan efektivitas pencarian search engine semakin berkurang.
Taksa dan Spink (2007) menganalisis pemakaian query yang bersifat kompleks pada meta search engine dengan mengukur efektivitas, efisiensi, dan tingkat kepuasan.
Dengan demikian, meta search engine beroperasi berdasarkan premis bahwa dunia web terlalu besar bagi satu search engine manapun untuk dapat mengindeks keseluruhannya.
38
VISI PUSTAKA Vol. 15, No. 1, April 2013
Pengembangan meta search-engine secara konsisten terus dilakukan dengan tujuan, antara lain, meningkatkan cakupan pencarian web, memfasilitasi pencarian informasi ke banyak search engine, mengatasi skalabilitas penelusuran web, dan meningkatkan efektivitas temu kembali informasi (Meng, Yu, dan Liu 2002). Sementara itu, Dreiliner (1996) dalam tesisnya menyebutkan setidaknya ada 3 (tiga) komponen utama dalam arsitektur dasar meta search engine, pertama, mekanisme pengiriman q u e ry ( d i sp t a ch m echanism ), penghubung antarmuka (interface agent), dan mekanisme display hasil pencarian (display mechanism) Meta search engine bekerja dengan melakukan skema penggabungan (fusion) search engine sehingga dapat menjangkau database-database besar serta meningkatkan nilai relative recall dan precision. Tiga kelebihan meta search engine lainnya antara lain : Pertama, performa meta search engine lebih konsisten karena mampu mengkombinasikan kekuatan dan kelemahan yang ada pada masing-masing search engine. Kedua, meta search engine dapat mengatasi problem arsitektur modular search engine dalam proses pencarian informasi seperti frekuensi kata dan frase, struktur tekstual dokumen, dan struktur hyperlink antar dokumen. Ketiga, meta search engine menggunakan model algoritma pemeringkatan yang terfokus sehingga dapat menghasilkan informasi yang lebih spesifik. Meskipun meta search engine dapat mengatasi beberapa kekurangan search engine biasa, adakalanya nilai precision yang dihasilkan rendah karena heteroginitas search enginesearch engine yang mendasarinya. Dengan kata lain, query yang digunakan untuk mendapatkan informasi yang dimaksud secara optimal dapat berbeda-beda antara satu search engine dengan yang lainnya.
VISI PUSTAKA Vol. 15, No. 1, April 2013
Metodologi dan Test Environment Lima meta search engine dipilih secara acak untuk diuji efektivitas hasil pencariannya. Kelima search engine tersebut adalah Sperse, Ixquick, Meta Search Engine, Clusty, dan Polymeta. Lima belas istilah yang mewakili topik dibidang Ilmu Informasi dan Perpustakaan dipilih yang kemudian diklasifikasi menjadi konsep tunggal (annotation, bibliography, monograph, librarianship, cataloguing), konsep majemuk (controlled vocabulary, digital library, special libraries, resource description and access,MARC format), dan konse p komple ks ( e v aluation o f lib r a r y c olle c tion, library and censorship, bibliometrics research method, library metadata standards, information literacy and libraries). Penulis membatasi penelitian pada sepuluh website hasil penelusuran yang muncul pada halaman pertama saja. Hal ini sejalan dengan penelitian yang dilakukan Google bahwa hampir 85% pengguna hanya melihat hasil penelusuran pada halaman pertama saja. Masing-masing istilah yang mewakili konsep tunggal, gabungan, dan kompleks kemudian diujikan pada lima meta search engine. P e n g u j i a n k u e r i p a d a l i m a m e t a s e a rc h e ngine menggunakan advanced mode dengan metode “exact phrase”. Metode ini dipilih agar penjaringan informasi menghasilkan tingkat prec ision ya ng le bih tin g g i d a n dikontrol dengan hanya menggunakan bahasa Inggris agar pengukuran tingkat relevansi lebih mudah dilakukan. Pengujian dilakukan pada waktu yang berdekatan untuk meminimalisasi variasi temporal system dan pemutakhiran indeks meta search engine. Nilai precision dilihat dari seberapa baik kualitas sistem dalam menampilkan hasil pencarian secara benar dan akurat. Pada penelitian ini, hasil penelusuran meta search engine dikategorikan sebagai “lebih relevan”, “kurang relevan”, “tidak relevan”, “links”, dan “situs tidak bisa diakses” dengan kriteria dasar masing-masing sebagai berikut:
39
Jika isi halaman web sesuai dengan pokok su b j e k y ang dimaksud dalam istila h p e n c a r i a n dan menampilkan dokumendokumen makalah penelitian, prosiding seminar/konferensi, paten, dan standar, maka dikategorikan sebagai “lebih relevan” dengan nilai skor 2.
Relative Recall & precision Dari hasil pengujian lima meta search engine, maka diperoleh nilai tengah relative recall and precision sebagai berikut:
Jika isi halaman web tidak berkaitan dengan pokok subjek yang dimaksud dalam istilah pencarian namun terdapat beberapa aspek relevan dengan pokok su b j e k , t erm asuk didalamnya kamus, ensiklopedi, organisasi, blog, maka dikategorikan sebagai “kurang relevan” dengan nilai skor 1.
Jika isi halaman web hanya menampilkan k u m p u lan tautan atau links ma ka d i k a t e g o r ikan sebagai “tautan” dengan nilai skor 0.5, dengan catatan terdapat satu atau dua tautan terbukti relevan
Istilah “recall” mengacu pada kemampuan sistem temu kembali informasi untuk menjaring seluruh atau sebagian besar dokumen-dokumen relevan dalam sistem. Pada tabel di atas Polymeta memiliki nilai tengah relative recall tertinggi (0.47), diikuti Clusty (0.27), Meta search engine (0.12), Sperse (0.10), dan Ixquick (0.02). Variasi nilai tengah relative recall sangat dipengaruhi oleh bagaimana meta search engine mengirimkan q u e r y k e b e b e r a p a s e a rc h e n g i n e d a n k e t e r h u b u n g a n n y a dengan search engine. dan bagaimana meta search engine mengkombinasikan hasil pencarian dengan menghindari redundancy hasil pencarian.
Jika isi halaman web tidak berkaitan sama se k a l i d e ngan pokok subjek yang dimaksud dalam istilah pencarian maka dikategorikan sebagai “tidak relevan” dengan nilai skor 0.
Jika alamat website tidak bisa diakses setelah dicek berulang-ulang maka dikategorikan sebagai “situs tidak bisa diakses” dengan nilai skor 0.
Kriteria-kriteria tersebut digunakan untuk mengkalkulasi nilai relative recall dan precision masing-masing meta search engine dengan formula sebagai berikut: Precision = Jumlah skor situs yang ditemukan, Jumlah total situs yang di evaluasi Relative recall = J u m l a h t o t a l s i t u s y a n g ditemukan satu meta search engine Jumlah total situs yang ditemukan lima meta search engine
40
Sedangkan untuk nilai tengah precision, Sperse mendapat skor tertinggi (1.21) diikuti Meta Search Engine (1.16), Clusty (1.13), Polymeta (1.10), dan Ixquick (1.01). Dalam hal precision, perbedaan nilai tengah tidak jauh berbeda karena pada dasarnya meta search engine tidak menjaring langsung informasi dan membangun indeks dokumen website. Fungsi utama meta search engine adalah mendiversifikasi hasil pencarian yang diperoleh dari masing-masing search engine
VISI PUSTAKA Vol. 15, No. 1, April 2013
dan menampilkannya kepada user berdasarkan peringkat yang juga diperoleh dari masingmasing search engine. Namun demikian, meta search engine tetap menyaring peringkat hasil pencarian teratas secara real time.
Kesimpulan Skema penggabungan hasil pencarian diterapkan pada sistem pengindeksan meta search engine merupakan metodologi baru dalam dunia temu kembali informasi y a n g membantu user memperoleh sebanyak m u n g k i n d o kum en relevan. E fek tivita s ki n e r j a meta search engine berkaitan erat dengan algoritma homogen yang digunakan untuk menggabungkan hasil pencarian yang diperoleh dari search engine tunggal. Penelitian ini memperlihatkan bahwa nilai tengah relative recall dan precision lima meta search engine tidak memiliki gap yang signifikan. Dalam ob se r v a si j u g a ditemukan, bahw a se c a r a kes e l u r u h a n nilai precision meta search engine masih lebih baik dari search engine tunggal, tetapi untuk relative recall, perolehan dokumen meta search engine berada di bawah level search engine tunggal. Daftar Pustaka Dujmovic, Jozo and Bai, Haishi, Evaluation and comparison of search engines using the LSP method, ComSIS, 3 (2) (2006), Available at
VISI PUSTAKA Vol. 15, No. 1, April 2013
http://www.doiserbia.nb.rs/img/doi/18200214/2006/1820-02140602031D.pdf (Diakses 20 September 2012). Hardi, Wishnu, Evaluasi aplikasi DNS sebagai search engine untuk pencarian nama domain best universities dan top leading banks di Indonesia (2007), available at http://eprints.rclis.org/ bitstream/10760/10422/1/Artikel_Evaluasi_Aplikasi_DNS_Sebagai_Search_Engine.pdf (Diakses tanggal 21 September 2012). Hardi, Wishnu, Mengukur kinerja search engine: sebuah eksperimentasi penilaian precision and recall untuk informasi ilmiah bidang Ilmu Perpustakaan dan Informasi, Visi Pustaka, 8 (1) (2006), available at http://www.pnri.go.id/MajalahOnlineAdd. aspx?id=31 (Diakses tanggal 21 September 2012). Kumar, B.T. Sampath and Pavithra, S.M., Evaluating the searching capabilities of search engines and meta search engines: a comparative study, Annals of Library and Information Studies, 57 (June) 2010, available at http://nopr.niscair.res.in/ bitstream/123456789/9745/1/ALIS%20 57%282%29%2087-97.pdf (Diakses tanggal 20 September 2012). Lu, Yiyao, Meng, W., Shu, L., Yu, C., and Liu, K., Evaluation of result merging strategies for meta search engines (2005), available at http://www.cs.binghamton.edu/~ylu0/ papers/Lu_p211.pdf (Diakses tanggal 20 September 2012). Mahabhashyam, Mahathi S. And Singitham, Pavan, Tadpole: a meta search engine evaluation of meta search ranking strategis, available at http://www.provesearch. com/doc/1280/tadpole-a-meta-search-engine-and-evaluation-of-ranking-strategies (Diakses tanggal 2 Oktober 2012).
41
Meng, W., Yu C., and Liu, K., Building efficient and effective meta search engines, Journal ACM Computing Surveys (CSUR), 34 (1) 2002, available at http:// dl.acm.org/citation.cfm?id=505284 (Diakses tanggal 28 September 2012). Netcraft, March 2012 web server survey, available at http://news.netcraft.com/ archives/2012/03/05/march-2012-webserver-survey.html (Diakses tanggal 21 September 2012). Srinivas, K., Srinivas, P.V.S., and Govardhan, A., A survey on the performance evaluation of various meta search engines, IJCSI International Journal of Computer Science Issues, 8 (2) 2011, available at http://www.doaj.org/
42
doaj?func=abstract&id=807884 (Diakses tanggal 20 September 2012). Sutter, John D., How many pages are on the internet?, CNN Tech, available at http:// articles.cnn.com/2011-09-12/tech/web. index_1_internet-neurons-human-brain?_ s=PM:TECH (Diakses tanggal 21 September 2012). Taksa, Isak and Spink, Amanda, Evaluating usability of a long query meta search engine, Proceedings of the 40th Hawaii International Conference on System Sciences, (2007), available at http://eprints. qut.edu.au/14297/1/14297.pdf (Diakases tanggal 20 September 2012).
VISI PUSTAKA Vol. 15, No. 1, April 2013