Copyright © 2007 www.jurnalkomputer.com
Search Engine Asep Herman Suyanto
[email protected] http://www.bambutechno.com
Beberapa search engine adalah untuk general-purpose pencarian. General-purpose search engines ini bisa lebih lanjut dibagi menjadi dua sub-categories: langsung atau pun tidak. Search engine langsung yang mempunyai database dan index halaman web mereka sendiri. Sedangkan search engine tidak langsung, juga disebut meta search engine, pada umumnya tidak mempunyai database mereka sendiri, tetapi mengirimkan query kepada beberapa search engine langsung sebelum menggabungkan hasil (Li et al., 2001). 1.
Sistem Kerja Search Engine Sistem kerja search engine pada WWW, secara umum terdiri dari tiga subsistem, antara
lain: crawler, indexer, dan searcher. Crawler merupakan program yang mengambil (fetch/retrieve) halaman-halaman web, yang akan digunakan oleh search engine atau web cache. Langkah kerja crawler diawali dengan sebuah URL dari halaman web. Crawler mengambil halaman web tersebut, kemudian melakukan ekstraksi terhadap URL-URL yang ada di dalamnya, dan memasukkan URLURL tersebut ke dalam daftar antrian URL yang akan diperiksa (scan) dan diambil. Setelah selesai, crawler melihat ke dalam daftar antrian untuk mengambil URL yang akan diambil (proses pengambilan itu berdasar pada urutan tertentu). Selanjutnya crawler mengulangi proses tersebut hingga semua URL yang ada di dalam daftar antrian selesai diambil atau sampai proses tersebut dihentikan oleh sistem (Cho, 1998). Halaman web yang telah diambil, diberikan kepada klien yang akan menyimpan halamanhalaman web tersebut. Sesudah semua halaman web terkumpul dan tersimpan, selanjutnya dilakukan proses pembuatan index untuk halaman-halaman. Selain pembuatan index, pada subsistem ini juga dilakukan pembuatan rangkuman dan analisis terhadap isi halaman web. Pada beberapa search engine yang juga memasukkan kriteria struktur link untuk sistemnya, dalam tahap
Copyright © 2007 www.jurnalkomputer.com ini juga dilakukan pembuatan rangkuman dan analisis terhadap struktur link tersebut. Kemudian, semua hasil dari pembuatan rangkuman dan analisis itu ikut disimpan dalam database. Keseluruhan proses di atas dikerjakan oleh subsistem indexer (Fatwanto,2004). Sementara itu, subsistem searcher berfungsi sebagai antarmuka (interface) antara user (user) dengan keseluruhan sistem. Subsistem searcher menangani masukan query dari user kemudian melakukan pencarian terhadap isi index untuk mencari halaman-halaman web yang cocok dengan query yang dimasukkan. Hasil yang diperoleh dari proses pencarian kemudian diberi bobot untuk beberapa kategori, baik untuk bobot yang berbasis isi atau teks halaman web, maupun untuk bobot yang berbasis struktur link antar halaman web. Setelah bobot untuk masing-masing kategori dihitung, hasilnya digabung dengan rumusan yang telah ditentukan, sehingga akan diperoleh bobot akhir atau bobot total untuk masing-masing halaman web hasil pencarian. Berdasarkan bobot total tersebut, dilakukan pengurutan (sorting) bobot dari nilai yang besar ke nilai yang kecil (descending), sehingga urutan halaman web hasil pencarian ditampilkan berdasarkan hasil pengurutan bobot total tersebut (Fatwanto,2004). Secara umum arsitektur untuk search engine yang standar diperlihatkan pada Gambar 2.1, seperti berikut :
Gambar 2.1 Standar Arsitektur Search Engine 2.
Ukuran Index Search Engine Web begitu pesat berkembang dalam jumlah dan ukurannya. Maka ukuran index search
engine juga menjadi meningkat. Bagaimanapun, index yang besar dapat membantu user mencari
Copyright © 2007 www.jurnalkomputer.com yang tidak biasa atau sangat mendalam untuk pencarian informasi. Sebagai konsekwensi, ketika user mencari akan terkaburkan, karena penggunaan search engine dengan index besar. Gambar 2.2 menunjukkan bagaimana banyak dokumen teks telah di-index, yang meliputi file HTML, document text, file PDF, Microsoft Office dan file serupa lain. File image dan multimedia tidak dimasukkan. Tidak pula menempatkan diskusi Google Groups. Gambar tersebut menunjukkan bagaimana ukuran search engine dalam skala milyar dokumen yang telah di-index. Telah berubah tiap tahun, dari Desember 1995 sampai September 2003. Hanya search engine yang masih merayap web ditunjukkan pada Grafik. Seperti, Northern Light, Excite, Infoseek dan yang lain, yang tidak lagi merayap tidak dipertunjukkan. (Sullivan, 28 Januari 2005).
Key : GG : Google, ATW : AllTheWeb, INK : Inktomi, TMA : Teoma, AV : AltaVista Gambar 2.2 Perkembangan Ukuran Search Engine
3.
Search Engine Ratings
1.
Nielsen NetRatings Nielsen NetRatings MegaView Search melaporkan service pengukur perilaku pencarian kira-
kira 500,000 orang-orang di seluruh dunia. Web surfer ini mempunyai real-time meter pada komputer mereka yang memonitor site yang mereka kunjungi. Informasi yang diukur ini di-compile untuk menghasilkan hasil Netratings. Di bawah adalah statistik tentang pencarian dari Netratings yang dilakukan bulan Juli 2006.
Copyright © 2007 www.jurnalkomputer.com Gambar 2.3 menunjukkan persentase dari pencarian online yang dilakukan di rumah yang ada di AS dan kerjaan web surfers pada bulan Juli 2006 yang dilakukan pada search engine tertentu. Pencarian internal site, seperti untuk temukan material di dalam web site tertentu, tidak dihitung di total ini. Aktivitas pada lebih dari 60 site pencari menyusun total volume pencarian atas persentase yang didasarkan-- 5.6 milyar pencarian di dalam bulan Juli 2006. (Sullivan, 22 Agustus 2006) Nielsen NetRatings
Google 49.20%
Others 8.50%
Google Yahoo
Ask 2.60%
MSN AOL 6.30%
AOL Ask
MSN 9.60%
Others Yahoo 23.80%
Gambar 2.3 Nielsen NetRatings : Juli 2006 2.
comScore Media Metrix ComScore Media Metrix qSearch service mengukur pencarian sepesifik lalu lintas pada
internet. qSearch data dikumpulkan dengan memonitor aktivitas web 1.5 juta English-Speakers di seluruh dunia (1 juta di AS) via proxy metering. Proxy metering mengijinkan comScore untuk melihat secara pasti bagaimana di dalam panel-nya telah men-surf web. Dari data ini, perusahaan kemudian menyadap aktivitas dianggap secara spesifik terkait dengan pencarian. Gambar 2.4 memperlihatkan hasil tentang perhitungan pencarian dari qSearch yang diluncurkan ke masyarakat. Ini menunjukkan persentase dari pencarian yang dilaksanakan oleh web surfers AS, kerjaan dan di universitas pada bulan Juli 2006. Itu dilakukan pada web site tertentu atau jaringan web site. (Sullivan, 21 Agustus 2006).
Copyright © 2007 www.jurnalkomputer.com comScore Media Metrix
Others 3.40% Ask 5.40%
Google 43.70%
Google Yahoo
AOL 5.90%
MSN AOL MSN 12.80%
Ask Others Yahoo 28.80%
Gambar 2.4 comScore Media Metrix: Juli 2006 3.
Hitwise Hitwise menggunakan penggabungan data surfing web tanpa nama yang disajikan oleh ISP
dalam berbagai negara dan pengukuran berdasarkan panel sendiri untuk menentukan site yang paling populer pada web. Data meliputi aktivitas surfing 25 juta orang, di seluruh dunia. Tabel 2.1 menunjukkan persentase pencarian masing-masing search engine yang ditangani dari semua pencarian di AS. Bulan ditunjukkan di atas kolom dan akhir per tanggal ditunjukkan di bawah. Pencarian dilakukan pada 57 search engine yang terukur oleh Hitwise. (Sullivan, 23 Agustus 2006). 4.
Searches Per Day Tabel 2.2 menunjukkan gambaran banyaknya pencarian dilakukan tiap hari yang terjadi di
dalam Amerika Serikat pada Maret 2006, yang didasarkan pada jumlah comScore. (Sullivan, 20 April 2006). Tabel 2.1 Hitwise: Maret-Juli 2006 Search Domain Engine Google www.google.com Yahoo search.yahoo.com MSN search.msn.com Ask www.ask.com AOL search.aol.com Others n/a For The 4 Week Period Ending:
3/06
4/06
5/06
6/06
7/06
58.3% 22.3% 13.1% 4.0% 1.0% 1.3% 4/1/06
58.6% 22.2% 12.6% 4.2% 1.0% 1.2% 4/29/06
59.3% 22.0% 12.1% 4.4% 0.9% 1.2% 5/27/06
59.8% 22.3% 12.1% 3.6% 1.1% 1.1% 7/1/06
60.2% 22.5% 11.8% 3.3% 1.0% 1.0% 7/29/06
Copyright © 2007 www.jurnalkomputer.com Tabel 2.2 Pencarian Per Hari Searches Google Yahoo MSN AOL Ask Others Total
Per Day (Millions) 91 60 28 16 13 6 213
Per Month (Millions) 2,733 1,792 845 486 378 166 6,400