1. PENDAHULUAN
A. Latar Belakang Perkembangan teknologi informasi, khususnya teknologi Internet sebagai wadah untuk dapat dengan mudah menyebarkan informasi secara mudah dan gratis, mengakibatkan informasi berlimpah. Melimpahnya informasi di satu sisi semakin memudahkan kita untuk mengakses informasi. Namun di sisi lain, banyaknya informasi dapat menimbulkan permasalahan pada pencarian atau penelusuran dan pengorganisasian informasi. Jumlah dan laju pertambahan informasi yang dihasilkan saat ini telah melebihi kemampuan
manusia
untuk
melakukan
organisasi,
menelusuri
dan
memodifikasi informasi tanpa bantuan sistem yang otomatis (Taylor, 1999). Untuk memudahkan penelusuran informasi diperlukan mesin pencari. Mesin pencari menerima input query atau kata kunci dari pengguna dan menampilkan daftar informasi atau dokumen yang diperoleh (pada mesin pencari Internet, hasil pencarian terdiri dari link menunjuk alamat Internet yang menyimpan dokumen). Pada saat ini sudah banyak mesin pencari informasi pada Internet yang dapat digunakan secara cuma-cuma, antara lain : google (www.google.com), yahoo
(www.yahoo.com)
dan
altavista
(www.altavista.com).
Ketika
menggunakan mesin pencari, pengguna sering tidak memperoleh hasil yang optimal (sesuai dengan keinginan), karena pengguna menghadapi beberapa kendala dalam memasukkan kata kunci, antara lain (Muresan, 2002): 1. Kesalahan dalam pengetikan atau dalam ejaan kata
1
2. Terbatasnya perbendaharaan kata yang dimiliki pengguna (terutama untuk istilah pada domain pengetahuan yang memiliki terminologi-terminologi tertentu) 3. Kurang memahami cara penggunaan sintaks bahasa query, seperti Operator Boolean 4. Kebanyakan pencarian hanya menggunakan kata kunci yang sedikit sehingga mengurangi daya jelajah pada ruang informasi 5. Kata kunci yang digunakan sedikit dan terlalu luas atau memiliki makna ganda (ambigue) sehingga hasil pencarian yang didapat banyak namun kurang atau tidak relevan sama sekali Kesalahan memasukkan kata kunci dapat menyebabkan hasil tidak ada atau terlalu banyak. Mesin pencari kebanyakan menggunakan teknik representasi peringkat dengan menampilkan seluruh link menuju halaman hasil yang dibagi perhalaman. Masalah pada teknik representasi peringkat muncul bila hasil pencarian yang diperoleh terlalu banyak. Misalkan kita cari kata java untuk pulau jawa dengan menggunakan google (www.google.co.id), akan diperoleh hasil sebanyak 235 juta link ke alamat yang mengandung kata java dan baru pada halaman ke-3 (link yang ke-31) kita bisa menemukan link yang mempunyai keterangan tentang pulau java (Gambar 1.1). Untuk membantu pengguna dalam mengatasi masalah ini, perlu dipikirkan suatu teknik representasi lain. Salah satu cara adalah dengan mengelompokkan dokumen hasil query yang memiliki kemiripan, misalkan dokumen-dokumen yang memiliki kesamaan subyek dapat dimasukkan dalam satu kelompok atau cluster (Borodavkina, 2000).
2
Gambar 1.1 Contoh halaman hasil pencarian Google (www.google.com)
Pengelompokan dokumen telah banyak diaplikasikan pada sistem temukembali informasi untuk meningkatkan efektifitas pencarian, antara lain (Horng et. al., 2005), (Haruechaiyasak & Chen, 2002) dan (Mendes & Sacks, 2003). Pada aplikasi komersial, dokumen clustering antara lain telah digunakan oleh mesin pencari Vivisimo (www.vivisimo.com). Ketika digunakan, Vivisimo menghasilkan judul dan abstrak dokumen yang ditemukan. Kemudian menggunakan judul dan abstrak tersebut sebagai bahan pengelompokan (bukan keseluruhan dokumen). Vivisimo menggunakan algoritma Hierarchical Fuzzy Clustering. Algoritma Hierarchical Fuzzy Clustering merupakan salah satu algoritma algoritma clustering. Algoritma clustering lainnya antara lain KMeans, Buckshot, Fuzzy C-Means, Hyperspherical Fuzzy c-Means, εInsentive Fuzzy C-Means (ε-FCM),
Competitive Clustering by Learning
3
(CCL), Fuzzy CCL (FCCL) serta algoritma Fuzzy Subtractive Clustering (FSC). Algoritma tersebut masing-masing memiliki karakter yang berbeda, sehingga perlu dilakukan pemilihan algoritma clustering yang paling tepat untuk document clustering. Perbandingan kinerja algoritma untuk document clustering sudah pernah dilakukan, antara lain oleh Mendes & Sacks (2003) yang menggunakan algoritma H-FCM untuk document clustering dan membandingkannya dengan algoritma K-Means. Hasilnya algoritma H-FCM memiliki kinerja lebih baik dibandingkan algoritma K-Means (bukan fuzzy). Penelitian ini bertujuan untuk mengembangkan penelitian Mendes & Sacks (2003) dengan membandingkan kinerja algoritma H-FCM dengan dua algoritma fuzzy clustering lainnya,. Algoritma FCM dipilih karena FCM merupakan algoritma fuzzy clustering yang paling populer, sedangkan algoritma FSC dipilih karena belum pernah diteliti penggunaanya untuk document clustering. Penelitian ini juga akan membuat prototipe sistem temukembali informasi yang menggunakan satu algoritma clustering terbaik di antara algoritma tersebut.
B. Tujuan dan Manfaat Penelitian ini bertujuan untuk (1) melakukan evaluasi kecocokan penggunaan algoritma fuzzy clustering FCM, H-FCM dan FSC pada dokumen dari situs Internet (2) melakukan evaluasi kecocokan formula representasi dokumen Tf, Tf-Idf dan Salton pada dokumen dari situs Internet (3)
4
mengembangkan prototipe sistem temu-kembali informasi (dokumen) yang dibangun dengan menggunakan satu algoritma yang terbaik hasil evaluasi. Penelitian ini diharapkan dapat bermanfaat sebagai salah satu model implementasi sistem algoritma fuzzy clustering dalam temu kembali informasi berbahasa Indonesia.
C. Ruang Lingkup Penelitian ini memiliki ruang lingkup sebagai berikut : 1
Algoritma clustering yang diuji adalah : Fuzzy C-Means Clustering (FCM), Hyperspherical Fuzzy C-Means Clustering (H-FCM) dan algoritma Fuzzy Subtractive Clustering (FSC) .
2
Bahan atau data yang digunakan adalah artikel dokumen yang diperoleh dari situs Internet.
3
Implementasi algoritma pada proses evaluasi dilakukan dengan Matlab 7.1
4
Prototipe sistem dikembangkan dengan menggunakan algoritma clustering terpilih
5
Prototipe sistem dibangun menggunakan bahasa PHP 5.0, basisdata MySQL versi 5.0.18 dan web server Apache versi 2.2.0.
5