BAB I
PENDAHULUAN
Pada bab ini akan dibahas latar belakang penelitian, perumusan masalah, tujuan penelitian, manfaat penelitian dan batasan masalah.
1.1 LATAR BELAKANG Perkembangan penggunaan informasi yang cukup tinggi khususnya informasi dalam bentuk teks dokumen menyebabkan kesulitan dalam proses menemukan kembali informasi, sehingga diperlukan suatu cara pendeteksian kemiripan dokumen untuk mendapatkan dokumen yang relevan dan sesuai dengan permintaan pengguna. Proses pendeteksian kemiripan dokumen merupakan pencarian kesamaan beberapa dokumen dengan membandingkan isi dokumen sehingga menghasilkan bobot atau nilai kemiripan dari dokumen yang dibandingkan. Salah satu kegunaan perbandingan isi dokumen adalah untuk membantu pengguna dalam pengelompokan dokumen dan juga memungkinkan pengguna mengetahui apakah isi dokumen yang satu merupakan dokumen yang pada dasarnya sama dengan dokumen yang lain. Menurut Rahman [25], pendeteksian kemiripan dokumen ini dapat dilakukan dengan beberapa teknik, misalnya teknik pencarian informasi (information retrieval), teknik penghitungan statistik, atau dengan menggunakan informasi sintaktik dari kalimat per kalimatnya. Menurut Wibisono dan Khodra [35], clustering dokumen telah lama diterapkan untuk meningkatkan efektifitas temu kembali informasi. Penerapan clustering ini bersandar pada suatu hipotesis (cluster-hypothesis) bahwa dokumen yang relevan akan cenderung berada pada cluster yang sama jika pada koleksi dokumen dilakukan clustering. Beberapa penelitian untuk dokumen berbahasa Inggris menerapkan clustering dokumen untuk memperbaiki kinerja dalam proses searching [32]. Sedangkan perbaikan dalam penyajian hasil search dilakukan oleh
Universitas Sumatera Utara
antara lain Osinki [22], Prakasa [23], dan Widyantoro [34] pada hasil pencarian. Selain dari clustering dokumen yang telah dijelaskan sebelumnya, terdapat beberapa metode yang digunakan untuk pencarian kembali dokumen yaitu : a. Proses parsing dokumen yaitu pengambilan kata-kata dari dokumen. b.
Proses stoplist yaitu pembuangan kata yang tidak mewakili isi dokumen sehingga tidak dapat dijadikan sebagai indeks.
c.
Proses steming kata yaitu proses penghilangan imbuhan yang tidak perlu dari suatu kata turunan (berimbuhan).
d.
Proses indexing yaitu pemilihan istilah (indeks) dilakukan oleh Tata[30].
e.
Proses mencari hubungan antar dua istilah (similarity of terms).
f. Operasi Boolean terhadap istilah-istilah dalam kueri untuk penemuan kembali dokumen yang diinginkan, dilakukan oleh Hasibuan dan Andri [11]. Sihombing[27] telah melakukan penelitian pendeteksian kemiripan dokumen dengan menggunakan Jaringan Saraf Tiruan Hopfiled dengan memanfaatkan similarity measure Hsinchun Chen untuk mendapatkan nilai kemiripan dokumen yang dihasilkan dengan query yang diberikan. Terdapat sejumlah metode untuk menghitung kesamaan antar dokumen, salah satunya dengan menggunakan ukuran kemiripan (similarity measure) Hsinchun Chen diperkenalkan oleh Chen et al [4]. Hsinchun Chen adalah seorang peneliti di bidang IT, pada tahun 1994 Chen dan teman-temannya melakukan penelitian sistem temu kembali dokumen dan menghasikan suatu formulasi pengukuran kemiripan dokumen, rumus ini dikenal dengan ukuran kemiripan (similarity measure) Hsinchun Chen. Algoritma genetika adalah suatu algoritma pencarian yang berbasis pada mekanisme seleksi alam dan genetika. Masalah yang dapat diselesaikan dengan algoritma genetika adalah masalah yang mempunyai kemungkinan solusi yang jumlahnya tak berhingga. Pada sistem pencarian kembali dokumen, masalah yang dihadapi adalah tantangan meledaknya jumlah informasi, sehingga memungkinkan pemberian informasi sesuai kebutuhan semakin rumit. Dengan latar belakang tersebut penelitian ini mencoba menyelidiki alternatif lain pencarian dokumen, yaitu menggunakan algoritma genetika dengan memanfaatkan ukuran kemiripan (similarity measure) Hsinchun Chen untuk mendapatkan nilai ketepatan pendeteksian dokumen. Kemudian hasil nilai ketepatan dengan pemanfaatan ukuran kemiripan (similarity measure) Hsinchun Chen algoritma genetika akan dibandingkan dengan hasil dari Jaringan Syaraf
Universitas Sumatera Utara
Tiruan .
1.2 PERUMUSAN MASALAH Berdasarkan latar belakang permasalahan yang telah dikemukakan di atas, maka perumusan masalah penelitian ini adalah : •
Bagaimana mendapatkan nilai kemiripan dokumen yang lebih tinggi dengan kueri yang diberikan?
•
Bagaimana hasil nilai kemiripan dokumen yang diperoleh dalam penelitian ini jika dibandingkan dengan penelitian Sihombing [27] dengan menggunakan jaringan syaraf tiruan ?
1.3 TUJUAN PENELITIAN Tujuan yang akan dicapai dari penelitian ini adalah : Mendapatkan nilai kemiripan dokumen dengan penerapan faktor Hsinchun Chen dalam algoritma genetika.
Objektif dari penelitian ini adalah : a. Menjelaskan mekanisme sistem pencarian dokumen dengan mengunakan algoritma genetika. b. Membangun sebuah perancangan sistem temu kembali dokumen dengan query yang diberikan. c. Mendapatkan hasil perbandingan nilai kemiripan dokumen menggunakan algoritma genetika dan jaringan syaraf tiruan.
Universitas Sumatera Utara
1.4 MANFAAT PENELITIAN Manfaat dari penelitian ini adalah : a. Memahami hal-hal yang perlu dilakukan dalam mengaplikasikan algoritma genetika dalam mencari nilai kemiripan dokumen. b. Memahami teknik yang dapat diterapkan dalam mencari nilai kemiripan dokumen c. Menjadi rujukan bagi peneliti yang lain sebagai teknik untuk melakukan browsing guna menemukan dokumen yang relevan.
1.5 BATASAN MASALAH Untuk mencegah pembahasan yang terlalu luas maka penulis membatasi ruang lingkup masalah pada penelitian ini adalah sebagai berikut : a. Batasan model yaitu model algoritma genetika dengan faktor kemiripan yang digunakan adalah Hsinchun Chen. b. Penelitian ini berfokus pada implementasi algoritma genetika dalam pencarian kembali dokumen, dimana bagian dokumen yang digunakan adalah judul dari setiap dokumen. c. Bagian dari dokumen yang digunakan untuk penerapan algoritma genetika adalah keyword (kata kunci), dimana keyword tersebut diperoleh dari judul setiap dokumen yang telah mengalami tahapan text preprocessing secara sederhana. d. Membandingkan nilai kemiripan dokumen yang didapatkan dengan algoritma genetika dan algoritma jaringan syaraf tiruan Hopfield. e. Dataset yang digunakan berjumlah 600 dokumen, dimana dokumen tersebut berbentuk jurnal, makalah atau penelitian dalam Bahasa Indonesia, dimana dataset tersebut merupakan data yang sama digunakan oleh peneliti sebelumnya Sihombing[27], sehingga dapat dilakukan perbandingan nilai kemiripan dokumen terhadap penelitian yang dilakukan sebelumnya dan dataset yang digunakan dalam penelitian ini merupakan dataset standard
Universitas Sumatera Utara
untuk penelitian di Universitas Indonesia (UI).
Selanjutnya pada bab kedua akan dijelaskan tentang tinjauan pustaka yang mengemukakan konsep dasar pendukung sistem pencarian kembali dokumen menggunakan algoritma genetika dengan ukuran kemiripan Hsinchun Chen, menelaah teori sistem temu kembali informasi dan algoritma genetika untuk pemecahan masalah yang berhubungan dengan penelitian ini.
Universitas Sumatera Utara