BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah Pada zaman seperti sekarang ini, jurnal atau berita elektronik merupakan suatu bentuk hasil karya dari seseorang yang sudah familiar. Di dalam karyakarya
tersebut biasanya terdapat suatu bentuk pembahasan dari suatu
permasalahan yang dikembangkan dengan metode tertentu maupun melihat kecenderungan kebutuhan pada suatu waktu. Dari pembahasan ini kemudian dapat diperoleh banyak informasi yang sekiranya berguna dalam suatu kebutuhan
tertentu
terutama
kebutuhan
guna
perkembangan
ilmu
pengetahuan. Bagi para pemburu pengetahuan yang haus akan suatu informasi, mereka membutuhkan informasi dari suatu media elektronik, sebagai bentuk representasi dari dokumen. Representasi ini dapat digunakan sebagai informasi singkat untuk mengambil keputusan apakah dokumen tersebut relevan atau tidak dengan kebutuhan mereka sebelum akhirnya mereka membaca keseluruhan isi dokumen. Dalam proses pencarian yang dilakukan oleh seseorang pada suatu dokumen biasanya mereka akan melihat apakah terdapat kata maupun frase yang muncul berkali-kali dalam kalimat. Sengaja maupun tidak disengaja, kata maupun frase tersebut dituangkan oleh penulisnya pasti memiliki tujuan tertentu. Sering kali kata maupun frase tersebut mencerminkan isi dari dokumen karena frekuensi kemunculan kata maupun frase tersebut tinggi. Kata maupun frase tersebut sebenarnya dapat disimpan sebagai suatu bank data. Bank data ini nantinya dapat digunakan sebagai representasi suatu dokumen serta dapat juga digunakan sebagai acuan dalam pencocokan query. Dengan penelitian ini diharapkan mampu membangun suatu sistem yang dapat membentuk kata kunci dari dokumen berbahasa Indonesia serta dapat menemukan suatu dokumen berdasarkan kata kunci yang diinputkan. Kata kunci tersebut kemudian dicocokan dengan query yang tersedia. Sehingga
dengan adanya kata kunci ini diharapkan dapat membantu pembaca dalam menemukan dokumen yang diinginkan.
1.2 Rumusan Masalah Masalah yang dibahas dalam penelitian ini adalah: 1. Bagaimana sistem yang tercipta dapat membangun suatu kata kunci dari suatu dokumen menggunakan metode N-gram? 2. Bagaimana sistem yang tercipta dapat melakukan pencocokan terhadap query yang ada dengan kata kunci yang tercipta?
1.3 Tujuan dan Kegunaan Penelitian 1.3.1 Tujuan Penelitian 1. Untuk dapat menerapkan metode N-Gram dalam membangun suatu sistem yang merekomendasikan kata kunci sebagai sumber informasi yang dicari pembaca. 2. Untuk dapat menemukan kata kunci dari suatu dokumen yang memiliki nilai frekuensi kemunculan tinggi (sering muncul). 3. Untuk dapat mengetahui sejauh mana efektifitas metode N-gram.
1.3.2 Kegunaan Penelitian 1. Mempermudah pengguna dalam memahami informasi berdasarkan kata kunci yang terbentuk sehingga pengguna tidak mengalami kebingungan. 2. Agar pengguna merasa terbantukan dalam proses searching dokumen berdasarkan kata kunci tertentu.
1.4 Batasan Masalah Agar permasalahan tidak terlalu luas, maka pada penelitian ini diberi batasanbatasan sebagai berikut :
1. Pengolahan data menggunakan metode N-Gram dengan nilai n adalah 2. Kondisi ini dikarenakan bahwa banyak istilah maupun kata yang baru memiliki arti apabila dipadu dengan kata yang lain dalam dua rangkaian kata. 2. Data yang akan diolah hanya dokumen berbentuk teks yang berekstensi (*.txt)
1.5 Metode Penelitian Metode yang digunakan dalam penelitian ini antara lain: a. Mengumpulkan data yang akan digunakan yaitu dokumen elektronik b. Studi pustaka •
Pengumpulan data Proses pengumpulan data dapat dilakukan dengan studi pustaka/literatur mengenai Information Retrieval. Selain itu juga mencari dokumen dalam bentuk jurnal yang nantinya akan digunakan sebagai bahan penelitian, dan juga mencari informasi malalui internet untuk mambantu terciptanya program.
•
Pengembangan program. Hal pertama yang dilakukan dalam proses pengembangan program adalah mengkonversikan dokumen jurnal kedalam bentuk yang baku yaitu berformat .txt. Selain itu perlu disiapkan juga yaitu suatu dokumen sebagai bahan korpus. Setelah itu, proses pemrograman dapat dimulai dengan melakukan tahap-tahap seperti: o Melakukan preprocessing Hal yang dilakukan dalam proses preprocessing yaitu menghilangkan tanda karakter-karakter khusus serta melakukan stopword removal yaitu menghilangkan kata-kata yang dirasa tidak penting yang terdapat di dalam suatu dokumen (apa, siapa, ke, dari,dll).
o Melakukan proses N-gram Dalam proses ini, hal pertama yang perlu dilakukan adalah menentukan besarnya nilai dari variabel ”n” semisal nilai n=2. Setelah itu, mengurai kata-kata dari kalimat-kalimat yang ada berdasarkan besarnya nilai ”n”. Contohnya yaitu apabila terdapat kalimat berupa: ” text mining mengurai data yang berkaitan dengan text” maka proses penguraian kata ini akan menghasilkan: text mining
mining mengurai
mengurai data
data yang
yang berkaitan
berkaitan dengan
dengan teks o Melakukan proses perhitungan Kemudian setiap perpaduan hasil urutan-urutan tersebut dihitung kemungkinan muncul yang paling banyak menggunakan model Smoothing dengan proses Add-One Smoothing yang diperhalus menggunakan proses Discounting. o Penyimpanan dalam query Perpaduan urutan kata-kata yang muncul paling banyak atau memiliki frekuensi yang tertinggi tersebut disimpan pula dalam database dan dapat menjadi hasil dari kata kunci yang dicari dari suatu dokumen. o Melakukan proses searching Ketika kita hendak mencari dokumen dengan kata kunci tertentu maka kata kunci yang tertulis akan dicocokan dengan query dalam database. Apabila ditemukan kecocokan kata kunci yang ada dengan query
dalam database maka dokumen yang
memuat kata kunci tersebut akan dimunculkan.
1.6 Sistematika Penulisan Bab 1 : PENDAHULUAN Berisi latar belakang masalah, rumusan masalah, tujuan dan kegunaan penelitian, keaslian penelitian, batasan masalah, metode penelitian, dan sistematika penulisan. Bab 2 : TINJAUAN PUSTAKA Berisi tinjauan pustaka dan landasan teori tentang Information Retrieval, searching. Bab 3 : PENGEMBANGAN SISTEM Berisi tentang algoritma program dan perancangan sistem. Bab 4 : HASIL DAN PEMBAHASAN Berisi penjelasan mengenai cara kerja program, output program, serta mengenai analisisnya. Bab 5 : KESIMPULAN DAN SARAN Berisi kesimpulan dari proses pembuatan sistem dan saran untuk pengembangan program ini selanjutnya.