58
BAB 3 METODE PENELITIAN
3.1 Analisis Masalah Seiring dengan perkembangan zaman, jumlah informasi yang disimpan dalam betuk digital semakin bertambah, sehingga dibutuhkan cara pengorganisasian dan pengelolaan dokumen yang efektif agar kita dapat me-retrieve informasi yang diinginkan dari data tersebut. Sebagian besar dari data yang tersedia adalah berbentuk teks dan tidak memiliki struktur secara jelas. Misalkan pada email, cara penulisan masing-masing orang berbeda baik secara struktur atau urutan penulisan maupun gaya bahasanya, sehingga sulit untuk menemukan kembali email yang kita inginkan tanpa membaca keseluruhan isi email. Information retrieval digunakan untuk menyelesaikan permasalahan diatas, dimana information retrieval akan berhubungan dengan bagaimana cara untuk merepresentasikan, menyimpan, mengorganisasikan, dan mengakses sebuah kebutuhan informasi. Kebanyakan cara yang digunakan untuk melakukan information retrieval yaitu dengan menggunakan keyword yang ingin dicari, lalu keyword tersebut dibandingkan dengan isi dokumen, kemudian dari sistem retrieval yang dipakai akan dihasilkan dokumen – dokumen yang relevan dan yang tidak relevan. Hal
59
diatas akan sangat memakan waktu jika dilakukan pada document collection yang besar. Seperti yang diketahui, pada sistem information retrieval, terdapat banyak model yang dapat digunakan. Dengan banyaknya model-model yang telah dibuat untuk melakukan retrieval informasi, semakin banyak pula pertimbangan untuk melakukan pemilihan terhadap dokumen yang tepat dan sesuai dengan implementasi information retrieval yang diinginkan. Hal ini sering menjadi permasalahan untuk para peneliti dan pengembang aplikasi karena kurangnya informasi tentang masingmasing model yang ada. Tantangan utama dalam penanganan informasi ini adalah besarnya ukuran dokumen yang besar dimana semakin besar ukuran sebuah dokumen, proses indeksing pun akan semakin lama. Dengan demikian dibutuhkan sebuah teknik yang dapat melakukan reduksi ukuran dokumen tanpa menghilangkan informasi – informasi penting yang ada di dalam dokumen tersebut. Cara yang paling mudah untuk mendapatkan hasil retrieval yang bagus yaitu dengan menggabungkan semua fitur – fitur yang ada. Namun jika hal tersebut dilakukan, sudah pasti akan memakan waktu yang lebih lama dalam proses indeksing dan retrieval-nya. Secara garis besar permasalahan yang terjadi pada saat ini dalam masalah data adalah sebagai berikut: 1. Jumlah dokumen digital semakin bertambah dari segi kuantitas.
60
2. Isi dokumen digital yang semakin banyak, sehingga diperlukan metode paling efektif untuk mengatur dan me-retrieve kembali dari data yang telah disimpan. 3. Kesalahan dalam pencarian karena penggunaan metode yang digunakan tidak sesuai. Untuk menyelesaikan masalah di atas, maka diperlukan sebuah proses information retrieval yang sesuai agar pengguna dapat mendapatkan kembali dokumen relevan yang sesuai dengan keinginannya. Information retrieval akan sangat membantu dalam pencarian dokumen dengan kuantitas besar karena akan menghemat waktu dan mengurangi tingkat kesalahan dalam pengembalian informasi.
3.2 Solusi Pemecahan Masalah Setelah melakukan berbagai proses pengumpulan informasi mengenai beberapa model, penulis memutuskan membandingkan tiga model yaitu Boolean Model, Vector Space Model dan Latent Semantic Indexing (LSI). Pemilihan
Boolean
Model didasarkan pada algoritma model yang cukup mudah karena hanya menggunakan logika And dan OR , sementara Vector Space Model dipilih karena merupakan model information retrieval aljabar yang paling sederhana dan mudah dipahami. Adapun Latent Semantic Indexing yang juga merupakan model information retrieval berbasis aljabar adalah pengembangan lebih lanjut dari Vector Space Model, sehingga ada keterkaitannya.
61
Berdasarkan latar belakang permasalahan diatas penelitian ini dibuat, dengan memberikan sebuah gambaran tentang model, hasil kesimpulan perbandingan model serta penggunaan untuk masing-masing model. Beberapa model yang akan dikaji dan dibandingkan yaitu Boolean Model, Vector Space Model dan Latent Semantic Indexing (LSI) .Untuk masing-masing model tersebut tentunya memiliki keunggulan dan kekurangan masing-masing, maka diharapkan dari hasil penelitian ini adalah mampu membandingkan ketiga model ini sehingga mendapatkan kesimpulan tentang masing-masing model.
3.3 Keunggulan Pengujian Beberapa keunggulan dari pengujian ini dibandingkan dengan pengujian lainnya adalah sebagai berikut : 1. Penelitian ini menggunakan dokumen-dokumen yang bervariasi dalam pengujiannya, hal ini dapat dibuktikan dari banyaknya jumlah lemma yang dihasilkan, 2. Pengujian dilakukan untuk 3 kategori dokumen yang spesifik yaitu business,
automobile,
dan
computer.
Kebanyakan
pengujian
lain
menggunakan document collection yang sudah disiapkan oleh ahli seperti TREC, 3. Selain itu parameter yang diujikan juga bervariasi, penulis tidak hanya membandingkan model terbaik berdasarkan kinerja secara keseluruhan saja (Mean Average Precision) melainkan diberikan juga statistik untuk model
62
yang memberikan ranking terbaik (Precision @K), dan hubungan antara performance model dengan jumlah document yang di-retrieve (Precision Recall
Interpolation),
dengan
demikian
untuk
developer
dapat
mengimplementasikan model terbaik untuk kategori dokumen yang diujikan. 3.4 Proses Retrieval 3.4.1 Prosedur Pengujian Pengujian yang dilakukan pada penelitian ini mengacu kepada 3 model information tetrieval, yaitu : boolean model, vector space model dan latent semantic indexing model dengan cara melakukan perhitungan precision, recall dari masingmasing model. Tools yang digunakan pada penelitian ini menggunakan IrTester. Langkah – Langkah yang dilakukan sehingga mendapatkan kesimpulan tentang ketiga model tersebut adalah sebagai berikut: 1. Proses Upload Dokumen Pada proses upload dokumen ini, bisa disebut juga sebagai proses inisialisasi. User akan melakukan upload dokumen ke dalam sistem information retrieval, yang kemudian dokumen yang di-upload tersebut akan dibaca oleh sistem, selain dibaca, dokumen tersebut juga akan dipotong menjadi sebuah kumpulan kata-kata, katakata yang berhasil dipotong akan di-stemming, kemudian kata-kata tersebut akan dimasukkan ke dalam database, apabila di dalam kumpulan kata-kata tersebut mengandung stop-word maka tidak akan dimasukkan ke dalam database. 2. Proses searching
63
Setelah melakukan proses upload dokumen, user dapat melakukan proses pencarian menggunakan query yang diinginkan terhadap masing-masing model untuk melakukan retrieval dokumen terhadap query yang diinput. Query yang diinput oleh user akan dibaca oleh sistem, yang kemudian akan dilakukan proses tokenizing, stemming, penghilangan stop-word seperti pada umumnya hingga mendapatkan sekumpulan kata-kata yang dianggap sebagai query. Sekumpulan query tersebut kemudian akan me-retrieve dokumen-dokumen yang sesuai dari database berdasarkan dokumen yang di-upload sebelumnya. Setelah mendapatkan hasil retrieval dokumen, kemudian sistem akan melakukan kalkulasi tergantung kepada model searching yang dipilih. 3. Proses Compare Selain melakukan proses searching, juga disediakan proses compare antar model untuk mendapatkan nilai precision, recall dan F-measure dari masingmasing model sehingga mendapatkan model mana yang paling bagus dan baik untuk digunakan. Sama halnya dengan searching, pada proses compare user harus melakukan input query yang kemudian query tersebut menghasilkan dokumen yang di-retrieve. Yang membedakan proses searching terhadap compare adalah searching melakukan searching dan perhitungan per masing-masing model, sedangkan
untuk
compare
proses
searching
dan
perhitungan
dilakukan
menggunakan 3 model sekaligus. Setelah menghasilkan dokumen yang di-retrieve, hasil tersebut akan ditampilkan kepada user untuk dipilih mana dokumen yang sesuai/relevan terhadap query yang di-input. Setelah memilih dokumen- dokumen
64
yang relevan, maka sistem akan melakukan perhitungan recall, precision dan Fmeasure untuk masing-masing dokumen berdasarkan dokumen yang di-retrieve dan dokumen yang relevan. Setelah itu akan ditampilkan chart untuk masing-masing model sehingga didapatkan kesimpulan tentang model mana yang terbaik. Pengujian untuk membandingkan ketiga teori menggunakan Precision, Recall, Mean Average Precision dan Precision@k. Pada precision@k menggunakan nilai k dari 5, 10 dan 15. Hasil pengujian akan ditampilkan dalam bentuk tabel dan diagram-diagram dan yang kemudian akan diambil kesimpulan berdasarkan nilai dari tabel dan bentuk dari diagram yang dihasilkan.Pengujian menggunakan Precision, Recall, Mean Average Precision dan Precision@k hanya berlaku pada perbandingan VSM dan LSI, tetapi tidak untuk Boolean Model. Pengecualian ini dilakukan karena tidak dapat dibandingkan antara Boolean Model dengan 2 model lainnya, karena beberapa faktor, yaitu : -
Hasil dari boolean merupakan exact match atau hasil yang sudah pasti,
-
Hasil dari boolean model tidak berupa ranking seperti 2 model lainnya.
3.4.2 Data Pengujian Data yang digunakan untuk melakukan pengujian terhadap 3 model tersebut menggunakan data dokumen yang sama, data yang digunakan berbentuk dokumen yang hanya berisi text sebanyak 150 dokumen. Data dokumen yang digunakan untuk pengujian tidak memiliki kategorisasi. Setiap dokumen berisi minimal 150
65
kata hingga maksimal 1000 kata per dokumen. Bentuk dokumen yang diperbolehkan untuk di-upload harus memenuhi kriteria di bawah ini : 1. Dokumen yang hanya berekstensi .txt. 2. Dokumen tidak diperbolehkan mengandung media lainnya selain media teks. 3. Isi dokumen harus berbahasa Inggris. 4. Pembatasan pencarian hanya tentang automobile, computer dan business. Pengujian dilakukan dengan menggunakan 9 contoh query, yaitu : 1. Computer Antivirus 2. Windows Operating System 3. Raspberry Pi 4. Turbo Tuning Automotive 5. Fuel Effective 6. Automotive Brake Upgrade 7. U.S. Economy 8. Solve financial Problem 9. Stock Market Invesment
3.4.3 Kriteria Pengujian Beberapa kriteria yang perlu diperhatikan dalam pengujian ini adalah 1. Dokumen yang diuji a. Jumlah dokumen yang diuji 300 dokumen,
66
b. Dokumen yang diuji merupakan dokumen berbentuk artikel berita yang diambil
secara
acak
dari
http://www.naturalhealthmag.com,
3
website
berikut
http://www.time.com,
yaitu dan
http://www.computeractive.co.uk, c. Rata-rata jumlah kata pada setiap dokumen yang diuji, termasuk stopword adalah 303 kata, d. Jumlah lemma dari keseluruhan dokumen yang diuji, setelah dilakukan penghilangan stopword dan lemmatisasi adalah 140000, e.
Model LSI menggunakan dimensi 15, didasari oleh perbandingan Mean Average Precision yang dilakukan oleh penguji yaitu 5,10,dan 15 dengan dimensi 15 memberikan nilai Mean Average Precision tertinggi.
2. Parameter Pengujian a. Precision Recall Interpolasi, b. Mean Average Precision, Sebuah nilai tunggal yang digunakan untuk membandingkan model yang terbaik, c.
Precision@K, Mengukur Performance dalam ranking tertentu untuk setiap model