BAB II TINJAUAN PUSTAKA
2.1 Sistem Rekomendasi Sistem rekomendasi adalah sebuah sistem yang dibangun untuk mengusulkan informasi dan menyediakan fasilitas yang diinginkan pengguna dalam membuat suatu keputusan (Ricci, 2002). Sistem rekomendasi ini sudah semakin popular digunakan di berbagai bidang. Sistem rekomendasi juga dapat menduga apa yang akan dilakukan pengguna untuk mencapai tujuannya, misalnya seperti memilih produk tertentu. Ciri khas dari sistem rekomendasi yaitu orang memberikan rekomendasi sebagai masukan,
kemudian sistem mengagregrasikan dan
mengarahkan agar sesuai dengan user atau penerima rekomendasi.
2.2 Sistem Temu Kembali Informasi Sistem temu kembali informasi (information retrieval system) adalah suatu sistem yang mampu melakukan penyimpanan, pencarian, dan pemeliharaan informasi. Informasi dalam konteks ini dapat terdiri dari teks (termasuk data numerik dan tanggal), gambar, audio, video, dan objek multimedia lainnya (Kowalski, 1997). Prinsip kerja dari sistem temu kembali informasi yaitu adanya sekumpulan dokumen dan user yang memformulasikan sebuah request atau query.
Gambar 2.1 Ilustrasi sistem temu kembali informasi Dari request atau query tersebut akan menghasilkan sekumpulan dokumen yang relevan dan membuang dokumen yang tidak relevan. Ada dua pekerjaan
14
15
yang sistem ini tangani, yaitu melakukan preprocessing yang menghasilkan database dan selanjutnya menerapkan metode tertentu untuk menghitung kedekatan (similarity) antara query dengan dokumen di dalam database yang telah mengalami pemrosesan awal. Sistem temu kembali informasi digunakan untuk menemukan kembali dokumen atau informasi-informasi yang relevan terhadap kebutuhan pengguna dari kumpulan dokumen yang ada secara otomatis. Terdapat lima komponen penting dalam sistem temu kembali informasi, antara lain (Hasugian, 2008) : 1.
Pengguna, yaitu seseorang yang menggunakan sistem baik dalam pengelolaan maupun pencarian informasi.
2.
Query, yaitu format bahasa yang digunakan dalam menerjemahkan kebutuhan pengguna, yang kemudian dimasukan kedalam sistem temu kembali informasi untuk mendapatkan dokumen yang diinginkan.
3.
Dokumen, yaitu istilah yang digunakan untuk seluruh bahan pustaka, baik itu buku, laporan penelitian dan lain-lain.
4.
Indexs dokumen, yaitu istilah atau kata yang dimasukkan/disimpan dalam database yang berfungsi sebagai representasi sebuah dokumen.
5.
Pencocokan (matcher function), yaitu pencocokan istilah yang dimasukan oleh pengguna dengan indeks dokumen yang ada.
Sistem temu kembali informasi menerima query dari pengguna, kemudian melakukan
perangkingan
terhadap
dokumen
pada
koleksi
berdasarkan
kesesuaiannya dengan query. Hasil pengurutan yang diberikan kepada pengguna merupakan dokumen yang menurut sistem relevan dengan query.
2.3 Text Mining Text mining adalah penemuan informasi yang baru dan tidak diketahui sebelumnya oleh komputer, dengan secara otomatis mengekstrak informasi dari sumber-sumber teks tidak terstruktur yang berbeda. Kunci dari proses ini adalah menggabungkan informasi yang berhasil diekstraksi dari berbagai sumber (Tan, 1999). Tujuan dari text mining yaitu mendapatkan informasi yang bermanfaat dari kumpulan dokumen yang ada. Text mining dapat membantu permasalahan seperti
16
pemrosesan, pengorganisasian atau pengelompokan dan menganalisa teks yang tidak terstruktur dalam jumlah besar. Teks yang akan dilakukan proses text mining, pada umumnya memiliki beberapa karakteristik diantaranya adalah memiliki dimensi yang tinggi, terdapat noise pada data, dan terdapat struktur teks yang tidak baik. Cara yang digunakan dalam mempelajari suatu data teks adalah dengan terlebih dahulu menentukan fitur-fitur yang mewakili setiap kata untuk setiap fitur yang ada pada dokumen. Sebelum menentukan fitur - fitur tersebut, diperlukan tahap preprocessing yang dilakukan dalam text mining pada dokumen. Preprocessing merupakan langkah yang dilakukan untuk mengolah data mentah menjadi format yang sesuai untuk tahapan analisis selanjutnya. Berikut tahap preprocessing yang dilakukan dalam text mining pada dokumen, yaitu case folding, tokenizing, filtering, stemming dan analyzing. 2.3.1 Case Folding Case folding adalah proses pertama kali yang dilakukan dalam rangkaian perancangan klasifikasi dokumen teks. Proses ini merupakan proses dimana kata kata di dalam dokumen atau kalimat akan di ubah menjadi huruf kecil (a sampai z) dan menghilangkan tanda baca.
Karakter lain selain huruf akan dianggap
delimiter sehingga karakter tersebut akan dihilangkan atau dihapus. Hal ini dilakukan untuk mencegah terjadinya noise pada saat pengambilan informasi. Untuk selanjutnya, hasil dari case folding nantinya akan digunakan pada proses tokenisasi.
Gambar 2.2 Contoh case folding
17
2.3.2 Tokenizing Proses tokenisasi adalah proses yang dilakukan setelah melakukan proses case folding. Pada tahap ini dilakukan pemotongan string input berdasarkan tiap kata yang menyusunnya. Hasil pemrosesan akan berupa kata yang disebut dengan token/term. Term ini nantinya akan disimpan ke dalam database untuk dilakukan indexing saat melakukan pencarian.
Gambar 2.3 Contoh tokenisasi 2.3.3 Filtering Filtering atau parsing merupakan proses mengambilan kata-kata penting dari dari hasil token. Tahap filtering dapat dilakukan menggunakan algoritma stoplist / stopword (membuang kata yang kurang penting). Stopword adalah kata-kata yang sering muncul dalam teks dalam jumlah besar dan dianggap tidak memiliki makna. Pada tahap ini kata-kata yang merupakan stopword akan dihilangkan. Stopword ini dapat berupa kata penghubung, kata depan dan kata pengganti, contohnya seperti “yang”, “di”, “dan”, “ke”, “dari” dan lain sebagainya. Tujuan dari proses ini adalah untuk mengurangi volume kata sehingga hanya kata-kata penting saja yang terdapat pada dokumen.
18
Gambar 2.4 Contoh filtering 2.3.4 Stemming Proses stemming merupakan proses untuk mencari root dari kata yang sudah mengalami proses stopword. Pencarian root sebuah kata atau biasa disebut dengan kata dasar dapat memperkecil hasil indeks tanpa harus menghilangkan makna. Proses stemming dilakukan dengan menghilangkan semua imbuhan baik yang terdiri dari awalan (prefix), akhiran (surfix), sisipan (infix), bentuk perulangan dan kombinasi antara awalan dan akhiran (confix). Tujuan dari proses ini adalah untuk mengurangi variasi kata yang mempunyai kata dasar yang sama.
Gambar 2.5 Contoh stemming Apabila tahap stemming sudah selesai dilakukan, maka proses selanjutnya adalah pemberian bobot pada kata. 2.4 Pembobotan TF-IDF (Term Frequency – Inversed Document Frequency) Metode Term Frequency-Inverse Document Frequency (TF-IDF) adalah suatu cara untuk memberikan bobot hubungan suatu kata (term) terhadap sebuah dokumen (Robertson, 2004). Pembobotan sangat berpengaruh dalam menentukan
19
similaritas antara query dengan dokumen. Hasil perhitungan similaritas akan menghasilkan perangkingan yang baik apabila bobot tiap kata dapat ditentukan dengan tepat. Metode TF-IDF merupakan penggabungan dua konsep untuk pembobotan, yaitu frequensi kemunculan suatu kata (t) didalam sebuah dokumen tertentu (d) dan perbandingan antara jumlah seluruh dokumen dengan jumlah dokumen yang mengandung suatu kata (t) tersebut. Frekuensi kemunculan kata di dalam dokumen yang diberikan menunjukkan seberapa penting kata itu di dalam dokumen tersebut. Frekuensi dokumen yang mengandung kata tersebut menunjukkan seberapa umum kata tersebut. Bobot kata semakin besar jika sering muncul dalam suatu dokumen dan semakin kecil jika muncul dalam banyak dokumen (Intan & Defeng, 2006) Metode TF-IDF memiliki beberapa tahapan yaitu menghitung nilai term frequency (TF), menghitung nilai inverse document frequency, dan menghitung nilai TF-IDF dengan mengalikan nilai TF dan IDF yang sudah didapatkan sebelumnya. Nilai perhitungan TF-IDF akan disimpan dalam bentuk matrik termdocument. Nilai fitur yang dimiliki oleh tiap-tiap dokumen akan direpresentasikan pada matrik dibawah ini.
Gambar 2.6 Matrix term-document Pada gambar 6-6 diatas dijelaskan dimana terdapat kumpulan kata T sebanyak n yaitu T = (T1,T2,T3,…Tn) dan sekumpulan dokumen D sebanyak n, yaitu D = (D1,D2,D3,..Dn) serta Wij merupakan bobot kata i pada dokumen j.
20
Term Frequency (TF) merupakan formula yang digunakan untuk menghitung berapa kali suatu term muncul pada sebuah dokumen. Berikut merupakan kondisi atau syarat yang digunakan untuk menghitung nilai term frequency: tfd,t = {
log10 ( 1 + tfd,t ) , jikatftd > 0 0 , lainnya
(1)
Keterangan : d
= dokumen ke –d
t
= kata ke-t dari kata kunci
tf
= term frequency/ banyak kata yang dicari pada sebuah dokumen Inverse Dokumen Frequency (IDF) merupakan pengukuran frekuensi
kemunculan suatu kata dalam sekumpulan dokumen. Perhitungan ini dilakukan dengan mengkalkulasi total dokumen dalam koleksi dibagi dengan jumah dokumen yang mengandung kata tertentu. Berikut rumus yang digunakan untuk menghitung inverse dokumen frequenc: idft = log10 (D/dft) + 1
(2)
Keterangan: t
= kata ke-t dari kata kunci
D
= total dokumen yang ada dalam koleksi
df
= banyak dokumen yang mengandung kata yang dicari
idf
= inversed document frequency Berikut rums TF/IDF untuk menghitung bobot (w) masing-masing dokumen
terhadap kata kunci, yaitu dengan mengalikan nilai TF dan IDF yang sudah didapatkan sebelumnya. Wd,t = tf d,t x idft Keterangan
(3)
:
d
= dokumen ke-d
t
= kata ke-t dari kata kunci
W
= bobot dokumen ke-d terhadap kata ke-t
tf
= term frequency/ banyaknya kata yang dicari pada sebuah dokumen
idf
= inversed document frequency
21
2.5 VSM (Vector Space Model) Vector space model (VSM) merupakan suatu metode yang digunakan untuk mengukur tingkat kedekatan atau kesamaan (similarity) term dengan cara pembobotan pada term (Amin F. , 2012). Pada model ini query dan dokumen diasumsikan sebagai sebuah vektor – vektor yang mempunyai jarak (magnitude) dan arah (direction). Tiap dimensi pada vektor diwakili oleh satu term. Term yang digunakan biasanya berdasarkan kepada term yang ada pada query atau keyword, sehingga term yang ada pada dokumen tetapi tidak ada pada query biasanya diabaikan. Perhitungan kesamaan antara vector query dengan vector dokumen dilihat dari sudut yang paling kecil. Pada vector space model : a.
Kamus kata (vocabulary) merupakan kumpulan semua term berbeda yang tersisa dari dokumen setelah preprocessing dan mengandung t term index. Term-term ini membentuk suatu ruang vektor.
b.
Setiap term i di dalam dokumen atau query j, diberikan suatu bobot (weight) bernilai real 𝑤𝑖𝑗 .
c.
Dokumen dan query diekspresikan sebagai vektor t dimensi dj = (w1, w2, ..., wtj) dan terdapat n dokumen di dalam koleksi, yaitu j = 1, 2, ..., n.
Gambar 2.7 Representasi dokumen dan vektor pada ruang vektor Pada gambar 2.7 diatas merupakan contoh dari model ruang vektor tiga dimensi untuk 2 dokumen dimana D adalah dokumen, Q adalah query dan T adalah term yang menjadi dimensi dari VSM. D1 mempunyai susunan term 2T1 + 3T2 + 5T3, D2 memiliki 3T1 + 7T2 + T3, dan query Q= 0T1 + 0T2 +2T3. D1 digambarkan sebagai vektor berarah berdasarkan term-term penyusunnya. Dari
22
dokumen-dokumen dan query tersebut, sudut antara query dengan tiap dokumen akan menentukan nilai kedekatan suatu dokumen dengan query yang masukan. Semakin kecil sudut maka semakin besar tingkat similaritas. Vector space model memiliki beberapa tahapan proses analisa yaitu menghitung bobot dokumen dengan tf-idf, menghitung jarak tiap query dan dokumen, menghitung dot produk, menghitung similaritas, dan membuat rangking. Setelah bobot sudah diketahui, maka langkah selanjutnya adalah menghitung jarak tiap query dan dokumen. Berikut merupakan perhitungan untuk menemukan jarak pada query: |q| = √∑𝑡𝑗=1(𝑊𝑖,𝑞 )2
(4)
Keterangan: |q|
= jarak query
𝑊𝑖,𝑞
= bobot query dokumen ke-i
Penghitungan jarak query |q| dilakukan dengan tujuan mendapatkan jarak query dari bobot query dokumen (𝑊𝑖𝑞 ) yang terambil oleh sistem. Sedangkan untuk perhitungan jarak pada dokumen, digunakan rumus: |𝑑𝑗 | = √∑𝑡𝑖=1(𝑊𝑖,𝑗 )2
(5)
Keterangan: |𝑑𝑗 |
= jarak dokumen
𝑊𝑖𝑗
= bobot dokumen ke-i
Penghitungan jarak dokumen dilakukan dengan tujuan mendapatkan jarak dokumen dari bobot dokumen (𝑊𝑖𝑗 ) yang terambil oleh sistem. Apabila jarak dari dokumen dan query didapatkan, maka dilakukan perhitungan dot produk dengan menggunakan rumus: Sum 𝑞⃗ . ⃗⃗⃗⃗ 𝑑𝑗 = ∑𝑡𝑖=1(𝑊𝑞,𝑖 . 𝑊𝑖,𝑗 ) Keterangan: q
= bobot dari term i pada query
𝑑𝑗
= bobot dari term i pada dokumen
t
= term di database
(6)
23
Langkah selanjutnya menghitung nilai menghitung similaritas. Menghitung nilai cosinus sudut antara vector query dengan tiap dokumen menggunakan rumus: 𝑞⃗⃗ . ⃗⃗⃗⃗⃗ 𝑑𝑗 ⃗⃗⃗⃗⃗⃗⃗𝑗 | |𝑞⃗⃗||𝑑
cos (𝑞⃗, ⃗⃗⃗⃗ 𝑑𝑗 ) =
𝑞⃗⃗
=|
𝑞⃗⃗|
⃗⃗⃗⃗⃗ 𝑑𝑗
∑𝑡𝑖=1(𝑊𝑞,𝑖 . 𝑊𝑖,𝑗 )
|𝑑𝑗 |
√∑𝑡𝑖=1(𝑊𝑞,𝑖 )2 . ∑𝑡𝑖=1(𝑊𝑖,𝑗 )2
. ⃗⃗⃗⃗⃗⃗⃗ =
(7)
Keterangan : q
= bobot dari term i pada query
𝑑𝑗
= bobot dari term i pada dokumen
|𝑞⃗|
= panjang query
⃗⃗⃗⃗𝑗 | |𝑑
= panjang dokumen
t
= term di database Dari hasil persamaan diatas didapatkan nilai similarity antara query dan
dokumen - dokumen pada koleksi, sehingga akan didapatkan hasil dokumen yang telah terangking berdasarkan nilai kesamaan tersebut. Proses perengkingan dokumen dianggap sebagai pemilihan (vektor) dokumen yang paling dekat dengan (vektor) query. Semakin tinggi nilai cosines, maka semakin tinggi tingkat kemiripan atau kesesuaian antara dokumen dengan query.
2.6 Pengujian Perangkat Lunak 2.6.1 Black Box Testing Pengujian black box berfokus pada persyaratan fungsional perangkat lunak. Dengan demikian, pengujian black box memungkinkan perekayasa perangkat lunak mendapatkan serangkaian kondisi input yang sepenuhnya menggunakan semua persyaratan fungsional untuk suatu untuk program. Pengujian black box diaplikasikan selama tahap akhir pegujian. Karena pengujian black box memperhatikan struktur kontrol, maka perhatian berfokus pada domain informasi. Pengujian black-box berusaha menemukan kesalahan dalam beberapa kategori diantaranya fungsi-fungsi yang tidak benar atau hilang, kesalahan interface, kesalahan dalam struktur data atau akses database eksternal, dan kesalahan kinerja.
24
2.6.2 White Box Testing Pengujian kotak putih atau white box testing adalah jenis pengujian perangkat lunak yang dapat dilakukan ketika memiliki kode sumber program dan program itu sendiri. Dengan memilki kode sumber, pengembang dan anggota tim pengujian memiliki kesempatan untuk meninjau dan menguji setiap baris kode tersebut. Bahkan dengan semua kode sumber yang tersedia, biasanya ada cukup waktu atau sumber daya untuk menguji seluruh kode sumber program. Salah satu metode yang digunakan dalam pengujian secara white box adalah pengujian basis path testing. Dalam pelaksanaan pengujian white box, berikut langkah yang dilakukan (Pressman, 2001),yaitu: a. Menggambar flowgraph yang ditransfer oleh flowchart. b. Menghitung cylomatic complexity V (G) untuk flowgraph yang telah dibuat. V(G) untuk flowgraph dapat dihitung dengan rumus : V(G) = E – N + 2 Keterangan: E = Jumlah edge pada flowrgaph N = Jumlah node pada flowrgaph c. Menentukan jalur pengujian dari flowgraph yang berjumlah sesuai dengan cyclomatic complexity yang telah ditentukan. Cyclomatic complexity yang tinggi menunjukkan prosedur kompleks yang sulit untuk dipahami, diuji dan dipelihara. Ada hubungan antara cyclomatic complexity dan resiko dalam suatu prosedur. Berikut hubungan antara cyclomatic complexity dan resiko dalam suatu prosedur. Tabel 2.1 Hubungan cyclomatic complexity dan resiko (Bray, 1997) Cyclomatic Complexity
Evaluasi Resiko
1-10
Sebuah program sederhana, tanpa banyak resiko
11-20
Agak kompleks, resiko sedang
21-50
Kompleks, program resiko tinggi
Lebih dari 50
Program belum diuji (resiko sangat tinggi)
25
2.6.3 Precision & Recall Precision dianggap sebagai ukuran ketepatan atau ketelitian, sedangkan recall adalah perolehan. Nilai Precision adalah proporsi dokumen yang terambil oleh sistem adalah relevan. Precision merupakan perbandingan dari jumlah dokumen relevan yang ditemukan oleh sistem dengan total jumlah dokumen yang ditemukan oleh system baik yang relevan maupun tidak relevan. 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 =
𝐽𝑢𝑚𝑙𝑎ℎ 𝑑𝑜𝑘𝑢𝑚𝑒𝑛 𝑦𝑎𝑛𝑔 𝑟𝑒𝑙𝑒𝑣𝑎𝑛 𝑑𝑒𝑛𝑔𝑎𝑛 𝑞𝑢𝑒𝑟𝑦 𝑑𝑎𝑛 𝑡𝑒𝑟𝑎𝑚𝑏𝑖𝑙 𝐽𝑢𝑚𝑙𝑎ℎ 𝑠𝑒𝑙𝑢𝑟𝑢ℎ 𝑑𝑜𝑘𝑢𝑚𝑒𝑛 𝑦𝑎𝑛𝑔 𝑡𝑒𝑟𝑎𝑚𝑏𝑖𝑙
Nilai recall adalah proposisi dokumen relevan yang terambil oleh sistem (Salton, 1989). Recall merupakan perbandingan dari jumlah dokumen relevan yang ditemukan oleh sistem dengan total jumlah dokumen yang ada dalam koleksi dokumen (terambil ataupun tidak terambil oleh sistem). 𝑅𝑒𝑐𝑎𝑙𝑙 =
𝐽𝑢𝑚𝑙𝑎ℎ 𝑑𝑜𝑘𝑢𝑚𝑒𝑛 𝑦𝑎𝑛𝑔 𝑟𝑒𝑙𝑒𝑣𝑎𝑛 𝑑𝑒𝑛𝑔𝑎𝑛 𝑞𝑢𝑒𝑟𝑦 𝑑𝑎𝑛 𝑡𝑒𝑟𝑎𝑚𝑏𝑖𝑙 𝐽𝑢𝑚𝑙𝑎ℎ 𝑠𝑒𝑙𝑢𝑟𝑢ℎ 𝑑𝑜𝑘𝑢𝑚𝑒𝑛 𝑟𝑒𝑙𝑒𝑣𝑎𝑛 𝑑𝑎𝑙𝑎𝑚 𝑘𝑜𝑙𝑒𝑘𝑠𝑖 𝑑𝑜𝑘𝑢𝑚𝑒𝑛
2.7 Metode Pengembangan Waterfall Model proses perangkat lunak merupakan deskripsi sederhana dari proses perangkat lunak yang menyajikan suatu pandangan dari proses tersebut. Model proses mencakup kegiatan yang merupakan bagian dari proses perangkat lunak, produk perangkat lunak, dan peran orang yang terlibat dalam rekayasa perangkat lunak. Model waterfall merupakan model proses klasik yang bersifat sistematis, berurutan dari satu tahap ke tahap lain dalam membangun software (Sommerville, 2011). Model ini mengusulkan sebuah pendekatan kepada pengembangan software yang sistematik dan sekuensial yang mulai dari tingkat kemajuan sistem pada seluruh analisis, desain, kode, pengujian dan pemeliharaan. Model waterfall memiliki tahapan - tahapan dalam prosesnya, setiap tahapan tersebut harus diselesaikan sebelum berlanjut ke tahap berikutnya. Berikut tahapan yang ada dalam waterfall adalah
26
Gambar 2.8 Model proses waterfall (Sommerville, 2011) Berikut merupakan tahapan-tahapan dalam model proses SDLC (Sommerville, 2011): 1.
Requirements analysis and definition Layanan sistem, kendala, dan tujuan yang ditetapkan dengan berkonsultasi dengan pengguna sistem. Kemudian didefinisikan secara rinci dan dijadikan sebagai spesifikasi sistem.
2.
System and software design Software desain meliputi mengidentifikasi dan menggambarkan abstraksi sistem perangkat lunak yang mendasar dan hubungan mereka.
3.
Implementation and unit testing Selama tahap ini, perancangan perangkat lunak direalisasikan sebagai serangkaian program atau unit program. Unit pengujian melibatkan verifikasi bahwa setiap unit memenuhi spesifikasinya.
4.
Integration and system testing Tahapan dimana unit program individu atau program yang terintegrasi diuji sebagai sistem yang lengkap untuk memastikan bahwa persyaratan perangkat lunak telah dipenuhi. Setelah pengujian, sistem perangkat lunak disampaikan kepada pengguna.
27
5.
Operation and maintenance Biasanya tahap ini merupakan tahapan dengan masa waktu paling lama. Pemeliharaan meliputi kesalahan mengoreksi yang tidak ditemukan pada awal tahap siklus hidup, meningkatkan implementasi unit sistem dan meningkatkan pelayanan sistem sebagai kebutuhan baru ditemukan.
Selain pengaplikasian menggunakan model ini mudah, kelebihan lain yang dimiliki oleh model proses waterfall adalah ketika semua kebutuhan sistem dapat didefinisikan secara lengkap, eksplisit, dan benar di awal proyek, maka software engineering dapat berjalan dengan baik. Sedangkan kekurangan utama dari model proses waterfall ini adalah kesulitan dalam mengakomodasi perubahan setelah proses dijalani. Fase sebelumnya harus legkap dan selesai sebelum mengerjakan fase berikutnya.
2.8 Tinjauan Studi Ada beberapa penelitian terkait yang pernah dilakukan mengenai system rekomendasi pencarian, TF-IDF dan Vector Space Model, antara lain yaitu: a) Implementasi Search Engine (Mesin Pencari) Menggunakan Metode Vector Space Model (Amin F. , 2011) Tujuan dari penelitian ini adalah mengembangkan metode pencarian cepat dan menguji kinerja dari sistem yang dihasilkan menggunakan recall dan precision. Pada jurnal penelitian ini, peneliti menggunakan metode Vector Space Model (VSM) untuk mengatasi recall yang tinggi dan tingkat keakuratan yang rendah. Metode ini dipilih karena cara kerja model ini efisien, mudah dalam representasi dan dapat diimplementasikan pada document-matching. Modul sistem temu kembali informasi ini terdiri dari modul pengumpulan dokumen, modul tokenisasi (tokenizing), modul pembuangan stopword (filtering), modul pengubahan kata dasar (stemming), modul pengindeksan kata (indexing), dan modul Vector Space Model (term similarity). Dalam penelitian ini dihasilkan suatu kesimpulan yaitu berdasarkan implementasi contoh kasus kata kunci (query) sistem dengan 3 dokumen yang ada, recall yang dihasilkan rendah dan presisi yang dihasilkan
28
tinggi, artinya dokumen yang diharapkan muncul dengan tingkat akurasi tinggi dapat ditemukan dengan tepat dan dokumen yang dihasilkan sedikit.
b) Aplikasi Pencarian Karya Tulis Ilmiah Berbasis Web Menggunakan Sistem Rekomendasi (Husni, 2010) Penelitian ini mencoba untuk membangun suatu sisitem pencarian karya tulis ilmiah berbasis web dengan memanfaatkan teknologi sistem rekomendasi.Sistem ini diharapkan dapat memberikan kelengkapan informasi dan dapat memberikan kemudahan kepada pengunjung terutama dalam mendapatkan abstrak atau tulisan lengkap yang terkait. Tugas dari sistem yang dibangun, yaitu menghitung atau mencari tingkat kemiripan antara content (dokumen) dengan query pengguna dengan memanfaatkan teknik temu balik informasi. Pada penelitian ini hanya melibatkan judul dari paper selama proses perhitungan kemiripan, baik kemiripan antara query dengan daftar paper maupun kemiripan antara satu paper dengan paper lainnya. Sistem ini pada intinya menggunakan cosine similarity dalam menghitung kemiripan antar query Q dengan beberapa dokumen Di dan menggunakan metode term frequency (tf) dan inverse document frequency (idf) dalam pemberian bobot pada term. Dengan pendekatan yang digunakan pada penelitian ini dikatakan bahwa pemanfaatan sistem rekomendasi dalam pencarian karya tulis ilmiah yang dibangun sangat membantu pengguna mendapatkan karya tulis yang sesuai dengan kebutuhan.
c) Sistem Temu Kembali Informasi dengan Pemeringkatan Metode Vector Space Model (Fatkhul, 2013) Peneilitian ini bertujuan untuk memberikan fasilitas ke pada pengguna untuk mencari dokumen berbahasa Indonesia yang benar- benar relevan. Metode yang digunakan dalam penelitian adalah Vector Space Model (VSM). Metode ini dipilih karena cara kerja model yang efisien, mudah dalam representasi dan dapat diimplementasikan pada document-matching. Pengolahan data awal yang digunakan adalah tokenisasi, filtering dan stemming. Proses perhitungan VSM melalui tahapan perhitungan tf, idf, tfidf, jarak query dan dokumen, similaritas dan
29
cosine similarity. Hasil uji recall dan precision yang diperoleh pada penelitian ini memiliki rata-rata recall = 0,19 dan rata-rata precision = 0,54. Selain itu sistem ini mampu melakukan pencarian dokumen bahasa Indonesia dengan waktu komputerisasi rata-rata 1,5 detik. Dengan adanya sistem rekomendasi ini diharapkan pengguna mendapatkan hasil yang cepat dan akurat.