IMPLEMENTASI ALGORITMA VECTOR SPACE MODEL DALAM PENCARIAN E-BOOK Nurul Annisa 1),Warnia Nengsih, S.Kom., M.Kom.2)& Ananda. S.kom., M.T.3) Program Studi Sistem Informasi12), Teknik Informatika Multimedia 3), Politeknik Caltex Riau. email:
[email protected] 1),
[email protected] 2),
[email protected] 3) Abstrak - Proses pencarian dengan cara konvesional hanya menemukan e-book yangbenar-benar sesuai dengan kata kunci. Hal ini membuat proses pencarian menjadi tidak efektif, karena bisa saja pengguna tidak memasukkan kata kunci dengan tepat. sementara e-book yang dicari tersedia dengan kata kunci berbeda namun masih dalam satu topik yang sama. Dengan begitu dibutuhkan suatu metode pencarian yang mampu mengenali e-book secara keseluruhan dan mendetail. Vector Space Model adalah salah satu metode pencarian yang mengukur relevansi antara kata kunci dengan dokumen yang ada di basis data. Proses yang terjadi pada Vector Space Model terbagi menjadi dua tahap yaitu tahapan prepocessing yang terdiri dari pemotongan kalimat atau paragraf menjadi bentuk kata tunggal (tokenizing), pembuangan stopwords (filtering), mengubah kata menjadi bentuk dasarnya (stemming), sedangkan proses yang kedua adalah meghitung relevansi antara dokumen dengan kata kunci yang telah dilakukan proses preprocessing. Dengan menggunakan Vector Space Model informasi e-book yang didapatkan mengandung relevansi/keterkaitan dengan yang diharapkan sesuai dengan kata kunci yang telah dimasukkan.Data uji coba merupakan file E-book dengan format .pdf. Dari hasil pengujian terhadap pencarian e-book diperoleh nilai akurasi dari sistem ini memilki nilai recall rata-rata sebesar 100 % dan nilai precision rata-rata sebesar 80%. Kata Kunci: e-book, Vector Space Model, preprocessing. I.
dibandingkan proses pencarian dengan cara konvensional akan lebih teliti karna pencarian dilakukukan perkata dalam dokumen e-book. Banyaknya kemunculan kata dalam kumpulan dokumen yang sesuai dengan kata kunci akan dihitung. kata kunci yang dimasukan oleh pengguna dan dokumen yang pada basis data diterjemahkan menjadi vektor vektor kemudian dihitung jarak cosinusnya dan hasil perhitungan jarak cosinus antar vektor akan menjadi acuan dalam menentukan relevansi masukan pengguna (kata kunci).
PENDAHULUAN
Di era globalisasi ini, peran teknologi informasi sangat dibutuhkan dalam segala segi kehidupan, salah satu dampak yang signifikan adalah pada dunia pendidikan. Perkembangan teknologi komunikasi khususnya internet, telah mendorong lembaga pendidikan untuk menyediakan berbagai fasilitas serta kemudahan akan akses informasi secara global melalui dunia website akademik. Keberadaan situs website akademik sebuah lembaga pendidikan pada tingkat perguruan tinggi sudah sewajarnya dimiliki, demi mendukung efesiensi dan efektifitas segala kegiatan akademik. Pada situs web yang akan dibangun dibutuhkan sebuah fungsi pencarian untuk menemukan e-book yang diinginkan. Proses pencarian dengan cara konvesional hanya menemukan e-book yang sesuai dengan kata kunci. Hal ini membuat proses pencarian menjadi tidak efektif, karena bisa saja pengguna tidak memasukkan kata kunci dengan tepat. sementara ebook yang dicari tersedia dengan kata kunci berbeda namun masih dalam satu topik yang sama. Dengan berkembangnya teknologi dalam melakukan proses pencarian, maka untuk mendukung proses pencarian e-book pada situs web diimplementasikan Algoritma Vector Space Model. Algoritma Vector Space Model salah satu metode pencarian yang menghitung tingkat kemiripan antara kumpulan dokumen yang ada di basis data dengan dokumen yang dicari oleh pengguna. Oleh karena itu dengan menggunakan Algoritma Vector Space Model pada Pencarian e-book akan lebih efektif
II.
TINJAUAN PUSTAKA
2.1
E-book E-book atau yang lebih dikenal dengan electronic book adalah sebuah bentuk buku yang dapat dibuka secara elektronik melalui komputer. Menurut Lee (2004 :50) dalam Diah Titiek Kusuma Nigrum (2011) e-book adalah representasi elektronik dari sebuah buku yang biasanya diterbitkan dalam bentuk tercetak namun kali ini berbentuk digital. E-book ini berupa file dengan format bermacam-macam,ada yang berupa pdf (portabel document format) yang dapat dibuka dengan program Acrobat Reader. 2.2
Preprocessing Proses preprocessing dilakukan untuk membentuk basisdata terhadap koleksi dokumen sehingga dokumen siap untuk diproses. dalam proses indexing terdapat 3 proses yaitu tokenizing, filtering dan stemming.
1
2.2.1
Tokenizing Pada proses tokenizing dilakukan pembacaan dokumen yang dimiliki dan memisahkan deretan kata di dalam kalimat, paragraf atau dokumen menjadi token atau potongan kata tunggal. Tahapan ini juga menghilangkan karakter-karakter tertentu seperti tanda baca dan mengubah semua token ke bentuk huruf kecil (case folding) Husni (2012) dalam Khadijah FH Holle (2012). Berikut contoh dari tokenizing: Kalimat dalam dokumen : Saya sedang belajar matematika Hasil Tokenizing : saya sedang belajar matematika Dapat dilihat dari contoh diatas, terdapat kalimat “saya sedang belajar matematika” kemudian dilakukan porses tokenizing sehingga kalimat itu dipisah menjadi 4 kata yaitu saya, sedang, belajar, matematika.
dokumen e-book. Sebuah term di hitung bedasarkan seringnya kemunculan term tersebut didalam dokumen e-book. Inversed Document Frequency (IDF) adalah pengukuran jumlah frekuensi kemunculan suatu kata dalam sekumpulan dokumen IDF = Log (D df)……………………………….(2.1) Dimana: D = Jumlah Dokumen df = Banyak dokumen yang mengandung kata yang dicari Pembobotan kata dengan menggunakan Metode TFIDF menggunakan formula sebagai berikut : 𝑊𝑑,𝑓 = 𝑡𝑓𝑑,𝑡 ∗ 𝐼𝐷𝐹……………………………..(2.2) Dimana : d =Dokumen ke d dari dakumen yang ada di basisdata t = Kata ke t dari kata kunci tf = Banyak kata yang dicari dalam dokumen W=Bobot dokumen ke d terhadap kata kunci ke t
2.2.2
Filtering Pada tahapan ini dilakukan pengambilan kata-kata penting dari hasil tokenizing dengan membuang stopword. Stopword dapat berupa subjek atau kata penghubung.
2.5
Algoritma Vector Space Model Vector Space Model (VSM) adalah suatu metode untuk melihat tingkat kedekatan atau kesamaan (similarity) term dengan cara melakukan pembobotan term menggunakan metode pembobotan TF-IDF. Dokumen dan kata kunci dipandang sebagai sebuah vektor yang memiliki jarak dan arah. Relevansi sebuah dokumen ke sebuah kata kunci didasarkan pada similaritas diantara vektor dokumen dan vektor kata kunci (Yates, 1999) dalam (Fatkhul Amiin, 2013) Vector Space Model, setiap dokumen dan kata kunci dari pengguna direpresentasikan sebagai ruang vektor berdimensi n. kata kunci dan dokumen dianggap sebagai vektor-vektor pada ruang n-dimensi. Selanjutnya akan dihitung nilai cosinus sudut dari dua vektor, yaitu W (bobot) dari tiap dokumen dan W 0dari kata kunci. Penentuan relevansi dokumen dengan kata kunci dipandang sebagai pengukuran kesamaan (similarity measure) antara vektor dokumen dengan vektor kata kunci . Semakin sama suatu vektor dokumen dengan vektor kata kunci maka dokumen dapat dipandang semakin relevan dengan kata kunci.
2.2.3
Stemming Suatu kata bisa memiliki bentuk penulisan yang berbeda tapi memiliki makna yang sama contohnya adalah memakan dan termakan memiliki makna yang sama yaitu makan. Proses stemming dilakukan untuk mendapatkan kata dasarnya dan menghapus imbuhan. Pada sistem ini digunakan algoritma Porter Stemmer untuk melakukan stemming. 2.3
Inverted Index Inverted index adalah salah satu proses untuk mengideksan sebuah koleksi teks yang digunakan untuk mempercepat proses pencarian. Dalam dokumen inverted index didapat dari proses preprocessing yaitu setelah proses tokenization, stopword dan stemming dilakukan. Dan kemudian dicarilah kata-kata di dalam setiap dokumen lalu dihitung jumlahnya disetiap dokumen yang ada. proses inverted index akan lama jika dokumen yang ada di basisdata jumlahnya banyak. Contoh kata1 terdapat dalam D1,D2, dan D3 sedangkan kata2 terdapat dalam dokumen D1, dan D2 maka inverted index yang dihasilkan seperti berikut T1D1, D2, D3 T2D1,D2 2.4
Term FrequencyInverse Document Frequency ( TF-IDF) Term Frequency - Inverse Document Frequency merupakan algoritma yang digunakan untuk menghitung bobot (W) masing masing dokumen terhadap kata kunci. Term Frequency (TF) adalah jumlah kemunculan sebuah term pada sebuah
Sumber Hardianto,2010
2
Gambar 2.1Representasi Dokumen e-book dan Kata kunci pada
Mulai
Ruang Vektor
Perhitungan kesamaan antara vektor kata kunci dan vektor dokumen dilihat dari sudut yang paling kecil. Sudut yang dibentuk oleh dua buah vektor dapat dihitung dengan melakukan perkalian dalam (inner product), sehingga rumus relevansinya, adalah cos 𝜃 𝑠𝑖𝑚𝑖𝑙𝑎𝑟𝑖𝑡𝑦 = 𝑑𝑗∙𝑞
𝑡 𝑖=1
𝑑𝑗 ∙ 𝑞 =
𝑡 𝑖=1 𝑤𝑖𝑗 2
Dokumen e-book
tokenizing
filtering
𝑤𝑖𝑗 ∙ 𝑤𝑖𝑞 ∙ 𝑖=1 𝑤𝑖𝑞2
stemming
𝑡
……………………………………………………(2.3) Dimana : q = bobot kata kunci d =bobot dokumen 𝑑 =panjang dokumen 𝑞 =panjang kata kunci
indexing
Simpan hasil term indexing
Term index
Nilai cosinus yang cenderung besar mengindikasikan bahwa dokumen cenderung sesuai dengan kata kunci. Nilai cosinus sama dengan 1 mengindikasikan bahwa dokumen memiliki relevansi yang besar dengan kata kunci yang telah dimasukkan. III.
selesai
Gambar 3.1 Flowchart indexing dokumen e-book Mulai
PERANCANGAN
Pengguna memasukkan kata kunci
Sebelum dilakukan penelitian maka terlebih dahulu dibuat perancangan sistem. Perancangan sistem akan mempermudah penyelesaian sistem yang akan dibuat. Sistem yang akan dibuat pada penelitian ini adalah sistem yang berbasis aplikasi website yang dirancang untuk berfungsi dalam menangani analisa pola pengguna website akademik. Adapun perancangan yang akan dibuat pada proyek ini adalah: 1. Preprocessing. 2. Analisa Dan dapat digambarkan sebagai berikut:
tokenizing
fitering
stemming
Perhitungan pembobotan TF-IDF kata kunci terhadap keseluruhan dokumen
𝑤𝑖𝑗 ⋅ 𝑤 𝑖𝑞 𝑑𝑗 ⋅ 𝑞
=
𝑖=1 𝑤𝑖𝑗⋅ kunci 𝑖=1 𝑤𝑖𝑞 Perhitungan kedekatan dokumen terhadap kata
dengan menghitung jarak cosinus antar vektor dokumen dan kata kunci
cos𝜃 𝑠𝑖𝑚𝑖𝑙𝑎𝑟𝑖𝑡𝑦 𝑑𝑗,𝑞
= 𝑑𝑗 ⋅ 𝑞
𝑡 𝑖= 1 𝑡
2
Kemiripan kata kunci dengan ebook Jarak cosinus > 0,5
ya Tampilan E-book
tidak Selesai
3
𝑡
2
Gambar 3. 2 Flowchart Analisa Pencarian
IV. 4.1
terdapat 3 proses yaitu: Tokenizing dan Filtering, Stemming dan Indexing
HASIL DAN PEMBAHASAN Pengujian Sistem
Pengujian sistem dari aplikasi yang dibangun secara keseluruhan dilakukan dengan memeriksa satu persatu bagian-bagian aplikasi yang dibangun tanpa memperhatikan struktur logika internal sistem. Metode pengujian ini dilakukan untuk memeriksa apakah sistem telah berjalan sesuai dengan yang diharapkan. Pada aplikasi ini terdapat 2 pengguna yaitu admin dan guest. 4.1
Gambar 4.3 Halaman Proses Preprocessing Dokumen
Pada Halaman proses flow terdapat 3 proses untuk melakukan preprocessing E-book, yaitu tokenizing, filtering & stemming serta indexing
Halaman Admin
a. Halaman Awal (From Login Admin) Halaman ini merupakan halaman awal untuk menyambut pengguna, dengan mengisikan “username” dan “password” di form yg sudah tersedia, seperti yang ditunjukkan oleh gambar 4.1.
Gambar 4.4 Preprocessing Dokumen
Setelah melakukan selesai melakukan setiap proses yang ada di halaman ProsesFlow seperti tokenizing, filtering & stemming dan indexing, maka akan muncul jendela information untuk memberi tahu hasil dari proses yang telah dilakukan. dapat ditunjukkan pada gambar 4.5, gambar 4.6 dan gambar 4.7.
Gambar 4.1 Halaman Awal Gambar 4. 5 Jendela informasi proses Tokenizing
b. Halaman Add E-book. Halaman admin setelah berhasil memasukkan “username” dan “password”. Halaman ini memiliki beberapa menu, yaitu: Add E-book, Proses Flow, Kategori dan logout. Seperti yang dilihat pada gambar 4.2 merupakan halaman addE-book. pada halaman ini admin dapat menambahkan E-book baru.
Pada gambar 4.5 menjelaskan hasil dari proses tokenizing bahwa terdapat 9125 kata pada file, jumlah halaman file sebanyak 34 halaman dan waktu proses untuk melakukan proses tokenizing adalah 4,99 detik.
Gambar 4. 6 Jendela Informasi proses Filtering & Stemming
. Gambar 4.2 Halaman Add E-book
Pada gambar 4.6 menjelaskan hasil yang didapatkan dari proses Filtering & Stemming bahwa jumlah kata setelah dilakukan proses yaitu 4567 kata dengan waktu proses 8.96 s.
c. Halaman Proses Flow
Setelah admin menambahkan E-book baru, selanjutnya admin melakukan proses preprocessing terhadap E-book yang telah ditambahkan. Gambar 4.3 merupakan halaman Proses Flow untuk melakukan proses preprocessing E-book. pada halaman ini
4
Gambar 4. 7 Jendela Informasi proses Indexing Gambar 4. 9 Hasil Pencarian
Pada gambar 4.7 menjelaskan hasil dari proses indexing, setelah dilakukan proses maka jumlah kata menjadi 1499 kata dengan waktu proses 1.15 s.
Jika guest ingin melihat detail dari E-book yang didapat dari hasil pencarian, maka guest bisa memperoleh detail tersebut dengan menekan link view E-book.
Jika telah selesai melakukan semua proses yang dibutuhkan untuk proses preprocessing dokumen E-book, maka status proses akan berubah menjadi finished, seperti yang bisa dilihat pada gambar 4.8.
Gambar 4. 10 Review E-book
Gambar 4. 1 Proses Finished
4.2
b. Halaman E-book Pada halaman ini, guest bisa melihat semua E-book yang ada pada sistem dan guest juga bisa melihat Ebook yang ada bedasarkan kategorinya. Pada halaman ini guest juga bisa melihat detail informasi mengenai E-book yang ada. Gambar 4.14 merupakan halaman dimana semua E-book bsa dilihat.
Halaman Guest
a. Halaman Pencarian Halaman pencarian ini merupakan bagian untuk melakukan pencarian koleksi E-book. Dalam halaman ini diimplementasikan algoritma pencarian yang menggunakan metode TF-IDF dan Algoritma Vector Space Model. Tampilan awal halaman pencarian adalah seperti yang ditunjukkan pada Gambar 4.8.
Gambar 4. 11 Halaman E-book
4.2
Pengujian Recall dan Precision Perolehan (recall) berhubungan dengan kemampuan sistem untuk memanggil dokumen yang relevan dengan kata kunci, sedangkan ketepatan (precision) berkaitan dengan kemampuan sistem untuk tidak memanggil dokumen yang relevan dengan kemampuan pengguna. karna dokumen terpanggil ( recall) yang relevan dengan kata kunci pengguna belum tentu relevan dengan kebutuhan pengguna. Rasio dari tingkat recall dan precision yang dicapai dalam kegiatan pencarian dapat dirumuskan sebagai berikut :
Gambar 4. 8 Halaman Pencarian
untuk menggunakan halaman ini, maka guest diharuskan untuk memasukkan keyword yang ingin dicari, kemudian menekan tombol search atau tekan Enter. Setelah guest memasukkan keyword maka sistem akan memberikan hasil pencarian seperti yang ditunjukkan pada Gambar 4.9.
Recall= 𝑗𝑢𝑚𝑙𝑎 � 𝑑𝑜𝑘𝑢𝑚𝑒𝑛 𝑟𝑒𝑙𝑒𝑣𝑎𝑛 𝑦𝑎𝑛𝑔 𝑡𝑟𝑒𝑝𝑎𝑛𝑔𝑔𝑖𝑙 (𝑡𝑒𝑟𝑎𝑚𝑏𝑖𝑙 𝑑𝑎𝑟𝑖 𝑠𝑖𝑠𝑡𝑒𝑚 ) 𝑗𝑢𝑚𝑙𝑎 � 𝑑𝑜𝑘𝑢𝑚𝑒𝑛 𝑟𝑒𝑙𝑒𝑣𝑎𝑛 𝑑𝑖 𝑑𝑎𝑡𝑎𝑏𝑎𝑠𝑒
5
Precision=
Religi,
𝑗𝑢𝑚𝑙𝑎 � 𝑑𝑜𝑘𝑢𝑚𝑒𝑛 𝑦𝑎𝑛𝑔 𝑡𝑒𝑟𝑝𝑎𝑛𝑔𝑔𝑖𝑙 𝑟𝑒𝑙𝑒𝑣𝑎𝑛 𝑑𝑒𝑛𝑔𝑎𝑛 𝑘𝑒𝑏𝑢𝑡𝑢 � 𝑎𝑛 𝑗𝑢𝑚𝑙𝑎 � 𝑑𝑜𝑘𝑢𝑚𝑒𝑛 𝑦𝑎𝑛𝑔 𝑡𝑒𝑝𝑎𝑛𝑔𝑔𝑖𝑙 𝑑𝑎𝑙𝑎𝑚 𝑝𝑒𝑛𝑐𝑎𝑟𝑖𝑎𝑛 .
Tabel 4. 1 Hasil Pencarian
0.036
Fiksi,
3
Perahu Kertas
0,026
Fiksi, Roman
tidak
3
Edensor
0.023
Fiksi, Eduksi
ya
4
Pudarnya
0.009
Fiksi,
tidak
pesona
nilai Judul
Laskar Pelangi
ya
Romansa,
Pengujian dilakukan dengan memasukkan kata kuci yang terdiri dari satu kata, dua kata, dan tiga kata.
No
2
Kategori
kemiripan
Relevan
Petualangan,
Cleopatra
( similarity) Pudarnya Pesona
1
Fiksi, Romansa,
0,54
Cleopatra
ya
Psikologi,
2
Refrain
0,34
3
5 cm
0.26
4
Endesor
0,19
Fiksi,Edukasi
tidak
5
Laskar Pelangi
0,18
Fiksi,Edukasi
tidak
Perahu Kertas
0.11
Fiksi, Roman
ya
6
Fiksi, Romansa, Fiksi,
0.10
ya
Spritual &
Kerjaan Arab
Twilight
ya
Fantasi
0.078
Kapal Van Der
Fiksi, Roman
6
11
11
3
14
17
ya
Wijck 10
3
0
Bedasarkan table 4.2, maka dapat diperoleh nilai recall dan precision sebagai berikut :
Tenggelamnya 9
3
Tidak Total
Fiksi, Roman,
0,099
Retrieve Retrieve
Religi
Saudi 8
Tabel 4.4 Tabel perhitungan Recall dan Precision Relevan Tidak Relevan Total
Fiksi, Romansa,
Tragis Putri
7
ya
Petualangan,
Princess – Kisah
Dari hasil tabel 1.1 dengan memasukkan kata kunci menempuh pendidikan setingi-tingginya untuk meraih mimpi, sedangkan E-book yang diharapkan adalah Ebook mengenai pendidikan, maka diperoleh :
ya
Recall =
Negeri 5 Menara
0,06
Fiksi,Edukasi
3 0+3
Precicion = Dari hasil tabel 1.1 dengan memasukkan kata kunci cinta, sedangkan E-book yang diharapkan adalah E-book mengenai percintaan, maka diperoleh : Relevan
Tidak Relevan
Total
Retrieve
7
3
10
Tidak
0
7
7
7
10
17
Retrieve
Bedasarkan table 4.2, maka dapat diperoleh nilai recall dan precision sebagai berikut : Recall =
7 0+7
× 100 % = 100 %
Precicion =
No
Judul
7 7+3
× 100 % = 70 % Tabel 4.3 Hasil Pencarian nilai Kategori
Releva
similarity 1
Negeri Menara
5
0,05
n Fiksi,
ya
Romansa, Spritual
3 3+2
× 100 % = 60 %
Dari tabel hasil pencarian dapat dilihat bahwa beberapa dokumen tidak relevan yang memiliki bobot tinggi daripada dokumen yang relevan. bisa dilihat pada tabel 4.1 nilai kemiripan untuk dokumen endesor dan Laskar Pelangi lebih besar daripada nilai kemiripan yang didapatkan oleh dokumen perahu kertas. Hal ini disebabkan karena frekuensi kemunculan kata-kata yang dicari lebih banyak terdapat pada dokumen Edensor daripada Laskar Pelangi sehingga nilai bobot untuk tiap kata lebih tinggi, walaupun dokumen tersebut bukan termasuk dokumen yang relevan tapi termasuk dokumen retrieve atau yang dikembalikan oleh sistem. Tingginya nilai kemiripan pada dokumen Laskar Pelangi dan Edensor terjadi pada saat melakukan nilai pembobotan pada kata, karna jumlah kata kunci yang dicari pada dokumen Laskar Pelangi dan Edensor memiliki frekuensi yang lebih besar daipada dokumen perahu kertas membuat nila pembobotannya lebih tinggi. Setelah dilakukan pembobotan maka dilakukan perhitungan perhitungan cosine similarity sehingga hasil nilai kemiripan yang di dapatkan untuk dokumen perahu kertas lebih rendah daripada dokumen Laskar Pelangi dan Edensor. Selain itu ada beberapa dokumen relevan yang memiliki bobot rendah. Hal ini
Tabel 4. 2 Tabel perhitungan Recall dan Precision
Total
× 100 % = 100 %
tidak
&
6
disebabkan karna adanya kata-kata yang tidak memiliki kemiripan terhadap dengan kata kunci, walaupun ada kata-kata yang benar-benar relevan.
pada proses stemming. Pada proses indexing, yaitu menghitung jumlah term tiap dokumen yang ada. Proses indexing akan semakin lama jika jumlah dokumen yang ada semakin banyak, karena pada proses indexing dilakukan pencarian tiap term pada semua dokumen yang kemudian dihitung jumlah setiap term dalam semua dokumen. Proses indexing dilakukan untuk mempermudah proses pencarian dalam menentukan bobot suatu term. Pada tabel ini juga dapat dilihat waktu yang dibutuhkan untuk melakukan semua proses tergantung pada banyaknya jumlah kata yang akan diproses.
Dari hasil peritungan precision dan recall yang telah dilakukan pada tabel 4.2 dan tabel 4.4 dengan kata kunci yang berbeda, dapat dianalisa bahwa sistem dapat melakukan retrieve( mengembalikan dokumen) sesuai dengan kata kunci pengguna dengan baik. untuk kata kunci yang dimasukkan yaitu cinta untuk table 4.2, sistem dapat mengembalikan semua dokumen yang memiliki keterkaitan dengan kata cinta,. jumlah dokumen relevan yang dikembalikan oleh sistem adalah sebanyak 7 buah dokumen dan jumlah dokumen relevan yang tidak dikembalikan tidak ada, oleh karena itu nilai recall yang didapatkan 100%.Sedangkan untuk mengukur ketepatan sistem dalam mengembalikan dokumen yang relevan (precision) dapat dianalisa bahwa sistem dapat melakukan pengembalian dokumen yang relevan menurut pengguna dengan cukup baik. untuk kata kunci cinta sistem mengembalikan ada 10 dokumen, tetapi yang relevan dengan kata kunci menurut pengguna ada 7 dokumen sehingga didapatkan nilai ketetapan sistem dalam mengembalikan dokumen adalah 70 %. Rata-rata nilai precision untuk 2 kata kunci yang berbeda adalah 80 %. 4.3
V.
KESIMPULAN DAN SARAN
5.1
Kesimpulan
Setelah dilakukan pengujian beserta analisa pada proyek akhir ini, maka dapat diambil kesimpulan sebagai berikut: 1. Sistem ini berhasil membaca file E-book dalam format .pdf 2. Algoritma Vector Space model cocok digunakan mendukung proses pencarian E-book karna memiliki tingkat ketepatan dalam mengembalikan dokumen yang relevan (precision) dengan rata-rata 80 % dan memperoleh nilai recall rata-rata 100 %. 3. Data hasil dari uji coba waktu preprocessing dokumen bergantung pada jumlah kata yang akan diproses.
Pengujian Prepocessing Dokumen Tabel 4. 6 Tabel pengujian preprocessing
5.2
Saran
Untuk pengembangan aplikasi ini, maka beberapa hal yang dapat penulis sarankan adalah: 1. Diharapkan file E-book yang dip roses tidak hanya berupa .pdf, tetapi juga bisa berupa epub. 2. Untuk penelitian selanjutnya, diharapkan menerapkan query ekspansi untuk mengatasi kesalahan pengguna dalam melakukan penulisan kata kunci pada proses pencarian. 3. Untuk penelitian selanjutnya agar dilakukan pencarian dengan algoritma lain seperti Algoritma Generelized Vector Space Model.
Bedasarkan data yang di dapat pada pengujian preprocessing dokumen, menujukkan bahwa pada proses tokenizing dan filtering jumlah kata yang didapat pada dokumen rapunzel adalah 763 dan 474. Jumah kata 764 didapat dari hasil pembacaan file pdf oleh sistem dan setelah itu diubah menjadi bentuk token atau kata sehingga didapatkan jumlah katanya 763. Setelah itu dilakukan proses filtering dengan membuang kata-kata tidak penting sehingga jumlahnya menjadi 474. Pada saat melakukan stemming jumlah kata yang ada tetap 474, karena yang dilakukan pada proses stemming yaitu menghilangkan imbuhan dari kata hasil filtering dan tidak ada pengurangan jumlah kata yang dilakukan
VI. 1.
2.
3.
7
DATAR PUSTAKA Agusta Lady.2009. “Perbandingan Algoritma Stemming Porter dengan Algoritma Nazief & Adriani untuk Stemming Dokumen Teks Bahasa Indonesia”. Konferensi Nasional Sistem dan Informatika 2009.Bali. Amin, Fatkhul.2013.“Implementasi Search Engine (Mesin Pencari) Menggunakan Metode Vector Space Model. Dosen Fakultas Teknologi Informasi Universitas Stikubank.Semarang. Herdianto, Aditya.2010. “Pencarian Ayat – Ayat AlQuran Bedasarkan Konten
4.
5.
Menggunakan Text Mining Berbasis Aplikasi Dekstop”. Institut Teknologi Sepuluh Nopember Surabaya. Surabaya Holle, Khadijah FH.2012. “Rancang Bangun Search Engine Ayat AlQuran yang Mampu Memproses Teks Bahasa Indonesia Menggunakan Metode Cosine Similarity”. Diambil 20 November dari http://www.academia.edu/4355132 Ningrum, Diah Titiek Kusuma.2011.”Pelayanan Informasi pada PerpustakaanBadan Kepegawaian Negara (BKN)”. Diambil 15 Desember dari www.bkn.go.id/attachments/23
8
7