67
BAB 4 HASIL DAN BAHASAN
4.1 Hasil Penelitian dan Evaluasi 4.1.1 Hasil Penelitian Berikut disajikan beberapa data hasil query dari penelitian yang dilakukan dengan melampirkan tabel data precision dan recall serta diagram-diagramnya. 4.1.1.1 Precision Recall Interpolasi Tabel 4.1 Data Precision Recall Interpolasi Recall
VSM
0 100,00
LSI 94,44444
10 94,44
94,44444
20 91,67
94,44444
30 84,88
90,37
40 75,38
85,37
50 72,11
83,88889
60 60,11
63,03778
70 56,35
57,32889
80 49,79
45,27
90 37,62
35,99889
100 34,48
24,83889
68
Gambar 4.1 Grafik Precision Recall Interpolasi Berdasarkan data hasil penelitian di atas yang disajikan dalam bentuk tabel dan grafik, dapat disimpulkan bahwa kedua model antara VSM model dan LSI model yang diukur menggunakan Mean Average Precision Recall Interpolasi memiliki nilai precision yang hampir sama nilainya menurut recall pada level masing-masing. 4.1.1.2 Mean Average Precision Tabel 4.2 Data Mean Average Precision Query
VSM
LSI
65,45 89,88
Q1 Q2
100,00
85,41
Q3
52,00
41,99
Q4
63,62
69,14
Q5
84,50
86,97
Q6
74,26
75,46
69 Q7
47,97
62,71
Q8
69,12
51,59
Q9
79,64
76,76
Rata-Rata
71,25
71,10
Nilai dari Mean Average Precision memberikan kesimpulan mengenai model mana yang paling baik yang diteliti. Semakin tinggi nilai dari MAP sebuah model, semakin bagus kinerja dari model tersebut. Pada penelitian ini, berdasarkan beberapa query sampel yang digunakan, dihasilkan nilai MAP seperti tabel di atas yang menunjukkan bahwa MAP dari VSM yang bernilai 71,25 lebih besar dibandingkan LSI yang bersnilai 71,10. Berdasarkan nilai penelitian yang didapatkan, dapat ditentukan bahwa VSM memiliki kinerja yang lebih baik dibandingkan LSI model. 4.1.1.3 Precision@K Tabel 4.3 Data Precision@k VSM Query precision@5
LSI
precision@10 precision@15 precision@5
precision@10 precision@15
Q1
80,00
70,00
53,33
100,00
90,00
86,67
Q2
60,00
40,00
26,67
60,00
40,00
26,67
Q3
60,00
40,00
26,67
60,00
40,00
26,67
Q4
60,00
60,00
53,33
60,00
70,00
60,00
Q5
100,00
70,00
53,33
100,00
70,00
60,00
Q6
60,00
50,00
40,00
80,00
50,00
40,00
70 Q7
60,00
50,00
46,67
80,00
60,00
66,67
Q8
80,00
50,00
33,33
60,00
30,00
20,00
Q9
100,00
60,00
60,00
100,00
80,00
53,33
73,33
54,44
43,70
77,78
58,89
48,89
Rata
Data Precision@k memberikan kesimpulan mengenai baiknya kinerja model pada level retrieve tertentu. Percision5k, precision10k dan precision15k memberitahukan nilai precision dokumen yang diretrieve pada 5 dokumen pertama, 10 pertama dan 15 pertama, sehingga dapat diketahui model yang diteliti akan memiliki kinerja terbaik pada dokumen yang ditertrieve pada urutan berapa. Berdasarkan nilai tabel hasil penelitian preicison@k, di dapatkan kesimpulan bahwa baik VSM ataupun LSI model memberikan nilai precision terbaik pada 5 dokumen pertama yang diretrieve dengan masing-masing nilai VSM 73,33% dan LSI 77,78%, hal ini menunjukan 5 dokumen teratas yang diretrieve merupakan keakuratan tertinggi antara query yang diinput dan dokumen yang ditemukan oleh sistem masing-masing model. 4.2 Pembahasan Berdasarkan penelitian yang dilakukan dan implementasi masing-masing model dengan menggunakan beberapa alat bantu penelitian, maka dapat disimpulkan bahwa masing-masing model yang diteliti memiliki karakteristik yang unik antara satu dengan lainnya. 4.2.1 Implementasi Model
71
Boolean Model cocok digunakan untuk pencarian yang bersifat exact match dan user sudah mengenal sistem kerja query (dapat menggunakan AND, OR dan NOT). Contoh :pencarian file pada computer, apabila query pencariannya adalah database, maka tentu tidak diharapkan munculnya kata-kata selain dari database. Untuk kondisi seperti ini lebih cocok menggunakan BooleanModel. LSI dan VSM digunakan untuk pencarian yang bersifat ranking, dimana query yang dimasukkan dapat menjadi lebih abstrak dan sesuai dengan bahasa manusia. Misalnya : pencarian informasi di Google, pada pencarian pada umumnya, selalu diharapkan dokumen yang paling sesuai dengan yang query yang diinput muncul pada halaman awal atau peringkat awal maka dapat menggunakan metode LSI dan VSM. Terdapat banyak kesamaan antara LSI dan VSM, tetapi secara detil kedua model tersebut memiliki perbedaan dalam hal pengimplementasiannya. LSI model mampu melakukan retrieve informasi dengan query yang di-input tidak harus sesuai dengan kata yang benar-benar ada di dalam repositori. Contohnya query yang digunakan adalah President of America, LSI Model mampu melakukan retrievedokumen tentang nama-nama dari presiden Amerika, sedangkan VSM hanya mampu melakukan retrieve kata-kata “President” dan ” America”.
4.2.2 Kelebihan dan Kekurangan Model Kelebihan Boolean Model: •
Dokumen yang diberikan sudah pasti.
72
•
Pengimplementasiannya cukup sederhana, hanya perlu menggunakan operasi bitwise, tidak perlu melakukan perhitungan statistik. Kekurangan Boolean Model:
•
Boolean Model tidak menggunakan peringkat dokumen yang terambil. Dokumen yang terambil hanya dokumen yang benar - benar sesuai dengan pernyataan query yang diberikan, sehingga dokumen yang terambil bias sangat banyak atau bias sedikit. Akibatnya adakesulitan dalam mengambil keputusan.
•
Query dalam Boolean Model dapat menjadi sangat kompleks, akibatnya pengguna harus memiliki pengetahuan banyak mengenai query menggunakan operasi aritmatika boolean agar pencarian menjadi efisien.
•
Tidak akan mempelajari data baru, kualitas dokumen yang dihasilkan tidak akan terpengaruh seiring dengan penambahan dokumen.
•
Tidak bias menyelesaikan partial matching pada query.
Kelebihan VSM •
Dapat mengembalikan data dalam bentuk ranking, mengurutkan dokumen berdasarkan perhitungan kedekatan data dengan query.
•
Mempelajari data baru dan membuat statistic berdasarkan data tersebut untuk perhitungan bobot dari term, kualitas dokumen yang dihasilkan akan terpengaruh seiring dengan penambahan dokumen.
•
Terorema pembobotan term yang digunakan VSM mudah dimengerti dan dibuktikan.
73
Kekurangan VSM •
Tidak dapat menangani dokumen yang panjang, isi dokumen yang panjang membuat pengukuran kemiripannya (similarity) lebih sulit.
•
Asumsi yang digunakan adalah term bersifat independent atau tidak saling berhubungan satu sama lain. Sehingga dokumen dengan konten yang mirip tetapi dengan kosakata yang berbeda akan menghasilkan nilai kemiripan dokumen yang berbeda. Ini adalah salah satu kelemahan jika kita memakai sistem yang mengacu pada keyword untuk menentukan nilai kemiripan dokumen tersebut.
•
Semantik : Untuk menangani konten semantik, sistem harus memakai tag khusus.
•
Query harus mengandung minimal 1 kata kunci dalam dokumen jika tidak ada tidak akan melakukan retrieve dokumen apapun.
Kelebihan LSI. •
Dapat mengetahui dimensi kedekatan antar kata melalui SVD sehingga kemampuan untuk me-retrieve dokumen dengan keyword query ambigu lebih baik.
•
Perhitungan pada saat query akan lebih cepat karena matriks sudah direduksi.
•
Mengatasi masalah polisemi dan sinonim pad term.
•
Mempelajari data baru dan membuat statistic berdasarkan data tersebut untuk perhitungan bobot dari term, kualitas dokumen yang dihasilkan akan terpengaruh seiring dengan penambahan dokumen.
74
Kekurangan LSI •
Sangat bergantung pada dimensi reduksi, dimensi reduksi perlu ditentukan sendiri belum ada teori yang benar - benar menentukan dimensi reduksi secara tepat.
•
Untuk data dalam jumlah besar proses Singular Value Decomposition (SVD) akan memakan waktu yang lama.
4.2.3 Precision dan Recall Melalui grafik precision recall interpolasi kita dapat menyimpulkan bahwa metode LSI memiliki sebaran yang lebih luas dilihat dari cukup datarnya berbagai interpolasi dibandingkan metode VSM dilihat dari grafiknya yang cenderung kemiringannya stabil. Berdasarkan nilai Mean Average Precision-nya itu VSM: 71.25% dan LSI: 71.10%, dapat disimpulkan bahwa LSI dan VSM memberikan performance yang hampir sama namun VSM dalam hal ini menunjukkan performa yang lebih baik dibandingkan dengan LSI. Untuk pengukuran yang tidak memperdulikan recall yang tinggi seperti web search engine digunakan pengukuran menggunakan Precision@K. Dengan menggunakan Precision@K dapat disimpulkan bahwa LSI memberikan hasil lebih baik secara ranking dibandingkan dengan VSM. Sehingga apabila menginginkan hasil terbaik pada halaman - halaman teratas sebaiknya menggunakan LSI.