SISTEM REKOMENDASI PUSTAKA DENGAN METODE AUTOMATIC QUERY EXPANSION Indra Kharisma Raharjana 1, Badrus Zaman 2 Program Studi Sistem Informasi, Fakultas Sains dan Teknologi, Universitas Airlangga Kampus C, Jl. Mulyorejo Surabaya 60115, Jawa Timur. Alamat e-mail:
[email protected],
[email protected]
Abstrak Automatic query expansion merupakan metode untuk mendapatkan saran berupa query dalam melakukan pencarian di mesin pencari. Metode ini bisa dikembangkan sebagai alat untuk mendapatkan kata kunci pencarian artikel ilmiah yang tersedia di internet. Penelitian ini memanfaatkan metode automatic query expansion untuk memberikan rekomendasi pustaka berdasarkan dokumen input. Dokumen awal diolah dengan cara diektraksi terlebih dahulu dengan algoritma key phrase identification untuk memperoleh kata kunci penting. Kemudian berdasarkan metode automatic query expansion kata kunci penting tersebut digunakan sebagai query pencarian pada mesin pencari untuk mendapatkan halaman web. Halaman web tersebut dianalisa dengan algoritma key phrase identification untuk mendapatkan kata kunci bangkitan yang digunakan sebagai dasar pencarian dokumen ilmiah pada mesin pencari.Berdasarkan hasil evaluasi, ekstraksi kata kunci yang dihasilkan oleh algoritma key phrase identification dan metode automatic query expansion memiliki relevansi yang baik, selain itu hasil rekomendasi pustaka yang dihasilkan oleh sistem ini berhasil memberikan dokumen ilmiah yang cukup relevan dibandingkan dengan dokumen awal. Kata kunci : rekomendasi pustaka, key phrase identification, automatic query expansion
1. Pendahuluan Agar mendapatkan penelitian yang berkualitas harus dibuat berdasarkan berdasarkan fakta yang sudah diverifikasi, hal ini dapat didapatkan dari studi pustaka yang komprehensif (Phillips and Pugh, 2005). Peneliti dituntut untuk mengunakan pustaka yang relevan dan mutakhir untuk menunjang penelitiannya. Pustaka yang lengkap juga bisa meningkatkan dasar pemahaman peneliti untuk mendalami topik penelitiannya sehingga pembahasan obyek penelitiannya lebih menyeluruh karena berdasarkan fakta dari pustaka yang kredibel dan terbaru. Dalam era teknologi informasi saat ini, peneliti memiliki banyak pilihan untuk mendapatkan pustaka yang relevan. Diantaranya dengan mengakses mesin pencari yang tersedia di internet, namun dengan semakin banyaknya jumlah paper yang tersedia di internet, semakin sulit juga menemukan paper yang sesuai, untuk itu dibutuhkan sistem rekomendasi untuk menemukan paper yang sesuai. Beberapa riset telah dilakukan untuk memberikan rekomendasi pustaka untuk artikel ilmiah, mulai dari metode content-based filtering serta collaborative-based filtering (Naak, Hage and Aϊmeur, 2009), clustering (Capocci and Caldarelli, 2007) serta citation indexing (Farooq et al., 2007). Semua pendekatan yang telah dikembangkan memiliki akurasi yang bagus (McNee et al., 2002), Namun semua metode tersebut harus memiliki
koleksi paper yang dibutuhkan untuk melakukan analisa agar menghasilkan rekomendasi. Saat ini beberapa mesin pencari terkemuka menyediakan fitur Application programming interface (API) yang memperbolehkan pengguna mengambil data pencarian secara terprogram, hal tersebut memungkinkan untuk dilakukan pengolahan hasil pencarian sehingga dapat memberikan rekomendasi pustaka berdasarkan kata kunci pencarian tertentu. Untuk melakukan tersebut dibutuhkan penentuan kata kunci yang tepat sehingga mendapatkan hasil pencarian yang baik. Permasalahan dalam penentuan kata kunci adalah setiap orang mendefinisikan kata kunci berbeda beda walaupun maksud dan esensi yang hendak dicari sama (Kingrey, 2005). Salah satu alternatif untuk mengatasi kesulitan pemilihan kata kunci pencarian adalah mencari dan mengunakan padanan kata kunci secara otomatis (automatic query expansion) berdasarkan kata kunci yang dimasukan oleh pengguna (Khan and Khor, 2004). Automatic query expansion merupakan mekanisme untuk mendapatkan kata kunci yang relevan dengan mengunakan dan menganalisa open data yang disediakan dari mesin pencari. (Kharisma and Mardiyanto, 2011) telah mengimplementasikan automatic query expansion sehingga bisa digunakan untuk melakukan eksplorasi suatu topik secara menyeluruh berdasarkan kata kunci bangkitan yang memiliki keterkaitan dengan topik utamanya. Automatic query expansion mengunakan algoritma
Key Phrase Identification untuk mengidetifikasikan kata kunci dalam suatu dokumen, algoritma ini selain bisa memberikan kata kunci yang relevan juga mampu untuk mengidentifikasi suatu topik dalam dokumen (Kharisma, 2011). Algoritma Key Phrase Identification ini bekerja optimal ketika menangani dokumen berbahasa inggris, hal ini sesuai dengan fokus pencarian publikasi ilmiah, yang kebanyakan berbahasa inggris. Paper ini mencoba untuk memberikan rekomendasi pustaka untuk mendapatkan referensi ilmiah yang relevan mengunakan mekanisme automatic query expansion. Paper ini mengolah dokumen untuk dianalisa, dokumen tersebut bisa berupa proposal penelitian, draf penelitian, ataupun pustaka utama yang digunakan sebagai dasar penelitian. Rekomendasi yang dihasilkan berupa kumpulan dokumen ilmiah yang didapatkan dari situs yang menyediakan artikel ilmiah yang kredible. Langkah-lanhkah yang dilakukan untuk bisa memberikan rekomendasi pustaka adalah mengidentifikasi kata kunci penting yang ada dalam dokumen dalam Portable Data Format (PDF) untuk kemudian diolah menjadi dokumen teks murni. Sistem tersebut juga mampu mengidentifikasikan kata kunci yang penting dalam dokumen dengan algoritma key phrase identification. Selain itu tujuan selanjutnya adalah memberikan rekomendasi pustaka yang relevan dengan materi penelitian. Permasalahan ini hendak diselesaikan dengan penerapan automatic query expansion. Automatic query expansion mengunakan kata kunci yang telah didapatkan sebelumnya untuk dicari kata kunci padanannya dengan melakukan pencarian informasi pada mesin pencari, sehingga kata kunci yang ditemukan bukan hanya kata kunci yang terdapat dalam dokumen, namun juga termasuk kata kunci yang mempunyai kaitan erat dengan dokumen awal. Kemudian dari kata kunci yang telah didapatkan tersebut dilakukan pencarian paper pada situs digital library mengunakan fasilitas mesin pencari.
2.1 Sistem Rekomendasi Pustaka Beberapa riset telah dilakukan untuk memberikan rekomendasi untuk artikel ilmiah, mulai dari metode content-based filtering yaitu dengan menampilkan semua paper berdasarkan kemiripan kriteria pencarian, misalnya berdasarkan judul, penulis dan atau keyword (Naak, Hage, & Aϊmeur, 2009). Terdapat juga metode collaborativebased filtering yang menampilkan rekomendasi paper riset berdasarkan kesamaan ketertarikan dari penguna, misalnya sejarah perilaku pembaca paper riset atau berdasarkan rating yang diberikan oleh pengguna (Naak, Hage, & Aϊmeur, 2009). Pendekatan clustering juga digunakan untuk mengkelompokan dan mengklasifikasi paper (Capocci & Caldarelli, 2007). Situs google scholar mampu memberikan rekomendasi berdasarkan kemiripan suatu dokumen. Situs yang menyediakan repository paper riset sering mengunakan citation indexing yang mempunyai kemampuan mentautkan dengan paper yang dijadikan sebagai pustaka (Farooq, Ganoe, Carroll, & Lee Giles, 2007). Semua pendekatan yang telah dikembangkan untuk mendapatkan rekomendasi paper riset tersebut memiliki akurasi yang bagus (McNee, et al., 2002). 2.2 Automatic Query Expansion Namun kesemua metode tersebut membutuhkan data offline untuk melakukan rekomendasi, artinya paper riset harus dimiliki dulu untuk dianalisa. Pada penelitian ini diusulkan melakukan rekomendasi tanpa harus memiliki data paper riset secara offline, yaitu memanfaatkan fasilitas layanan mesin pencari yang memiliki kemampuan untuk mendapatkan paper riset yang relevan (Amy & Meyer, 2006). Berdasarkan mekanisme Automatic Query Expansion (Khan & Khor, 2004), paper riset didapatkan dari pembangkitan query yang berkaitan dengan topik penelitian, kemudian melakukan pencarian pada mesin pencari.
2. Tinjauan Pustaka 2.3 Key Phrase Identification Seiring dengan berkembangnya perpustakaan digital seperti ACM Digital Library , IEEExplore , SpringerLink dan CiteSeer , peneliti lebih mudah untuk mengakses publikasi ilmiah secara online. Untuk mengakses paper ilmiah peneliti perlu memasukkan kata kunci ke dalam sistem pencarian, baik pada situs perpustakaan digital maupun mesin pencari. Pengetahuan peneliti berperan penting dalam menentukan kata kunci pencarian yang korelasi langsung dengan hasil pencarian (Kingrey, 2005). Untuk itu dibutuhkan sistem rekomendasi untuk membantu peneliti agar lebih mudah menemukan paper riset yang berkaitan dengan penelitiannya.
Gambar 1. Proses ekspansi query secara otomatis (Khan and Khor, 2004)
Gambar 2. Rancangan Sistem Penentuan Rekomendasi pustaka Pada Gambar 1 dijelaskan proses dari ekspansi query secara otomatis mengunakan algoritma KeyPhrase Identification. Langkah pertama adalah adanya kebutuhan informasi oleh pengguna, dari kebutuhan tersebut, langkah kedua yang dilakukan pengguna adalah menentukan query awal yang digunakan untuk mendapatkan informasi yang dicari, langkah selanjutnya adalah memasukkan query tersebut kedalam mesin pencari, mesin pencari akan mengeluarkan hasil pencarian berdasarkan query yang telah didefinisikan sebelumnya. Dokumen hasil pencarian mesin pencari ini kemudian akan dioleh mengunakan algoritma Key Phrase Identification untuk mendapatkan saran query untuk melakukan pencarian pada mesin pencari. Skema dari algoritma Key Phrase Identification adalah mengidentifikasi kata yang bisa menjadi frasa kata benda. Skema dari algoritma Key Phrase Identification adalah mengidentifikasi frasa yang bisa menjadi kata benda. Pengidentifikasian (tagging) mempunyai tujuan sebagai berikut. 1. 2. 3.
Membagi kalimat menjadi frasa. Mengindikasikan kata-kata yang berpotensi untuk menjadi kata benda. Untuk memberi label frasa kata benda jamak dan kata benda singular.
Terdapat 5 kelompok kata yang digunakan untuk identifikasi bentuk dasar kata, kelompok kata ini diberi nama TagSet1, TagSet2, sampai TagSet5
untuk memudahkan dalam membedakan kelompok, masing-masing kelompok dideskripsikan sebagai berikut : 1. TagSet1 Terdiri atas common verbs(dalam bentuk present tense), pemilihan verbs berdasarkan verbs yang tidak bisa digunakan sebagai nouns, adverbs atau adjectives. 2.
TagSet2 TagSet2 terdiri atas gabungan dari adverbs, prepositions, conjunctions, pronouns, dan dua adjectives able dan unable. Kata-kata ini menunjukan bahwa kata selanjutnya kemungkinan bukanlah noun. 3.
TagSet3 TagSet3 terdiri atas kata yang mengidentifikasi angka atau posisi rangking suatu obyek. 4.
TagSet4 TagSet4 terdiri atas kumpulan kata yang letaknya mendahului kata noun 5.
TagSet5 TagSet5 terdiri atas kata yang menyatakan kemiripan 3. Rancangan Sistem Rancangan penelitian yang hendak dilakukan secara umum bisa dilihat pada Gambar 2. Sistem ini
membutuhkan dokumen masukan dengan format PDF (Portable Document Format) dengan luaran berupa rekomendasi pustaka yang bisa diunduh. Untuk keperluan pengelolaan dan analisa data terbaru, sistem ini berhubungan langsung dengan API mesin pencari untuk mengirim kata kunci pencarian sehingga mendapatkan daftar laman web untuk dianalisa, laman web ini merepresentasikan tren terbaru yang terjadi sesuai dengan kata kunci yang dimasukkan. Untuk memberikan rekomendasi tersebut diperlukan beberapa langkah sebagai berikut : 1. Mengektraksi dokumen PDF (Portable Document Format) menjadi dokumen teks murni. 2. Mengidentifikasi kata kunci penting yang ada didalam suatu dokumen. 3. Mengunakan API (Application programming interface) mesin pencari untuk mendapatkan halaman-halaman web yang berkaitan dengan dokumen awal untuk kemudian dilakukan analisa dan pengidentifikasian kata kunci dengan mekanisme automatic query expansion. 4. Melakukan pencarian artikel ilmiah pada situs repository publikasi ilmiah dengan mengunakan kata kunci hasil automatic query expansion. 5. Melakukan evaluasi hasil rekomendasi tersebut dengan metode kuesioner. Sistem yang hendak dibuat memanfaatkan Application programming interface (API) untuk mengambil hasil pencarian pada mesin pencari, API ini diakses mengunakan internet dan disediakan bebas oleh beberapa mesin pencari dengan syarat dan ketentuan khusus. 4. Implementasi Implementasi penelitian ini dilakukan berdasarkan pada rancangan sistem penentuan rekomendasi pustaka (gambar 2). Langkah-langkah yang dilakukan adalah penentuan dokumen penelitian, kemudian melakukan preprocessing dokumen, kemudian mengekstraksi kata-kata penting, kemudian melakukan pencarian ke mesin pencari berdasarkan kata-kata penting tersebut dan kemudian mendapatkan hasil pencarian. Dari hasil pencariaan tersebut didapatkan koleksi dokumendokumen untuk kemudian di ektrasi menjadi katakata penting yang digunakan untuk melakukan pencarian dokumen penelitian. Dokumen penelitian yang didapatkan dari mesin pencari dengan kriteria pencarian khusus (pencarian hanya dilakukan pada suatu situs penyedia dokumen penelitian). Hasil pencarian tersebut kemudian disusun sedemikian rupa untuk menjadikan hasil rekomendasi.
4.1 Penentuan dokumen input Dalam penelitian ini dokumen yang digunakan sebagai masukan kedalam sistem adalah dokumen penelitian dalam bentuk paper ilmiah. Beberapa dokumen paper ilmiah diambil dari situs sciencedirect.com untuk digunakan sebagai dokumen awal, dokumen yang dipilih bertema “pengelolaan sistem informasi” untuk mempermudah proses analisa hasil rekomendasi. 4.2 Preprocessing Preprocessing dilakukan untuk mendapatkan bentuk dasar dari dokumen penelitian, yaitu dengan membuang bagian-bagian yang digunakan untuk formatting, hasilnya didapatkan dokumen teks (plain text). Dalam penelitian ini dokumen paper ilmiah yang biasanya mengunakan format PDF akan dirubah menjadi bentuk dokumen teks. 4.3 Ekstraksi Kata Kunci Ekstraksi kata kunci dilakukan dengan menerapkan algoritma key phrase identification kedalam dokumen yang telah di preprocessing. algoritma key phrase identification sendiri membutuhkan kata kunci awal (initial key phrase) agar menghasilkan kata kunci bangkitan. Dalam penelitian ini kata kunci awal ditentukan berdasarkan keyword dari paper ilmiah yang terdapat dalam dokumen awal. Hasil dari ekstraksi ini merupakan kata kunci lain yang sejenis dengan kata kunci awal. Agar hasil yang didapatkan tidak terlalu melebar, dalam penelitian ini hasil kata kunci bangkitan yang digunakan adalah 5 kata kunci yang memiliki jumlah kemunculan dalam dokumen paling tinggi, jika terdapat jumlah kemunculan yang sama dalam penentuan 5 kata kunci tersebut, maka kata kunci akan dipilih secara acak. 4.4 Pencarian Kata Kunci Pada Mesin Pencari Pencarian kata kunci pada mesin pencari mengunakan fasilitas yang disediakan oleh Google. Google menyediakan fasilitas pencarian secara otomatis yang bisa dilakukan secara programatik/melalui mesin, sehingga pencarian tidak harus dilakukan secara manual. Untuk itu perlu dilakukan pendaftaran di Google untuk mendapatkan Google API code serta Custom Search API. Pencarian tersebut mengunakan kata kunci bangkitan yang telah didapatkan pada ektraksi kata kunci dan menghasilkan file JSON
4.5 Hasil Pencarian Pada Mesin Pencari
4.8 Hasil Pencarian Khusus pada Situs Tertentu
Hasil Pencarian diperoleh dari membaca file JSON yang didapatkan dari mesin pencari, yang didalamnya memberikan URL halaman web hasil pencarian, semua URL tersebut kemudian diunduh untuk menghasilkan kumpulan dokumen untuk dianalisa.
Hasil Pencarian paper ilmiah didapatkan dari membaca file JSON yang didalamnya memberikan URL dokumen PDF, semua URL tersebut kemudian diunduh untuk menghasilkan kumpulan dokumen untuk dianalisa. 4.9 Pengaturan Hasil rekomendasi pustaka
4.6 Analisa Kata Kunci Untuk Pencarian Dokumen Ilmiah Penentuan dokumen penelitian Hasil kumpulan dokumen web tersebut kemudian dianalisa untuk mendapatkan kata kunci baru. Langkah ini dilakukan untuk mendapatkan kata kunci pencarian yang terkait dengan dokumen namun teks kata kunci tersebut tidak terdapat dalam dokumen awal. 4.7 Pencarian Khusus pada Situs Tertentu Pencarian ini memiliki teknik yang sama seperti pada pencarian kata kunci pada mesin pencari, namun dalam pencarian khusus ini, pencarian dikhususkan untuk mendapatkan hasil dokumen berupa paper ilmiah. Karena melakukan pencarian paper ilmiah pada digital library seperti IEEE, Sciencedirenct, maupun ACM harus berbayar, maka penelitian ini memfokuskan pada pencarian di situs citeseer (http://citeseerx.ist.psu.edu) yang bisa diunduh secara bebas. Pencarian dokumen pada situs tersebut mengunakan google API sebagai alat bantu, yaitu dengan cara memberikan kata kunci yang spesifik untuk melakukan pencarian pada situs citeseer, hasil dari pencarian ini berupa dokumen JSON yang berisi URL dokumen paper ilmiah dengan format PDF. Setelah melakukan beberapa percobaan variasi kata kunci untuk mendapatkan hasil dengan kriteria dokumen paper yang tersedia dalam situs citeseer, dalam penelitian kali ini mengunakan kata kunci yang ekivalen dengan pencarian pada situs google seperti pada listing 1: Listing 1 Query Pencarian yang digunakan ‘Kata kunci’ site:citeseerx.ist.psu.edu/viewdoc/ Kata kunci tersebut memiliki maksud sebagai berikut, ‘kata kunci’ merupakan kata kunci bangkitan yang dihasilkan oleh automatic query expansion, site:citeseerx.ist.psu.edu/viewdoc/ dimaksudkan untuk melakukan pencarian hanya pada situs citeseer yang beralamat pada url http://citeseerx.ist.psu.edu. Pada URL http://citeseerx.ist.psu.edu/viewdoc/ merupakan url yang spesifik untuk menyimpan repository paper yang dimiliki oleh citeseerx.
Metode automatic query expansion dengan mengunakan algoritma key phrase identification dalam implementasinya memberikan hasil yang bervariasi untuk tiap dokumen yang dimasukkan untuk kata kunci bangkitan yang dihasilkan. Terkadang hasil kata kunci bangkitan bisa sangat banyak, atau menghasilkan beberapa kata kunci bangkitan, pada kasus tertentu memungkinkan untuk tidak memberikan hasil kata kunci bangkitan. Hasil kata kunci bangkitan yang banyak menjadi permasalahan ketika dihubungkan dengan pengunaan google API yang memiliki keterbatasan pengunaan hanya 100 kali pemanggilan setiap harinya. Untuk itu perlu mekanisme penentuan kata kunci bangkitan yang penting sehingga hasil rekomendasinya tidak menghasilkan hasil yang terlalu banyak, karena bisa jadi malah membuat binggung penguna sistem ini. Mekanisme penentuan prioritas kata kunci bangkitan yang digunakan untuk proses pengaturan rekomendasi pustaka adalah sebagai berikut : 1. Kata kunci untuk pencarian hasil pustaka dibangkitkan mengunakan algoritma key phrase identification. Hasil dari bangkitan tersebut berupa data yang memiliki atribut sebagai berikut kata kunci inisial, kata kunci bangkitan, jumlah kemunculan dalam dokumen, nama dokumen yang dianalisa. 2. Pengelompokan data dilakukan berdasarkan nama dokumen, jika suatu dokumen memiliki lebih dari 1 kata kunci bangkitan, maka diambil 1 kata kunci saja yang memiliki jumlah kemunculan yang paling tinggi, jika jumlah kemunculan sama maka diambil secara acak. 3. Langkah selanjutnya adalah menghilangkan kata kunci yang ganda, hal ini mungkin muncul karena setiap dokumen mungkin mengeluarkan kata kunci bangkitan yang sama. 4. Langkah selanjutnya adalah penentuan 5 kata kunci bangkitan, jika hasil kata kunci bangkitan kurang dari 5 maka digunakan semua, jika lebih disaring berdasarkan jumlah kemunculan dokumen, jika sama maka diambil secara acak untuk menghasilkan 5 kata kunci bangkitan. 5. kata kunci bangkitan tersebut yang digunakan untuk pencarian pada google API sehingga mendapatkan dokumen paper yang berguna untuk rekomendasi pustaka. url yang didapatkan dari google API kemudian diunduh kedalam folder untuk tiap kata kunci pencarian. Pengaturan hasil
rekomendasi pustaka dikelompokkan berdasarkan kata kunci bangkitan yang dihasilkan oleh algoritma key phrase identification. 5. Evaluasi Evaluasi dilakukan pada 2 hal, yaitu evaluasi terhadap identifikasi kata kunci dan evaluasi terhadap hasil rekomendasi pustaka. 5.1 Evaluasi Terhadap Identifikasikan Kata Kunci Pengidentifikasian kata kunci mengunakan algoritma key phrase identification berdasarkan kata kunci bangkitan sesuai dengan keyword yang diidentifikasikan dari abstrak paper ilmiah. Untuk mengevaluasi hasil identifikasi kata kunci, metode yang digunakan adalah sebagai berikut: 1. Menentukan dokumen paper ilmiah yang hendak diberi rekomendasi untuk penentuan pustaka. 2. Melakukan evaluasi apakah hasil kata kunci bangkitan tersebut sesuai dengan dokumen paper ilmiah yang dievaluasi. Karena kata kunci bangkitan terdiri atas 2 bagian, yaitu hasil ektraksi kata kunci dokumen dan hasil automatic query expansion, maka evaluasi dilakukan pada ke dua bagian tersebut dibandingkan dengan dokumen paper ilmiah awal. Paper yang digunakan untuk mengevaluasi sistem bisa dilihat pada tabel 1, dalam evaluasi sistem ini, digunakan 3 paper ilmiah sebagai test case evaluasi proses dan hasil dari rekomendasi pustaka. Ketiga paper tersebut digunakan sebagai dokumen yang diuji cobakan untuk mendapatkan hasil rekomedasi pustaka. Langkah awal adalah mengektraksi kata kunci dari ketiga dokumen tersebut, algoritma key phrase identification yang digunakan pada metode automatic query expansion membutuhkan kata kunci inisial agar bisa mendapatkan hasil, untuk itu keyword yang diidentifikasikan pada abstrak digunakan sebagai kata kunci inisial. Hasil kata kunci bangkitan bisa dilihat pada tabel 2, hasil kata kunci bangkitan yang dihasilkan sesuai dengan dokumen awal, karena kata-kata tersebut bersumber dari dokumen awal. Evaluasi terhadap relevansi kata kunci hasil bangkitan dilakukan dengan memberikan melibatkan responden untuk menilai apakah hasil kata kunci bangkitan tersebut relevan dengan dokumen yang digunakan sebagai masukan. Berdasarkan hasil evaluasi relevansi hasil ekstraksi kata kunci yang dihasilkan mempunyai rerata sebesar 2.99 sehingga dapat disimpulkan bahwa kata kunci hasil bangkitan tersebut relevan dengan dokumen asalnya.
Tabel 1 Paper yang digunakan untuk mengevaluasi sistem Paper Mirka Kans. 2008. An approach for 1 determining the requirements of computerised maintenance management systems. Comput. Ind. 59, 1 (January 2008), 32-40. DOI=10.1016/j.compind.2007.06.003 http://dx.doi.org/10.1016/j.compind.2007.0 6.003. Paper Nicolas Anquetil, Kathia M. de Oliveira, 2 Kleiber D. de Sousa, and Marcio G. Batista Dias. 2007. Software maintenance seen as a knowledge management issue. Inf. Softw. Technol. 49, 5 (May 2007), 515-529. DOI=10.1016/j.infsof.2006.07.007 http://dx.doi.org/10.1016/j.infsof.2006.07.0 07 Paper Daniel P. Lorence and Amanda Spink. 3 2004. Healthcare information systems outsourcing. Int. J. Inf. Manag. 24, 2 (April 2004), 131-145. DOI=10.1016/j.ijinfomgt.2003.12.011 http://dx.doi.org/10.1016/j.ijinfomgt.2003.1 2.011 Tabel 2 Hasil ekstraksi kata kunci dari dokumen asal, relevansi diukur oleh responden dengan range penilaian (1-tidak relevan, 2-cukup relevan, 3relevan, dan 4-sangat relevan) Identitas Paper paper 1
paper 2
paper 3
Kata Kunci hasil ekstraksi
relev ansi
information technology maintenance management maintenance organisation
3
software maintenance
4
software technology knowledge management
3
software engineers
2
software engineering healthcare organizations information management
1
Rerata releva nsi
4 2
3
4
2.8
2.5 3.5
3
Agar hasil rekomendasi pustaka bisa menghasilkan hasil yang menyeluruh, maka diimplementasikan automatic query expansion, yaitu melakukan pengunduhan halaman web untuk mendapatkan kata kunci yang relevan namun tidak ada dalam dokumen awal. Kata kunci bangkitan tersebut didapatkan dari analisa dokumen yang telah diunduh sesuai denga kata kunci bangkitan yang didapatkan sebelumnya. Hasil bangkitan kata kunci tersebut bisa dilihat pada Tabel 3. Hasil bangkitan
kata kunci pada tahap ini bisa jadi sangat banyak, untuk itu perlu dilakukan mekanisme untuk menentukan kata kunci bangkitan yang paling relevan. Kata kunci ini nantinya digunakan untuk melakukan pencarian paper ilmiah melalui google API. Berdasarkan hasil evaluasi responden yang dilakukan untuk mengukur relevansi hasil identifikasi kata kunci berdasarkan metode automatic query expansion didapatkan bahwa nilai rerata relevansi yang didapatkan adalah 2.3 (cukup relevan), ini artinya kata kunci tersebut cukup relevan untuk dijadikan kata kunci pencarian pada mesin pencari.
situs. Hal ini masih mungkin terjadi karena database yang digunakan oleh google API dengan situs Google berbeda, hal ini ditunjukan dengan memberika kata kunci pencarian yang sama pada situs tersebut, akan mengeluarkan hasil yang berbeda. Sedangkan jumlah dokumen ilmiah yang didapatkan sebagai hasil rekomendasi pustaka sebesar 92% dari total dokumen yang berhasil terunduh. Hal ini memberikan hasil gambaran bahwa hasil rekomendasi pustaka yang dihasilkan memberikan rekomendasi dokumen ilmiah bagi pengunannya. Tabel 4 Evaluasi hasil rekomendasi pustaka
Tabel 3 kesesuaian kata kunci bangkitan untuk pencariah dokumen paper dengan dokumen asal, relevansi diukur oleh responden dengan range penilaian (1-tidak relevan, 2-cukup relevan, 3relevan, dan 4-sangat relevan) Identitas Paper
Kata Kunci Pencarian Paper
releva nsi
paper 1
information technology resource management budget maintenance management system
3
maintenance load maintenance organization knowledge management
1
software engineering
1
software engineers
2
software developers
2
software maintenance
4
highvalue organizations
1
healthcare research information management information professionals
3
paper 2
paper 3
Rerat a releva nsi 2.2
Identi tas Paper paper 1
1 4
2 2.6
paper 2
4
2.125 paper 3
3,5 1
5.2 Evaluasi Terhadap Identifikasikan Kata Kunci Rerata
Evaluasi terhadap hasil rekomendasi dilakukan dengan cara melakukan pengunduhan terhadap hasil pencarian dan menghitung berapa persen url yang bisa diunduh, selain itu untuk mengukur kesesuaian hasil rekomendasi, dilihat juga berapa persen hasil pencarian yang merupakan paper ilmiah. Berdasarkan hasil evaluasi didapatkan rata-rata 79% link url yang diberikan bisa diunduh dengan berhasil, kegagalan pengunduhan biasanya disebabkan oleh hak akses yang dibatasi atau dokumen telah dihapus atau dipindah oleh pemilik
Kata Kunci Pencarian Paper information technology resource management budget maintenance management system maintenance load maintenance organization knowledge management software engineering software engineers software developers software maintenance highvalue organization s healthcare research information management information professionals
Has il pen cari an
Dokumen yang bisa diunduh
jumlah dokumen ilmiah
10
8
8
100% 80%
89% 10
9
90%
8 100%
10
8
80%
8
10
9
90%
9
10
5
50%
5
10
9
90%
9
10
70%
10
7 1 0
10
8
80%
10
7
70%
100% 100% 100%
10
1 0 1 0 1 0
0
0
10 10
100%
100% 100% 100% 0% 79%
100% 7 1 100% 0 100% 8 100% 7 100% 1 0 1 100% 0 1 100% 0 0% 0 92%
Untuk mengukur relevansi hasil rekomendasi, dilakukan evaluasi dengan mengambil sample dokumen yang menjadi hasil rekomendasi untuk setiap paper, kemudian dokumen paper tersebut dinilai relevansinya oleh responden.responden memberikan nilai dengan jangkauan 1 sampai 4, dimana 1 menyatakan bahwa dokumen tidak relevan dengan dokumen awal, sedangkan 4 menyatakan dokumen hasil rekomendasi sangat relevan.
Berdasarkan hasil evaluasi responden, menyatakan bahwa hasil rekomendasi pustaka yang dihasilkan relevan dengan dokumen yang dijadikan sebagai dokumen inisial. Tabel 5 Evaluasi Relevansi hasil rekomendasi berdasarkan survey dengan range penilaian (1-tidak relevan, 2-cukup relevan, 3-relevan, dan 4-sangat relevan) Identitas Paper Hasil penilaian relevansi Paper 1 2.33 Paper 2 2.5 Paper 3 3 Rerata 2.61 6.
Kesimpulan dan Saran
Berdasarkan hasil dan pembahasan yang telah dilakukan, dapat disimpulkan bahwa: 1. Identifikasi kata kunci penting yang ada dalam dokumen dapat diselesaikan dengan cara membaca dokumen masukan yang berformat word processor atau Portable Data Format (PDF) untuk kemudian diolah menjadi dokumen teks murni. Dari sana diterapkan algoritma key phrase identification untuk mengidentifikasikan kata kunci yang penting dalam dokumen. Hasil kata kunci bangkitan yang dihasilkan memiliki nilai konfiden yang bagus dan relevan untuk digunakan sebagai kata kunci pencarian paper ilmiah sebagai dasar rekomendasi pustaka. 2. Rekomendasi pustaka yang relevan dengan materi penelitian dapat dihasilkan dengan penerapan automatic query expansion. Automatic query expansion mengunakan kata kunci yang mempunyai kaitan erat dengan dokumen awal sebagai dasar untuk melakukan pencarian paper ilmiah pada mesin pencari. Berdasarkan hasil implementasi 79% URL yang diperoleh dari implementasi system berhasil didownload dan 92% dari dokumen yang didownload tersebut merupakan artikel/paper ilmiah. Berdasarkan hasil evaluasi yang dilakukan oleh responden, menyatakan bahwa hasil rekomendasi yang dihasilkan relevan terhadap dokumen yang dijadikan inputan, dengan demikian dokumen tersebut bisa digunakan sebagai referensi dalam mempertajam dan melengkapi studi literature suatu karya ilmiah. Penelitian lebih lanjut tentang sistem rekomendasi pustaka mengunakan automatic query expansion dapat dikebangkan dengan mengunakan algoritma penentuan kata kunci bangkitan selain key phrase indentification. Selain itu perlu dibuat sistem berbasis web sehingga penguna lebih mudah mengakses sistem ini. Batasan yang cukup menganggu implemtasi sistem ini adalah masih
tergantungnya dengan API mesin pencari, padahal API tersebut memiliki batasan pemakaian untuk tiap harinya, perlu dibuat atau dicari API yang bebas untuk melakukan pencarian dokumen ilmiah tanpa dibatasi oleh batasan pemakaian.
Daftar Pustaka: Amy, L. N., & Meyer, C. D. (2006). Google's PageRank and Beyond. Princeton University Press. Capocci, A., & Caldarelli, G. (2007). Folksonomies and clustering in the collaborative system CiteULike. Journal of Physics A: Mathematical and Theoretical , 41, 9. Farooq, U., Ganoe, C. H., Carroll, J. M., & Lee Giles, C. (2007). Designing for e-science: Requirements gathering for collaboration in CiteSeer. International Journal of HumanComputer Studies , 67 (4), 297–312. Khan, M. S., & Khor, S. (2004). Enhanced Web Document Retrieval Using Automatic Query Expansion. Journal Of The American Society For Information Science And Technology , 55 (1), 29–40. Kharisma, I. R. (2011). News Topic Discovery Based On Key Phrase Identification Algorithm. Proceedings of the 3rd International Conferences and Workshops on Basic and Applied Sciences 2011. Surabaya. Kharisma, I. R., & Mardiyanto, M. S. (2011). Penyusunan Taksonomi Rekayasa Perangkat Lunak Berdasarkan Penelusuran Mesin Pencari. Proceedings of Seminar Nasional Ilmu Komputer General Approach on Multidisciplinary Application. Yogyakarta. Kingrey, K. P. (2005). Concepts of Information Seeking and Their Presence in the Practical Library Literature. Library Philosophy and Practice (e-journal) , 4 (2), 36. McNee, S. M., Albert, I., Cosley, D., Gopalkrishnan, P., Lam, S. K., Rashid, A. M., et al. (2002). On the Recommending of Citations for Research Papers. Proceedings of the 2002 ACM conference on Computer supported cooperative work CSCW 02, (p. 116). Naak, A., Hage, H., & Aϊmeur, E. (2009). A Multicriteria Collaborative Filtering Approach for Research Paper Recommendation in Papyres. ETechnologies Innovation in an Open World 26, (pp. 25-39). Phillips, E. M., & Pugh, D. S. (2005). How to get a PhD : A handbook for students and their supervisors (fourth edition ed.). Open University Press.