BAB I PENDAHULUAN 1.1 Latar Belakang Peningkatan jumlah dokumen ilmiah yang ada menimbulkan kebutuhan akan suatu sistem yang dapat memberikan rekomendasi dokumen ilmiah yang baik. Recommendation system merupakan model aplikasi yang dibangun dari hasil pengamatan terhadap keadaan dan keinginan pengguna. Sistem ini memanfaatkan opini pengguna terhadap suatu item dalam domain atau kategori tertentu. Karena itu sistem ini memerlukan model rekomendasi yang tepat agar apa yang direkomendasikan sesuai dengan keinginan pengguna, serta mempermudah pengguna mengambil keputusan yang tepat (McGinty dan Smyth, 2006). Recommendation system atau disebut pula recommender system mulai diperhatikan sejak kemunculan penelitian tentang collaborative filtering pada pertengahan 90‟an (Goldberg, dkk., 1992), (Resnick, dkk., 1994). Selama dekade terakhir ini, recommendation system telah banyak diterapkan dengan berbagai pendekatan baru, baik oleh dunia industri maupun akademis. Pada dunia industri, recommendation system sangat diperlukan terutama pada e-commerce web sites. Ini ditunjukkan dengan penggunaan recommendation system pada sebagian besar e-commerce web sites yang dimiliki oleh industri. Selain membantu pengguna dalam mencari item yang diinginkan, recommendation system juga dapat meningkatkan penjualan, ketertarikan maupun loyalitas pengguna terhadap suatu item dan juga perusahaan (Godfrey, 2007). Amazone.com merupakan contoh industri yang menerapkan sistem rekomendasi dalam e-commerce web sites mereka (Linden, dkk., 2003). Penerapan recommendation system berbasis collaborative filtering juga diterapkan pada jejaring sosial seperti Facebook, MySpace, dan LinkedIn (Ricci, dkk., 2011) Berbagai metode pendekatan telah diterapkan dan dikembangkan dalam implementasi recommendation system. Berdasarkan object filtering, metode tersebut dapat dikelompokkan ke dalam 3 jenis umum, yaitu metode collaborative
1
2
filtering, content-based filtering, dan hybrid filtering (Hsieh, dkk., 2004). Metode yang banyak digunakan adalah collaborative filtering dan content-based filtering. Masing-masing metode tersebut memiliki sejumlah kelebihan. Umpan balik yang digunakan pada metode collaborative filtering mengakibatkan sistem dapat memprediksi keinginan pengguna. Sedangkan metode content-based filtering menggunakan konten dari item sehingga dapat memberikan rekomendasi tanpa adanya umpan balik dari pengguna. Di samping memiliki kelebihan, kedua metode tersebut juga memiliki sejumlah kelemahan. Metode collaborative filtering baik user-based maupun item-based sangat tergantung dengan umpan balik yang diberikan oleh pengguna. Umpan balik berupa peringkat, data transaksi, maupun data identitas yang diberikan oleh pengguna. Tanpa umpan balik, metode collaborative filtering tidak dapat melakukan rekomendasi. Penggunaan data identitas pada metode user-based collaborative filtering juga mengakibatkan pengguna harus terdaftar pada sistem untuk membedakan klasifikasi data yang dikumpulkan dari pengguna. Akan tetapi, pengguna terkadang enggan untuk mendaftar pada sistem karena kekhawatiran terhadap penyalahgunaan data identitas. Di sisi lain, metode content-based memiliki ketergantungan terhadap perbandingan konten maupun atribut antara item. Recommendation system berbasis data mining dapat dikategorikan menjadi collaborative filtering maupun content-based filtering. Namun recommendation system yang memanfaatkan data mining berbasis data transaksi dapat dikategorikan
ke
dalam
item-based
collaborative
collaborative filtering menggunakan kedekatan
filtering.
item untuk
Item-based menentukan
rekomendasi. Kedekatan dapat dicari dengan melihat data transaksi yang melibatkan item tersebut. Metode pada data mining dapat dimanfaatkan dalam pencarian rekomendasi karena data mining juga memiliki fungsi untuk mencari kedekatan atara item. Dalam penerapan item-based ini dapat digunakan berbagai metode dalam data mining diantaranya klasifikasi, asosiasi, dan klaterisasi.
3
Kaidah asosiasi digunakan untuk mencari hubungan asosiatif antara kombinasi item. Asosiasi telah sukses diterapkan dalam masalah market basket. Pada pencarian kaidah asosiasi terdapat 2 tahap yang dilalui. Salah satu tahap yang dilakukan untuk pencarian kaidah asosiasi adalah penggalian frequent itemset dengan memanfaatkan minimum support. Tahap ini merupakan tahap yang menggunakan sumber daya yang paling besar. Semakin besar data transaksi yang digunakan maka semakin besar sumber daya yang digunakan. Data transaksi menyimpan informasi penting yang dihasilkan selama interaksi manusia dan komputer yang berguna untuk algoritma pembentukan rekomendasi. Data transaksi juga mencakup umpan balik eksplisit pengguna (Ricci, dkk., 2011). Untuk menghasilkan frequent itemset yang baik, maka minimum support pada tahap ini harus disesuaikan dengan data transaksi yang dimiliki. Recommendation system untuk dokumen ilmiah dapat memanfaatkan fungsi dari penggalian frequent itemset ini. Hanya saja, hubungan antara item belum dapat dipastikan secara jelas walaupun fungsi dari penggalian itu sendiri merupakan pencarian hubungan antara item. Ini disebabkan karena tahap penggalian frequent itemset tidak dilanjutkan dengan perhitungan confident antara item/itemset. Untuk mendapatkan kepastian hubungan antar item dalam itemset, dapat digunakan perbandingan keyword yang diekstraksi dari masing-masing dokumen ilmiah. Ekstraksi keyword yang dilakukan secara manual membutuhkan waktu yang tidak sedikit. Untuk itu, ekstraksi keyword pada dokumen ilmiah dapat menggunakan keyword extraction system. Dalam penerapannya, umumnya sistem ini digunakan untuk identifikasi topik dokumen. Pembandingan keyword dokumen termasuk content-based recommendation system karena menggunakan isi dari dokumen untuk membentuk rekomendasi. Keyword extraction system merupakan sistem yang dapat menemukan keyword dari dokumen secara otomatis. Metode cosine similarity merupakan salah satu metode untuk menghitung similaritas dokumen. Kelebihan utama dari metode cosine similarity adalah tidak terpengaruh pada panjang pendeknya suatu dokumen (Rozas dan
4
Sarno, 2011). Dengan melakukan perbandingan keyword yang dihasilkan, maka kedekatan antara item-pun dapat dipastikan. Penentuan rekomendasi tanpa penggunaan data peringkat dan data identitas pengguna dapat dilakukan dengan menggunakan kombinasi metode penggalian frequent itemset dan perbandingan keyword yang menjadi kontribusi penelitian ini. Penggunaan penggalian frequent itemset yang dikombinasikan dengan perbandingan keyword akan menghasilkan hybrid recommendation system. Penggalian frequent itemset akan memperkecil jumlah pembandingan keyword yang dilakukan sehingga jumlah perbandingan keyword dapat dikurangi. Sedangkan perbandingan keyword akan memastikan item yang dihasilkan algoritma penggalian frequent itemset saling terkait. Berdasarkan latar belakang tersebut, maka pada penelitian ini akan dilakukan kombinasi dari algorima penggalian frequent itemset dan perbandingan hasil keyword extraction system untuk penentuan rekomendasi. Kombinasi ini akan menghasilkan hybrid recommendation system untuk penentuan rekomendasi dokumen ilmiah. 1.2 Rumusan Masalah Berdasarkan latar belakang yang telah dipaparkan dapat dirumuskan masalah yang akan dikaji dalam penelitian ini yaitu bagaimana menghasilkan recommendation system untuk merekomendasikan dokumen ilmiah tanpa menggunakan data identitas pengguna dan data peringkat yang diberikan oleh pengguna dengan memanfaatkan kombinasi 2 metode. Metode pertama melakukan penggalian frequent itemset pada data transaksi pemilihan dokumen ilmiah. Kemudian metode kedua melakukan perbandingan antar item yang masuk pada itemset dengan membandingkan keyword yang dihasilkan secara otomatis.
5
1.3 Batasan Masalah Berikut merupakan batasan masalah yang digunakan agar penelitian ini tetap mengacu pada topik penelitian: a.
Keyword extraction system akan didasarkan pada dokumen ilmiah berbahasa Indonesia.
b.
Keyword extraction system melakukan ekstraksi terhadap teks bukan gambar ataupun bentuk lain selain teks.
c.
Recommendation system yang dibangun tidak menekankan pada proses seleksi dokumen saat pencarian dokumen.
d.
Jumlah rekomendasi yang dihasilkan oleh sistem akan ditentukan secara manual oleh administrator sistem.
e.
Dokumen ilmiah yang digunakan untuk pengujian merupakan 100 dokumen ilmiah yang berupa jurnal bahasa Indonesia yang diambil secara acak.
1.4 Tujuan Penelitian Tujuan penelitian yaitu menghasilkan recommendation system dokumen ilmiah bahasa Indonesia yang berfokus pada pemanfaatan algoritma penggalian frequent itemset dan perbandingan keyword dengan memanfaatkan data transaksi dan isi dari dokumen. 1.5 Manfaat Penelitian Penelitian ini diharapkan menjadi referensi tentang pengembangan hybrid recommendation
system
untuk
dokumen
berbahasa
Indonesia
tanpa
memperhitungkan peringkat yang diberikan pengguna dan juga dapat mengatasi kelemahan dari item-based collaborative filtering dan content-based filtering yang berdiri sendiri. Selain itu, penelitian ini juga diharapkan menjadi referensi dalam pemanfaatan algoritma pada data mining dan text mining untuk pengembangan recommendation system.
6
1.6 Metodologi Penelitian Penelitian ini dilakukan dengan mengikuti langkah-langkah sebagai berikut: 1.
Mempelajari pustaka dan literatur acuan: tahap ini dilakukan dengan membaca serta memahami buku teks, jurnal, dan karya ilmiah lainnya yang terkait dengan penelitian.
2.
Analisis: kegiatan analisa meliputi analisa metode, alternatif algoritma yang diterapkan, sepesifikasi perangkat lunak, dan analisa fungsionalitas.
3.
Perancangan: tahap ini meliputi perancangan algoritma dan pemodelan arsitektur untuk metode keyword extraction system, penggalian frequent itemset, dan perbandingan keyword yang diterapkan untuk penentuan rekomendasi dokumen.
4.
Implementasi:
tahap
implementasi
merupakan
pembangunan
sistem
perangkat lunak berdasarkan perancangan yang telah dilakukan sebelumnya. 5.
Evaluasi dan perbaikan: pada tahap ini dilakukan evaluasi dari sistem serta memperbaikinya jika terdapat kesalahan yang terjadi.
6.
Pengujian dan analisa akhir: tahap ini meliputi pengujian kualitas dan kinerja dari recommendation system yang dibangun.
7.
Penulisan laporan: pada tahap ini dilakukan penulisan laporan dari hasil penelitian yang telah dilakukan.
7
1.7 Sistematika Penulisan Penulisan tesis ini terdiri dari 7 bab, adapun sistematika dari tesis ini adalah: BAB I PENDAHULUAN Pada bab ini diuraikan secara singkat mengenai latar belakang masalah, perumusan masalah, batasan masalah, tujuan penelitian, manfaat penelitian, metodologi penlitian, dan sistematika penulisan. BAB II TINJAUAN PUSTAKA Pada bab ini dibahas penelitian-penelitian yang sudah dilakukan sebagai perbandingan dan acuan untuk penelitian ini. BAB III LANDASAN TEORI Pada bab ini diuraikan teori-teori dasar berkaitan dengan penelitian yang dilakukan sebagai dasar dalam pemecahan masalah. Teori tersebut meliputi recommendation system, keyword extraction system, penggalian frequent itemset serta cosine similarity. BAB IV ANALISIS DAN PERANCANGAN Pada bab ini diuraikan perancangan metode-metode yang digunakan pada penelitian. BAB V IMPLEMENTASI Pada bab ini dibahas tentang implementasi rancangan algoritma dan antarmuka yang digunakan pada sistem meliputi potongan program serta implementasi rancangan antarmuka sistem. BAB VI HASIL DAN PEMBAHASAN Pada bab ini dilakukan pengujian terhadap recommendation system yang dibangun
serta
pembahasan
hasil
pengujian.
Pengujian
meliputi
8
perhitungan nilai precision, recall, F-measure, mean average precision dari sistem yang dibangun. BAB VII KESIMPULAN DAN SARAN Pada bab ini berisi kesimpulan dari hasil penelitian serta saran-saran untuk penelitian lebih lanjut.