Penggunaan Text Mining pada Pengadaan Buku di Perpustakaan Universitas Indonesia Annisa Marlin Masbar Rus , Isti Surjandari Departemen Teknik Industri, Fakultas Teknik, Universitas Indonesia, Depok, 16424
[email protected]
Abstrak Pengadaan buku melakukan penyeleksian kebutuhan topik berdasarkan rekomendasi dosen, beberapa mahasiswa, maupun pustakawan sendiri. Sumber ini dianggap kurang menyeluruh, sehingga dibutuhkan sumber informasi lain, yaitu kata kunci pencarian buku. Penelitian ini dilakukan di Perpustakaan Universitas Indonesia dengan menggunakan salah satu dari metode text mining, yaitu metode Latent Relation Discovery untuk menemukan nilai relation strength dengan memperhitungkan kemunculan bersamaan dan jarak antara kata. Hasil dari penelitian menemukan 126 pasangan kata atau topik kata kunci pencarian dan 56 topik yang sesuai dengan topik buku pinjaman dan 2 topik yang sesuai dengan topik buku yang akan diadakan, sehingga 58 topik kemudian diajukan. Jika dibandingkan dengan hanya melihat frekuensi kata, topik ini dapat memberikan informasi yang lebih spesifik. Namun jika dibandingkan dengan topik pada buku pinjaman dan daftar pengadaan buku, topik kata kunci menjadi terlalu umum dan terbatas pada kata yang muncul. Kata Kunci : Text mining, metode Latent Relation Discovery, nilai relation strength, pengadaan buku, topik buku. Use of Text Mining in Book Acquisition in University of Indonesia Library Abstract Books acquisition usually do the screening needs of topics based on lecturer recommendations, some students, and librarian themselves. These sources are considered less comprehensive, thus other sources of information is needed, that is keyword. This research was conducted at the University of Indonesia Library using one of the methods of text mining, the method of Latent Relation Discovery, to find relations strength value by considering the emergence of concurrence and distance between words. The results of the study found 126 pairs of words or topic from keyword and 56 topics that fit with the topic of the borrowed book and the 2 topics that match the topics to the book that is recommended. Rather than simply considering frequency of the words, this topic can provide more specific information, but when it compared with the topics from the loan book and textbook acquisition list, these topics become too common and limited to words that appear.
Keywords
:
Text mining, Latent Relation Discovery method, relation strength value, books acquisition, book topics.
1 Penggunaan text..., Annisa Marlin Masbar Rus, FT UI, 2014
Pendahuluan Kebanyakan pustakawan melakukan penambahan buku berdasarkan rekomendasi dari pustakawan sendiri, beberapa pengguna, fakultas, dosen dan para penjual buku (Stevens,1999). Sistem usulan pengadaan seperti inilah yang kemudian juga digunakan oleh Perpustakaan UI untuk membuat keputusan pengadaan buku baru. Namun, koleksi-koleksi ini dihasilkan dari preferensi individu dan bukan dari pengamatan secara keseluruhan atau global. Pada akhirnya informasi ini dianggap tidak cukup dapat diandalkan (Wu et al, 2004). Oleh karena itu dibutuhkannya deksripsi permintaan dan pencarian kebutuhan buku dari pengamatan secara global. Penerapan teknologi informasi pada perpustakaan UI memungkinkan para penggunanya untuk mencari banyak hal pada halaman websitenya. Pengguna dapat mencari lokasi dan ketersediaan koleksi dengan memasukkan kata kunci pencarian pada kolom pencarian di halaman website ini. Tanpa membutuhkan pengiriman surat rekomendasi dari para penggunanya, perpustakaan dapat pula menggunakan kata kunci pencarian ini untuk menemukan topik buku yang dicari dan dibutuhkan oleh kebanyakan para pengguna secara global. Namun, jumlah kata kunci pencarian ini mencapai lebih dari 10.000 masukan setiap bulannya. Menurut Breeding (2013), dengan menggunakan metode yang sesuai data dalam jumlah yang besar ini dapat digunakan, sehingga menghasilkan informasi yang berguna bagi perpustakaan. Salah satu metode yang dapat mengetahui informasi tersembunyi dari data dalam jumlah besar ini adalah data mining. Berfokus
pada
bagian
pengadaan
di
Perpustakaan
UI
dalam
melakukan
pengembangan koleksi untuk dapat meningkatkan kepuasan pengguna terhadap ketersediaan buku yang relevan, text mining digunakan untuk menemukan kata kunci topik pada kumpulan kata kunci pencarian yang dimasukkan oleh pengguna perpustakaan. Metode text mining yang digunakan adalah metode LRD untuk menentukan hubungan antar kata yang dianggap memiliki keterkaitan yang tinggi dan dapat membentuk topik yang relevan. Selain itu perpustakaan UI belum menggunakan kata kunci ini untuk menentukan topik, padahal dengan mengetahui kata kunci topik, daftar pengadaan buku dapat dibentuk berdasarkan pencarian atau kebutuhan dari kebanyakan pengguna. Sehingga pustakawan dapat mengadakan buku, baik berupa penambahan buku yang telah ada atau penambahan buku untuk topik baru, yang sesuai dengan kebutuhan kebanyakan pengguna. Hal ini akan berdampak baik bagi kepuasan pengguna dan meningkatkan penggunaan teknologi informasi pada perpustakaan.
2 Penggunaan text..., Annisa Marlin Masbar Rus, FT UI, 2014
Tinjauan Teoritis Perpustakaan Perguruan Tinggi Perpustakaan perguruan tinggi ini sendiri menurut Hasugian (2009) adalah sebuah perpustakaan atau sistem perpustakaan yang dibangun, diadministrasikan dan didanai oleh sebuah universitas untuk memenuhi kebutuhan informasi, penelitian dan kurikulum dari mahasiswa, fakultas dan stafnya. Berbagai pengertian tentang perpustakaan tinggi lainnya secara umum menyatakan bahwa perpustakaan merupakan sumber informasi bagi institusi pendidikan perguruan tinggi untuk menjalankan fungsinya dalam melakukan pembelajaran, penelitian dan pengajaran.
Pengembangan Koleksi Perpustakaan memiliki tugas untuk melakukan pengembangan koleksi agar koleksi buku tetap sesuai dengan perkembangan zaman dan dapat memenuhi kebutuhan penggunanya. Siregar (2008) dalam hal ini juga mengatakan bahwa pengembangan koleksi adalah prioritas utama perpustakaan. Menurut Sulistyo (1991) bentuk pengembangan koleksi dapat dilakukan dengan mengusahakan bahan-bahan yang belum di miliki perpustakaan atau bisa juga berupa penambahan bahan pustaka yang masih kurang. Secara umum proses pengembangan koleksi ini mencakup prosess penghimpunan dan penyeleksian bahan yang kemudian dijadikan koleksi, dengan harapan koleksi ini sesuai, lengkap dan aktual dengan kebutuhan para pengguna (Sumantri, 2002). Text Mining Menurut Miner et al (2012), text mining adalah istilah umum yang menggambarkan berbagai teknologi yang dapat menganalisis dan memproses data teks yang bersifat semi terstruktur (semistructured) dan tidak terstruktur (unstructured). Hal ini lah yang kemudian membedakannya dengan data mining karena ia mengolah data yang bersifat terstruktur. Tujuan dari text mining adalah untuk menemukan arti semantik atau maksud dari teks berdasarkan susunan kata-kata atau teks yang disebut sintkasis. Proses pengolahan data teks pada text mining sebenarnya adalah proses pengolahan teks dengan mengubahnya menjadi data dalam bentuk numerik agar dapat diolah oleh program secara otomatis. Hal inilah yang membuat text mining menghabiskan 80-90% usaha dan waktu pada praproses datanya.
3 Penggunaan text..., Annisa Marlin Masbar Rus, FT UI, 2014
Praproses Teks Praproses teks ini dilakukan dengan tujuan untuk mengurangi kemungkinan terjadinya kesalahan makna yang terbentuk dari hasil perhitungan. Karena teks dibentuk untuk dimengerti oleh manusia dan kemampuan untuk memahami teks seperti halnya otak manusia bekerja masih sangat sulit untuk di lakukan (Hearst, 2003). Berikut ini adalah kegiatan praproses yang dilakukan. a. Menentukan ruang lingkup atau satuan teks yang akan diproses. Penentuan ini dilakukan berdasarkan tujuan dari text mining. Misalnya untuk fungsi klasifikasi atau kluster, satuan teks yang cocok adalah satuan per dokumen, sedangkan untuk proses sentiment analysis atau pencarian informasi (information retrieval), satuan teks dalam bentuk paragraf atau unit yang lebih kecil akan lebih relevan. b. Tokenization, yaitu sebuah proses yang memecah semua teks menjadi satuan kata yang disebut token, dengan mempertimbangkan spasi dan tanda baca. Sedangkan untuk akronim atau singkatan seperti K.P.K, smart tokenization dapat digunakan untuk menghindari pembentukan token K.P.K menjadi K, P, dan K. c. Menghilangkan kata-kata yang umum atau yang lebih dikenal dengan istilah stopwords. Penghapusan kata-kata ini untuk satuan teks seperti dokumen tidak akan memberikan dampak hilangnya informasi pada teks, karena berdasarkan perhitungan algoritma katakata ini tidak memiliki pengaruh yang besar terhadap hasil akhir. Bahkan hal ini akan mempercepat pemprosesan data. Kecuali bagi unit teks yang lebih kecil seperti paragraf atau frase, karena hal ini akan membuatnya kehilangan maksud jika kata-kata ini dihapuskan. d. Menormalisasi semua kata-kata agar menjadi kata asal dengan menghilangkan imbuhan pada kata yang disebut proses stemming. Proses ini akan membantu fungsi klasifikasi, kulster atau indeks pencarian dalam meningkatkan keakurasian hasil dengan mengelompokkan kata-kata tersebut berdasarkan konsep. e. Menormalisasi ejaan, mencakup pembenaran ejaan yang salah atau berbeda sehingga dapat menghindari penambahan token kata yang memiliki arti yang sama. Hal ini sering kali terjadi pada bahasa inggris Amerika dan Inggris seperti kata color dan colour yang memiliki arti yang sama, yaitu warna. f. Mendeteksi batasan kalimat, yaitu seperti membagi data dalam bentuk paragraf menjadi penggalan-penggalan kalimat agar mempermudah proses in identifikasi kata, tetapi bukan menjadi satuan teks. Hal ini berlaku untuk data dalam bentuk paragraf, dokumen atau bentuk data lain yang terdiri lebih dari satu kalimat. 4 Penggunaan text..., Annisa Marlin Masbar Rus, FT UI, 2014
g. Menormalisasi huruf besar dan kecil. Agar perhitungan kata memiliki keseragaman bentuk untuk memudahkan proses identifikasi oleh program. Semua kata dinormalisasi dengan cara mengubah bentuk semua kata menjadi huruf besar atau huruf kecil.
Metode Latent Relation Discovery (LRD) Bertujuan untuk meningkatkan pemahaman hubungan antar kata yang tersembunyi. Goncalves et al (2006) memperkenalkan metode Latent Relation Discovery untuk melakukan pekerjaan dalam bidang information retrieval pada teks. Metode LRD ini menggabungkan pertimbangan kemunculan kata secara bersamaan dan jarak antar kata untuk menentukan hubungan antar kata yang disebut relation strength. Setiap kata yang ditargetkan akan dihitung dan diurutkan berdasarkan relation strengthnya. Dalam pengaplikasiannya metode LRD merupakan metode machine learning yang tidak membutuhkan data latihan dalam penggunaannya atau disebut unsupervised learning, sehingga dapat memperkecil sifat kelemahan dari metode supervised learning. Pendekatan ini melakukan perhitungan pada tiga aspek, yaitu:
a. Kemunculan secara bersamaan (co-occurence). Suatu kata dikatakan muncul secara bersamaan jika mereka muncul pada satuan teks yang sama, satuan ini dapat berupa dokumen atau jendela kata (text window) yang kecil. Jika kata tersebut berada pada satuan kata yang berbeda, maka kata tidak dikatakan muncul secara bersaman. Secara umum, kata akan dikatakan memiliki hubungan yang dekat jika ia cenderung untuk muncul secara bersamaan. Untuk menormalkan hubungan antar kata ini, frekuensi relatif dari kemunculan secara bersamaan ini dapat didefinisikan sebagai berikut.
̂(
(
)
)
Di mana Num(W1,W2) adalah jumlah kemunculan kata W1 dan W2 secara bersamaan, dan N adalah jumlah total kalimat pada corpus.
b. Jarak (distance) Asumsi pada perhitungan ini adalah bahwa dua kata yang memiliki jarak yang dekat cenderung memiliki relasi yang dekat pula. Jika kata W1 dan W2 muncul sekali 5 Penggunaan text..., Annisa Marlin Masbar Rus, FT UI, 2014
(1)
pada dokumen yang sama, maka jarak W1 dan W2 adalah selisih hitungan kata yang ada diantara keduanya. Ketika kata W1 dan W2 muncul berkali-kali di dalam dokumen yang sama, maka perhitungannya akan mengikuti definisi berikut,
(
∑
)
(
)
(
(2)
)
Dimana fi(W1) adalah jumlah kemunculan W1 sebagai target kata pada dokumen ke-i, min (W1j, W2) adalah jarak minimum antara kemunculan W1, W1j, dan W2. Secara umum, mi(W1,W2) tidak sama dengan mi(W2,W1). Hal ini dikarenakan perbedaan target kata utama.
c. Kekuatan hubungan (relation strength) Kekuatan hubungan antara kata memasukkan pertimbangan co-occurence, rata-rata jarak, dan frekuensi kemunculan secara bersamaan di dalam dokumen dengan persamaan (3). Semakin besar jaraknya maka semakin kecil hubungan antar kata tersebut. Penentuan target kata utama juga akan memberikan hasil perhitungan yang berbeda, sehingga perhitungan kekuatan hubungan dengan target utama W1 dan W2 akan berbeda.
(
)
̂(
)
∑ (
(
(
)) (
))
)
)
Dimana (
(
)) = tfidfi (W1), (
(
(
) adalah jumlah masing-masing kemunculan W1 dan W2
) dan
(
(
(
(3)
)) = tfidfi (W2), dan
pada dokumen ke-i. Nilai term frequency and inverted document frequency atau dikenal dengan tfidf didefinisikan sebagai berikut.
()
()
()
Dimana
(
(
)
( ) ( ))
(4) (5)
( ) adalah frekuensi kata j pada dokumen ke-i yang dinormalisasi
dengan frekuensi maksimum dari semua kata pada dokumen ke-i. Sedangkan N adalah jumlah seluruh dokumen dan dfj adalah jumlah dokumen yang mengandung kata j. 6 Penggunaan text..., Annisa Marlin Masbar Rus, FT UI, 2014
Metode Penelitian
Tahapan Penelitian Penelitian ini dimulai dengan menentukan terlebih dahulu tujuan penelitian yang diinginkan serta metode yang digunakan untuk memenuhi tujuan. Kemudian pengumpulan data berupa daftar kata kunci pencarian selama 7 bulan (September 2013 – Maret 2014) dikumpulkan dari server Perpustakaan UI untuk dicari pasangan hubungan antar katanya agar membentuk topik. Praproses teks lalu dilakukan dengan menghapuskan tanda baca dan imbuhan (stopword), menyamaratakan ukuran huruf, menentukan penggalan kalimat dan satuan teks, memotong-motong kalimat menjadi kata per kata (tokenization) serta menormalisasi ejaan sehingga membentuk term-document matrix. Melalui metode LRD didapatkan nilai relation strength pasangan kata yang telah mempertimbangkan kemunculan secara bersamaan dan jarak antar katanya. Setelah itu pasangan kata ini diurutkan berdasarkan nilai relation strength tertinggi dan di prioritaskan berdasarkan kontribusinya terhadap 80% dari keseluruhan nilai relation strength. Untuk menemukan pasangan kata yang sesuai agar dapat direkomendasikan, pasangan kata atau topik ini kemudian disamakan dengan pasangan kata atau topik yang didapatkan dari judul buku yang telah dipinjam. Diasumsikan kemunculan topik yang sama diantara keduanya menunjukkan buku tersebut telah dipinjam dan ditemukan. Selain itu turnratio dari topik buku (durasi pinjam dalam hari/topik buku) juga dihitung untuk memperlihatkan tingkat kepentingan buku. Kemudian topik pencarian yang tidak sama dengan topik buku pinjam disamakan dengan topik buku rekomendasi yang didapatkan dari judul buku yang direkomendasikan. Sisa topik buku pencarian yang tidak sama dengan topik rekomendasi dan buku pinjam kemudian dijadikan topik buku usulan untuk pengadaan Perpustakaan Universitas Indonesia.
Subjek dan Objek Penelitian Penelitian ini difokuskan pada koleksi buku cetak. Pada dasarnya koleksi buku yang dimiliki Perpustakaan Universitas Indonesia mencakup buku cetak, buku elektronik, skripsi, thesis dan disertasi. Peralatan yang Digunakan Alat bantu software utama yang digunakan dalam penelitian ini adalah Matrix Laboratory (MATLAB) versi R2013a dan Microsoft Office Access untuk membantu pengolahan data. 7 Penggunaan text..., Annisa Marlin Masbar Rus, FT UI, 2014
Hasil Penelitian Hasil dari penelitian yang dilakukan adalah berupa daftar pasangan kata atau topik yang diprioritaskan berdasarkan 80% kontribusinya, yaitu sebagai berikut pada Tabel 1. Tabel 1 Nilai Relation Strength Topik Kata Kunci Pencarian No. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36
Word 1 (W1) humaniora kedokteran good laporan sains public kinerja kinerja bahasa perlindungan kepuasan kebijakan corporate media audit harga modal konsep corporate keuangan kasus keselamatan manajemen kepuasan hukum kerja kesehatan pemasaran kesehatan budaya kualitas kepatuhan teknologi koleksi bank kesehatan
Word 2 (W2) lmusosial kesehatan governance keuangan teknologi relations keuangan perawat indonesia konsumen kerja implementasi governance sosial internal saham pasar diri good manajemen studi kerja risiko pasien pidana perawat kerja strategi keselamatan organisasi hidup pajak informasi perpustakaan syariah masyarakat
Nilai Relation Strength W1-W2 508,1066 183,7388 144,3515 105,6485 104,2611 77,93853 74,97789 66,44654 51,81653 45,6367 43,77982 42,68887 34,09462 33,69365 30,39703 30,33838 29,63369 28,24634 26,94741 26,57022 26,1353 25,93629 24,26839 22,69443 22,5712 22,19273 21,98212 21,926 21,02968 20,98418 20,37334 20,18006 20,16061 19,75602 19,30393 19,30293
8 Penggunaan text..., Annisa Marlin Masbar Rus, FT UI, 2014
Tabel 1 Nilai Relation Strength Kata Kunci Topik (lanjutan) No. 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59
Word 1 (W1) ilmu komunikasi kualitas status ibu metode kinerja pengetahuan gaya kinerja tindak pengetahuan pelayanan bahasa demam kinerja tenaga akuntansi hubungan ekonomi anak gagal kebijakan
Word 2 (W2) perpustakaan strategi pelayanan gizi hamil penelitian karyawan sikap kepemimpinan perusahaan pidana perilaku kesehatan jepang berdarah pegawai kerja sisteminformasi pengetahuan makro jalanan ginjal publik
Nilai Relation Strength W1-W2 18,97548 18,73487 18,7321 17,75678 17,67212 17,56511 16,47905 16,14198 14,95036 14,70764 14,43776 14,16886 13,88975 13,4509 13,29331 13,26401 13,17437 13,11456 12,88008 12,51761 12,16496 12,07756 11,6949
Kemudian setelah disamakan dengan topik buku pinjam didapatkan 56 daftar topik dengan 10 topik utama seperti pada Tabel 2 beserta dengan nilai turnrationya.
Tabel 2 Nilai Relation Strength dan Turnratio untuk Topik Pencarian yang Sama dengan Buku Pinjaman No. 1 2 3 4 5 6 7 8 9 10
Word 1 kedokteran good laporan public bahasa perlindungan kebijakan corporate media modal
Word 2 kesehatan governance keuangan relations indonesia konsumen implementasi governance sosial pasar
Relation Strength 183,74 144,35 105,65 77,94 51,82 45,64 42,69 34,09 33,69 29,63
Turn ratio (hari/topik) 80,78 24,44 59,24 10,54 21,22 70,64 48,94 41,24 13,14 52,52
9 Penggunaan text..., Annisa Marlin Masbar Rus, FT UI, 2014
Lalu topik pencarian yang tidak sama disamakan dengan topik buku rekomendasi yang menghasilkan hanya 2 topik yang sama, yaitu “kasus studi” dan “sektor publik” dengan nilai relation stength masing-masing sebesar 26,135 dan 5,975. Kemudian topik yang tidak sama dengan topik buku yang dipinjam dan buku rekomendasi menjadi topik buku usulan untuk pengadaan buku di Perpustakaan UI pada saat penyeleksian buku. Daftar topik tersebut adalah seperti Tabel 3 berikut. Tabel 3. Daftar Topik yang Direkomendasikan No. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
Word 1 humaniora sains kinerja kinerja kepuasan audit harga konsep keselematan kepuasan kerja kerja kesehatan budaya kualitas kepatuhan koleksi strategi kualitas status ibu kinerja pengetahuan gaya pengetahuan demam kinerja akuntansi hubungan anak
Word 2 Ilmusosial teknologi keuangan perawat kerja internal saham diri kerja pasien perawat kesehatan keselamatan organisasi hidup pajak perpustakaan komunikasi pelayanan gizi hamil karyawan sikap kepemimpinan perilaku berdarah pegawai sisteminformasi pengetahuan jalanan
Nilai Relation Strength 508,11 104,26 74,98 66,45 43,78 30,4 30,34 28,25 25,94 22,69 22,19 21,98 21,03 20,98 20,37 20,18 19,76 18,73 18,73 17,76 17,67 16,48 16,14 14,95 14,17 13,29 13,26 13,11 12,88 12,16
10 Penggunaan text..., Annisa Marlin Masbar Rus, FT UI, 2014
Tabel 3.6. Daftar Topik yang Direkomendasikan (lanjutan) No. 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68
Word 1 gagal kinerja motivasi input gawat asi evaluasi pelaksana tingkat hubungan ibu dki return gambaran kepuasan evaluasi pasien anak pasien rasio kinerja dukungan kepuasan dana perencanaan rawat wajib jaminan nilai tugas bayi status manajemen audit gizi stress tingkat pemberian
Word 2 ginjal kerja belajar output darurat eksklusif kebijakan perawat pengetahuan perawat pengetahuan jakarta saham pengetahuan pelayanan program rawat ibu tingkat keuangan penilaian keluarga perawat pensiun strategis inap pajak kesehatan tukar akhir prematur ekonomi laba komite balita kerja kecemasan asi
Nilai Relation Strength 12,08 11,52 11,41 11,13 10,17 10,07 9,87 9,3 9,14 8,61 8,56 8,29 8,08 7,33 7,14 7,12 6,66 6,27 6,05 5,27 5,22 5,2 5,02 5,02 4,78 4,75 4,74 4,48 4,23 3,9 3,88 2,56 2,46 2,44 2,23 2,11 1,91 0,94
11 Penggunaan text..., Annisa Marlin Masbar Rus, FT UI, 2014
Pembahasan
Analisa Topik Buku Pencarian Penelitian ini bertujuan untuk menemukan hubungan antara dua kata dari kata kunci pencarian buku di website Perpustakaan UI yang kemudian dapat diinterpretasikan sebagai masukan topik bagi penyeleksian pengadaan buku. Hubungan kedua kata ini dilihat dengan menghitung nilai relation strength antara dua kata dengan mempertimbangkan kemunculan, jarak dan susunan kata pada teks entri kata kunci. Nilai ini memiliki rentang nilai mulai dari 0 hingga ∞. Hal ini dikarenakan nilai disesuaikan dengan jumlah keseluruhan unit teks (yaitu jumlah entri) dan kata yang ada di dalam teks. Semakin tinggi nilai relasi ini maka semakin dekat jarak antara kedua kata dan sering pula kedua kata tersebut muncul pada entri kata kunci. Hal ini menunjukkan bahwa hubungan kedua kata tersebut semakin sesuai. Sebaliknya, semakin kecil nilai relasinya maka kedua kata tersebut berada pada jarak yang cukup jauh dan tidak sering muncul pada entri. Hal ini menunjukkan bahwa hubungan kedua kata semakin kurang sesuai. Sehingga keeratan hubungan kata dilihat dari tingkat nilai relation strength tersebut. Jika perpustakaan hanya mengambil informasi dari entri kata kunci yang memiliki frekuensi tertinggi untuk mengetahui kebutuhan topik pengguna. Maka informasi yang didapatkan tidak cukup untuk menunjukkan kebutuhan topik secara umum yang dicari oleh pengguna. Hal ini dikarenakan kata yang digunakan oleh pengguna terlalu spesifik dan kata hanya dikumpulkan berdasarkan kesamaan kata secara keseluruhan. Misalnya seperti kata korban yang muncul sebanyak 132 kali, tetapi tidak memberikan gambaran kebutuhan. Jika nilai relation strength dihitung, maka hubungan dua kata yang memiliki hubungan yang kuat dapat ditemukan dan makna kata menjadi lebih umum, sehingga kata menjadi lebih sesuai untuk dijadikan rekomendasi topik. Berdasarkan perhitungan ditemukan bahwa pasangan kata atau topik “Humaniora Ilmu Sosial” dengan nilai relation strength tertinggi sebesar 508,106. Berdasarkan nilai ini dapat diasumsikan bahwa kebanyakan pengguna kemungkinan berasal dari Fakultas Ilmu Sosial dan Ilmu Politik ataupun Fakultas Ilmu Pengetahuan Budaya, karena kata topik atau pasangan kata ini sering sekali muncul hingga menjadikannya kata yang sangat sesuai untuk terus muncul secara bersamaan. Informasi yang diberikan oleh pasangan kata ini lebih menyeluruh bagi berbagai jenis kata kunci pencarian yang dimasukkan. Sedangkan jika perpustakaan hanya melihat 12 Penggunaan text..., Annisa Marlin Masbar Rus, FT UI, 2014
kebutuhan topik dari frekuensi kemunculan entri terbanyak atau kata terbanyak, maka informasi yang didapatkan akan berbeda. Kata yang paling banyak muncul pada data kata kunci pencarian adalah kata “Indonesia” dengan jumlah frekuensi sebesar 9020, diikuti oleh kata “manajemen” (8300), “kesehatan” (7890), “hukum” (7530) dan “kinerja” (6750). Sedangkan pasangan kata topik yang diperoleh menunjukkan bahwa topik dibidang Humaniora dan Ilmu Sosial memiliki hubungan yang lebih erat dari pasangan kata yang lainnya. Hal ini dapat disebabkan oleh kemunculan kata “Indonesia” memiliki variasi yang cukup besar pada kemunculan pasangan kata daripada kata “Humaniora”. Variasi kata “Indonesia” muncul dengan urutan pasangan kata “sejarah Indonesia” dengan nilai relation 6,868 dan “sistem Indonesia” dengan nilai 3,644. Sedangkan kata “Humaniora” dan “Ilmu Sosial” selalu muncul bersamaan. Sehingga dapat disimpulkan bahwa kata dengan frekuensi tertinggi pada dasarnya terlalu umum dan memiliki pasangan kata yang sangat bervariasi, dikarenakan kata pencarian yang dimasukkan mungkin terlalu spesifik. Namun, dengan mengetahui nilai relation strengthnya, topik yang lebih mengerucut dapat diketahui. Selain itu, berdasarkan data daftar topik dapat disimpulkan juga bahwa kecenderungan topik berasal dari ranah ilmu sosial, ilmu budaya, ilmu ekonomi dan lainnya. Sedangkan kemunculan kata kunci topik dalam Bahasa Inggris juga cenderung dibawah 5% dari keseluruhan kata kunci pencarian. Sehingga dapat dilihat pula bahwa kecenderungan pengguna masih mencari buku dalam Bahasa Indonesia.
Analisa Topik Peminjaman Buku Pasangan kata dari kata kunci pencarian yang sama dengan pasangan kata pada buku pinjaman pada penelitian ini merepresentasikan bahwa judul buku dengan topik tersebut tersedia dan telah dipinjam oleh pengguna. Sebaliknya, jika pasangan kata tersebut tidak sama, maka kemungkinan ketidaktersediannya buku yang mengandung topik tersebut terjadi. Kemungkinan lainnya adalah buku dengan topik tersebut sedang dipinjam oleh seseorang selama tujuh bulan, sesuai dengan durasi pengambilan data. Di mana kemungkinan terakhir ini kecil terjadi. Sebelumnya perhitungan terhadap nilai turn ratio telah dihitung pada bab sebelumnya, di mana semakin kecil nilai turnratio suatu kata maka semakin kecil pula durasi dalam hitungan hari judul buku dengan topik tersebut dipinjam, seperti yang terjadi pada pasangan kata “manajemen risiko” dengan nilai 0,62. Hal ini terjadi karena buku tersebut sering dipinjam dalam durasi hari yang hanya sebentar dan dikarenakan buku tersebut bisa saja tidak sesuai dengan kebutuhan pengguna sehingga buku langsung dikembalikan, atau buku tersebut 13 Penggunaan text..., Annisa Marlin Masbar Rus, FT UI, 2014
memiliki banyak peminat sehingga penambahan buku dibutuhkan. Tingkat peminat ini kemudian dapat dilihat dari nilai relations strength, di mana semakin tinggi nilai ini maka semakin sering pula pasangan kata ini dicari, erat hubungannya dan sesuai sebagai topik. Sebaliknya, jika nilai turnratio lebih dari 14 hari atau 2 minggu, maka topik tersebut dapat dipinjam dalam waktu yang cukup lama. Hal ini dapat disebabkan karena variasi buku dengan topik tersebut cukup banyak, sehingga ketersediaan buku yang ada dapat dipinjam dalam waktu yang cukup lama. Begitu juga sebaliknya untuk nilai relation strengthnya. Berdasarkan nilai relation strength, topik buku “kedokteran kesehatan” memiliki intensitas kemunculan yang tinggi pada jarak yang dekat, sehingga menjadikannya kata yang sangat erat hubungannya. Tetapi, nilai turn ratio pasangan kata ini melebihi batas hari peminjaman pada umumnya suatu buku dipinjam. Sehingga hal ini menunjukkan bahwa judul buku dengan topik tersebut hanya dipinjam beberapa kali dalam waktu yang lama. Berbeda halnya dengan topik “manajemen resiko” yang memiliki nilai turnratio yang kecil dengan nilai relation strength sebesar 24,27. Hal ini menunjukkan bahwa topik tersebut tidak cukup sering dicari. Sehingga kemudian dapat disimpulkan bahwa pasangan kata yang diperoleh dari basis data kata kunci pencarian dan memiliki nilai relations strength cukup tinggi cenderung bersifat umum jika dibandingkan dengan pasangan kata yang diperoleh dari judul buku yang dipinjam. Hal inilah yang kemudian membuat pasangan kata yang memiliki nilai relations strength tertinggi tidak memiliki kesamaan pada basis data judul buku yang telah dipinjam.
Analisa Topik Pengadaan Buku Topik dari basis data pencarian yang tidak sesuai dengan basis data kata kunci buku yang telah dipinjam kemudian disamakan kembali dengan basis data kata kunci pengadaan buku. Hal ini bertujuan untuk melihat kecocokan data kata kunci topik yang dibentuk dengan data kata kunci pengadaan yang telah dibentuk. Jika terjadi kesamaan, maka kata kunci topik buku yang dicari tersebut dapat dijadikan prioritas untuk diadakan terlebih dahulu. Sebesar 70% judul buku yang akan diajukan untuk diadakan dicetak dalam bahasa Inggris, sedangkan hampir 80% entri kata kunci yang digunakan untuk mencari buku dan judul buku yang dipinjam berbahasa Indonesia. Hal ini menunjukkan bahwa pengguna Perpustakaan UI masih cenderung melakukan pencarian dan meminjam buku dalam Bahasa Indonesia. Sehingga kesamaan topik sulit untuk ditemukan. Kesamaan dari kata kunci topik dan kata kunci pengadaan kemudian hanya terjadi pada kata “studi kasus” dan “sektor publik” dengan nilai relation sebesar 26,135 dan 5,975. 14 Penggunaan text..., Annisa Marlin Masbar Rus, FT UI, 2014
Kemungkinan yang terjadi sehingga kesamaan topik hanya terjadi pada dua kata ini dikarenakan pasangan kata ini cenderung bersifat lebih umum, sedangkan judul buku cenderung lebih spesifik. Selain itu pasangan kata yang diperoleh juga terbatas pada kata yang hanya muncul pada corpus tersebut.
Kesimpulan
Kebutuhan topik pengguna dapat dianalisis melalui data entri kata kunci pencarian pengguna. Perhitungan nilai relation strength dengan menggunakan metode Latent Relation Dicovery (LRD) memungkinkan perpustakaan untuk dapat mengetahui topik yang dicari oleh pengguna secara lebih khusus ataupun umum. Selain itu, metode ini juga merupakan metode yang tidak membutuhkan latihan data (training data) atau bersifat unsupervised. Disamping itu kata yang diperoleh hanya terbatas dari kata yang muncul pada dokumen, sehingga hasil pasangan kata cenderung lebih spesifik. Terdapat 59 pasangan kata atau topik yang diprioritaskan pada kata kunci pencarian, 56 pasangan kata yang sesuai dengan pasangan kata buku pinjaman dan 2 pasangan kata yang sesuai dengan pasangan kata buku yang ingin diadakan. Sehingga dihasilkan 58 topik yang dapat dijadikan pertimbangan untuk melakukan pengadaan buku. Jika dibandingkan dengan hanya melihat frekuensi kata, pasangan kata ini dapat memberikan informasi yang lebih spesifik dan memiliki makna semantik yang sesuai. Namun, jika dibandingkan dengan topik pada buku pinjaman dan topik buku rekomendasi, topik kata kunci pencarian menjadi cenderung lebih umum dan terbatas pada kata yang muncul di pencarian. Tetapi berbagai informasi lainnya seperti kemungkinan demografi pencari dan kecenderungan bahasa yang digunakan dapat diketahuikan berdasarkan hasil nilai relation strength tersebut.
Saran
Penelitian ini hanya menggunakan satu metode, sehingga hasil tidak dapat dibandingkan. Perbandingan dapat dilakukan dengan menggunakan metode yang lain seperti Metode Latent Semantic Index. Selain itu pembentukan semantic database akan sangat membantu meningkatkan pengertian dari pasangan kata secara semantik.
15 Penggunaan text..., Annisa Marlin Masbar Rus, FT UI, 2014
Daftar Referensi Breeding, M. (2013, Juni). Mining data for library decision support. Computers in Libraries:The Systems Librarian. Vol. 33, No.5, pp. 23-25. Banchs, R. (2013). Text Mining with matlab. Springer, New York. Bertnes, Pal A.2000. “New role for academic libraries in scientific information”. Liber Quarterly, Vol. 10: 326-334. Chien-Hsing Wu, Tzai-Zang Lee,& Shu-Chen Kao. (2004). Knowledge discovery applied to material acquisitions for libraries. Information Processing and Management,Vol.40, 709-725. Depdiknas RI. Direktorat Jenderal Pendidikan Tinggi. 2004. Perpustakaan Perguruan Tinggi: Buku Pedoman. 3rd ed. Jakarta: Departemen Pendidikan Nasional RI. Direktorat Jenderal Pendidikan Tinggi. Frawley, W., Piatestky-Shapiro, G., & Matheus, C. (1991). Knowledge discovery in databases - an overview . In Knowledge Discovery in Databases 1991 (pp. 1-30). Reprinted in AlMagazine, Fall 1992. Hearst, M. (2003). What is text mining?. UC Berkeley: SIMS. Loughridge, Brendan. 1996. The management information needs of academic Head of Department in universities in the United Kingdom. Information Research, Vol.2, No.2. Miner, G. et al. (2012). Practical Text Mining and statistical analysis for no-structured Text data application. Academic Press, USA. Manning, C., Raghavan, P., Schütze, H. (2008). Introduction to information retrieval. Cambridge University Press, UK. Nisbet, R., Elder, J., Miner, G. (2009). Handbook of statistical analysis and data mining applications. Academic Press, Canada. Okerson, Ann. (2013). Text & data Mining - a librarian overview. IFLA WLIC Shih-Ting Yang. (2012). An active recommendation approach to improve book-acquisition process. International Journal of Electronic Business Management. Vol. 10, No.2, pp. 163-173. Soetimah, Perpustakaan, Kepustakawan dan Pustakawan, cet 1, Yogyakarta:Karnisius, 1992, pp. 32. Stevens, R., & Agrawal, R. (1997). Who’s number one? Evaluating acquisitions departments. Library Collections, Acquisitions, and Technical Services, Vol.23, pp. 79-85. Undang-undang Republik Indonesia Nomor 43 Tahun 2007 tentang Perpustakaan 16 Penggunaan text..., Annisa Marlin Masbar Rus, FT UI, 2014
17 Penggunaan text..., Annisa Marlin Masbar Rus, FT UI, 2014