LAPORAN AKHIR HIBAH PENELITIAN dalam Rangka Kegiatan SP4 Departemen Ilmu Komputer
CORPUS DOKUMEN TEKS BAHASA INDONESIA UNTUK PENGUJIAN EFEKTIVITAS TEMU KEMBALI INFORMASI
Oleh: Ir. Julio Adisantoso, M.Kom. Ahmad Ridha, S.Kom.
DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR November, 2004
1
DAFTAR ISI DAFTAR ISI ....................................................................................................
1
A. PENDAHULUAN .........................................................................................
2
B. PERUMUSAN MASALAH ..........................................................................
2
C. TINJAUAN PUSTAKA ................................................................................
2
D. TUJUAN PENELITIAN ...............................................................................
5
E. KONTRIBUSI PENELITIAN .......................................................................
5
F. METODE PENELITIAN ...............................................................................
5
G. HASIL DAN PEMBAHASAN .....................................................................
6
DAFTAR PUSTAKA ........................................................................................
8
2
A. PENDAHULUAN Penyimpanan dokumen secara digital berkembang dengan pesat seiring meningkatnya penggunaan komputer. Kondisi tersebut memunculkan masalah untuk mengakses informasi yang diinginkan secara akurat dan cepat. Oleh karena itu, walaupun sebagian besar dokumen digital tersimpan dalam bentuk teks dan berbagai algoritme yang efisien untuk pencarian teks telah dikembangkan, teknik pencarian terhadap seluruh isi dokumen yang tersimpan bukanlah solusi yang tepat mengingat pertumbuhan ukuran data yang tersimpan umumnya Temu kembali informasi bertujuan untuk membantu pengguna dalam menemukan informasi yang relevan dengan kebutuhan mereka dalam waktu singkat. Akan tetapi banyak teknik-teknik tersebut yang tergantung pada bahasa yang digunakan dalam dokumen. Sementara ini kebanyakan teknik ditujukan bagi Bahasa Inggris. Demikian juga perangkat pengujian berupa corpus kebanyakan terdiri dari dokumen dalam Bahasa Inggris baik yang bersifat umum atau pun dengan tema tertentu. Untuk mengembangkan teknik-teknik temu kembali informasi bagi dokumen teks berbahasa Indonesia, dibutuhkan perangkat pengujian untuk Bahasa Indonesia. Salah satunya adalah suatu koleksi dokumen dalam Bahasa Indonesia sebagai pendekatan seragam dalam evaluasi sistem temu kembali informasi. B. PERUMUSAN MASALAH Penelitian ini berusaha untuk menyusun koleksi dokumen teks berbahasa Indonesia sebagai bagian perangkat pengujian sistem temu kembali informasi. C. TINJAUAN PUSTAKA Information Retrieval System (Sistem Temu-kembali Informasi) Menurut Lancaster (1968) dalam Rijsbergen (1979): “Sebuah information retrieval system (IRS) tidak memberitahu (yakni tidak mengubah pengetahuan) pengguna mengenai masalah yang ditanyakannya. Sistem tersebut hanya memberi-tahukan keberadaan (atau ketidakberadaan) dan keterangan dokumendokumen yang berhubungan dengan permintaannya.” Sifat pencarian sistem temu-kembali informasi berbeda dengan sistem temukembali data (misalnya dalam sistem manajemen basis data) dalam beberapa segi, antara lain spesifikasi kueri yang tidak lengkap, dan tingkat ketanggapan kesalahan yang tidak peka (Rijsbergen, 1979). Alasan utamanya adalah IRS menangani teks bahasa alami yang tidak selalu terstruktur dengan baik dan bersifat ambigu (Baeza-Yates & Ribeiro-Neto, 1999).
3
IRS bekerja berdasarkan kueri yang diberikan pengguna yang menghasilkan daftar dokumen yang dianggap relevan. Selanjutnya pengguna dapat menggunakan hasil tersebut untuk mengakses informasi lebih lanjut. IRS mungkin saja tidak menghasilkan apa-apa jika memang tidak ditemukan dokumen yang relevan. Juga perlu diingat bahwa tidak ada jaminan bahwa seluruh materi yang ditemukembalikan tersebut relevan dengan yang diinginkan pengguna dan belum tentu seluruh materi yang relevan dengan permintaan pengguna berhasil ditemukembalikan. Corpus Istilah corpus terutama dikenal dalam bidang linguistik yang pada prinsipnya bermakna koleksi yang memiliki lebih dari satu teks. Suatu corpus modern memiliki beberapa karakteristik yakni (McEnery & Wilson, 2001): •
Sampling & representativeness
•
Finite size
•
Machine-readable form
•
A standard reference
Suatu corpus pengujian sistem temu kembali informasi terdiri dari: •
koleksi dokumen
•
topik-topik, yang dapat digunakan sebagai kueri
•
relevance judgement, sebagai daftar dokumen yang relevan dengan topik-topik yang tersedia
Corpus dapat menyediakan pendekatan yang seragam dalam evaluasi kinerja sistem temu kembali informasi. Teknik evaluasi ini juga digunakan dalam Text Retrieval Conference (Hiemstra & Leeuwen, 2001). Recall dan Precision Dua parameter utama untuk keefektifan penemukembalian yang telah digunakan sejak lama adalah recall dan precision (Salton, 1989). Recall adalah perbandingan jumlah materi relevan yang ditemukembalikan terhadap jumlah materi yang relevan. Sedangkan precision adalah perbandingan jumlah materi relevan yang ditemukembalikan terhadap jumlah materi yang ditemukembalikan. Mizzaro (2001) menunjukkan kelemahan sistem precision dan recall dalam mengukur keefektifan IRS dan menyajikan sistem Average Distance Measure, namun alternatif tersebut membutuhkan pemberian nilai relevansi kontinu terhadap materi yang tersedia oleh pengguna sehingga lebih sulit untuk diterapkan. Relevansi sendiri masih merupakan sesuatu yang sulit untuk diukur secara tepat yang juga disebabkan oleh beragamnya pengertian mengenai relevansi itu sendiri sebagaimana dikemukakan oleh Greisdorf (2000) dan Mizzaro (1997). Sehingga sistem recall dan precision dapat menjadi kompromi yang berguna untuk evaluasi
4
IRS (Mizzaro, 1998). Evaluasi kinerja IRS dilakukan dengan menggunakan koleksi pengujian beserta gugus kueri dan penilaian relevansinya (gugus jawaban) (Lancaster & Warner, 1993). Parsing Untuk pemrosesan, dokumen dipilah menjadi unit-unit yang lebih kecil misalnya berupa kata, frasa atau kalimat. Unit pemrosesan tersebut disebut sebagai token. Parsing merujuk pada proses pengenalan token yang terdapat dalam rangkaian teks (Grossman, 2002). Oleh karena itu bagian dasar dalam parsing adalah algoritme pengambil token dari teks yang disebut tokenizer. Proses ini memerlukan pengetahuan bahasa untuk menangani karakter-karakter khusus, serta menentukan batasan satuan unit dalam dokumen. Dalam proses ini juga digunakan sebuah daftar kata buang (stoplist) yakni daftar kata-kata yang tidak digunakan (dibuang) karena tidak signifikan dalam membedakan dokumen atau kueri misalnya kata-kata tugas seperti yang, hingga, dan dengan. Proses parsing akan menghasilkan daftar istilah beserta informasi tambahan seperti frekuensi dan posisi yang akan digunakan dalam proses selanjutnya. Stemming Stemming adalah proses penghilangan prefiks dan sufiks dari kueri dan istilahistilah dokumen (Grossman, 2002). Stemming dilakukan atas dasar asumsi bahwa kata-kata yang memiliki stem yang sama memiliki makna yang serupa sehingga pengguna tidak keberatan untuk memperoleh dokumen-dokumen yang di dalamnya terdapat kata-kata dengan stem yang sama dengan kuerinya. Teknik-teknik stemming dapat dikategorikan menjadi:
berdasarkan aturan sesuai bahasa tertentu
berdasarkan kamus
berdasarkan kemunculan bersama.
Proses ini memiliki dua tujuan. Dalam hal efisiensi, stemming mengurangi jumlah kata-kata unik dalam indeks sehingga mengurangi kebutuhan ruang penyimpanan untuk indeks dan mempercepat proses pencarian. Dalam hal keefektifan, stemming meningkatkan recall dengan mengurangi bentuk-bentuk kata ke bentuk dasarnya atau stem-nya. Sehingga dokumen-dokumen yang menyertakan suatu kata dalam berbagai bentuknya memiliki kecenderungan yang sama untuk ditemukembalikan. Hal tersebut tidak akan diperoleh jika tiap bentuk suatu kata disimpan secara terpisah dalam indeks. Akan tetapi, stemming dapat menurunkan tingkat precision jika setiap bentuk suatu stem diperoleh, sedangkan yang relevan hanyalah bentuk yang sama dengan yang digunakan dalam kueri (Liddy, 2001). Parsing dan stemming dalam suatu IRS tergantung pada bahasa yang digunakan dalam dokumen yang akan dicari. IRS untuk Bahasa Inggris kurang optimal untuk menangani dokumen dalam Bahasa Indonesia. Bahasa Indonesia memiliki
5
daftar kata buang (stoplist) serta sistem pembentukan kata yang sangat berbeda dengan bahasa Inggris, sehingga diperlukan IRS yang khusus untuk Bahasa Indonesia (Gunarso, 1998). Stemming untuk Bahasa Indonesia telah dikembangkan antara lain yang menggunakan aturan berdasarkan algoritme Porter (1980) oleh Akhmadi (2002) yang hanya melakukan pemotongan prefiks dan oleh Ridha (2002) yang melakukan pemotongan prefiks dan sufiks. Stemming berdasarkan kamus untuk Bahasa Indonesia juga telah dikembangkan oleh Nazief (1996) (Nazief, 2000). Pengindeksan Sebuah bahasa indeks adalah bahasa yang digunakan untuk menggambarkan dokumen-dokumen dan permintaan-permintaan. Elemen bahasa indeks adalah istilah indeks, yang dapat diturunkan dari teks dokumen yang digambarkan atau dibuat secara mandiri (Rijsbergen, 1979). Salton (1968) menunjukkan bahwa sistem pencarian dan analisa teks yang sepenuhnya otomatis tidak menghasilkan kinerja temu-kembali yang lebih buruk dibandingkan dengan sistem konvensional yang menggunakan pengindeksan dokumen manual dan formulasi pencarian manual. D. TUJUAN PENELITIAN Penelitian ini bertujuan untuk menyusun koleksi dokumen sebagai bagian perangkat pengujian sistem temu kembali informasi untuk dokumen teks berbahasa Indonesia. Koleksi yang disusun bertemakan pertanian. E. KONTRIBUSI PENELITIAN Hasil penelitian ini diharapkan dapat menjadi alat evaluasi kinerja sistem temu kembali informasi untuk dokumen teks berbahasa Indonesia. Koleksi yang disusun bertemakan pertanian sehingga memudahkan penelitian lebih lanjut untuk teknik-teknik temu kembali informasi yang spesifik untuk Bahasa Indonesia. F. METODE PENELITIAN Penelitian ini dilakukan dengan tahapan sebagai berikut: 1. Dokumen dikumpulkan dari artikel-artikel yang tersedia di Internet terutama dari situs-situs media. 2. Dokumen selanjutnya diformat dengan pemberian tag untuk membedakan bagian-bagiannya. 3. Dokumen yang telah diformat diindeks dengan sistem yang dikembangkan
6
Ridha (2002) menggunakan stoplist dan stemming prefiks dan sufiks. G. HASIL DAN PEMBAHASAN Pengumpulan Dokumen Tahapan pengumpulan dokumen menghasilkan koleksi yang terdiri dari 977 dokumen yang sebagian besar berasal dari situs-situs media massa. Sumbersumber tersebut antara lain: •
Gatra
•
Indosiar
•
Kompas
•
Media Indonesia
•
Republika
•
Situs Hijau
•
Suara Karya
•
Suara Merdeka
Sebagian besar dokumen yang terkumpul bersifat artikel media umum sedangkan hanya 22 dokumen yang merupakan tulisan ilmiah. Seluruh sumber artikel menggunakan Bahasa Indonesia semi-formal/formal. Koleksi dokumen yang terkumpul terdiri dari 514.731 kata dengan rata-rata masing-masing dokumen memiliki panjang 526,85 kata dengan dokumen terpendek hanya terdiri dari 41 kata sedangkan dokumen terpanjang terdiri dari 4366 kata. Jumlah istilah unik yang digunakan rata-rata 264 istilah termasuk kata-kata dalam stoplist atau 171,09 istilah di luar kata-kata dalam stoplist. Format Dokumen Dokumen yang terkumpul diformat dengan susunan tag sebagai berikut.
Nomor Dokumen <TITLE>Judul Dokumen Nama/inisial penulis Tanggal Dokumen Teks lengkap
7
Berikut keterangan masing-masing tag: •
Awal suatu dokumen ditandai dengan tag
dan akhir dokumen ditandai dengan tag .
•
menandai nomor identitas dokumen dalam koleksi (tidak diindeks).
•
<TITLE> menandai judul dokumen (diindeks).
•
menandai nama penulis artikel (diindeks, optional).
•
menandai tanggal artikel (tidak diindeks, optional).
•
menandai isi artikel (diindeks).
Elemen dokumen dapat dengan mudah diolah dengan menggunakan SGML parser. Pengindeksan Dari pengindeksan yang dilakukan tercatat 28.338 buah istilah unik dan 250 di antaranya termasuk stoplist. Sedangkan 1.957 di antaranya tidak memenuhi syarat pemrosesan lebih lanjut misalnya karena panjangnya kurang dari tiga karakter. Lima istilah dengan frekuensi tertinggi adalah: 1. pertanian (856 dokumen, 5.444 kata) 2. petani (558 dokumen, 3.283 kata) 3. tahun (625 dokumen, 2.219 kata) 4. indonesia (501 dokumen, 2.033 kata) 5. tanaman (404 dokumen, 1.876 kata) Selanjutnya 26.131 istilah melalui operasi stemming yang menghasilkan 16.284 buah stem yang berarti menghasilkan penurunan jumlah istilah sebesar 37,68%. Lima stem dengan frekuensi tertinggi adalah: 1. nani (900 dokumen, 9.220 kata) 2. nanam (498 dokumen, 2.915 kata) 3. mrodu (598 dokumen, 2.907 kata) 4. 2000 (625 dokumen, 2.407 kata) 5. nahun (644 dokumen, 2.402 kata) Koleksi dokumen yang telah terkumpul selanjutnya perlu dilengkapi dengan topik-topik dan relevance judgment.
8
DAFTAR PUSTAKA Akhmadi, C.H. 2002. Algoritme Pemotong Sufiks Baku untuk Kata dalam Bahasa Indonesia Berbasis Algoritme Porter. Skripsi. Jurusan Ilmu Komputer IPB, Bogor. Baeza-Yates, R. & Ribeiro-Neto, B. 1999. Modern Information Retrieval. Addison-Wesley. Greisdorf, H. 2000. Relevance: An Interdisciplinary and Information Science Perspective. Informing Science 3(2):67-71. Grossman, D. IR Book. http://www.ir.iit.edu/~dagr/cs529/files/ir_book/ [7 Maret 2002] Gunarso. 1998. Pemanfaatan Teknologi dalam Pengembangan Bahasa Indonesia. Prosiding Seminar Kebahasaan Sidang Ke-37 MABBIM. Hiemstra, D. & Leeuwen, D. van. 2001. Creating a Dutch Information Retrieval Test Corpus. Language and Computers 45:133-147. Lancaster, F. & Warner, A. 1993. Information Retrieval Today. Information Resources Press, Arlington. Liddy, E. 2001. How a Search Engine Works. Searcher 9(5). Information Today, Inc. McEnery, T. & Wilson, A. 2001. Corpus Linguistics 2nd Edition. Edinburgh University Press. Mizzaro, S. 1997. Relevance: The Whole History. J. ASIS 48(9):810-832. Mizzaro, S. 1998. How Many Relevances in Information Retrieval? Interacting with Computers 10(3):305-322. Mizzaro, S. 2001. A New Measure of Retrieval Effectiveness (Or: What’s Wrong with Precision and Recall). International Workshop on Information Retrieval (IR'2001) 43-52. Nazief, B. 2000. Development of Computational Linguistics Research: a Challenge for Indonesia. Porter, M.F. 1980. An Algorithm for Suffix Stripping. Program, 14(3):130-137. Ridha, A. 2000. Pengindeksan Otomatis dengan Istilah Tunggal untuk Dokumen
9
Berbahasa Indonesia. Skripsi. Jurusan Ilmu Komputer IPB, Bogor. Rijsbergen, C.J. van. 1979. Information Retrieval, Second Edition. Butterworths, London. Salton, G. 1968. A Comparison Between Manual and Automatic Indexing Methods. Technical Report No. 68-11. Department of Computer Science. Cornell University, Ithaca, N.Y. Salton, G. 1989. Automatic Text Processing: The Transformation, Analysis, and Retrieval of Information by Computer. Addison-Wesley.
10