Seminar Nasional Ilmu Komputer (SNIK 2015) - Semarang, 10 Oktober 2015 ISBN: 978-602-1034-19-4
INFORMATION RETRIEVAL PADA SOAL MATA PELAJARAN SEKOLAH MENENGAH PERTAMA BERBENTUK ESSAY MENGGUNAKAN METODE BAYESIAN NETWORK DAN BERBASIS WEBSITE Hastari Utama1, Sri Mulyatun2 1
Jurusan Teknik Informatika, STMIK AMIKOM Yogyakarta 2, Jurusan Sistem Informasi, STMIK AMIKOM Yogyakarta Email:
[email protected],
[email protected]
ABSTRAK Meningkatnya teknologi di bidang komputer sangat mendukung juga dalam kegiatan belajar mengajar terutama penggunaan internet. Semakin banyaknya materi yang diunggah melalui website dan disediakan berbagai buku elektronik membuat siswa yang ingin belajar lebih detail menjadi lebih mudah. Selain itu, penggunaan internet juga dapat diakses dimana saja jika ada jaringannya. Hal ini merupakan dasar untuk melakukan penelitian mengenai soal essay online berbasis website. Banyak sekolah atau lembaga pendidikan yang menerapkan soal online. Namun jarang dijumpai soal online dalam bentuk essay. Peneltian ini membahas tentang bagaimana mencocokkan kunci jawaban dengan hasil pengerjaan siswa menggunakan tingkat kesamaannya. Metode untuk melakukan indexing dan query menggunakan pendekatan probabilistik. Pendekatan ini menggunakan metode Bayesian Network. Kata Kunci: Website, Indexing, Query, Bayesian Network
1. PENDAHULUAN Perkembangan penggunaan teknologi internet setiap tahun semakin meningkat. Peningkatan ini karena konten yang disediakan dalam website semakin bervariasi dengan kuantitas yang semakin banyak [1]. Selain itu, dengan tersedianya beberapa prasarana yang canggih dan seperti modem dengan harga yang terjangkau memudahkan pengguna internet dapat mengakses internet dimanapun dengan syarat harus ada sinyal dari penyedia jasa internet. Salah satu bidang yang diuntungkan dari kemudahan ini adalah bidang pendidikan. Banyak pengguna juga yang menggunakan website untuk mengunggah atau mengunduh materi pembelajaran. Trend penggunaan internet dalam bidang pendidikan dapat juga disebut dengan e-learning. Dalam hal ini, materi dan tugas disajikan dalam suatu website. Materi yang diunggah atau diunduh dapat berupa berkas e-book atau presentasi. Tugas yang ingin disampaikan oleh guru dapat juga ditampilkan dalam website. Setelah materi diunduh oleh siswa, siswa mempelajari dan mengerjakan tugas dalam materi tersebut dalam bentuk berkas. Berkas hasil pengerjaan tersebut diunggah ke suatu sistem e-learning. Dari proses e-learning tersebut menunjukkan bahwa soal online merupakan salah satu bagiannya. Implementasi dari soal online ini telah banyak dilakukan oleh instansi baik untuk pembelajaran jarak jauh maupun untuk proses seleksi. Proses seleksi biasanya menggunakan e-learning dalam bentuk soal online. Namun, soal yang disajikan masih dalam bentuk pilihan ganda karena algoritma untuk mencocokkan hasil pengerjaan dengan kunci jawaban cukup sederhana. Selanjutnya untuk soal berbentuk essay banyak juga diterapkan tetapi pencocokan dengan kunci jawaban masih dilakukan secara manual sehingga akan memperlama proses koreksi. Padahal soal berbentuk essay tersebut memiliki keunggulan dengan soal pilihan ganda. Soal essay tersebut melatih siswa agar mampu menguraikan ilmu yang dipelajari. Permasalahan yang muncul dalam soal online berbentuk essay menimbulkan motivasi khusus untuk mengembangkan suatu penelitian. Penelitian ini akan membawas proses koreksi hasil pengerjaan siswa dengan kunci jawabannya berjalan otomatis sehingga kelebihan dari soal berbentuk essay dapat diterapkan secara online berbasis website. Metode untuk melakukan pengindeksan dan pencocokan kemiripan kunci jawaban ini menggunakan bayesian network. Selanjutnya, sistem yang dihasilkan dari penelitian ini akan diujikan ke salah satu sekolah menengah pertama untuk mendapatkan beberapa tanggapan dari para penggunanya. 2. METODE Gudivada telah melakukan penelitian mengenai information retrieval pada website. Kemampuan untuk mencari dan mengambil informasi dari web secara efisien dan efektif adalah teknologi yang memungkinkan untuk mewujudkan potensi penuh [1]. Dengan workstation yang kuat dan teknologi pemrosesan paralel, efisiensi tidak hambatan. Bahkan, beberapa alat pencarian yang ada menyaring gigabyte ukuran indeks web dikompilasi dalam sepersekian detik. Namun, efektivitas pengambilan adalah hal yang berbeda. Perangkat pencarian saat mengambil terlalu banyak dokumen, yang hanya sebagian 75
Seminar Nasional Ilmu Komputer (SNIK 2015) - Semarang, 10 Oktober 2015 ISBN: 978-602-1034-19-4 kecil relevan dengan permintaan pengguna. Selain itu, dokumen yang paling relevan tidak selalu muncul di bagian atas dari urutan keluaran query. Beberapa rincian tentang arsitektur sistem, model pengambilan dan strategi permintaan - eksekusi yang tersedia untuk perangkat pencarian komersial. Penyebab menjaga informasi proprietary telah diundangkan pandangan bahwa mengembangkan alat pencarian web adalah esoteris ketimbang rasional. Pada artikel ini, kami berharap untuk mempromosikan penelitian yang inovatif dan pembangunan di daerah ini dengan menawarkan perspektif yang sistematis tentang kemajuan dan tantangan dalam mencari web. Information retrieval juga telah dikembangkan menjadi suatu penelitian tentang gambaran dan instruksi mengenai evaluasi sistem information retrieval interaktif dengan pengguna [2]. Tujuan utama penelitian ini adalah untuk katalog dan menyusun materi yang berhubungan dengan topik ini ke satu sumber. Penelitian ini menyediakan latar belakang sejarah pada pengembangan pendekatan yang berpusat pada pengguna untuk evaluasi cepat terkoordinasi sistem information retrieval interaktif. Selanjutnya, penelitian ini juga menjelaskan komponen utama dari evaluasi sistem information retrieval interaktif. Pembahasan lainnya mengenai desain eksperimental yang berbeda dan strategi pengambilan sampel serta menyajikan instrumen inti dan teknik dan langkah-langkah pengumpulan data. Tujuan yang terkhir dari penelitian ini adalah menjelaskan teknik analisis data dasar dan ulasan serta membahas penelitian sebelumnya. Artikel ini juga membahas isu-isu validitas dan reliabilitas terhadap kedua tindakan dan metode, menyajikan informasi latar belakang tentang etika penelitian dan membahas beberapa isu-isu etika yang spesifik untuk studi Information Retrieval Interactive (IIR). Akhirnya, artikel ini diakhiri dengan diskusi tantangan luar biasa dan arah penelitian masa depan. Greengrass melakukan survey yang menunjukkan bahwa kebutuhan untuk metode yang efektif information retrieval otomatis telah berkembang dalam pentingnya karena ledakan yang luar biasa dalam jumlah data yang tidak terstruktur, baik internal , koleksi dokumen perusahaan, dan jumlah besar dan berkembang dari sumber dokumen di internet [3]. Laporan survey ini merupakan tutorial dan survey dari keadaan seni, penelitian dan komersial, dalam hal ini bidang yang dinamis. Topik yang dibahas meliputi: perumusan pertanyaan terstruktur dan tidak terstruktur dan pernyataan topik, pengindeksan (termasuk bobot kata) dari dokumen koleksi pemerintah, metode untuk menghitung kesamaan query dan dokumen, klasifikasi, dan routing dokumen dalam aliran yang masuk ke pengguna atas dasar topik atau butuh pernyataan pengelompokan koleksi dokumen atas dasar bahasa atau topik, dan metode statistik, probabilistik, serta semantik menganalisis, dan mengambil dokumen. Seiring dengan perkembangan zaman, konsep information retrieval juga mengalami berbagai perkembangan. Perkembangan ini telah dicatat oleh Sanderson pada makalahnya [4]. Makalah tersebut menjelaskan sejarah singkat penelitian dan pengembangan sistem informasi pengambilan dimulai dengan penciptaan perangkat pencarian elektro-mekanis, melalui adopsi awal komputer untuk mencari item yang relevan dengan permintaan pengguna. Kemajuan yang dicapai oleh para peneliti informasi pengambilan dari tahun 1950 sampai hari ini rinci berikutnya, dengan fokus pada proses menemukan informasi yang relevan. Makalah ini ditutup dengan spekulasi dimana masa depan terletak pencarian informasi. Terdapat juga penelitian mengenai information retrieval untuk pencarian kalimat menggunakan Bayesian Network [5]. Penelitian ini mengenalakan 3 model bayesian network untuk information retrieval. Beberapa model tersebut adalah Bayesian Network Sentence Retrieval (BNSR) yang merupakan model dasar. Kemudian, model ini dikembangkan menjadi BNSR_TR dan BNSR_CR [5]. Ide pokok dari BNSR_TR adalah untuk memfasilitasi koneksi tambahan antara kata yang berbeda dalam query dan kalimat untuk menyediakan identifikasi relevan dari setiap kalimat untuk query. Selanjutnya, BNSR_CR ditampilkan sebagai kelompok kata-kata individual dan sejumlah kata. Relasi kata disusun antara kata– kata. Topologi dari bayesian network ditunjukkan pada Gambar 1 [6]. Terdapat hubungan setiap simpul kata atau istilah dalam Ti ϵ T dan setiap simpul dokumen Dj ϵ D dimana Ti terdapat dalam Dj. Hal ini mencerminkan ketergantungan antara nilai relevansi dokumen dan kata untuk pengindeksan. Selanjutnya, tidak terdapat hubungan dokumen Dj dan Dk . Dengan kata lain, hubungan ketergantungan antar dokumen tidak secara langsung, beberapa dokumen tergantung kata yang dimuatnya. Beberapa dokumen Dj secara khusus tergantung beberapa dokumen Dk ketika diketahui secara pasti nilai relevan untuk semua pengindekan kata dalam dokumen Dj. Hal ini berarti bahwa tingkat relevan dokumen Dj untuk query ditentukan dengan mengetahui status relevan semua kata yang menyusunnya dengan lengkap. Dalam keberadaaan informasi ini, pengetahuan tentang relevan atau tidak relevan dari beberapa dokumen Dk untuk beberapa query dapat berpengaruh pada Dj.
76
Seminar Nasional Ilmu Komputer (SNIK 2015) - Semarang, 10 Oktober 2015 ISBN: 978-602-1034-19-4
Gambar 1. Topologi simple bayesian network. Sesuai dengan Gambar 1, terdapat estimasi dari kondisi probabilitas relevan dokumen Dj yaitu p(dj|pα(Dj)) yang dinyatakan sebagai berikut. ∑
(1)
wij merupakan bobot kata dalam dokumen. Pembobotan wij menggunkan metode tfidf yang ditunjukkan pada Persamaan 2. Pada Persamaan 2 terdapat tfi yang merupakan jumlah kemunculan kata i dalam dokumen j. Kemudian, N merupakan jumlah seluruh dokumen, sedangkan ni merupakan jumlah dokumen yang memuat kata i. wij = tfij . log(N/ni) + 1
(2)
Setelah bobot kata terhadap diketahui, lalu hubungan probalitas dari kata dan dokumen sesuai dengan model bayesian network yang sederhana dapat ditampilkan pada Persamaan 3. Pada Persamaan 3 terdapat probabilitas kata terhadap query yang disimbolkan sebagai p(ti|Q). Probabilitas tersebut apabila diuraikan lagi maka uraian dari persamaan 3 ditampilkan dalam Persamaan 4. Pada Persamaan 4 terdapat qfi yang merupakan banyaknya query yang sering muncul dan M merupakan banyaknya seluruh kata. Metode bayesian network ini diimplementasikan untuk koreksi soal uraian dalam taraf Sekolah Menengah Pertama (SMP). Saat diuraikan soal uraian maka istilah query diartikan sebagai jawaban siswa sedangkan istilah dokumen diartikan sebagai kunci jawaban. Untuk kebutuhan fungsional dapat dilihat pada Tabel 1. ∑
(3)
∑
∑
No. 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12.
(4)
Tabel 1. Kebutuhan fungsional Kebutuhan Fungsional Siswa harus memasukkan data pribadi untuk registrasi akun. Siswa dapat mengerjakan soal yang tersedia baik berupa pilihan ganda atau uraian. Soal yang dikerjakan siswa dapat dikoreksi sistem secara otomatis. Guru dapat memasukkan data soal ke sistem. Guru harus memasukkan data pribadi untuk registrasi akun. Administrator dapat melihat data akun baik guru maupun siswa. Guru juga dapat melihat data siswa. Soal yang ditampilkan dalam sistem sesuai dengan mata pelajaran. Siswa dapat memilih kategori mata pelajaran untuk mengerjakan soal. Siswa hanya dapat melihat semua hasil pengerajaannya sendiri. Administrator dapat mengaktifkan atau menonaktifkan akun guru. Guru dapat melakukan pengolahan data soal. Soal yang dikerjakan siswa dibatasi waktu.
Setelah didefinisikan metode bayesian network untuk menyelesaikan solusi koreksi soal uraian, maka langkah selanjutnya adalah merancang dan membangun sistem soal online yang berbasis uraian. Sistem yang dibangun ini dianalisis sehingga menghasilkan kebutuhan fungsional yang diharapkan calon 77
Seminar Nasional Ilmu Komputer (SNIK 2015) - Semarang, 10 Oktober 2015 ISBN: 978-602-1034-19-4 pengguna. Kebutuhan fungsional ini ditampilkan pada Tabel 1. Kebutuhan fungsional ini didapatkan berdasarkan hasil observasi dan wawancara dari calon pengguna. Kebutuhan fungsional tersebut dapat dimodelkan menjadi diagram use case agar dapat dipahami calon pengguna. Jadi, calon pengguna dapat memberikan komentar terhadap rancangan sistem yang akan dibuat. Oleh karena itu, keterlibatan pengguna saat perancangan sistem dilakukan sangat penting agar mempercepat sistem supaya user friendly. Diagram use case sistem ini ditampilkan dalam Gambar 2. Pada Gambar 2 terdapat 4 aktor yaitu guru, administrator, siswa, dan waktu. Masing-masing aktor memiliki case masing-masing. Case tersebut merupakan representasi dari kebutuhan fungsional yang dihasilkan dari analisis fungsional. Aktor guru memiliki case utama yaitu olah data soal, pencarian data siswa, dan registrasi guru. Aktor Administrator memiliki 3 case utama yaitu olah data kelas, olah data guru, dan olah data siswa. Kemudian, aktor siswa hanya memiliki 1 case yaitu pengerjaan soal. Aktor yang terakhir adalah waktu yang memiliki case koreksi soal. Jadi, kalau durasi pengerjaan soal telah habis maka sistem secara otomatis akan mengkoreksi sendiri. Langkah selanjutnya adalah menganalisis Entitas yang terlibat. Entitas yang terlibat dalam sistem ini direpresentasikan menggunakan kelas. Kelas (entitas) yang telah teridentifikasi adalah Logger, Akun, Siswa, DetailPengerjaan, KelasInduk, KelasParalel, Pengerjaan, Soal, Administrator, Guru, Pelajaran, DaftarJawaban, Instansi, KunciJawaban dan ButirSoal. Atribut dan interaksi kelas-kelas itu digambarkan dengan diagram kelas pada Gambar 3.
Gambar 2. Diagram use case.
78
Seminar Nasional Ilmu Komputer (SNIK 2015) - Semarang, 10 Oktober 2015 ISBN: 978-602-1034-19-4
Gambar 3. Diagram kelas. 3. HASIL DAN PEMBAHASAN Pada penelitian sebelumnya dilakukan pengujian terhadap kinerja dari metode Bayesian Network. Kinerja yang diujikan pada metode ini berhubungan dengan relevansi query terhadap dokumen. Pengujian ini membandingkan metode bayesian network dan perluasannya terhadap metode TFIDF, OKAPI dan KLD. Hasil Pengujian ini ditampilkan dalam Tabel 2 dan 3. Pada Tabel 2 dan 3 terdapat metode BNSR yang merupakan kepanjangan dari bayesian network sentence rietrieval yang merupakan metode bayesian network sederhana, sedangkan BNSR_TR dan BNSR_CR merupakan pengembangannya [6]. Tabel 2. Kinerja perbedaan model N1-N50 MAP AVG
TFID F 0,291 0,607
OKA PI 0,243 0,575
KLD 0,272 0,592
BNSR 0,425 0,643
BNSR _TR 0,568 0,886
BNSR _CR 0,634 0,798
Tabel 3. Kinerja perbedaan model N51-N100 MAP AVG
TFID F 0,197 0,639
OKA PI 0,156 0,605
KLD 0,183 0,626
BNS R 0,275 0,681
BNSR _TR 0,338 0,878
BNSR _CR 0,427 0,804
Selanjutnya pengujian terhadap presisi query terhadap dokumen juga telah dilakukan pada penelitian sebelumnya. Hasil pengujian ini menghasilkan nilai rata-rata presisi yaitu: 0.0479 [7]. Hasil ini ditampilkan pada Gambar 4 dalam bentuk grafik.
Gambar 4. Recall-presision model bayesian network. 79
Seminar Nasional Ilmu Komputer (SNIK 2015) - Semarang, 10 Oktober 2015 ISBN: 978-602-1034-19-4 4. SIMPULAN Telah dibangun sistem soal online berbasis website untuk SMP menggunakan metode bayesian network. Dalam pengembangan sisten soal online tersebut menggunakan analasis dan perancangan berorientasi objek dimana UML digunakan untuk pemodelan, metode bayesian network dapat digunakan untuk mengkoreksi soal uraian. Metode bayesian network dan pengembangannya memiliki nilai kinerja yang lebih tinggi dari pada metode KLD, OKAPI dan TFIDF. Pengujian recall-precission dari metode bayesian menghasilkan 0.0479. 5. REFERENSI [1] Gudivada, V.N., Raghavan, V.V., Grosky, W.I., dan Kasanagottu, R. 1997. Information Retrieval On The World Wide Web. pp. 1089-7801/97. [2] Kelly, D. 2009. Methods for Evaluating Interactive Information Retrieval Systems with Users. Foundation and Trend IR. Vol.3. pp. 1-2(2009) 1-224. [3] E. Greengrass. 2000.Information Retrieval: A Survey. [4] Sanderson, M. dan Croft, W.B. 2005. The History of Information Retrieval Research. [5] Cai, K., Bu,J., Chen, C., Liu, K., dan Chen, W. 2007. Bayesian Network based Sentence Retrieval Model. [6] Acid, S., Campos, L.M.D., Fernandez-Luna, J.M., dan Huete, J.F. An Information Retrieval Model Based on Simple Bayesian Networks. 2003. Wiley Periodicals, Inc. International Journal OF Intellegent Systems. vol. 18, pp. 251–265. [7] Piwowarski, B., Trang-Vu, H., dan Gallinari, P. 2003. Bayesian Networks for Structured Information Retrieval. pp. INEX.
80