Prosiding Seminar Nasional Aplikasi Sains & Teknologi (SNAST) 2014 Yogyakarta,15 November2014
ISSN: 1979-911X
PENILAIAN JAWABAN ESSAY MENGGUNAKAN SEMI DISCRETE DECOMPOSITION PADA METODE LATENT SEMANTIC INDEXING 1,2,3
Kania Evita Dewi1, Nelly Indriani W.2, Andri Heryandi3 Program Studi Teknik Informatika, Fakultas Teknik dan Ilmu Komputer,UNIKOM Bandung e-mail :1
[email protected],2
[email protected], 3
[email protected]
ABSTRACT Assessing automatically essay is a work that aims to determine the degree of similarity of a student answer with the answer key provided. This process is similar to the search for documents based on the level of similarity with the query entered by the user. Many methods have been used to solve these problems. In this paper, the method to be used is Latent Semantic Indexing ( LSI ). LSI has 2 technique in the approach of the term- document matrix of the Singular Value Decomposition ( SVD ) and Semi Discrete Decomposition ( SDD ). LSI has 2 pieces of engineering in the approach of the term- document matrix of the Singular Value Decomposition ( SVD ) and Semi Discrete Decomposition ( SDD ). LSI with the SDD technique is better in storage, so less use of memory. SDD is a way of decomposing the matrix into X and Y which entry contains the set { -1,0,1 } and D is a diagonal matrix where d_i are positive numbers. After the implementation of the SDD - based LSI to match the essay answer, it could be concluded that the results of the analysis showed the value of SDD can generate value of similarity between the responses of students and an answer key, but because in the determination of vectors x and y in the SDD process suggested to using optimization methods that sometimes the value is still stuck at a local optimum solution, which resulted in similarity values do not remain in any running program. Keywords : Latent Semantic Indexing, Semi Discrete Decomposition, e-learning PENDAHULUAN E-Learning adalah media teknologi informasi dan komunikasi yang memfasilitasi proses belajar. Dalam e-learning dosen dapat memberikan materi, tugas dan menyelenggarakan ujian atau quiz. Ujian yang dilakukan didalam e-learning umumnya berbentuk pilihan ganda, karena dalam proses penilaian lebih mudah dilakukan karena dapat dilakukan secara otomatis oleh sistem. Akan tetapi dengan ujian yang berupa pilihan ganda tidak dapat melatih mahasiswa untuk menyampaikan pikiran melalui tulisan maupun menunjukkan kemampuan berpikir logis. Ujian dalam bentuk essay dapat menunjukkan kemampuan menyampaikan pikiran melalui tulisan dan kemampuan berpikir logis. Gaya bahasa ataupun cara mengungkapkan jalan pikir mahasiswa berbeda-beda, dan banyak kemungkinan gaya bahasa ataupun jalan pikir mahasiswa berbeda dengan dosen. Oleh karena itu, penilaian ujian bentuk essay masih sulit untuk dilakukan oleh sistem yang ada saat ini. Latent Semantic Indexing (LSI) adalah metode yang dapat digunakan untuk menentukan kedekatan suatu dokumen atau jawaban essay mahasiswa dengan dokumen atau jawaban dosen yang telah tersedia. LSI memiliki 2 buah teknik dalam pendekatan dari matriks term-dokumen yaitu Singular Value Decomposition (SDV) dan Semi Discrete Decomposition (SDD), tetapi berdasarkan jurnal yang dibuat oleh Thomas Anung Basuki, LSI dengan teknik SDD lebih baik dalam penyimpanan, sehingga lebih sedikit menggunakan memori. Berdasarkan hal tersebut maka, dalam penelitian ini bertujuan untuk mengetahui bahwa LSI yang berbasis semi discrete decomposition (SDD) dapat digunakan untuk menilai jawaban essay dari mahasiswa dengan jawaban essay yang telah disediakan oleh dosen dalam e-learning METODE PENELITIAN 1. Metode Pengumpulan Data Dalam tahap pengumpulan data ini digunakan beberapa teknik pengumpulan data diantaranya adalah : a. Wawancara Teknik pengumpulan data yang dilakukan untuk mendapatkan informasi secara langsung dari responden dalam hal ini adalah pelajar/mahasiswa dengan cara melakukan tanya jawab seputar masalah penelitian yang sedang diteliti. A-215
Prosiding Seminar Nasional Aplikasi Sains & Teknologi (SNAST) 2014 Yogyakarta,15 November2014
ISSN: 1979-911X
`` b. Studi Pustaka Teknik pengumpulan data yang dilakukan dengan cara menghimpun informasi dari beberapa sumber referensi seperti buku, jurnal, artikel, yang ada hubungannya dengan kasus yang sedang diteliti. 2. Metode pengembangan simulasi Adapun tahapan dalam penelitian ini adalah sebagai berikut :
Pengumpulan bahan
Analisis Metode
Desain simulator
Implementasi metode
Pengujian
Gambar 1. Tahapan penelitian PEMBAHASAN Sistem pencocokan jawaban essay untuk mengetahui bahwa LSI yang berbasis semi discrete decomposition (SDD) dapat digunakan untuk menilai jawaban essay dari mahasiswa dengan jawaban essay yang telah disediakan oleh dosen dalam e-learning. SDD adalah suatu cara mendekomposisi matriks menjadi ................................ (1) dan D merupakan matriks diagonal dimana Dimana X dan Y entrinya berisi himpunan adalah bilangan positif ( David Skilicorn, 2007). Metode LSI berbasis SDD terdiri dari beberapa tahap, yaitu: 1. Tahap preprocessing. a. Tahap tokenizing : jawab mahasiswa diproses dengan cara menghilangkan tag-tag html, tanda baca, angka dan simbol. b. Tahap filtering : setelah tahap tokenizing kumpulan kata tersebut dihilangkan kata-kata yang tidak diperlukan dengan menggunakan stop word. Dalam penelitian ini yang dihilangkan adalah kata sambung, kata ganti, kata depan. 2. Tahap analyzing. Tahap ini SDD mulai dijalankan berdasarkan matrik frekuensi A hasil preprocessing sebagai berikut:
A-216
Prosiding Seminar Nasional Aplikasi Sains & Teknologi (SNAST) 2014 Yogyakarta,15 November2014
A=
1 1 1 1 1 1 1 1 4 1 1 1 1 2 1 1 1 1 1 1 0 0 0 0
1 1 1 0 1 1 0 0 3 1 0 1 1 2 1 1 1 1 1 1 0 0 0 0
1 1 1 0 1 1 0 0 1 1 0 1 1 2 0 0 0 0 0 0 0 0 0 0
1 1 1 0 1 1 0 0 3 1 0 1 1 2 0 0 1 1 0 1 0 0 0 0
1 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
1 1 1 1 1 1 1 1 3 0 0 0 0 0 0 0 0 1 1 1 0 0 0 0
0 1 1 1 1 1 1 1 4 0 0 1 1 2 0 0 1 1 1 1 0 0 0 0
1 1 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 0 0 0 2 0 0 0
0 0 0 0 0 0 0 0 3 0 0 0 0 2 0 0 0 0 0 0 0 1 1 1
ISSN: 1979-911X
1 0 0 0 0 0 1 0 4 1 1 1 1 2 2 1 1 1 0 1 0 0 0 0
A adalah matriks frekuensi kata yang merepresentasikan baris sebagai jumlah kata pada jawaban yang bersesuaian dengan query atau kunci jawaban, dan kolom adalah jumlah jawaban mahasiswa. Sebelum diproses matrik A diberi bobot pada dokumen. Dalam kasus Information retreival, menurut Erica Chisholm dan Tamara G. Kolda kombinasi pembobotan yang terbaik adalah pembobotan lokal digunakan SQRT, .............
(1)
untuk bobot global IGFF,
................................................................
(2)
dan untuk normalisasi menggunakan COSN.
Sehingga
......................
(3)
.........................
(4)
Selanjutnya proses LSI menggunakan SDD dilakukan berdasarkan algoritma pada jurnal Thomas Anung. Algoritma O’Leary-Peleg untuk melakukan SDD dengan rank , 1. 2. For k=1 to 1. Pilih suatu vector awal y sehingga 2. Change = 1
A-217
Prosiding Seminar Nasional Aplikasi Sains & Teknologi (SNAST) 2014 Yogyakarta,15 November2014
ISSN: 1979-911X
3. Cari x yang memenuhi 4. Cari y yang memenuhi 5. Newchange = 6. Improvement = 7. Change = newchange 8. If 9.
improvement > 0.02 ulangi langkah (c) ,
,
10. Dari proses SDD diperoleh matriks:
X=
-1 0 1 -1 -1 -1 1 0 -1 1 -1 0 1 -1 -1 -1 0 -1 -1 0 0 0 1 0 -1 -1 -1 0
-1 0 1 1 0 1 1 -1 0 1 1 1 1 0 0 0 1 0 -1 0 -1 1 0 1 1 0 1 1
-1 1 1 -1 1 1 -1 -1 -1 1 0 1 1 -1 0 -1 0 -1 0 0 -1 0 -1 0 1 1 1 0
1 0 1 0 0 -1 0 -1 -1 -1 0 -1 0 1 -1 1 -1 1 -1 1 1 0 1 0 -1 1 0 1
1 -1 1 -1 -1 1 0 1 1 1 0 -1 1 1 0 1 0 0 -1 0 1 0 1 1 -1 1 1 -1
-1 -1 1 -1 -1 1 1 -1 -1 1 1 0 -1 -1 -1 -1 -1 1 0 1 -1 1 1 0 -1 -1 0 -1
A-218
-1 0 -1 1 0 1 -1 -1 -1 -1 -1 0 0 0 1 -1 -1 0 -1 -1 -1 -1 1 1 -1 1 0 1
-1 -1 0 -1 -1 1 -1 1 0 1 -1 -1 -1 -1 -1 0 0 0 1 -1 -1 0 -1 0 -1 -1 1 1
0 1 0 -1 -1 0 -1 0 1 -1 1 1 -1 1 0 0 0 1 -1 1 -1 -1 0 -1 0 1 0 -1
0 1 -1 0 -1 0 1 -1 -1 0 1 1 1 -1 -1 1 -1 -1 -1 -1 0 1 -1 -1 -1 -1 0 -1
Prosiding Seminar Nasional Aplikasi Sains & Teknologi (SNAST) 2014 Yogyakarta,15 November2014
-1 -1 1 0 -1 1 -1 0 1 1 0 0 -1 0 -1 -1 1 -1 -1 -1
-1 1 -1 -1 0 -1 -1 1 0 0 1 0 -1 0 1 0 -1 1 0 -1 0 -1 0 -1 0 -1 0 -1 -1 -1 1 0 -1 1 1 1 0 1 -1 0 -1 1 -1 0 0 0 -1 -1 -1 0 -1 -1 -1 1 0 0 0 1 1 0 -1 0 -1 -1 0 1 1 1 0 1 0 0 -1 -1 0 -1 0 0 0 -1
0
0
0
0
0
0
0
0
0
0
0,023 3
0
0
0
0
0
0
0
0
0
0
0,026 6
0
0
0
0
0
0
0
0
0
0
0,018 4
0
0
0
0
0
0
0
0
0
0,030 4
0
0
0
0
0
0
0
0
0
0
0,025 3
0
0
0
0
0
0
0
0
0
0
0,037 4
0
0
0
0
0
0
0
0
0
0
0,021 7
0
0
0
0
0
0
0
0
0
0
0,019 2
0
0
0
0
0
0
0
0
0
0
Y=
0,042 5
0 D=
ISSN: 1979-911X
0,056 7
Langkah selanjutnya adalah menghitung kesamaan antara query dengan setiap dokumen, Sebelumnya query diberi bobot terlebih dahulu dengan pembobot lokal menggunakan formula BNRY atau menggunakan rumus (1) sedangkan pembobot global menggunakan IDFB (Erica Chisholm dan Tamara G. Kolda) ................... (4) Dan ..................
.(5)
Query yang merupakan kata kunci dari jawaban dosen dapat direpresentasikan sebagai vektor dalam ruang-k. Vektor inilah yang kemudian dibandingkan dengan vektor-vektor jawaban essay mahasiswa (dokumen) untuk selanjutnya dinilai mana yang paling mendekati. Sebuah kueri seperti halnya dokumen, merupakan kumpulan dari kata-kata. Vektor skor diperoleh dengan cara (Tamara Kolda, Dianne P. O’leary) dimana .............................
(6)
.............................
(7)
A-219
Prosiding Seminar Nasional Aplikasi Sains & Teknologi (SNAST) 2014 Yogyakarta,15 November2014
ISSN: 1979-911X
Kemudian vektor query dibandingkan atau dihitung korelasi dengan semua vektor dokumen yang ada. Salah satu metode perhitungan korelasi antara kueri dengan dokumen yaitu dengan metode kosinus, yaitu ................................
(8)
Dimana
adalah sudut diantara kedua vector dan . Hasil pengukuran similaritas jawaban mahasiswa dengan kunci jawaban yang disediakan terdapat pada tabel 1. Tabel 1. Hasil penilaian Jawaban ke-1 1 2 3 4 5 6 7 8 9 10
Besar kesaman 0.93778094425744 0.6951408856587 0.75397341287733 0.028416700500621 0.69724099827734 0.89198687716367 0.36190363627999 0.27985675317463 0.42187679470221 0.24124006168312
Nilai 93.77 69.51 75.40 2.84 69.72 89.20 36.19 27.98 42.19 24.12
KESIMPULAN Setelah dilakukan implementasi LSI berbasis SDD untuk mencocokan jawaban essay, maka diperoleh kesimpulan bahwa hasil analisis menunjukan nilai dari SDD dapat menghasilkan nilai yang mewaliki kesamaan antara jawaban mahasiswa dan kunci jawaban, tetapi dikarenakan didalam penetuan vektor x dan y didalam proses SDD masih menggunakan metode optimasi sehingga terkadang nilai masih terjebak pada solusi optimum lokal, yang mengakibatkan nilai kesamaan tidak tetap dalam setiap menjalankan programnya. UCAPAN TERIMA KASIH Ucapan terima kasih kepada Dikti khususnya DIPA Direktorat Penelitian Pengabdian kepada Masyaratkat Kementrian Pendidikan dan Kebudayaan yang memberikan dukungan materil atas terlaksananya penelitian ini. DAFTAR PUSTAKA David Skilicorn, 2007. Understanding Complex Datasets: Data Mining with Matrix. Taylor and Francis Group, LLC. Erica Chrisholm, Tamara G. Kolda, 1999. New Term Weighting Formulas For The Vector Space Methode In Information Retrieval. Oak Ridge National Laboratory, Dept of Energy, Tennessee. Tamara Kolda, Dianne P. O’leary, 1999. Latent Sematic Indexing via a semi-discrete matrix decomposition. http://www.sandia.gov/~tgkolda/pubs/pubfiles/Springer-Verlag-1999-Preprint.pdf, tgl akses : 27 Mei 2014. Tamara Kolda, Dianne P. O’leary, 2000. Computation and Uses of the Semidiscrete Matrix Decomposition. ACM Transactions on Mathematics Software, vol. 6, no. 23. Thomas Anung Basuki, 2001. Penggunaan Semi Discrete Decompositon pada Latent Semantic Indexing untuk Temu Kembali Informasi. Integral, vol. 6 no 1. A-220