Tugas Akhir “Sistem Deteksi Kemiripan antar Dokumen Teks Menggunakan Model Bayesian pada Term Latent Semantic Analysis (LSA)” Oleh: Danang Wahyu Wicaksono
(1210100027) Pembimbing: 1. Prof. DR. Mohammad Isa Irawan, MT 2. Alvida Mustika Rukmi, S.Si, M.Si
Yang Akan Dipaparkan Latar Belakang
1 2
Permasalahan Tujuan
3
Manfaat
4
Tinjauan Pustaka
5
Metode Penelitian
6 7
Pembahasan
Latar Belakang DOC B
DOC A
CopyPaste DOC C
VALIDASI
Latar Belakang
Source : Landauer, Thomas K., Peter W. Foltz & Darrell Laham. 1998. “An Introduction to Latent Semantic Analysis”. Department of Psychology, University of Colorado. (page 5 of 41 )
LSA Kelemahan
Kemampuan
Tidak memperhatikan urutan tata letak kata
Menemukan hubungan, keterkaitan, dan kemiripan antar dokumendokumen dengan memanfaatkan komputasi statistik untuk menggali dan merepresentasikan konteks yang digunakan sebagai sebuah arti kata.
Makna???
Permasalahan Cara kerja aplikasi? Hasil yang didapatkan?
Batasan Masalah File dokumen teks berbahasa Indonesia dalam format doc, docx, dan txt. Model Bayesian digunakan pada term yang dihasilkan oleh LSA dari dokumen uji sebagai kejadian (event) bersyarat untuk pembentukan pola (urutan) term. Kata yang diproses dari dokumen adalah dalam bentuk kata dasar. Menggunakan bahasa pemrograman Java dengan bantuan tool NetBeans IDE 8.0.
Luaran (output) berupa software yang menampilkan pola term dan hasil kemiripan pada dokumen-dokumen uji dan digunakan sebagai bahan pertimbangan untuk langkah lebih lanjut.
Tujuan Membangun aplikasi sebagai interface sistem yang mampu membandingkan kemiripan antar dokumen teks dengan menggunakan pola term yang dihasilkan oleh LSA (Latent Semantic Analysis) berdasarkan konsep model Bayesian.
Membentuk algoritma hasil kombinasi metode LSA dengan model Bayesian untuk deteksi kemiripan antar dokumen teks.
Manfaat Modifikasi metode yang dilakukan dapat menambah kinerja dan tingkat keakuratan metode untuk hasil deteksi kemiripan dokumen yang lebih baik. Sebagai salah satu referensi metode deteksi kemiripan antar dokumen teks yang selanjutnya dapat digunakan untuk langkah lebih lanjut, misalnya ke arah deteksi plagiat.
Tinjauan Pustaka Latent Semantic Analysis Menemukan hubungan, keterkaitan, dan kemiripan antar dokumen-dokumen dengan memanfaatkan komputasi statistik untuk menggali dan merepresentasikan konteks sebagai sebuah arti kata untuk sejumlah corpus yang besar. Corpus adalah kumpulan teks yang memiliki kesamaan subjek/tema.
Tinjauan Pustaka Contoh LSA
Tinjauan Pustaka Model Bayesian Model Bayesian disebut juga Bayesian Network, Bayes Network, belief network, atau probabilistic directed acyclic graphical model. Sebuah model probabilitas grafikal (graphical model) yang merepresentasikan variabel-variabel acak dengan hubungan kondisionalnya (kebersyaratan kejadian) melalui sebuah directed acyclic graph (DAG).
Tinjauan Pustaka Struktur Data Linked-List Hasil modifikasi dari struktur data list dimana linked-list memanfaatkan penggunaan pointer. Kebutuhan memory pada linked-list bersifat dinamis.
Metode Penelitian Studi Literatur Metode LSA, model Bayesian, Linked-List
Desain dan Analisis Sistem Implementasi linked-list untuk model Bayesian pada term. Mendefinisikan fungsi-fungsi yang dibutuhkan untuk algoritma program
Data Uji Dokumen teks (txt, doc, docx) yang diujikan dengan LSA dan Term hasil uji.
Implementasi Desain dan Algoritma Sistem Menerapkan algoritma serta fungsi-fungsi yang telah didesain melalui tool NetBeans 8.0.
Uji Coba dan Evaluasi Sistem Penyusunan Laporan Tugas Akhir
Menampilkan pola term pada setiap dokumen uji serta melakukan maintenance pada aplikasi untuk mendapatkan hasil aplikasi yang user friendly.
Perancangan
Diagram Alur Aplikasi dan Ruang Lingkup Penulis
Statechart diagram pada sistem
Sequence diagram pada sistem
Data Uji Dokumen-1
Data Uji Dokumen-2
Data Uji Dokumen-3
Data Uji Dokumen-4
Data Uji Dokumen-5
Data Uji Dokumen-6
Data Term
Linked-list untuk pola term kode term
kata
alamat
next
Dalam bentuk urutan: T19 -> T2 Artinya -> T2 muncul didahului oleh T19 pada dokumen-1.txt di kalimat ke-1.
Pembentukan pola term 1. Filter Parent
Pembentukan pola term (lanjutan) 2. Pengelompokan Pola Term Berdasarkan parent
Pembentukan pola term (lanjutan) 3. Penggabungan Pola Term
Pembahasan Loading Data Loading data yang ditempatkan di folder yang diakses oleh aplikasi (folder data).
Pembahasan Pembentukan Pola Term Scanning term dilakukan pada masing-masing dokumen teks yang diuji untuk pembentukan pola (urutan) term yang ada pada setiap kalimat pada dokumen-dokumen uji.
Pembahasan Pembentukan Pola Term
Proses pembentukan pola sekuensial pada term menghasilkan pola term berbentuk urutan (sekuensial) kemunculan term yang terjadi di setiap kalimat pada setiap dokumen teks yang diuji. Pola term yang terbentuk adalah sebagai berikut: Dokumen-1.txt Dokumen-1.txt Dokumen-1.txt Dokumen-1.txt Dokumen-1.txt
kalimat-1 kalimat-2 kalimat-3 kalimat-4 kalimat-5
= T19 T2 T1 = T9 T7 T1 T2 T1 T3 = T1 T4 T18 T9 T8 T8 T2 == T1 T5 T7 T2 T18 T2 T5 T4 T3
Dokumen-2.docx kalimat-1 Dokumen-2.docx kalimat-2 Dokumen-2.docx kalimat-3 Dokumen-2.docx kalimat-4 Dokumen-2.docx kalimat-5
= T1 T4 T18 T9 T8 T8 T2 = T1 T5 T7 T2 T18 T2 T5 T4 T3 = T19 T2 T1 = T9 T7 T1 T2 T1 T3 =-
Dokumen-5.doc kalimat-1 = T10 T17 T12 T17 T16 T15 T11 T10 Dokumen-5.doc kalimat-2 = T12 T10 T15 Dokumen-5.doc kalimat-3 = T10 T19 T10 Dokumen-5.doc kalimat-4 = T10 T11 T11 Dokumen-5.doc kalimat-5 = T11 T10 T16 T14 T13 Dokumen-5.doc kalimat-6 = T12 T14 T13 T12 T13 Dokumen-5.doc kalimat-7 = T19 T2 T1 Dokumen-5.doc kalimat-8 = T9 T7 T1 T2 T1 T3 Dokumen-5.doc kalimat-9 = T1 T4 T18 T9 T8 T8 T2 Dokumen-5.doc kalimat-10 = Dokumen-5.doc kalimat-11 = T1 T5 T7 T2 T18 T2 T5 T4 T3
Pembahasan Display Pola Term Pola term yang terbentuk, ditampilkan secara sekuensial.
Pembahasan Display Pola Term Pola term yang terbentuk, ditampilkan secara visual.
Pembahasan Penilaian dan Hasil Kemiripan
Data pola term yang terbentuk pada masing-masing dokumen disimpan yang kemudian dijadikan acuan untuk menghitung presentase kemiripan antar dokumen uji. 𝑠𝑖𝑚𝑖𝑙𝑎𝑟𝑖𝑡𝑦 𝑑𝑜𝑐𝑖 , 𝑑𝑜𝑐𝑗 Keterangan: 𝑠𝑖𝑚𝑖𝑙𝑎𝑟𝑖𝑡𝑦 𝑑𝑜𝑐𝑖 , 𝑑𝑜𝑐𝑗 𝑗𝑚𝑙_𝑡𝑏(𝑑𝑜𝑐𝑖 , 𝑑𝑜𝑐𝑗 ) 𝑡𝑜𝑡_𝑡𝑒𝑟𝑚(𝑑𝑜𝑐𝑖 , 𝑑𝑜𝑐𝑗 )
𝑑𝑖𝑚𝑎𝑛𝑎 𝑖≠𝑗
=
𝑗𝑚𝑙_𝑡𝑏(𝑑𝑜𝑐𝑖 , 𝑑𝑜𝑐𝑗 )
𝑡𝑜𝑡_𝑡𝑒𝑟𝑚(𝑑𝑜𝑐𝑖 , 𝑑𝑜𝑐𝑗
𝑥100%
= nilai kemiripan antara dokumen-i dan dokumen-j dimana i≠j. = jumlah term yang sama secara berurutan antara dokumen-i dan dokumen-j. = total term pada dokumen-i dan dokumen-j.
Contoh Penghitungan Kemiripan Dokumen-1.txt Dokumen-1.txt Dokumen-1.txt Dokumen-1.txt Dokumen-1.txt
kalimat-1 kalimat-2 kalimat-3 kalimat-4 kalimat-5
= T19 T2 T1 = T9 T7 T1 T2 T1 T3 = T1 T4 T18 T9 T8 T8 T2 == T1 T5 T7 T2 T18 T2 T5 T4 T3
Nama Dokumen
Total Term
Dokumen-1.txt
25
Dokumen-5.doc
52
Dokumen-5.doc kalimat-1 = T10 T17 T12 T17 T16 T15 T11 T10 Dokumen-5.doc kalimat-2 = T12 T10 T15 Dokumen-5.doc kalimat-3 = T10 T19 T10 Dokumen-5.doc kalimat-4 = T10 T11 T11 Dokumen-5.doc kalimat-5 = T11 T10 T16 T14 T13 Dokumen-5.doc kalimat-6 = T12 T14 T13 T12 T13 Dokumen-5.doc kalimat-7 = T19 T2 T1 Dokumen-5.doc kalimat-8 = T9 T7 T1 T2 T1 T3 Dokumen-5.doc kalimat-9 = T1 T4 T18 T9 T8 T8 T2 Dokumen-5.doc kalimat-10 = Dokumen-5.doc kalimat-11 = T1 T5 T7 T2 T18 T2 T5 T4 T3
𝑠𝑖𝑚𝑖𝑙𝑎𝑟𝑖𝑡𝑦 𝑑𝑜𝑐1 , 𝑑𝑜𝑐5 3 + 6 + 7 + 9 + (3 + 6 + 7 + 9) = 𝑥100% 25 + 52 50 = 𝑥100% = 𝟔𝟒. 𝟗𝟑𝟓𝟎% 77
Uji Pengacakan Dokumen Dokumen-1.txt diacak sehingga urutan term berubah dan dokumen menjadi tidak berarti, dinamakan Dokumen-1a.txt. Kemudian pola term yang terbentuk adalah sebagai berikut
Dokumen-1a.txt Dokumen-1a.txt Dokumen-1a.txt Dokumen-1a.txt Dokumen-1a.txt
kalimat-1 = T1 T2 T5 T19 kalimat-2 = T7 T1 T3 T2 T1 kalimat-3 = T1 T9 T4 T18 T8 T9 T8 T2 kalimat-4 = T2 kalimat-5 = T1 T7 T3 T18 T2 T5 T4
Uji Pengacakan Dokumen
Kesimpulan Deteksi kemiripan antar dokumen teks pada LSA (Latent Semantic Analysis) hanya mengacu pada frekuensi kata (term) yang ada di dokumen dan tidak memperhatikan urutan tata letak kata sehingga struktur kalimat pada dokumen diabaikan, dan hal ini berpengaruh pada makna pada setiap dokumen yang diujikan. Kombinasi metode LSA dengan model Bayesian yang mana model Bayesian berperan dalam menjaga urutan term yang secara tidak langsung berarti menjaga struktur kalimat yang ada pada dokumen tersebut. Sehingga hasil deteksi kemiripan yang dihasilkan bisa lebih baik karena deteksi kemiripan yang dilakukan tidak hanya mengacu pada frekuensi term tetapi juga menjaga makna yang terkandung pada dokumen yang dibandingkan.
Daftar Pustaka
[1] Kamus Besar Bahasa Indonesia Daring (Dalam Jaringan). 2008. http://bahasa.kemdiknas.go.id/kbbi/index.php. Diakses tanggal 17 Juli 2014.
[2] Cosma, Georgina & Mike Joy. 2012. Evaluating the Performance of LSA for Source-code Plagiarism Detection. Journal of Informatica, Vol. 36, Hal. 409-424.
[3] Mozgovoy, Maxim, Tuomo Kakkonen & Georgina Cosma. 2010. Automatic Student Plagiarism Detection: Future Perspectives. Journal of Educational Computing Research, Vol. 43, Hal. 511-531.
[4] Cosma, Georgina. 2008. An Approach to Source-Code Plagiarism Detection and Investigation Using Latent Semantic Analysis. Thesis for Doctor of Philosophy in Computer Science, University of Warwick.
[5] Landauer, Thomas K., Peter W. Foltz & Darrell Laham. 1998. An Introduction to Latent Semantic Analysis. Department of Psychology, University of Colorado.
[6] Huang, Anna. 2009. Similarity Measures for Text Document Clustering. Department of Computer Science, The University of Waikato.
[7] Griffiths, Thomas L., Charles Kemp & Joshua B. Tenenbaum. 2006. “Bayesian Models of Cognition”. Journal of Annual Meeting of Cognitive Science Society, Vol.10, Issue 7.
[8] Murphy, Kevin. 1998. A Brief Introduction to Graphical Models and Bayesian Networks. http://www.cs.ubc.ca/~murphyk/Bayes/bnintro.html. Diakses tanggal 18 Juli 2014.
[9] Wikipedia. 2003. Directed Acyclic Graph. http://en.wikipedia.org/wiki/Directed_acyclic_graph. Diakses tanggal 17 Juli 2014.
[10] Nirosh. 2013. Introduction to Object Oriented Programming (OOP) Concept and More. http://www.codeproject.com/Articles/22769/Introduction-to-Object-Oriented-Programming-Concep. Diakses tanggal 25 Juli 2014.
[11] Shaffer, Clifford A. 2012. Data Structures and Algorithm Analysis. Blackburg: Virginia Tech.
[12] JavaTM Platform Standard 8. Class DefaultMutableTreeNode. http://docs.oracle.com/javase/8/docs/api/javax/swing/tree/DefaultMutableTreeNode.html. Diakses tanggal 17 Juli 2014.
[13] Kasim, Steven. 2012. Pembuatan Aplikasi untuk Mendeteksi Plagiarisme dengan Metode Latent Semantic Analysis. Tugas Akhir-Universitas Surabaya, Surabaya.
Terima Kasih!