Jurnal Aksara Komputer Terapan Politeknik Caltex Riau Vol. 1, No. 2, Tahun 2012
15
Jurnal Aksara Komputer Terapan Politeknik Caltex Riau Website : http://jurnal.pcr.ac.id/index.php/jakt/about/index Email :
[email protected]
Aplikasi Pendeteksi Plagiat dengan Menggunakan Metode Latent Semantic Analysis (Studi Kasus : Laporan TA PCR) Nova Khairunnisa1, Dadang Syarif SS2 dan Ardianto Wibowo3 1Program
Studi Teknik Informatika, Politeknik Caltex Riau, email:
[email protected] 2Program Studi Sistem Informasi, Politeknik Caltex Riau, email:
[email protected] 3Program Studi Teknik Informatika, Politeknik Caltex Riau, email:
[email protected]
Abstrak Jumlah dokumen yang tersedia dalam bentuk digital semakin banyak. Sementara itu, satu dokumen dengan dokumen lain bisa jadi saling terkait satu sama lain, tetapi tidak boleh saling menjiplak tanpa mencantumkan sumber referensi. Untuk itu diperlukan suatu mekanisme mendeteksi kemiripan dua atau lebih dokumen. Hal ini diperlukan agar setiap dokumen yang diterbitkan dapat dijamin keasliannya. Penelitian ini membahas kemiripan dua atau lebih dokumen untuk mendeteksi kesamaan dari dokumen-dokumen tersebut. Tahapan dalam metodologi penelitian terdiri dari: pengumpulan dokumen laporan tugas akhir sebagai dokumen uji, melakukan proses tokenisasi dengan menggunakan lucene untuk mendapatkan term-term yang merepresentasi masing-masing dokumen, menggunakan metode Latent Semantic Analysis dengan menghitung ti/idf masing-masing term pada masing-masing dokumen, menghitung kemiripan kombinasi dua dokumen dengan menggunakan cosines. Hasil pengujian dapat dilihat dari table pengujian dimana dari beberapa dokumen yang diuji dimana terdapat dokumen yang memiliki tingkat kemiripan diatas 0.5 dan 0.3. Oleh karena itu dapat disimpulkan bahwa aplikasi pendeteksian kemiripan dua atau lebih dokumen dapat digunakan untuk mendeteksi apakah suatu dokumen yang dibuat dapat dikatakan plagiat atau tidak. Kata kunci: Plagiarisme, Similarity, LSA, TF-IDF Abstract The number of documents available in digital form is growing. Meanwhile, a document with other documents can be interlinked with each other, but must not copy each other without acknowledgment of the source reference. For that we need a mechanism to detect the similarity of two or more documents. This is necessary so that each document issued can be guaranteed authenticity. This study discusses the similarity of two or more documents to detect the similarity of these documents. Stages in the research methodology consisted of: the collection of the final report document as a test document, the process tokenization using lucene to get the terms that represent each document, using the method of Latent Semantic Analysis to calculate ti/idf of each term in each document, compute the similarity of two documents by using a combination of cosines. Test results can be seen from the table where the testing of some of the documents tested where there is a document that has a level of similarity above 0.5 and 0.3. Therefore, it can be concluded that the application of the detection Aplikasi Pendeteksi Plagiat dengan Menggunakan Metode Latent Semantic Analysis (Studi Kasus : Laporan TA PCR) Nova Khairunnisa, Dadang Syarif SS, Ardianto Wibowo
Jurnal Aksara Komputer Terapan Politeknik Caltex Riau Vol. 1, No. 2, Tahun 2012
16
of two or more document similarity can be used to detect whether a document is created it can be said of plagiarism or not. Keywords: Plagiarisme, Similarity, LSA, TF-IDF
1. Pendahuluan Karya ilmiah adalah suatu karya tulis yang berisikan hasil penelitan seseorang. Pada pembuatan karya ilmiah ini tidak jarang terjadi tindakan curang seperti copy & paste, penjiplakan karya ilmiah dan lainya. Sehingga menyebabkan terjadinya tindakan plagiarism di kalangan mahasiswa yang akan membuat skirpsi. Plagirisme adalah salah satu tindakan menjiplak, menyalin bahkan menjadikan karya ilmiah orang lain seolah-olah menjadi miliknya. Biasanya pada pendeteksiannya dilakukan secara manual yaitu dengan melihat isi dari dua dokumen lalu dibandingkan. Tingkat kesamaan dua dokumen pun dihitung sehingga dapat diketahui apakah dokumen tersebut dapat dikatakan plagiat atau tidak. Akan tetapi dengan membandingkan dua dokumen membutuhkan banyak waktu. Metode LSA(Latent Semantic Analysis) adalah salah satu metode yang digunakan untuk mencari kesamaan dokumen dengan dokumen lainnya. Metode ini juga memiliki beberapa tahap dalam mencari kesamaan dokumen. Tahap pertama yaitu parshing text, yaitu untuk mencari frekuensi kemunculan term dari dokumen dengan melakukan proses tokenisasi, filtering, tahap yang terakhir yaitu dengan consine similarity yaitu menghitung kesamaan dokumen yang dibandingkan. Adapun tujuan dari proyek akhir ini adalah: 1. Merancang sistem aplikasi pendeteksi plagiat dengan menggunakan metode LSA (Latent Semantic Analysis). 2. Mengetahui kesamaan (similarty) antara satu dokumen dengan dokumen lainnya. Perumusan masalah dalam implentasi proyek akhir yaitu :
1.
2.
Bagaimana membangun “Aplikasi Pendeteksi Plagiat” untuk mendeteksi kesamaan pada dokumen dengan menggunakan mtode LSA (Latent Semantic Analysis). Sejauh mana “Aplikasi Pendeteksi Plagiat” tersebut dapat mendeteksi kemiripan dua atau lebih dokumen.
2. Landasan Teori 2.1
Plagiarisme
Menurut Kamus Besar Bahasa Indonesia (KBBI) plagiarisme adalah tindakan penjiplakan atau pengambilan karangan, pendapat, dan sebagainya dari orang lain dan menjadikannya seolah karangan dan pendapat sendiri [3]. Adapun beberapa contoh yang dianggap sebagai tindakan plagiarism sebagai berikut [2]: 1. Copy paste (copas) pada artikel/tulisan/posting orang lain tanpa mencantum nama pemiliknya. 2. Mengganti nama pemilik karya tulis dengan nama sendiri. 3. Menyalin bersih tulisan orang lain kedalam karya tulis yang dibuat tanpa ada perbedaan kata. 4. Mengunakan ide orang lain baik berupa tulisan, gambar, video dan lainnya tanpa mencantum sumbernya. 5. Membeli karya tulis orang lain lalu menyebarkan atas nama pribadi. 6. Menulis hasil karya orang lain dengan mengganti dengan kalimat sendiri tanpa mencantumkan sumber penelitian tersebut. 7. Mengubah hasil penelitian orang lain tanpa seizin dari pemililik karya ilmiah. Suatu dokumen dapat dikatakan plagiat apabila [1] :
Aplikasi Pendeteksi Plagiat dengan Menggunakan Metode Latent Semantic Analysis (Studi Kasus : Laporan TA PCR) Nova Khairunnisa, Dadang Syarif SS, Ardianto Wibowo
Jurnal Aksara Komputer Terapan Politeknik Caltex Riau Vol. 1, No. 2, Tahun 2012 1.
2. 3. 4.
2.2
Menyalin sebagian besar (>50%) dari sutu penulis atau pengarang yang sama. Menyalin sebagian tulisan(antara 2050%) dari pengarang yang sama. Menyalin kata perkata(hingga 20%). Menyalin sebagian besar tanpa memberikan quote yang benar. LSA (Latent Semantic Analysis)
Latent Semantic Analysis (LSA) adalah sebuah teori dan metode untuk menggali dan merepresentasikan konteks yang digunakan sebagai sebuah arti kata dengan memanfaatkan komputasi statik untuk sejumlah corpus yang besar. Corpus adalah kumpulan teks yang memiliki kesamaan subjek atau tema [4]. Metode LSA (Latent Semantic Analysis) menerima masukan berupa dokumen teks pada proses awal sebelumnya. Pada proses perbandingan dengan metode LSA kata-kata yang unik pada setiap dokumen akan direpresentasikan sebagai kolom matriks. Nilai dari matriks tersebut adalah banyaknya kemunculan disebuah kata di setiap dokumen yang akan dibandingkan. Contoh dari LSA adalah pada gambar 1 :
17
(1) Dimana : W ij : bobot kata term ke-j dan dokumen ke-i. tf ij : jumlah kemunculan kata / term ke-j dalam dokumen ke-i. idf : log N/n + 1 N : jumlah semua dokumen yang ada. n : jumlah dokumen yang mengandung term ke-j. 2.4
Consine Similarity
Consine Similarity digunakan untuk melakukan perhitungan kesamaan dari dokumen. Rumus yang digunakan oleh consine similarity adalah : Similarity Value (SV) = Dimana : A : vektor A B : vektor B ||A|| : panjang vektor A ||B|| : panjang vektor B
(2)
Gambar 1 Contoh dari LSA
2.3
TF-IDF
Term Frekuensi-Inverse Document Frekuensi adalah salah satu perhitungan bobot dari frekuensi kemunculan sebuah term pada dokumen [5]. TF-IDF digunakan untuk mencari nilai bobot dari dokumen. Algoritma TF-IDF akan memeriksa kemunculan tiap kata pada isi dokumen dari hasil tokenisasi, filtering dari kemuculan tiap kata pada isi dokumen. Adapun rumus untuk perhitungan TF-IDF yaitu : Aplikasi Pendeteksi Plagiat dengan Menggunakan Metode Latent Semantic Analysis (Studi Kasus : Laporan TA PCR) Nova Khairunnisa, Dadang Syarif SS, Ardianto Wibowo
Jurnal Aksara Komputer Terapan Politeknik Caltex Riau Vol. 1, No. 2, Tahun 2012
18
3. Metodologi Penelitian 3.1
Perancangan
3.1.1
Flowchart
Gambar 3 Flowchart Pendeteksian Dokumen
4. Hasil dan Pembahasan Gambar 2 Flowchart Sistem Aplikasi
4.1
Tampilan Awal Website
Gambar 4 Tampilan awal aplikasi
Pada gambar 4.1 merupakan bentuk awal dari aplikasi. Pada halaman awal aplikasi user dapat melihat ada 3 menu dalam aplikasi tersebut yaitu Home yang merupakan tampilan awal, Pendeteksi Plagiat halaman untuk melakukan pendeteksian dokumen dan Aplikasi Pendeteksi Plagiat dengan Menggunakan Metode Latent Semantic Analysis (Studi Kasus : Laporan TA PCR) Nova Khairunnisa, Dadang Syarif SS, Ardianto Wibowo
Jurnal Aksara Komputer Terapan Politeknik Caltex Riau Vol. 1, No. 2, Tahun 2012
19
About Us yang merupakan halaman tentang pembuat. a. Tampilan Pendeteksian Dua Dokumen
Gambar 5 Deteksi dua dokumen
Pada Gambar 4.2 adalah halaman untuk melakukan pendeteksian plagiat. Pada halaman ini user dapat melakukan pendeteksian untuk 2 dokumen, pendeteksian pada kumpulan dokumen dan indexing. b. Tampilan Deteksi ke Kumpulan Dokumen
Gambar 6 Deteksi ke Kumpulan Dokumen
Gambar 4.3 di atas untuk mendeteksi ke beberapa kumpulan dokumen. Dokumen uji yang ada di deteksi dengan dokumen yang ingin kita cari kesamaannya dengan kumpulan dokumen lainnya. 4.2
Analisa dan Evaluasi
Berdasarkan perhitungan consine similarity, tingkat kemiripan dari dokumen berada pada range 0-1 dimana 0 menyatakan bahwa dokumen tidak mirip dan 1 menyatakan mirip. Semakin besar nilai similarity dari dokumen yang diuji semakin besar tingkat kesamaan antar dua dokumen yang diujikan. Hasil analisa dari beberapa dokumen yang telah diuji adalah :
Hasil similarity yang didapat dari pengujian pada tabel 5.4 dinyatakan 10% laporan PA yang mempunyai kesamaan (similarity) diatas 0.5 dimana pada dokumen tersebut menggunakan katakata yang sama pada penulisan laporan PA dokumen. Untuk dokumen uji yang mempunyai kesamaan 0.2 - 0.5 sebanyak 25% dari dokumen yang telah diujikan.
Tabel 1 Hasil Pengujian dokumen laporan PA
Aplikasi Pendeteksi Plagiat dengan Menggunakan Metode Latent Semantic Analysis (Studi Kasus : Laporan TA PCR) Nova Khairunnisa, Dadang Syarif SS, Ardianto Wibowo
Jurnal Aksara Komputer Terapan Politeknik Caltex Riau Vol. 1, No. 2, Tahun 2012
20
5. Kesimpulan 5.1
Kesimpulan
Kesimpulan dari proyek akhir ini adalah : 1. Aplikasi pendeteksi plagiat dapat digunakan untuk mendeteksi kesamaan antar dua dokumen dan dengan beberapa dokumen yang ada. 2. Kesamaan dokumen dapat diketahui dengan menggunakan cosine similarity. 5.2
Saran Saran untuk proyek akhir ini adalah
: 1.
2.
Aplikasi ini dapat dipakai tidak hanya pada laporan TA PCR tapi juga dapat dipakai untuk mendeteksi kesamaan dokumen lainnya. Untuk kedepannya aplikasi ini dapat dikembangkan dengan menambah format dokumen yang dibandingkan dan tidak hanya berupa tulisan saja yang dibandingkan akan tetapi dapat membandingkan gambar, grafik, table dan lainnya.
Daftar Pustaka [1]
[2]
[3] [4]
[5]
A Plagiarism FAQ. (t.t). Diambil pada 09 April 2012 dari http://www.ieee.org/publications_sta ndards/publications/rights/plagiarism _FAQ.html. Ardiansyah, Adryan. 2011. Pengembangan Aplikasi Pendeteksi Plagiarisme Menggunakan Metode Latent Semantic Analysis (LSA), Studi Kasus Plagiarisme Karya Ilmiah Berbahasa Indonesia). KBBI. 1997: 775. Landauer, T.K., dkk. (1998). Intorduction to Latent Semantic Analysis. Discourse Processes, 25, 259-284. Rahmawati, Risna. 2011. Analisa Peringkas Teks Berdasarkan Query Menggunakan Metode Enumerasi. IT TELKOM Bandung.
Aplikasi Pendeteksi Plagiat dengan Menggunakan Metode Latent Semantic Analysis (Studi Kasus : Laporan TA PCR) Nova Khairunnisa, Dadang Syarif SS, Ardianto Wibowo