PENDETEKSIAN KESAMAAN PADA DOKUMEN TEKS MENGGUNAKAN KOMBINASI ALGORITMA ENHANCED CONFIX STRIPPING DAN ALGORITMA WINNOWING
SKRIPSI ADE CHANIA SION SAGALA 091402044
PROGRAM STUDI S1 TEKNOLOGI INFORMASI FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI UNIVERSITAS SUMATERA UTARA MEDAN 2014
PENDETEKSIAN KESAMAAN PADA DOKUMEN TEKS MENGGUNAKAN KOMBINASI ALGORITMA ENHANCED CONFIX STRIPPING DAN ALGORITMA WINNOWING
SKRIPSI Diajukan untuk melengkapi tugas dan memenuhi syarat memperoleh ijazah Sarjana Teknologi Informasi
ADE CHANIA SION SAGALA 091402044
PROGRAM STUDI S1 TEKNOLOGI INFORMASI FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI UNIVERSITAS SUMATERA UTARA MEDAN 2014
PERSETUJUAN
Judul
:
PENDETEKSIAN KESAMAAN PADA DOKUMEN TEKS MENGGUNAKAN KOMBINASI ALGORITMA ENHANCED CONFIX STRIPPING DAN ALGORITMA WINNOWING
Kategori
:
SKRIPSI
Nama
:
ADE CHANIA SION SAGALA
Nomor Induk Mahasiswa
:
091402044
Program Studi
:
SARJANA (S1) TEKNOLOGI INFORMASI
Departemen
:
TEKNOLOGI INFORMASI
Fakultas
:
ILMU KOMPUTER DAN TEKNOLOGI INFORMASI (FASILKOM-TI) UNIVERSITAS SUMATERA UTARA Diluluskan di Medan, 29 Agustus 2014
Komisi Pembimbing: Pembimbing 2
Pembimbing 1
Romi Fadillah Rahmat, B.Comp.Sc., M.Sc. NIP 19860303 201012 1 004
Maya Silvi Lydia, B.Sc., M.Sc. NIP 19740127 200212 2 001
Diketahui/Disetujui oleh Program Studi S1 Teknologi Informasi Ketua,
M. Anggia Muchtar, S.T., MM.IT. NIP 19800110 200801 1 010
iii
PERNYATAAN
PENDETEKSIAN KESAMAAN PADA DOKUMEN TEKS MENGGUNAKAN KOMBINASI ALGORITMA ENHANCED CONFIX STRIPPING DAN ALGORITMA WINNOWING
SKRIPSI
Saya mengakui bahwa skripsi ini adalah hasil karya saya sendiri, kecuali beberapa kutipan dan ringkasan yang masing-masing telah disebutkan sumbernya.
Medan, 29 Agustus 2014
Ade Chania Sion Sagala 091402044
iv
UCAPAN TERIMA KASIH
Segala puji dan syukur penulis sampaikan kepada Tuhan Yesus yang telah memberikan berkat-Nya yang melimpah sehingga penulis dapat menyelesaikan skripsi ini dengan baik untuk memperoleh gelar Sarjana Teknologi Informasi, Program Studi S1 Teknologi Informasi Universitas Sumatera Utara.
1.
2.
3.
4.
5. 6.
7. 8.
Dengan segala kerendahan hati penulis ucapkan terima kasih kepada: Ayah penulis, alm. Alfanus Februanto Sagala, S.H., ibu penulis, Chitra Dewi Siregar, dan adik penulis satu-satunya Milca Satriyani Sagala, A.md yang telah memberikan doa dan dukungan moral kepada penulis untuk menyelesaikan skripsi ini beserta keluarga besar yang telah turut mendoakan penulis. Ibu Maya Silvi Lydia, B.Sc., M.Sc. dan Bapak Romi Fadillah Rahmat, B.Comp.Sc., M.Sc. selaku dosen pembimbing penulis yang telah meluangkan waktu, pikiran, saran, dan kritiknya untuk penulis dalam menyelesaikan skripsi ini. Ibu Sarah Purnamawati, S.T., M.Sc dan Ibu Dr. Erna Budhiarti, M.IT. yang telah bersedia menjadi dosen penguji dan memberikan saran dan kritik yang membangun dalam penyelesaian skripsi ini. Ketua dan Sekretaris Program Studi S1 Teknologi Informasi, Bapak M. Anggia Muchtar, S.T., MM.IT. dan Bapak Mohammad Fadly Syahputra, B.Sc., M.Sc.IT. Seluruh dosen yang mengajar serta Ibu Delima dan Bang Faisal, sebagai staf Tata Usaha Program Studi Teknologi Informasi Universitas Sumatera Utara. Sahabat-sahabat yang selalu mendukung dan memberi semangat kepada penulis, Fida Elvi Anderia Sebayang, S.TI, Stella Maris Harefa, S.TI, Cynthia Arilla Sembiring, S.TI, Riska Vinesia Butarbutar, S.TI, Jihan Meutia Fauzen, S.TI, Annifa Iqramitha, S.TI, dan semua teman angkatan 2009. Sahabat penulis Maria Fransiska Sinaga, S.T., Septina Veronika Bancin, S.KG, dan Dewi Tambunan yang selalu mendoakan dan memberi semangat. Seluruh rekan kuliah sejawat yang tidak dapat disebutkan satu persatu.
Penulis menyadari bahwa masih banyak kekurangan dalam skripsi ini, untuk itu penulis mengharapkan saran dan kritik yang bersifat membangun dari semua pihak demi kesempuranaan skripsi ini. Akhir kata penulis ucapkan terima kasih.
v
ABSTRAK
Maraknya tindakan plagiarisme di dunia perkuliahan, baik plagiarisme dalam hal penyelesaian tugas maupun penyusunan karya ilmiah dapat mengurangi bahkan mematikan kreativitas seseorang dalam berkarya. Oleh karena itu, dibutuhkan sebuah aplikasi untuk mendeteksi tingkat kesamaan (similarity) sebuah dokumen teks dengan dokumen yang sudah ada. Penelitian ini menggunakan kombinasi dari algoritma Enhanced Confix Stripping (ECS) Stemmer untuk proses stemming teks yang dimasukkan dan algoritma Winnowing untuk menghitung tingkat kesamaannya (similarity) dengan dokumen dari database. Dengan ditentukannya nilai gram dan window pada perhitungan algoritma Winnowing, diharapkan dapat memudahkan user menggunakan aplikasi ini tanpa harus bingung menentukan nilai gram dan windownya untuk menghasilkan nilai similarity yang akurat. Hasil pengujian menyimpulkan nilai kesamaan (similarity) sekitar 23-26% dengan percobaan 3 jurnal yang berkategori sama dengan jurnal pembanding. Dan untuk pendeteksian tanpa stemming menghasilkan tingkat kesamaan (similarity) sekitar 35-40% dengan jumlah jurnal dan kategori yang sama pula.
Kata kunci: enhanced confix stripping (ecs) stemmer, winnowing, plagiarisme, tingkat plagiat, similarity
vi
SIMILARITY DETECTION FOR TEXT DOCUMENTS USING COMBINATION OF ENHANCED CONFIX STRIPPING STEMMER ALGORITHM AND WINNOWING ALGORITHM
ABSTRACT
The plethora of plagiarism in lecturing, such as for finishing projects or making scientific papers can diminish even stifle someoneās creativity. Therefore, an application to detect a document for the similarity level of plagiarism with the existing one is needed. This research uses the combination of Enhanced Confix Stripping (ECS) Stemmer algorithm to stem the input text and Winnowing algorithm to numerate the similarity level with a document in database. The value of gram and window for the calculation of Winnowing algorithm are determined along with, so that it can abridge the user to use this application without being confused
to
determine the value of its gram and window to get an accurate similarity. The result concludes that the similarity is about 23-26% by three-same-category testing journals with the correlate journal in database. And the result of the nonstemming detection of similarity is about 35-40% with the same total of journals and category.
Keywords: enhanced confix stripping (ecs) stemmer, winnowing, plagiarism, level of plagiarism, similarity
vii
DAFTAR ISI
Halaman PERSETUJUAN PERNYATAAN UCAPAN TERIMA KASIH ABSTRAK ABSTRACT DAFTAR ISI DAFTAR TABEL DAFTAR GAMBAR
ii iii iv v vi vii ix x
BAB 1 PENDAHULUAN 1.1. Latar Belakang 1.2. Rumusan Masalah 1.3. Batasan Masalah 1.4. Tujuan Penelitian 1.5. Manfaat Penelitian 1.6. Metodologi Penelitian 1.7. Sistematika Penulisan
1 1 2 3 3 3 3 4
BAB 2 TINJAUAN PUSTAKA 2.1. Plagiarisme 2.1.1. Pengertian Plagiarisme 2.1.2. Peraturan dan Hukum yang Mengatur Plagiarisme 2.2. Citasi 2.3. Algoritma Stemming Bahasa Indonesia 2.3.1. Algoritma Enhanced Confix Stripping Stemmer 2.4. Algoritma Winnowing 2.4.1. Rolling Hash 2.4.2. Tahapan Penerapan Algoritma Winnowing 2.4.3. Pengukuran Dan Persentase Similarity 2.5. Penelitian Terdahulu
6 6 6 8 9 10 11 14 15 16 17 18
BAB 3 ANALISIS DAN PERANCANGAN SISTEM 3.1. Analisis Data 3.1.1. Data Jurnal 3.1.2. Tabel Kata Dasar 3.1.3. Tabel Stoplist 3.2. Analisis Sistem 3.2.1. Proses Admin a. Text Preprocessing b. Penghapusan Stopwords c. Stemming Enhanced Confix Stripping d. Pembentukan Nilai Hash dan Fingerprint
20 20 20 21 21 22 22 23 26 27 31
viii
Halaman 3.2.2. Proses User 3.3. Perancangan Sistem 3.3.1. Arsitektur Umum (General Architecture) 3.3.2. Diagram Use Case 3.3.3. Realisasi Definisi Use Case 3.4. Perancangan Tampilan Antarmuka 3.4.1. Rancangan Halaman Utama User 3.4.2. Rancangan Halaman Hasil Pendeteksian 3.4.3. Rancangan Halaman Home Admin 3.4.4. Rancangan Halaman Profile Admin 3.4.5. Rancangan Halaman Edit Dictionary Admin 3.4.6. Rancangan Halaman Proses Stemming 3.4.7. Rancangan Halaman Nilai Hash dan Fingerprint
45 46 46 46 47 49 49 49 50 51 51 52 53
BAB 4 IMPLEMENTASI DAN PENGUJIAN 4.1. Implementasi Sistem 4.1.1. Spesifikasi Perangkat Keras Dan Perangkat Lunak Yang Digunakan 4.1.2. Implementasi Perancangan Antarmuka a. Tampilan Halaman Utama User b. Tampilan Halaman Hasil Pendeteksian c. Tampilan Halaman Home Admin d. Tampilan Halaman Profile Admin e. Tampilan Halaman Edit Dictionary Admin f. Tampilan Halaman Proses Stemming g. Tampilan Halaman Nilai Hash dan Fingerprint 4.2. Pengujian Sistem 4.2.1. Pengujian pada Proses yang Dilakukan Admin 4.2.2. Pengujian pada Proses yang Dilakukan User 4.2.3. Pengujian Kinerja Sistem 4.2.4. Hasil Pengujian Sistem a. Hasil Pengujian Dengan Proses Stemming b. Hasil Pengujian Tanpa Proses Stemming
54 54
BAB 5 KESIMPULAN DAN SARAN 5.1. Kesimpulan 5.2. Saran
64 64 64
DAFTAR PUSTAKA
65
LAMPIRAN A: Kode Program LAMPIRAN B: Hasil Pendeteksian Kesamaan
68 74
54 54 54 55 55 56 56 57 57 58 58 60 60 61 61 62
ix
DAFTAR TABEL
Halaman Tabel 2.1. Aturan Dasar Awalan - Akhiran Yang Berlaku Tabel 2.2. Urutan Pengembalian Akhiran Tabel 2.3. Aturan Pemenggalan Awalan Algoritma Stemmer Nazief dan Adriani Tabel 2.4. Aturan Pemenggalan Awalan Algoritma Enhanced Confix Stripping Stemmer Tabel 2.5. Penelitian Terdahulu Tabel 3.1. Tabel Kategori Tabel 3.2. Tabel Keyword Tabel 3.3. Tabel Kata Dasar Tabel 3.4. Tabel Stoplist Tabel 3.5. Nilai Fungsi Hash Kalimat 1 Tabel 3.6. Nilai Fungsi Hash Kalimat 2 Tabel 3.7. Realisasi Definisi Use case Tabel 4.1. Daftar Jurnal Uji Tabel 4.2. Daftar Jurnal Pembanding Tabel 4.3. Hasil Pengujian Dengan Proses Stemming Tabel 4.4. Hasil Pengujian Tanpa Proses Stemming
11 11 11 13 19 20 24 21 22 31 38 47 60 60 61 62
x
DAFTAR GAMBAR
Halaman Gambar 3.1. Flowchart Proses Admin Gambar 3.2. Flowchart Text Preprocessing Gambar 3.3. Flowchart Penghapusan Stopwords Gambar 3.4. Flowchart Stemming ECS Gambar 3.5. Flowchart Proses User Gambar 3.6. General Architecture Gambar 3.7. Diagram Use case Gambar 3.8. Rancangan Halaman Utama User Gambar 3.9. Rancangan Halaman Hasil Pendeteksian Gambar 3.10. Rancangan Halaman Home Admin Gambar 3.11. Rancangan Halaman Profile Admin Gambar 3.12. Rancangan Halaman Edit Dictionary Admin Gambar 3.13. Rancangan Halaman Proses Stemming Gambar 3.14. Rancangan Halaman Nilai Hash dan Fingerprint Gambar 4.1. Tampilan Halaman Utama User Gambar 4.2. Tampilan Halaman Hasil Pendeteksian Gambar 4.3. Tampilan Halaman Home Admin Gambar 4.4. Tampilan Halaman Profile Admin Gambar 4.5. Tampilan Halaman Edit Dictionary Admin Gambar 4.6. Tampilan Halaman Proses Stemming Gambar 4.7. Tampilan Halaman Nilai Hash dan Fingerprint Gambar 4.8. Database Tabel Keyword
25 26 25 29 45 46 47 49 50 50 51 52 52 53 55 55 56 56 57 57 58 59