DETEKSI KEMIRIPAN DOKUMEN TEKS MENGGUNAKAN ALGORITMA MANBER
SKRIPSI
IQBAL MAULANA DJAFAR 091402012
PROGRAM STUDI S1 TEKNOLOGI INFORMASI FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI UNIVERSITAS SUMATERA UTARA MEDAN 2014
Universitas Sumatera Utara
DETEKSI KEMIRIPAN DOKUMEN TEKS MENGGUNAKAN ALGORITMA MANBER
SKRIPSI
Diajukan untuk melengkapi tugas dan memenuhi syarat memperoleh ijazah Sarjana Teknologi Informasi
IQBAL MAULANA DJAFAR 091402012
PROGRAM STUDI S1 TEKNOLOGI INFORMASI FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI UNIVERSITAS SUMATERA UTARA MEDAN 2014
Universitas Sumatera Utara
ii
PERSETUJUAN
Judul
: DETEKSI KEMIRIPAN DOKUMEN TEKS MENGGUNAKAN ALGORITMA MANBER
Kategori
: SKRIPSI
Nama
: IQBAL MAULANA DJAFAR
Nomor Induk Mahasiswa
: 091402012
Program Studi
: SARJANA (S1) TEKNOLOGI INFORMASI
Fakultas
: ILMU KOMPUTER DAN TEKNOLOGI INFORMASI UNIVERSITAS SUMATERA UTARA
Komisi Pembimbing
:
Pembimbing 2
Pembimbing 1
Sarah Purnamawati, ST., M.Sc
Dr. Erna Budhiarti Nababan, M.IT
NIP 19830226 2010122 003
NIP
Diketahui/disetujui oleh Program Studi S1 Teknologi Informasi Ketua,
M. Anggia Muchtar, ST., MM.IT NIP 19800110 200801 1 010
Universitas Sumatera Utara
iii
PERNYATAAN
DETEKSI KEMIRIPAN DOKUMEN MENGGUNAKAN ALGORITMA MANBER
SKRIPSI
Saya mengakui bahwa skripsi ini adalah hasil karya Saya sendiri, kecuali beberapa kutipan dan ringkasan yang masing- masing telah disebutkan sumbernya.
Medan,
Iqbal Maulana Djafar 091402012
Universitas Sumatera Utara
iv
PENGHARGAAN
Alhamdulillah segala puji dan syukur saya sampaikan kehadirat Allah SWT beserta Nabi Besar Muhammad SAW yang telah memberikan rahmat, hidayah-Nya sehingga Saya dapat menyelesaikan skripsi ini untuk memperoleh gelar Sarjana Program Studi S-1 Teknologi Informasi Universitas Sumatera Utara. Ucapan terima kasih penulis sampaikan kepada: 1. Bapak M. Anggia Muchtar, ST., MM.IT dan M. Fadly Syahputra, B.Sc., M.Sc.IT selaku Ketua dan Sekretaris Jurusan Teknologi Informasi Universitas Sumatera Utara, serta seluruh dosen serta pegawai di Program Studi S-1 Teknologi Informasi. 2. Ibu Dr. Erna Budhiarti Nababan, M.IT selaku pembimbing pertama dan Ibu Sarah Purnamawati, ST., M.Sc selaku pembimbing kedua Saya yang telah banyak meluangkan waktunya dan memberikan saran yang bermanfaat dalam menyelesaikan skripsi ini. 3. Bapak M. Anggia Muchtar, ST., MM.IT dan Bapak Dedy Arisandi, ST., M.Kom yang telah bersedia menjadi dosen penguji dan telah memberikan saran-saran yang baik bagi penulis dalam meyelesaikan skripsi ini. 4. Ayahanda Drs. Djafar Djuned dan Bunda Husna Yaini Djuned yang telah memberikan dukungan dan motivasi dalam menyelesaikan skripsi ini. 5. Teman-teman seperjuangan stanbuk 2009 yang banyak memberikan semangat maupun bantuan dalam menyelesaikan skripsi ini.
Dan yang terakhir, penulis mengucapkan terima kasih kepada semua pihak yang sudah membantu dalam penyelesaian tugas akhir ini meskipun tidak dapat disebutkan satu per satu. Terima kasih atas saran, motivasi, dan bantuan yang telah diberikan, semoga Allah memberikan kemudahan bagi kita semua.
Universitas Sumatera Utara
v
ABSTRAK
Dokumen teks sering dijadikan sebagai objek penjiplakan atau tindak plagiat karena perkembangan teknologi yang semakin pesat tentu akan memudahkan tindakan tersebut untuk dilakukan. Oleh karena itu, dirancang sistem berbasis web untuk mendeteksi kemiripan dokumen teks menggunakan algoritma Manber. Sistem juga dibangun dengan mengimplementasikan teknik Stemming Porter
dan Synonym
Recognition untuk mengatasi teknik penjiplakan seperti Technical Disguise dan Disguised Plagiarism. Perbedaan hasil yang didapatkan dengan menggunakan teknik tersebut mencapai 15% dibandingkan tanpa penggunaannya.
Kata Kunci: Plagiat, Kemiripan, Stemming Porter, Synonym Recognition, Algoritma Manber
Universitas Sumatera Utara
vi
SIMILARITY DETECTION OF DOCUMENT TEXT USING MANBER ALGORITHM
ABSTRACT
Document text is an object that often used in plagiarism case because the rapid of technology development makes this action more easily to do. In this research, a web based system is designed to detect similarity of document text using Manber Algorithm. Stemming Porter and Synonym Recognition are also implemented to overcome some of plagiarism technique like Technical Disguised and Disguised Plagiarism. The difference result is about 15% compared without using those techniques.
Keyword: Plagiarism, Similarity, Stemming Porter, Synonym Recognition, Manber Algorithm
Universitas Sumatera Utara
vii
DAFTAR ISI
Hal. PERSETUJUAN
ii
PERNYATAAN
iii
PENGHARGAAN
iv
ABSTRAK
v
ABSTRACT
vi
DAFTAR ISI
vii
DAFTAR TABEL
x
DAFTAR GAMBAR
xi
BAB 1 PENDAHULUAN
1
1.1 Latar Belakang
1
1.2 Rumusan Masalah
3
1.3 Batasan Masalah
3
1.4 Tujuan Penelitian
4
1.5 Manfaat Penelitian
4
1.6 Metodologi Penelitian
4
1.7 Sistematika Penulisan
5
BAB 2 TINJAUAN PUSTAKA
7
2.1 Keaslian Dokumen Teks
7
2.2 Penjiplakan
7
2.3 Kemiripan Dokumen Teks
8
2.4 Text Mining
9
2.5 Algoritma Manber
9
2.5.1 Penghapusan Noise Dan Whitespace
10
2.5.2 Metode N-Gram
11
2.5.3 Rolling Hash
12
2.5.4 Fingerprint Dokumen
12
Universitas Sumatera Utara
viii
2.5.5 Persamaan Jaccard Coefficient
13
2.6 Stemming
14
2.7 Synonym Recognition
15
2.8 Penelitian Terdahulu
15
BAB 3 ANALISIS DAN PERANCANGAN
18
3.1 Data Yang Digunakan
18
3.2 Flowchart Sistem
18
3.3 Activity Diagram
22
3.4 Stemming
23
3.5 Synonym Recognition
28
3.6 Algoritma Manber
29
3.7 Deteksi Kemiripan Teks Secara Manual
31
3.8 Perancangan Database Dan Interface Sistem
33
3.8.1 Database Sistem
33
3.8.2 Interface Sistem
34
BAB 4 IMPLEMENTASI DAN PENGUJIAN
37
4.1 Implementasi
37
4.1.1 Spesifikasi Hardware Dan Software Yang Digunakan
37
4.1.2 Database Tabel Kata Dasar
38
4.1.3 Database Tabel Kata Sinonim
38
4.1.4 Tampilan Awal
39
4.1.5 Tampilan Hasil
40
4.1.6 Stemming
41
4.1.7 Synonym Recognition
42
4.1.8 Algoritma Manber
43
4.2 Pengujian Sistem
44
4.2.1 Pengujian Tampilan Sistem
44
4.2.2 Pengujian Proses Stemming
46
4.2.3 Pengujian Synonym Recognition
48
4.2.4 Pengujian Deteksi Kemiripan Teks
49
4.2.5 Pengujian Nilai N-Gram
51
Universitas Sumatera Utara
ix
4.2.6 Pengujian Dengan Metode Lainnya
BAB 5 KESIMPULAN DAN SARAN
52
53
5.1 Kesimpulan
53
5.2 Saran
54
DAFTAR PUSTAKA
55
LAMPIRAN: KODE PROGRAM
57
Universitas Sumatera Utara
x
DAFTAR TABEL
Hal. Tabel 2.1 Penelitian Terdahulu
17
Tabel 3.1 Bubuhan Kata Stemming Porter
23
Tabel 3.2 Penambahan Bubuhan Kata
24
Tabel 3.3 Rules Peleburan Huruf
25
Tabel 3.4 Rancangan Tabel Kata Dasar
33
Tabel 3.5 Rancangan Tabel Kata Sinonim
34
Tabel 4.1 Rancangan Pengujian Tampilan Sistem
44
Tabel 4.2 Hasil Pengujian Tampilan Sistem
45
Tabel 4.3 Rancangan Pengujian Rules
46
Tabel 4.4 Hasil Pengujian Rules
47
Tabel 4.5 Rancangan Pengujian Synonym Recognition
48
Tabel 4.6 Hasil Pengujian Synonym Recognition
48
Tabel 4.7 Rancangan Pengujian Kemiripan Teks
49
Tabel 4.8 Hasil Pengujian Kemiripan Teks
51
Tabel 4.9 Rancangan Pengujian Nilai N
51
Tabel 4.10 Hasil Pengujian Nilai N
51
Tabel 4.11 Rancangan Pengujian Dengan Metode Lainnya
52
Tabel 4.12 Hasil Pengujian Dengan Metode Lainnya
52
Universitas Sumatera Utara
xi
DAFTAR GAMBAR
Hal. Gambar 3.1 Flowchart Preprocessing
19
Gambar 3.2 Flowchart Text Transformation
20
Gambar 3.3 Flowchart Feature Selection & Patter Discovery
21
Gambar 3.4 Diagram Activity
22
Gambar 3.5 Proses Stemming
26
Gambar 3.6 Proses Synonym Recognition
28
Gambar 3.7 Proses Algoritma Manber
30
Gambar 3.8 Rancangan Tampilan Awal Sistem
35
Gambar 3.9 Rancangan Tampilan Hasil Sistem
36
Gambar 4.1 Database Tabel Kata Dasar
38
Gambar 4.2 Database Tabel Kata Sinonim
38
Gambar 4.3 Tampilan Awal Sistem
39
Gambar 4.4 Tampilan Hasil Sistem
40
Gambar 4.5 Hasil Implementasi Stemming
42
Gambar 4.6 Hasil Implementasi Synonym Recognition
43
Gambar 4.7 Hasil Proses Algoritma Manber
43
Gambar 4.8 Hasil Akhir Algoritma Manber
44
Gambar 4.9 Pengujian Stemming Dan Rules
47
Gambar 4.10 Pengujian Synonym Recognition
48
Gambar 4.11 Hanya Menggunakan Algoritma Manber
49
Gambar 4.12 Stemming, Synonym Recognition, Dan Algoritma Manber
50
Universitas Sumatera Utara