Pendeteksian Kesamaan pada Dokumen Teks Menggunakan Kombinasi Algoritma Enhanced Confix Stripping dan Algoritma Winnowing 1
Ade Chania Sion Sagala, 2Maya Silvi Lydia, 3 Romi Fadillah Rahmat 1,3
Program Studi S1 Teknologi Informasi 2 Program Studi S1 Ilmu Komputer Fakultas Ilmu Komputer dan Teknologi Informasi Universitas Sumatera Utara E-mail:
[email protected] [email protected] [email protected] Abstrak — Maraknya tindakan plagiarisme di dunia perkuliahan, baik plagiarisme dalam hal penyelesaian tugas maupun penyusunan karya ilmiah dapat mengurangi bahkan mematikan kreativitas seseorang dalam berkarya. Oleh karena itu, dibutuhkan sebuah aplikasi untuk mendeteksi tingkat kesamaan (similarity) sebuah dokumen teks dengan dokumen yang sudah ada. Penelitian ini menggunakan kombinasi dari algoritma Enhanced Confix Stripping (ECS) Stemmer untuk proses stemming teks yang dimasukkan dan algoritma Winnowing untuk menghitung tingkat kesamaannya (similarity) dengan dokumen dari database. Dengan ditentukannya nilai gram dan window pada perhitungan algoritma Winnowing, diharapkan dapat memudahkan user menggunakan aplikasi ini tanpa harus bingung menentukan nilai gram dan window-nya untuk menghasilkan nilai similarity yang akurat. Hasil pengujian menyimpulkan nilai kesamaan (similarity) sekitar 23-26% dengan percobaan 3 jurnal yang berkategori sama dengan jurnal pembanding. Dan untuk pendeteksian tanpa stemming menghasilkan tingkat kesamaan (similarity) 3540% dengan jumlah jurnal dan kategori yang sama pula.
plagiat, 59% diantaranya menyatakan bahwa mereka tidak diberi tutorial yang cukup untuk menghindari tindak plagiat dalam menyelesaikan tugas mereka. Proses pendeteksian dapat dilakukan dengan mengurai isi dokumen menjadi string yang memiliki nilai dan dilakukan pencocokan dengan dokumen yang tersedia di dalam database. Dalam awal pendeteksian diperlukan proses stemming, yang berarti menghilangkan akhiran dari suatu kata Berbeda dengan proses stemming pada bahasa Inggris, proses stemming pada bahasa Indonesia lebih sulit dilakukan karena bahasa Indonesia mengenal imbuhan awalan (prefixes), sisipan (infixes), akhiran (suffixes), dan kombinasi awalan dan akhiran (confixes). Dalam penelitian yang akan dilakukan, algoritma Enhanced Confix Stripping Stemmer dipilih untuk proses penguraian teks dari imbuhannya. Untuk menghitung nilai kesamaan teks dengan dokumen dalam database digunakan algoritma Winnowing dengan teknik rolling hash. Algoritma Winnowing membuang seluruh pemakaian karakter yang tidak relevan, seperti, tanda baca, spasi, angka, dan karakter lainnya. Hanya karakter berupa huruf yang akan diproses ke tahap berikutnya [3].
Kata kunci: enhanced confix stripping (ecs) stemmer, winnowing, plagiarisme, tingkat plagiat, similarity
II. IDENTIFIKASI MASALAH
I. PENDAHULUAN Tugas akhir merupakan kewajiban yang harus diselesaikan setiap mahasiswa yang ingin mendapatkan status kelulusan. Dalam teknik penulisan tugas akhir salah satu ciri utamanya adalah keasliannya. Setiap karya memiliki kekhasan penulisannya masing-masing tergantung karakter dari setiap penulis. Keaslian suatu karya dapat ditunjukkan pula dengan adanya copyright dari pemilik tulisan itu sendiri [1]. Dari penelitian [2] ada sekitar 89% mahasiswa yang setuju dan mengerti arti dari plagiarisme dalam dunia pendidikan, dan menyarankan agar materi tentang hal itu dijelaskan pada awal perkuliahan. Tetapi sekitar 65% mengaku bahwa mereka merasa bingung dengan pengertian
Maraknya tindakan plagiarisme di dunia perkuliahan, baik plagiarisme dalam hal penyelesaian tugas maupun penyusunan karya ilmiah dapat mengurangi bahkan mematikan kreativitas seseorang dalam berkarya. Berdasarkan hal tersebut, diperlukan sebuah aplikasi yang akan difungsikan untuk mendeteksi kesamaan pada dokumen teks sehingga didapatkan perbandingan antara jurnal yang diuji user dan jurnal yang terdeteksi. III. PENELITIAN TERDAHULU Penelitian tentang plagiat/kesamaan pada dokumen teks telah banyak dilakukan sebelumnya dengan algoritma yang berbeda-beda, diantaranya dengan metode Latent Semantic Analysis [4], algoritma Smith-Waterman [5], algoritma Hashing Berbasis N-Gram [6], algoritma Rabin-Karp [7][8].
Sedangkan untuk penelitian tentang penggunaan algoritma Enhanced Confix Stripping Stemmer yaitu pada Pengklasifikasian Dokumen Berita [9]. IV. METODE PENELITIAN A. Plagiarisme Plagiarisme merupakan proses pengambilan gagasan dari orang lain tanpa menyertakan citasi penulis asli. Hal ini dapat dicontohkan dengan menggunakan poin-poin umum atau mengutip beberapa kata dan mengubahnya dari tulisan asli tanpa menyebutkan sumber tulisan [10]. Berbagai pemicu untuk melakukan tindakan plagiat di dunia akademi didasarkan pada tiga faktor umum berikut [11]: 1. Kecerobohan mahasiswa dan kelalaian dosen 2. Desakan finansial (biasanya dilakukan oleh dosen) 3. Ketidakpuasan terhadap ketenaran produk dan diri sendiri Seperti yang telah dijelaskan di awal, keaslian suatu karya, seperti karangan atau ciptaan merupakan suatu hal esensial dalam perlindungan hukum melalui hak cipta. Perlindungan hukum melalui hak cipta diberikan kepada karya pengarang, artis, musisi, programer, dan lainnya, yakni melindungi hak-hak pencipta dari tindakan peniruan dan mereproduksi tanpa izin [12]. B. Citasi Citasi merupakan sebuah cara/alternatif untuk memberitahukan kepada publik bahwa beberapa bagian dari karya ilmiah yang dituliskan berasal dari karya ilmiah lain dengan mencantumkan informasi penulis, judul karya ilmiah yang dikutip, nama perusahaan atau penerbit yang mempublikasikan, tanggal publikasi, dan nomor halaman yang dikutip. Beberapa model citasi yang dapat diikuti oleh penulis karya ilmiah (dapat disesuaikan dengan instansi terkait), seperti [13]: 1. Model Humaniora, terdiri dari: Chicago dan MLA (Modern Language Association) 2. Model Sains, terdiri dari: ACS (American Chemical Society), IEEE (Institute of Electrical and Electronics Engineers), NLM (National Library of Medicine), dan Vancouver (Biological Science) 3. Model Ilmu Sosial, terdiri dari: AAA (American Anthropological Association), APA (American Psychological Association), APSA (American Political Science Association), dan Legal C. Algoritma Stemming Bahasa Indonesia Stemming merupakan bagian dari proses Information Retrieval (IR), yang mengubah beberapa kata ke bentuk kata dasarnya sebelum dilakukan pengindeksan. Contoh, kata dibaca, membaca, pembaca, akan diubah ke kata dasarnya, yaitu “baca” [14]. Pada dasarnya proses stemming bekerja tergantung pada bahasa yang diteliti. Khusus untuk topik berbahasa Indonesia, proses stemming awalnya bekerja berdasarkan struktural morfologi kalimat bahasa Indonesia, yang terdiri dari prefiks (awalan), sufiks (akhiran), infiks (sisipan), dan konfiks (awalan+akhiran). Lalu terjadi penambahan beberapa aturan, dan diperkenalkan dengan nama algoritma Confix Stripping
Stemmer. Penelitian selanjutnya dilakukan dengan menambahkan kamus kata dasar dan mendukung recording, yakni penyusunan kembali kata-kata yang mengalami proses stemming berlebih. Algoritma terbaru yang diteliti oleh Mahendra [9], selanjutnya dinamakan algoritma Enhanced Confix Stripping (ECS) Stemmer. D. Algoritma Enhanced Confix Stripping (ECS) Stemmer Merujuk pada penelitian yang dilakukan oleh [15] proses stemming untuk bahasa Indonesia dengan performa yang paling baik adalah dengan menggunakan algoritma Enhanced Confix Stripping (ECS) Stemmer. Algoritma ini merupakan pengembangan dari algoritma Confix Stripping (CS) Stemmer, dan berhasil mereduksi jumlah term pada algoritma Confix Stripping Stemmer hingga 32.66%, sedangkan pada awalnya Confix Stripping Stemmer hanya mampu mereduksi 30.95% term [9]. Tabel 1. Aturan Pemenggalan Awalan Algoritma Enhanced Confix Stripping Stemmer Aturan 1 2
Format Kata berV berCAP
3 4 5
berCAerV belajar beC1erC2
6 7 8
terV terCerV terCP
9 10 11 12 13 14 15 16 17
teC1erC2 me{l|r|w|y}V mem{b|f|v mempe mem{rV|V} men{c|d|j|s|z} menV meng{g|h|q|k} mengV
18 19 20 21 23
menyV mempA pe{w|y}V perV perCAP
24 25 26 27 28 29 30
perCAerV pem{b|f|V} pem{rV|V} pen{c|d|j|z} penV pengC pengV
31 32
penyV pelV
Pemenggalan ber-V | be-r-V ber-CAP dimana C!=„r‟ & P!=‟er‟ ber-CAerV dimana C!=‟r‟ bel-ajar be-C1erC2 dimana C1!={„r‟ | „l‟} ter-V | te-rV ter-CerV dimana C!=‟r‟ ter-CP dimana C!=‟r‟ dan P!=‟er‟ te-C1erC2 dimana C1!=‟r‟ me-{l|r|w|y}V mem-{b|f|v} mem-pe me-m{rV|V} | me-p{rV|V} men-{c|d|j|s|z} me-nV | me-tV meng-{g|h|q|k} meng-V | meng-kV | (mengVjika V=‟e‟) meny-sV mem-pA dimana A!=‟e‟ pe-{w|y}V per-V | pe-rV per-CAP dimana C!=‟r‟ dan P!=‟er‟ per-CAerV dimana C!=‟r‟ pem-{b|f|V} pe-m{rV|V} | pe-p{rV|V} pen-{c|d|j|z} pe-nV | pe-tV peng-C peng-V | peng-kV | (pengVjika V=‟e‟) peny-sV pe-lV kecuali “pelajar” yang menghasilkan “ajar”
Tabel 1. Aturan Pemenggalan Awalan Algoritma Enhanced Confix Stripping Stemmer (lanjutan) Aturan Format Kata Pemenggalan 33 peCerV per-erV dimana C!={r|w|y|l|m|n} 34 peCP pe-CP dimana C!={r|w|y|l|m|n} dan P!=‟er‟ 35 terC1erC2 ter-C1erC2 dimana C1!=‟r‟ 36 peC1erC2 pe-C1erC2 dimana C1!={r|w|y|l|m|n} E. Algoritma Winnowing Salah satu algoritma yang digunakan untuk mendeteksi bentuk kesamaan pada dokumen teks adalah algoritma Winnowing. Pada dasarnya sistem pendeteksian haruslah memiliki 3 unsur utama yang harus dipenuhi, seperti [16]: 1. Whitespace insensitivity, sistem pencocokan teks seharusnya tidak terpengaruh pada spasi, adanya huruf kapital, berbagai tanda baca, dan sebagainya; 2. Noise surpression, sistem haruslah menghindari pencocokan kata yang terlalu pendek; 3. Position independence, sistem seharusnya tidak bergantung pada posisi kata yang dicari sehingga apabila ditemukan kata yang terindeksi sama dengan posisi berbeda masih dapat dikenali; Algoritma Winnowing dipilih karena algoritma ini sudah memenuhi unsur untuk proses pendeteksian. Setiap kata yang terkandung dalam file teks diubah terlebih dahulu menjadi sebuah kumpulan nilai hash dengan teknik rolling hash. Nilai hash merupakan nilai numerik dari perhitungan ASCII untuk setiap karakter. Lalu kumpulan nilai hash yang disebut fingerprint tersebut digunakan untuk mendeteksi kemiripan antardokumen [17]. Beberapa tahapan dalam penerapan algoritma Winnowing adalah sebagai berikut [3]: 1. Tahap Pertama: Membuang karakter yang tidak relevan seperti tanda baca, spasi, dan simbol-simbol lainnya. 2. Tahap Kedua: Membentuk rangkaian gram. 3. Tahap Ketiga: Melakukan proses rolling hash untuk mencari nilai hash dari setiap gram. 4. Tahap Keempat: Membentuk window yang terdiri dari nilai hash yang dihasilkan. 5. Tahap Kelima: Membentuk nilai fingerprint yang unik, dengan memilih nilai terendah dari setiap baris di dalam window. F. Rolling Hash Teknik Rolling Hash pada awalnya digunakan pada algoritma Rabin-Karp. Setiap karakter di dalam dokumen teks diubah (encode) menjadi nilai array bilangan bulat, sehingga nilai masukan yang awalnya berupa karakter menjadi fungsi hash berupa angka. Perhitungan operasi modulo digunakan agar tidak mempersulit sistem menghitung dalam jumlah banyak, selama nilai modulo yang digunakan tidak terlalu besar pula [18]. Persamaan teknik rolling hash [19] adalah sebagai berikut: [ ] [ ] [ ] ( ) ( [ ] [ ] )
Untuk menghitung hash lanjutan, persamaannya adalah: [ ]) [ ] ( ) ( ( ) dimana: b : Nilai bilangan basis (10) k : Nilai ASCII karakter h(k) : Nilai hash m : Nilai bilangan prima (10007) L : Banyaknya karakter yang di-hashing S(i) : Nilai hash awal S(i+1) : Nilai hash berikutnya G. Pengukuran dan Persentase Similarity Perhitungan similaritas antardua dokumen diambil dari pemilihan nilai fingerprint hash terunik, seperti [20]:
dimana: S Nt Nx Ny
: Similaritas : Total hash yang sama : Total substring pembanding : Total substring uji
Penilaian persentase similaritas antardua dokumen yang dibandingkan menurut [21] adalah sebagai berikut: 1. Kategori Nihil (0%) Kedua dokumen tidak terindikasi plagiat karena benarbenar berbeda baik dari segi isi dan kalimat secara keseluruhan. 2. Kategori Sedikit Kesamaan (<15%) Kedua dokumen hanya mempunyai sedikit kesamaan. 3. Kategori Plagiat Sedang (15-50%) Kedua dokumen terindikasi plagiat tingkat sedang. 4. Kategori Mendekati Plagiarisme (>50%) Hasil uji menunjukkan lebih dari 50%, dapat dikatakan bahwa dokumen yang diuji mendekati tingkat plagiarisme. 5. Kategori Plagiarisme (100%) Dokumen uji dapat dipastikan murni plagiat karena dari awal dan sampai akhir isi dokumen adalah sama. V. HASIL DAN PEMBAHASAN A. Analisis Data Data yang digunakan untuk membangun aplikasi Pendeteksian Kesamaan Pada Dokumen Teks ini terdiri dari jurnal mahasiswa USU sebanyak 645 buah yang terbagi atas 35 kategori, kata dasar bahasa Indonesia yang bersumber dari KBBI online, data stopword bahasa Indonesia yang bersumber dari [22] sebanyak 758 kata. B. Analisis Sistem Sistem dibagi atas 2 proses utama, yaitu proses yang dilakukan admin dan proses yang dilakukan user. 1. Proses admin Tahapan proses yang dilakukan admin adalah sebagai berikut: a. Masukkan dokumen pdf (jurnal) sebagai data input. b. Sistem melakukan proses parsing pdf. Gambar dan tabel tidak dibaca, terkecuali teks dalam tabel. Pdf yang terkunci (secured) tidak dapat di-parsing oleh sistem.
c. Proses dilanjutkan dengan tahapan text preprocessing. d. Lalu sistem membagi 2 tahapan dalam sekali proses, yaitu penghapusan stopwords pada teks yang akan di-stemming dan tidak melakukan proses penghapusan stopwords pada teks tanpa stemming. e. Selanjutnya sistem melakukan proses stemming. Untuk teks tanpa stemming, teks akan diproses ke tahap berikutnya. Tahapan stemming hanya diperuntukkan untuk teks berbahasa Indonesia. Apabila di dalam pdf tersebut terdapat beberapa teks berbahasa asing, maka proses stemming tidak berlaku untuk teks tersebut. f. Setelah seluruh teks di-stemming, sistem melalukan proses pembentukan nilai hash dan fingerprint ke dalam tabel. g. Tahapan selanjutnya, admin memilih kategori dari teks pdf yang telah diproses. Lalu sistem akan melakukan penyimpanan data berupa, nilai hash dan fingerprint, teks yang telah di-stemming, dan teks tanpa stemming beserta nilai hash dan fingerprint-nya ke dalam database. 2. Proses user Tahapan proses yang dilakukan admin adalah sebagai berikut: Mulai Pembentukan nilai hash dan fingerprint
Masukkan pdf/teks
Menampilkan nama file, nilai kedekatan, waktu proses, file uji, dan file banding
Stemming
C. Pengujian Kerja Sistem Dilakukan pengujian pada 3 jurnal yang berkategori Steganografi terhadap 3 jurnal mahasiswa Prodi Teknologi Informasi dan Ilmu Komputer USU yang berkategori sama. Sistem melakukan pendeteksian dengan alur one-tomany. Maksudnya, setiap 1 jurnal yang dimasukkan oleh user akan dilakukan pengecekan nilai fingerprint terhadap setiap jurnal pembanding dari kategori yang dipilih. Hasil nilai kesamaan (similarity) tertinggi di antara beberapa jurnal yang terdapat pada kategori yang dipilih, itulah yang akan ditampilkan pada halaman hasil pendeteksian. Data uji dan pembanding dirangkum dalam Tabel 3. dan Tabel 4.
Selesai
Parsing pdf Penghapusan Stopwords
Menampilkan isi pdf ke dalam textarea
Pilih Kategori Jurnal
c. Penghapusan Derivation Prefixes (awalan). Proses ini meliputi penghapusan awalan be-…, di-…, ke-..., me-…, pe-…, se-…, dan te-… Penghapusan awalan di-…, ke…, dan se-… dapat langsung dihapus. Dan penghapusan awalan be-…, me-…, pe-…, te-… mengikuti aturan pada Tabel 1. 5. Proses penghapusan awalan dan akhiran dimulai dari penghapusan akhiran lalu awalan. 6. Setiap melakukan proses penghapusan, kata dicek ke kamus data. Jika kata yang sudah mengalami penghapusan awalan/akhiran sudah sama dengan kata dasar, maka proses stemming dihentikan. Dan sebaliknya. Proses stemming Enhanced Confix Stripping Stemmer dapat dilihat pada Gambar 2.
TIDAK
YA Text Preprocessing
Perlu di-Stemming
Tabel 3. Daftar Jurnal Uji No 1. 2. 3.
Gambar 1. Flowchart Proses User Proses stemming dilakukan sesuai dengan algoritma Enhanced Confix Stripping Stemmer. Tahapan yang dilakukan adalah sebagai berikut: 1. Sisa arrayKata dari proses penghapusan stopwords dijadikan data masukan. 2. Setiap arrayKata akan dicek ke kamus data, yaitu ke tabel kata dasar yang ada di database. Jika terdapat arrayKata yang sama dengan kata dasar maka algoritma berhenti. Sebaliknya, jika arrayKata tidak sama dengan kata dasar maka proses stemming dilanjutkan. 3. Lakukan pengecekan aturan awalan dan akhiran yang tidak diperbolehkan (Prefix Disallowed Sufixes), seperti be-…-i, di-…-an, ke-…-i, ke-…-kan, me-…-an, se-…-i, se-…-kan. 4. Tahapan penghapusan awalan dan akhiran terdiri dari: a. Penghapusan Inflection Suffixes (akhiran). Proses ini meliputi penghapusan particle (partikel) berupa …-kah, …-lah, …-pun, …-tah dan penghapusan possessive pronoun (kata ganti kepunyaan) berupa …-ku, …-mu, …-nya. b. Penghapusan Derivation Suffixes (akhiran). Proses ini menghapus akhiran …-an, …-i, …-kan.
Judul Jurnal Analisa PSNR Pada Teknik Steganografi Menggunakan Spread Spectrum [23] Implementasi Kriptografi Dan Steganografi [24] Implementasi Steganography Menggunakan Metode Least Significant Bit (Lsb) Pada Mobile Phone Berbasis Symbian Os [25]
Size (kb) 296 747 453
Tabel 4. Daftar Jurnal Pembanding No 1.
2.
3.
Judul Jurnal Implementasi Steganografi Pesan Text Ke Dalam File Sound (.Wav) Dengan Modifikasi Jarak Byte Pada Algoritma Least Significant Bit (Lsb) Perancangan Perangkat Lunak Steganografi Audio MP3 Menggunakan Metode Least Significant Bit (LSB) Dengan Visual Basic 6.0 Implementasi Sistem Keamanan Data dengan Menggunakan Teknik Steganografi End of File (EOF) dan Rabin Public Key Cryptosystem
Size (kb) 534
456
1051
tanpa proses stemming. Hasil pengujian ditampilkan dengan beberapa nilai fingerprint yang sama dari proses kedua jurnal. Hasil pengujian dengan proses stemming dapat dilihat pada Tabel 5. dan hasil pengujian tanpa proses stemming dapat dilihat pada Tabel 6. Tabel 5. Hasil Pengujian Dengan Proses Stemming
Mulai
Masukkan teks hasil penghapusan stopwords
Pengecekan ke kamus data
Sesuai
Jurnal Uji
YA
TIDAK Pengecekan Awalan dan Akhiran Yang Tidak Diperbolehkan (be-…-i, di-…-an, ke-…-i, ke-…-kan, me-…-an, se…-i, se-…-kan)
YA
Adakah
Penghapusan Awalan
Pengecekan ke kamus data
Sesuai
YA
TIDAK TIDAK Penghapusan Akhiran Pengecekan Akhiran Partikel (-kah, -lah, -pun, -tah)
Sesuai
Fingerprint yang sama
Kesama an (%)
Lama Proses (s)
Analisa PSNR Pada Teknik Steganografi Menggunakan Spread Spectrum
Implementasi Sistem Keamanan Data dengan Menggunakan Teknik Steganografi End of File (EOF) dan Rabin Public Key Cryptosystem
25.34
± 70.50
Implementasi Kriptografi Dan Steganografi
Implementasi Sistem Keamanan Data dengan Mengguna kan Teknik Steganografi End of File (EOF) dan Rabin Public Key Cryptosystem Perancangan Perangkat Lunak Steganografi Audio MP3 Menggunakan Metode Least Significant Bit (LSB) Dengan Visual Basic 6.0
[906, 6232] [187, 13262] [550, 1057] [2049, 11683] [2684,1895] [3617, 3172] [532, 5577] [2789, 4367] [2383, 10775] [583, 5133] … [446, 3295] [1660,503] [4009, 2303] [882, 544] [2202, 11625] [1125, 5708] [3105, 0] [2773, 7809] [1646, 318] [2177, 1466] … [3105, 4360] [4405, 477] [3211, 311] [328, 145] [5383, 9402] [1313, 5477] [630, 2942] [641, 1712] [2797, 1717] [3514, 1718] …
23.40
± 64.00
25.79
± 84.37
YA
TIDAK
YA
Adakah
Penghapusan Akhiran Partikel
Pengecekan ke kamus data
Sesuai
YA
TIDAK Pengecekan Akhiran Kata Ganti Kepunyaan (-ku, -mu, -nya)
Adakah
Jurnal Pembanding
TIDAK
YA
Penghapusan Akhiran Kata Ganti Kepunyaan
Pengecekan ke kamus data
YA
Sesuai
TIDAK Pengecekan Akhiran (-an, -i, -kan)
Adakah
TIDAK
YA
Penghapusan Akhiran
Pengecekan ke kamus data
Sesuai
YA
Sesuai
YA
TIDAK Pengecekan Awalan (di-, ke-, se-)
Adakah
TIDAK
YA
Penghapusan Awalan
Pengecekan ke kamus data
TIDAK Pengecekan Awalan (be-, me-, pe-, te-) mengikuti aturan pada Tabel 1.
Adakah
TIDAK
YA
Penghapusan Awalan
Pengecekan ke kamus data
Sesuai
YA
TIDAK Pengecekan ke kamus data
Teks merupakan kata dasar
Tabel Kata Dasar
Selesai
Gambar 2. Flowchart Stemming Enhanced Confix Stripping Stemmer D. Hasil Pengujian Pengujian dilakukan dengan 2 cara. Cara ke-1 dilakukan dengan proses stemming dan cara ke-2 dilakukan dengan
Implementasi Steganography Menggunakan Metode Least Significant Bit (Lsb) Pada Mobile Phone Berbasis Symbian Os
Proses pengujian sistem berhasil dilakukan. Penggunaan waktu pada proses pendeteksian dengan stemming maupun tanpa stemming dapat dikatakan relatif, tergantung penggunaan personal computer user pada saat dijalankannya aplikasi ini. Pengkategorian tingkat kesamaan (similarity) menggunakan persentase similaritas yang dikemukakan oleh [21]. Dari percobaan pada Tabel 5. dan Tabel 6. dapat disimpulkan rata-rata pengujian menghasilkan nilai persentase kategori plagiat sedang (15-50%). Dari hasil analisis dan pengujian yang dilakukan, penulis menyimpulkan penggunaan algoritma Enhanced Confix Stripping (ECS) Stemmer pada aplikasi pendeteksian ini dapat menghasilkan tingkat kesamaan (similarity) sekitar 23-26% dengan percobaan 3 jurnal yang berkategori sama dengan
jurnal pembanding (database). Dan untuk pendeteksian tanpa proses stemming menghasilkan tingkat kesamaan (similarity) 35-40% dengan jumlah jurnal dan kategori yang sama pula. Tabel 6. Hasil Pengujian Tanpa Proses Stemming Jurnal Uji Analisa PSNR Pada Teknik Steganografi Menggunakan Spread Spectrum
Imple mentasi Kripto grafi Dan Steganografi
Implementasi Steganography Menggunakan Metode Least Significant Bit (Lsb) Pada Mobile Phone Berbasis Symbian Os
Jurnal Pembanding
Fingerprint yang sama
Implementasi Sistem Keamanan Data dengan Menggunakan Teknik Steganografi End of File (EOF) dan Rabin Public Key Cryptosystem
[2083, 19135] [906, 350] [187, 4960] [677, 1494] [550, 1595] [2684, 5977] [3617, 5657] [3140, 14386] [532, 20835] [862, 1221] … [3105, 41] [103, 13765] [4020, 11567] [4036, 11548] [696, 8252] [1091, 95] [6146, 100] [2048, 101] [1757, 14318] [325, 250] … [3105, 3534] [3211, 1117] [328, 17081] [5383, 17086] [1245, 14338] [1134, 671] [1687, 676] [2037, 681] [2080, 3725] [641, 3339] …
Implementasi Sistem Keamanan Data dengan Menggunakan Teknik Steganografi End of File (EOF) dan Rabin Public Key Cryptosystem
Perancangan Perangkat Lunak Steganografi Audio MP3 Menggunakan Metode Least Significant Bit (LSB) Dengan Visual Basic 6.0
Kesama an (%)
40.13
Lama Proses (s)
± 47.95
4. Penggunaan algoritma Enhanced Confix Stripping (ECS) Stemmer dapat menghasilkan nilai kesamaan (similarity) sekitar 23-26% dengan percobaan 3 buah jurnal yang berkategori sama dengan jurnal pembanding. Dan untuk pendeteksian tanpa stemming menghasilkan tingkat kesamaan (similarity) 35-40% dengan jumlah jurnal dan kategori yang sama pula. B. Saran Untuk penelitian selanjutnya disarankan: 1. Sistem pendeteksian dapat dilakukan untuk beberapa opsi dokumen teks lainnya dengan metode parsing yang lebih baik. 2. Penelitian selanjutnya dilakukan dengan metode lain yang memungkinkan penggunaan waktu yang lebih minim dan menampilkan highlight kalimat/paragraf yang sama.
[1]
[2]
35.60
± 42.59
[3]
[4]
[5] 39.28
± 51.10
VI. KESIMPULAN A. Kesimpulan Berdasarkan hasil penelitian yang dilakukan dapat disimpulkan bahwa: 1. Sistem dapat melakukan pendeteksian pada dokumen teks dengan format pdf (nonsecured). 2. Sistem dapat melakukan pendeteksian pada teks berbahasa Indonesia. Apabila dalam suatu dokumen terdapat teks berbahasa asing, maka pada teks tersebut tidak dilakukan proses stemming. 3. Sistem melakukan pendeteksian dengan alur one-to-many, dengan arti satu dokumen teks dideteksi terhadap banyak dokumen (database). Untuk memudahkan sistem melakukan pendeteksian, data pembanding (database) dikelompokkan dalam beberapa kategori.
[6]
[7]
[8]
[9]
DAFTAR PUSTAKA Sonneborn, L. 2011. Frequently Asked Questions About Plagiarism. The Rosen Publishing Group, Inc.: New York (google-books) Thompsett, A., Ahluwalia, J. 2010. Students Turned Off by Turnitin? Perception of Plagiarism and Collusion by Undergraduate Bioscience Students. School of Health and Biosciences, University of East London. Volume 16: December 2010. Purwitasari, D. Kusmawan, P.Y., Yuhana, U.L. 2011. Deteksi Keberadaan Kalimat Sama Sebagai Indikasi Penjiplakan Dengan Algoritma Hashing Berbasis NGram. Jurnal Kursor Menuju Solusi Teknologi Informasi 6(1): 37-44. Alfarisi. 2011. Analisis Dan Perancangan Sistem Pendeteksi Kesamaan Dokumen Teks Menggunakan Metode Latent Semantic Analysis. Skripsi. Universitas Sumatera Utara. Novanta, A. 2009. Pendeteksian Plagiarisme Pada Dokumenn Teks Dengan Menggunakan Algoritma Smith-Waterman. Skripsi. Universitas Sumatera Utara. Purwitasari, D. Kusmawan, P.Y., Yuhana, U.L. 2011. Deteksi Keberadaan Kalimat Sama Sebagai Indikasi Penjiplakan Dengan Algoritma Hashing Berbasis NGram. Jurnal Kursor Menuju Solusi Teknologi Informasi 6(1): 37-44. Nugroho, E. 2011. Perancangan Sistem Deteksi Plagiarisme Dokumen Teks Dengan Menggunakan Algoritma Rabin-Karp. Skripsi. Universitas Brawijaya. Salmuasih. 2013. Perancangan Sistem Deteksi Plagiat Pada Dokumen Teks Dengan Konsep Similarity Menggunakan Algoritma Rabin Karp. Skripsi. Sekolah Tinggi Manajemen Informatika Dan Komputer Amikom Yogyakarta. Mahendra, I P. A. K., Arifin, A. Z., & Ciptaningtyas, H. T. 2008. Enhanced Confix Stripping Stemmer And Ants Algorithm For Classifying News Document In Indonesian Language. International Conference on Information & Communication Technology and System (ICTS) ISSN 2085-1944:149-157.
[10] Lancaster, T. 2003. Effective and Efficient Plagiarism Detection. Thesis. School of Computing, Information Systems and Mathematics. South Bank University. [11] Lako, A. 2012. Plagiarisme Akademik. Harian Jawa Pos Radar Semarang, 25 Juni 2012: http://storage.kopertis6.or.id/kelembagaan/ARTIKEL%2 0PLAGIARISME%20AKADEMIK1.pdf [12] Purwaningsih, E. 2005. Perkembangan Hukum Intellectual Property Rights: Kajian Hukum Terhadap Hak Atas Kekayaan Intelektual dan Kajian Komparatif Hukum Paten. Ghalia Indonesia. [13] Plagiarism.org. 2013. (Online) http://www.plagiarism.org/citing-sources/whats-acitation (6 Desember 2013). [14] Peng, F., Ahmed, N., Li, X., & Lu, Y. 2007. Context Sensitive Stemming for Web Search. Domain Specific NLP. Sunnyvale, California. [15] Tahitoe, A. D. & Purwitasari, D. 2010. Implementasi Modifikasi Enhanced Confix Stripping Stemmer Untuk Bahasa Indonesia Dengan Metode Corpus Based Stemming. [16] Schleimer, S., Wilkerson, D., & Aiken, A. 2003. Winnowing: Local Algorithms for Document Printing. Proceedings of the ACM SIGMOD International Conference on Management of Data, pp. 76-85. [17] Aziz, I. W., Hermawan, & Cahyani, A. D. 2012. Pengembangan Mesin Pencarian Antiplagiasi Pada SIM Jurnal Mahasiswa Menggunakan Algoritma Winnowing Fuzzy K-Means. Jurnal Sarjana Teknik Informatika. 1(1): 1-10. [18] Ellard, D. 1997. The Rabin-Karp Algorithm. (Online) http://ellard.org/dan/www/Q97/HTML/root/node43.html (16 Desember 2013) [19] Cormen, T. H., Leiserson, C. E., Rivest, R. L., & Stein, C. 2009. Introduction to Algorithms 3rd Ed. The MIT Press: United States of America. [20] Taufik, D. A. 2012. Sistem Pengukuran Tingkat Similaritas Dokumen. Skripsi. Universitas Komputer Indonesia. [21] Mutiara, A.B., Agustina, S. 2008. Anti Plagiarism Application with Algorithm Karp-Rabin. Thesis. Gunadarma University. Depok, Indonesia. [22] Tala, F. Z. A Study of Stemming Effect on Information Retrieval in Bahasa Indonesia. Netherland, Universiteit van Amsterdam, http://dare.uva.nl/document/443347 (27 Januari 2014). [23] Pratiarso, A., Yuliana, M., Hadi, M.Z.S., & H, F.B., & W. B. 2012. Analisa PSNR Pada Teknik Steganografi Menggunakan Spread Spectrum. The 14th Industrial Electronics Seminar 2012 (IES 2012). Communication and Network Systems, Technologies and Applications pp. 105-110. [24] Firmansyah, R., Suadi, W., M.M. 2011. Implementasi Kriptografi Dan Steganografi Pada Media Gambar Dengan Menggunakan Metode Des Dan Region-Embed Data Density. Paper Tugas Akhir Periode Juli 2011. Pp.1-7. [25] Prasetia, D., 2010. Implementasi SteganographyMenggunakan Metode Least Significant Bit (Lsb) Pada Mobile Phone Berbasis Symbian Os.