BAB 2 TINJAUAN PUSTAKA
2.1. Plagiarisme 2.1.1. Pengertian plagiarisme Maxim Mozgovoy (2007) mengemukakan bahwa komputer jika dan hanya jika dapat mendeteksi plagiarisme apabila sejumlah dokumen dianggap mirip. Plagiarisme merupakan proses pengambilan gagasan dari orang lain tanpa menyertakan citasi penulis asli. Hal ini dapat dicontohkan dengan menggunakan poinpoin umum atau mengutip beberapa kata dan mengubahnya dari tulisan asli tanpa menyebutkan sumber tulisan (Lancaster, 2003). Berbagai pemicu untuk melakukan tindakan plagiat di dunia akademi didasarkan pada tiga faktor umum berikut (Lako, 2012): 1. Kecerobohan mahasiswa dan kelalaian dosen Keinginan mahasiswa menyelesaikan skripsi, tesis, ataupun disertasinya secara instan tanpa bekerja keras dan mengikuti tahap penulisan ilmiah yang benar menjadikan karya ilmiah yang dikerjakan tidak sesuai standar. Di sisi lain, para dosen pembimbing tidak bekerja dengan maksimal. Beberapa hanya berorientasi pada hasil karya ilmiah semata, tanpa mau repot mengecek apakah karya ilmiah yang dihasilkan mahasiswanya terbebas dari tindak plagiarisme. 2. Desakan finansial (biasanya dilakukan oleh dosen) Kecurangan terjadi karena dosen ingin segera naik jabatan fungsional akademik dan menikmati kenaikan tunjangan. Menghalalkan penjiplakan ataupun mengarang data penelitian dalam penulisan karya ilmiahnya merupakan salah satu cara mempercepat proses penelitian yang dilakukan. Oleh karena lemahnya pengontrolan pengelolaan jurnal, penerbit, dan institusi pendidikan, serta pemahaman etika penulisan ilmiah akademik di kalangan dosen sehingga masalah ini masih tetap terjadi pada dewasa ini.
7
3. Ketidakpuasan terhadap ketenaran produk dan diri sendiri Kasus ini banyak terjadi di kalangan penulis (dosen senior) yang selalu merasa kurang terkenal terhadap penelitian yang telah dilakukannya. Ketidakpuasannya dilakukan dengan melakukan plagiasi terhadap karya sendiri (autoplagiarism) dan plagiasi antarbahasa. Sistem pendeteksian plagiarisme dapat diaplikasikan untuk jurnal, artikel, novel, essay, maupun bahasa pemrograman (Kurniawati & Wicaksana, 2008). Menurut Telepovska dan Gajdos (2010) aplikasi pendeteksian tersebut dapat mengunakan sistem lokal (terisolasi secara offline dan hanya menggunakan database individu) ataupun menggunakan sistem global (berjalan secara online dan menggunakan servis internet sehingga dokumen yang dicari lebih beragam). Dari penelitian yang dilakukan Alzahrani et al (2012) ditemukan ada beberapa cara melakukan tindak plagiat, seperti: 1. Text Manipulation (Manipulasi Teks) Plagiarisme dapat dilakukan dengan memanipulasikan teks asli sehingga menyamarkan isi dari teks duplikat. Hal ini dapat dilakukan dengan menyinonimkan ataupun mengantonimkan beberapa frase dari teks asli, mengubah pola kalimat asli, dan mereduksi kata-kata yang dianggap tidak penting. 2. Translation (Menerjemahkan) Dengan menerjemahkan kalimat dari satu bahasa ke bahasa lain dianggap lebih efisien dalam melakukan tindakan plagiat. Tetapi harus dipertimbangkan kembali jika melakukan penerjemahan dengan google translate maupun secara manual, terkadang dapat menghasilkan terjemahan yang kurang tepat. 3. Idea Adoption (Mengadopsi Ide) Cara ini sangat fatal dalam dunia pendidikan. Mengadopsi ide orang lain dapat dikatakan sebagai pencuri intelektual. Solusi untuk tindakan ini dapat dikembangkan dengan algoritma fuzzy. Dalam makalah yang disusun oleh Sastroasmoro (2007) ada beberapa jenis plagiarisme yang dijabarkan, yaitu, pertama, berdasarkan aspek yang diplagiat, seperti, memplagiat ide, data penelitian, kata, kalimat, paragraf, dan memplagiat secara total tanpa melakukan pengubahan apapun. Kedua, berdasarkan kesengajaan atau ketidaksengajaan memplagiat isi penelitian orang lain. Ketiga, berdasarkan
8
proporsi/persentasi kata, kalimat, paragraf yang diplagiat. Sastroasmoro juga menyimpulkan plagiarisme ringan 0–29%, plagiarisme sedang 30–70%, plagiarisme berat atau total 71–100%. Keempat, berdasarkan pola plagiarisme, seperti plagiarisme kata demi kata (word for plagiarizing) dan plagiarisme mozaik.
2.1.2. Peraturan dan hukum yang mengatur plagiarisme Menteri Pendidikan Indonesia telah mengeluarkan Peraturan Nomor 17 Tahun 2010 yang berisikan Pencegahan Dan Penanggulangan Plagiat Di Perguruan Tinggi. Di dalam Bab IV, Pasal 7, disebutkan bahwa: (1) Pada setiap karya ilmiah yang dihasilkan di lingkungan perguruan tinggi harus dilampirkan pernyataan yang ditandatangani oleh penyusun bahwa: a. Karya ilmiah tersebut bebas plagiat; b. Apabila di kemudian hari terbukti terdapat plagiat dalam karya ilmiah tersebut, maka penyusunnya bersedia menerima sanksi sesuai ketentuan peraturan perundang-undangan. (2) Pimpinan perguruan tinggi wajib mengunggah secara elektronik semua karya ilmiah mahasiswa/dosen/peneliti/tenaga kependidikan yang telah dilampiri pernyataan sebagaimana dimaksud pada ayat (1) melalui portal Garuda (Garba Rujukan
Digital)
sebagai
titik
akses
tehadap
karya
ilmiah
mahasiswa/dosen/peneliti/tenaga kependidikan Indonesia, atau portal lain yang telah ditetapkan oleh Direktur Jenderal Pendidikan Tinggi. Peraturan Menteri Pendidikan Indonesia dimaksudkan agar setiap karya ilmiah yang dihasilkan dari dunia pendidikan Indonesia tidak mengandung aksi plagiat. Seperti yang telah dijelaskan di awal, keaslian suatu karya, seperti karangan atau ciptaan merupakan suatu hal esensial dalam perlindungan hukum melalui hak cipta. Perlindungan hukum melalui hak cipta diberikan kepada karya pengarang, artis, musisi, programer, dan lainnya, yakni melindungi hak-hak pencipta dari tindakan peniruan dan mereproduksi tanpa izin (Purwaningsih, 2005). Dalam bukunya Perkembangan Hukum
Intellectual
Property Rights
(Purwaningsih, 2005) memaparkan pencipta atau pengarang adalah seseorang yang memiliki inspirasi guna menghasilkan karya yang didasari oleh kemampuan intelektual, imajinasi, keterampilan, dan keahlian yang diwujudkan dalam bentuk karya yang memiliki sifat dasar pribadi (personal nature). Pasal 1 ayat 1 Undang-
9
Undang Hak Cipta Indonesia, menyatakan bahwa hak cipta merupakan hak yang dikhususkan bagi pencipta karya untuk mengumumkan atau memperbanyak ciptaannya maupun memberi izin untuk itu dengan tidak mengurangi pembatasan menurut peraturan perundangan yang berlaku. Menurut pasal 12 ayat 1, UU Hak Cipta, ciptaan yang dilindungi adalah ciptaan dalam bidang ilmu pengetahuan, seni, dan sastra, yang mencakup: 1. Buku, program komputer, pamflet, layout karya tulis yang diterbitkan dan semua hasil karya tulis lainnya; 2. Ceramah, kuliah, pidato, dan ciptaan lain yang sejenis dengan itu; 3. Alat peraga yang dibuat untuk kepentingan pendidikan dan ilmu pengetahuan; 4. Lagu atau musik dengan atau tanpa teks; 5. Drama atau drama musikal, tari koreografi, pewayangan, dan pantomime; 6. Seni rupa dalam segala bentuk (seni lukis, gambar, seni ukir, seni kaligrafi, pahat, seni patung, kolase, dan seni terapan); 7. Arsitektur; 8. Peta; 9. Seni Batik; 10. Fotografi; 11. Sinematografi; 12. Terjemahan, tafsir, saduran, bunga rampai, database, dan karya lainnya. Pelanggaran hak cipta terjadi apabila materi hak cipta digunakan tanpa izin dan harus ada kesamaan antara dua karya yang dibandingkan; jika seluruh atau sebagian dari karya yang telah dilindungi hak cipta telah dikopi. Dengan semakin meningkatnya kesadaran hukum yang berlaku atas kekayaan intelektual, diharapkan penyelesaian ganti rugi dapat diseimbangkan dengan tuntutan pidana. (Purwaningsih, 2005).
2.2. Citasi Citasi merupakan sebuah cara/alternatif untuk memberitahukan kepada publik bahwa beberapa bagian dari karya ilmiah yang dituliskan berasal dari karya ilmiah lain dengan mencantumkan informasi penulis, judul karya ilmiah yang dikutip, nama perusahaan atau penerbit yang mempublikasikan, tanggal publikasi, dan nomor halaman yang dikutip.
10
Dengan dibuatnya citasi tidak akan mengurangi keaslian suatu karya, melainkan membantu para pembaca lainnya untuk membandingkan ide penulis dengan sumber citasi yang disebutkan. Citasi juga akan membantu membebaskan penulis dari tindak plagiarisme. Ada beberapa model citasi yang dapat diikuti oleh penulis
karya
ilmiah
(dapat
disesuaikan
dengan
instansi
terkait),
seperti
(plagiarism.org): a. Model Humaniora, terdiri dari: Chicago dan MLA (Modern Language Association) b. Model Sains, terdiri dari: ACS (American Chemical Society), IEEE (Institute of Electrical and Electronics Engineers), NLM (National Library of Medicine), dan Vancouver (Biological Science) c. Model Ilmu Sosial, terdiri dari: AAA (American Anthropological Association), APA (American Psychological Association), APSA (American Political Science Association), dan Legal
2.3. Algoritma Stemming Bahasa Indonesia Stemming merupakan bagian dari proses Information Retrieval (IR), yang mengubah beberapa kata ke bentuk kata dasarnya sebelum dilakukan pengindeksan. Contoh, kata dibaca, membaca, pembaca, akan diubah ke kata dasarnya, yaitu “baca” (Peng, 2007). Pada dasarnya proses stemming bekerja tergantung pada bahasa yang diteliti. Khusus untuk topik berbahasa Indonesia, proses algoritma stemming awalnya diperkenalkan oleh Nazief dan Adriani pada tahun 1996. Algoritma ini bekerja berdasarkan struktural morfologi kalimat bahasa Indonesia, yang terdiri dari prefiks (awalan), sufiks (akhiran), infiks (sisipan), dan konfiks (awalan+akhiran). Lalu Asian pada tahun 2007 mengembangkan algoritma stemming tersebut dengan menambah beberapa aturan, dan diperkenalkan dengan nama algoritma Confix Stripping Stemmer. Penelitian selanjutnya dilakukan oleh I Putu Adhi Kerta Mahendra pada tahun 2008 dengan menambahkan kamus kata dasar dan mendukung recording, yakni penyusunan kembali kata-kata yang mengalami proses stemming berlebih. Algoritma terbaru yang diteliti oleh Mahendra, selanjutnya dinamakan algoritma Enhanced Confix Stripping Stemmer.
11
2.3.1. Algoritma enhanced confix stripping stemmer Merujuk pada penelitian yang dilakukan oleh Andita Dwiyoga Tahitoe (2010) proses stemming untuk bahasa Indonesia dengan performa yang paling baik adalah dengan menggunakan algoritma Enhanced Confix Stripping (ECS) Stemmer. Algoritma ini merupakan pengembangan dari algoritma Confix Stripping (CS) Stemmer, dan berhasil mereduksi jumlah term pada algoritma Confix Stripping Stemmer hingga 32.66%, sedangkan pada awalnya Confix Stripping Stemmer hanya mampu mereduksi 30.95% term (Mahendra, 2008). Berdasarkan penelitian Mahendra (2008), tahapan kerja algoritma Enhanced Confix Stripping Stemmer adalah sebagai berikut: Tabel 2.1. Aturan Dasar Awalan - Akhiran Yang Berlaku Pasangan Awalan – Akhiran Yang Berlaku Be – lah Be – an Me – i Di – i Pe – i Te – i
Tabel 2.2. Urutan Pengembalian Akhiran No
Akhiran
Tipe
1.
-i, -kan, -an
Derivation Suffixes (DS)
2.
-ku, -mu, -nya
Possessive Pronoun (PP)
3.
-lah, -kah, -tah, -pun
Inflectional Particle (P)
Tabel 2.3. Aturan Pemenggalan Awalan Algoritma Stemmer Nazief dan Adriani Aturan 1 2 3 4 5 6 7 8
Format Kata berV… berCAP… berCAerV… belajar beC1erC2… terV… terCerV… terCP…
Pemenggalan ber-V… | be-r-V… ber-CAP… dimana C!=„r‟ & P!=‟er‟ ber-CaerV… dimana C!=‟r‟ bel-ajar be-C1erC2… dimana C1!={„r‟ | „l‟} ter-V… | te-rV… ter-CerV… dimana C!=‟r‟ ter-CP… dimana C!=‟r‟ dan P!=‟er‟
12
Tabel 2.3. Aturan Pemenggalan Awalan Algoritma Stemmer Nazief dan Adriani (lanjutan) Aturan Format Kata Pemenggalan 9 10 11 12 13 14 15 16 17 18 19 20 21 23 24 25 26 27 28 29 30 31 32 33 34 1.
teC1erC2… me{l|r|w|y}V… mem{b|f|v}… mempe{r|l} mem{rV|V}… men{c|d|j|z}… menV… meng{g|h|q}… mengV… menyV… mempV… pe{w|y}V… perV… perCAP… perCAerV… pem{b|f|V}… pem{rV|V}… pen{c|d|j|z}… penV… peng{g|h|q}… pengV… penyV… pelV… peCerV… peCP…
te-C1erC2… dimana C1!=‟r‟ me-{l|r|w|y}V… mem-{b|f|v}… mem-pe… me-m{rV|V}… | me-p{rV|V}… men-{c|d|j|z}… me-nV… | me-tV… meng-{g|h|q}… meng-V… | meng-kV… meny-sV… mem-pV… dimana V!=‟e‟ pe-{w|y}V… per-V… | pe-rV… per-CAP… dimana C!=‟r‟ dan P!=‟er‟ per-CAerV… dimana C!=‟r‟ pem-{b|f|V}… pe-m{rV|V}… | pe-p{rV|V}… pen-{c|d|j|z}… pe-nV… | pe-tV… peng-{g|h|q}… peng-V… | peng-kV… peny-sV… pe-lV… kecuali “pelajar” yang menghasilkan “ajar” per-erV… dimana C!={r|w|y|l|m|n}… pe-CP… dimana C!={r|w|y|l|m|n} dan P!=‟er‟
Perhatikan Aturan Dasar pada Tabel 2.1., jika input kata sesuai dengan pasangan yang ada, maka lakukan penghilangan awalan terlebih dahulu. Jika tidak ada, maka penghilangan akhiran dilakukan terlebih dahulu.
2.
Lakukan recording (penyusunan kembali kata-kata yang mengalami proses stemming berlebih) apabila diperlukan.
3.
Lakukan loopPengembalianAkhiran.
4.
Lakukan pengecekan apakah terdapat tanda hubung („-‟) yang menandakan input kata tersebut adalah kata ulang. Jika benar, maka lakukan proses stemming pada potongan kata di sebelah kiri dan kanan tanda hubung. Apabila hasil stemming memberikan hasil yang sama, maka kata dasar dari kata ulang tersebut adalah hasil yang didapatkan.
5.
Jika keempat proses di atas gagal, maka input kata yang di-stemming dianggap sebagai kata dasar.
13
Pada setiap langkah dilakukan proses pengecekan output stemming ke kamus data. Apabila ditemukan, maka proses berhenti. Proses loopPengembalianAkhiran bekerja seperti berikut: 1. Kembalikan seluruh awalan yang telah dihilangkan, sehingga menghasilkan model kata seperti: [DP+[DP+[DP]]] + Kata Dasar. Pemenggalan awalan dilanjutkan dengan proses pencarian di kamus. 2. Kembalikan akhiran sesuai urutan pada Tabel 2.2. Untuk setiap pengembalian, lakukan langkah 3) hingga 5) berikut. Khusus untuk akhiran “-kan”, pengembalian pertama dimulai dengan “k”, lalu dilanjutkan dengan “an”. 3. Lakukan pengecekan ke kamus data. Apabila kata dasar ditemukan, proses dihentikan. Apabila gagal, maka lakukan proses pemenggalan awalan berdasarkan aturan pada Tabel 2.3. 4. Lakukan recording jika diperlukan. 5. Apabila pengecekan di kamus tetap gagal setelah recording, maka awalanawalan yang telah dihilangkan dikembalikan lagi.
Tabel 2.4. Aturan Pemenggalan Awalan Algoritma Enhanced Confix Stripping Stemmer Aturan Format Kata Pemenggalan 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
berV… berCAP… berCAerV… belajar beC1erC2… terV… terCerV… terCP… teC1erC2… me{l|r|w|y}V… mem{b|f|v}… mempe… mem{rV|V}… men{c|d|j|s|z}… menV… meng{g|h|q|k}… mengV… menyV… mempA… pe{w|y}V…
ber-V… | be-r-V… ber-CAP… dimana C!=„r‟ & P!=‟er‟ ber-CAerV… dimana C!=‟r‟ bel-ajar be-C1erC2… dimana C1!={„r‟ | „l‟} ter-V… | te-rV… ter-CerV… dimana C!=‟r‟ ter-CP… dimana C!=‟r‟ dan P!=‟er‟ te-C1erC2… dimana C1!=‟r‟ me-{l|r|w|y}V… mem-{b|f|v}… mem-pe… me-m{rV|V}… | me-p{rV|V}… men-{c|d|j|s|z}… me-nV… | me-tV… meng-{g|h|q|k}… meng-V… | meng-kV… | (mengV-… jika V=‟e‟) meny-sV… mem-pA… dimana A!=‟e‟ pe-{w|y}V…
14
Tabel 2.4. Aturan Pemenggalan Awalan Algoritma Enhanced Confix Stripping Stemmer (lanjutan) Aturan Format Kata Pemenggalan 21 23 24 25 26 27 28 29 30 31 32 33 34 35 36
perV… perCAP… perCAerV… pem{b|f|V}… pem{rV|V}… pen{c|d|j|z}… penV… pengC… pengV… penyV… pelV… peCerV… peCP… terC1erC2… peC1erC2…
per-V… | pe-rV… per-CAP… dimana C!=‟r‟ dan P!=‟er‟ per-CAerV… dimana C!=‟r‟ pem-{b|f|V}… pe-m{rV|V}… | pe-p{rV|V}… pen-{c|d|j|z}… pe-nV… | pe-tV… peng-C… peng-V… | peng-kV… | (pengV-… jika V=‟e‟) peny-sV… pe-lV… kecuali “pelajar” yang menghasilkan “ajar” per-erV… dimana C!={r|w|y|l|m|n}… pe-CP… dimana C!={r|w|y|l|m|n} dan P!=‟er‟ ter-C1erC2… dimana C1!=‟r‟ pe-C1erC2… dimana C1!={r|w|y|l|m|n}
Pada Tabel 2.3. dan Tabel 2.4., simbol C merupakan konsonan, simbol V merupakan vokal, simbol A merupakan vokal atau konsonan, dan simbol P merupakan partikel atau fragmen dari suatu kata, misalnya “er”. Dari kedua tabel dapat dilihat beberapa perbedaan. Awalan yang diikuti huruf awal pada setiap kata dasar telah dikelompokkan menjadi kumpulan konsonan, vokal, atau partikel. Seperti, aturan no.29 pada awalan algoritma Stemmer Nazief dan Adriani, pemenggalan awalan “peng-{g|h|q}” telah dikelompokkan menjadi “peng-C” pada awalan algoritma Enhanced Confix Stripping Stemmer. Dan terdapat beberapa aturan tambahan pada algoritma ECS, yaitu aturan no. 35 dan no. 36.
2.4. Algoritma Winnowing Salah satu algoritma yang digunakan untuk mendeteksi bentuk kesamaan pada dokumen teks adalah algoritma Winnowing. Pada dasarnya sistem pendeteksian haruslah memiliki 3 unsur utama yang harus dipenuhi, seperti (Schleimer et al, 2003): 1. Whitespace insensitivity, sistem pencocokan teks seharusnya tidak terpengaruh pada spasi, adanya huruf kapital, berbagai tanda baca, dan sebagainya; 2. Noise surpression, sistem haruslah menghindari pencocokan kata yang terlalu pendek;
15
3. Position independence, sistem seharusnya tidak bergantung pada posisi kata yang dicari sehingga apabila ditemukan kata yang terindeksi sama dengan posisi berbeda masih dapat dikenali; Algoritma Winnowing dipilih karena algoritma ini sudah memenuhi unsur untuk proses pendeteksian. Implementasi dari algoritma Winnowing membutuhkan masukan berupa file teks dan menghasilkan keluaran berupa nilai hash yang disebut fingerprint (Purwitasari et al, 2011). Setiap kata yang terkandung dalam file teks diubah terlebih dahulu menjadi sebuah kumpulan nilai hash dengan teknik rolling hash. Nilai hash merupakan nilai numerik dari perhitungan ASCII untuk setiap karakter. Lalu kumpulan nilai hash yang disebut fingerprint tersebut digunakan untuk mendeteksi kemiripan antardokumen (Aziz et al, 2012).
2.4.1. Rolling hash Teknik Rolling Hash pada awalnya digunakan pada algoritma Rabin-Karp. Setiap karakter di dalam dokumen teks diubah (encode) menjadi nilai array bilangan bulat, sehingga nilai masukan yang awalnya berupa karakter menjadi fungsi hash berupa angka. Untuk membandingkan dua string yang dianggap sama, maka setiap A[i] = B[i] dan membutuhkan waktu sebesar O(n). Panjang waktu yang dibutuhkan tergantung pada panjang iterasi elemen string yang dibandingkan (Cormen et al, 2009). Menurut Cormen (2009), metode dasar untuk mencari perbandingan antara kedua string dokumen A dan B adalah: a. Asumsikan dokumen A memiliki panjang elemen string p, dan dokumen B memiliki panjang q. b. Lakukan hashing pada dokumen A untuk mendapatkan h(A) dengan waktu sebesar O(p). c. Lakukan iterasi pada dokumen B dengan panjang elemen string p, dan bandingkan h(A) dengan waktu sebesar O(qp). d. Jika nilai hash substring tidak cocok dengan h(A), bandingkan substring yang ada dengan A. Jika cocok, berhenti, jika tidak, lakukan kembali hingga ditemukan waktu sebesar O(p). Untuk mengurangi waktu komputasi, dapat dilakukan teknik rolling hash dengan mengambil waktu sebesar O(p) sehingga didapatkan banyak kecocokan.
16
Contoh, lakukan hashing 5 substring pada kata “komputer”. Hash I: „kompu‟, hash II: „omput‟, dan seterusnya. Dengan teknik rolling hash, maka didapatkan bahwa kedua hash yang saling dibandingkan akan menghasilkan substring yang sama, yaitu: „ompu‟ dan berlaku untuk perbandingan hasil hash berikutnya. Digunakannya perhitungan operasi modulo agar tidak mempersulit sistem menghitung dalam jumlah banyak, selama nilai modulo yang digunakan tidak terlalu besar pula (Ellard, 1997). Persamaan teknik rolling hash (Cormen, 2009) adalah sebagai berikut: ( )
( [ ]
[ ] [
]
[ ]
[ ]
) ……… (1)
Untuk menghitung hash lanjutan, persamaannya adalah: (
)
( ( )
[ ])
[
]
……… (2)
Dimana: b
: Nilai bilangan basis (10)
k
: Nilai ASCII karakter
h(k)
: Nilai hash
m
: Nilai bilangan prima (10007)
L
: Banyaknya karakter yang di-hashing
S(i)
: Nilai hash awal
S(i+1) : Nilai hash berikutnya
2.4.2. Tahapan penerapan algoritma winnowing Beberapa tahapan dalam penerapan algoritma Winnowing adalah sebagai berikut (Purwitasari et al, 2011): 1. Tahap Pertama: Membuang karakter yang tidak relevan seperti tanda baca, spasi, dan simbol-simbol lainnya. 2. Tahap Kedua: Membentuk rangkaian gram. 3. Tahap Ketiga: Melakukan proses rolling hash untuk mencari nilai hash dari setiap gram.
17
4. Tahap Keempat: Membentuk window yang terdiri dari nilai hash yang dihasilkan. 5. Tahap Kelima: Membentuk nilai fingerprint yang unik, dengan memilih nilai terendah dari setiap baris di dalam window.
2.4.3. Pengukuran dan persentase similarity Perhitungan similaritas antardua dokumen diambil dari pemilihan nilai fingerprint hash terunik, seperti (Taufik, 2012):
……… (3)
Keterangan : S
: Similaritas
Nt
: Total hash yang sama
Nx
: Total substring pembanding
Ny
: Total substring uji
Penilaian persentase similaritas antardua dokumen yang dibandingkan menurut A. Benny Mutiara & Sinta Agustina (2008) adalah sebagai berikut: 1. Kategori Nihil (0%) Kedua dokumen tidak terindikasi plagiat karena benar-benar berbeda baik dari segi isi dan kalimat secara keseluruhan. 2. Kategori Sedikit Kesamaan (<15%) Kedua dokumen hanya mempunyai sedikit kesamaan. 3. Kategori Plagiat Sedang (15-50%) Kedua dokumen terindikasi plagiat tingkat sedang. 4. Kategori Mendekati Plagiarisme (>50%) Hasil uji menunjukkan lebih dari 50%, dapat dikatakan bahwa dokumen yang diuji mendekati tingkat plagiarisme. 5. Kategori Plagiarisme (100%) Dokumen uji dapat dipastikan murni plagiat karena dari awal dan sampai akhir isi dokumen adalah sama.
18
2.5. Penelitian Terdahulu Aplikasi pendeteksian plagiat pada dokumen teks telah banyak dibuat sebelumnya. Dengan metode dan algoritma yang berbeda-beda didapatkan aplikasi dengan kelebihan dan kekurangannya masing-masing. Alfarisi (2011) menyatakan hasil pengujian dari penelitian yang dilakukannya meggunakan metode Latent Semantic Analysis menghasilkan perbandingan yang lebih cepat karena pada metode LSA terdapat semantic space pada awal perbandingan. Dan algoritma Sherlock menghasilkan keakuratan perbandingan yang lebih tepat, tetapi waktu yang diperlukan lebih lama. Penggabungan algoritma Smith-Waterman dengan pre-processing pada aplikasi yang telah dibuat oleh Novanta (2009) menghasilkan bobot terjadinya tindakan plagiat menjadi lebih akurat, dan menyebabkan bertambahnya waktu proses. Purwitasari (2011) pada penelitiannya berhasil menemukan kesamaan nilai fingerprint pada 2 file yang dianggap sama (hasil copy-paste) dengan menggunakan algoritma Hashing (Winnowing) yang berbasis N-Gram. Mahendra (2008) berhasil melakukan pengembangan pada algoritma Confix Stripping Stemmer dengan mereduksi jumlah term hingga 32.66%, sedangkan awalnya hanya mampu mereduksi 30.95%. Algoritma pengembangan tersebut selanjutnya dinamakan Enhanced Confix Stripping Stemmer. Hasil dari penelitian Nugroho (2011) adalah penggunaan algoritma RabinKarp yang telah dimodifikasi menghasilkan akurasi nilai similarity yang relatif sama dengan penggunaan algoritma Rabin-Karp biasa, tetapi waktu prosesnya menjadi lebih baik. Dan penggunaan kgram yang semakin kecil menghasilkan akurasi similarity yang lebih baik daripada kgram yang lebih besar. Salmuasih (2013) menyatakan penggunaan stemming berpengaruh pada keakuratan nilai similarity dan lamanya waktu proses. Dan penggunaan nilai modulo pada algoritma Rabin-Karp berpengaruh pada waktu proses, tetapi tidak pada nilai similarity.
19
Tabel 2.5. Penelitian Terdahulu Nama (Tahun) Alfarisi
Analisis Dan Perancangan Sistem - Awal perbandingan lebih cepat
(2011)
Pendeteksi
Judul Penelitian
Kesamaan
Keterangan Hasil
Dokumen
(LSA)
Teks Menggunakan Metode Latent - Keakuratan perbandingan lebih Semantic Analysis
tepat, tapi waktu
lebih lama
(Sherlock) Audi
Pendeteksian
Plagiarisme
Novanta
Dokumen
Teks
(2009)
Menggunakan
Algoritma
Pada Dengan pre-processing, bobot Dengan plagiat lebih akurat, tapi proses Smith- bertambah
Waterman Purwitasari Deteksi Keberadaan Kalimat Sama - Algoritma Winnowing berhasil (2011)
Sebagai
Indikasi
Penjiplakan
Dengan
Algoritma
Hashing
Berbasis N-Gram.
menemukan lesamaan nilai fingerprint dua dokumen copypaste
Confix
Stripping - Berhasil
Mahendra
Enhanced
mereduksi
jumlah
(2008)
Stemmer And Ants Algorithm For
term 32.66% dari algoritma
Classifying News Document In
stemming sebelumnya
Indonesian Language. Sistem
Deteksi - Waktu
Nugroho
Perancangan
(2011)
Plagiarisme Dokumen Teks Dengan
proses
lebih
baik
(Rabin-Karp modifikasi)
Menggunakan Algoritma Rabin- - Nilai kgram yang kecil = nilai Karp
similarity yang lebih baik
Salmuasih
Perancangan Sistem Deteksi Plagiat - Nilai
(2013)
Pada
Dokumen
Teks
Dengan
Konsep Similarity Menggunakan Algoritma Rabin Karp
modulo
berpengaruh
pada waktu proses, bukan nilai similarity