SISTEM PENDETEKSI PLAGIAT HARFIAH PADA DOKUMEN TEKS BERBAHASA INDONESIA DENGAN MEMANFAATKAN MESIN PENCARI
FUAD DAVIRATMA HUSNI
DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2013
PERNYATAAN MENGENAI SKRIPSI DAN SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA Dengan ini saya menyatakan bahwa skripsi berjudul Sistem Pendeteksi Plagiat pada Dokumen Teks Berbahasa Indonesia dengan Memanfaatkan Mesin Pencari adalah benar karya saya dengan arahan dari komisi pembimbing dan belum diajukan dalam bentuk apa pun kepada perguruan tinggi mana pun. Sumber informasi yang berasal atau dikutip dari karya yang diterbitkan maupun tidak diterbitkan dari penulis lain telah disebutkan dalam teks dan dicantumkan dalam Daftar Pustaka di bagian akhir skripsi ini. Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut Pertanian Bogor. Bogor, Juli 2013 Fuad Daviratma Husni NIM G64104002
ABSTRAK FUAD DAVIRATMA HUSNI. Sistem Pendeteksi Plagiat Harfiah pada Dokumen Teks Berbahasa Indonesia dengan Memanfaatkan Mesin Pencari. Dibimbing oleh AHMAD RIDHA. Mesin pencari dapat dimanfaatkan untuk mendeteksi plagiat karena mesin pencari adalah salah satu pintu gerbang untuk mendapatkan dokumen sumber plagiat. Penelitian ini bertujuan untuk membentuk korpus dokumen plagiat dan membuat sistem pendeteksi plagiat dengan memanfaatkan mesin pencari. Korpus dokumen plagiat dibuat dengan menyalin 1-3 dokumen sumber dan merestrukturisasi dokumen sumber dengan menerjemahkan bolak-balik menggunakan Google Translate. Korpus dokumen plagiat terdiri atas 100 dokumen. Teks diekstraksi menjadi segmen-segmen yang terdiri atas 4-20 kata. Segmen-segmen tersebut diboboti berdasarkan ada tidaknya kata dalam kamus dengan bobot lebih besar diberikan pada kata yang tidak ada dalam kamus. Penelitian ini berhasil mendeteksi 100% korpus dokumen plagiat dengan maksimal 31% segmen dokumen dan memanfaatkan mesin pencari Google, sedangkan dengan mesin pencari Bing, penggunaan hingga 40% segmen dokumen hanya berhasil mendeteksi 30% korpus dokumen plagiat. Hasil penelitian ini menunjukkan hasil deteksi plagiat tergantung pada kualitas hasil pencarian yang dilakukan mesin pencari. Kata kunci: deteksi plagiat, mesin pencari, segmentasi
ABSTRACT FUAD DAVIRATMA HUSNI. Literal Plagiarism Detection System for Indonesian Text Document Using Search Engine. Supervised by AHMAD RIDHA. Search engines can be used to detect plagiarism because search engines are one of the gateways to get source documents. This research aims to establish a corpus of document plagiarism and develops a system that can detect plagiarism by utilizing search engines. The corpus is created by copying passages from 1-3 source documents and restructuring the source documents by translating back and forth with Google Translate. The corpus consists of 100 documents. The documents are extracted into segments consisting of 4-20 words. The segments will be weighted based on the words existence in Indonesian dictionary where words not found in dictionary are given higher weights. Using Google’s search engine, this study successfully detects 100% of the plagiarized documents using only a maximum of 31% segments. On the other hand, using Bing and 40% segment documents only detects 30% of the corpus. The results of this study show that the performance of online plagiarism detection depends on the quality of the search results provided by search engines. Keywords: plagiarism detection, search engines, segmentation
SISTEM PENDETEKSI PLAGIAT HARFIAH PADA DOKUMEN TEKS BERBAHASA INDONESIA DENGAN MEMANFAATKAN MESIN PENCARI
FUAD DAVIRATMA HUSNI
Skripsi sebagai salah satu syarat untuk memperoleh gelar Sarjana Ilmu Komputer pada Departemen Ilmu Komputer
DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2013
Penguji: 1. Sony Hartono Wijaya, SKom MKom 2. Mushthofa, SKom MSc
Judul Skripsi : Sistem Pendeteksi Dokumen Plagiat Harfiah pada Dokumen Teks Berbahasa Indonesia dengan Memanfaatkan Mesin Pencari Nama : Fuad Daviratma Husni NIM : G64104002
Disetujui oleh
Ahmad Ridha, SKom MS Pembimbing
Diketahui oleh
Dr Ir Agus Buono, MSi MKom Ketua Departemen
Tanggal Lulus:
PRAKATA Puji dan syukur penulis panjatkan kepada Allah subhanahu wa ta’ala atas segala rahmat dan karunia-Nya sehingga penulis dapat menyelesaikan karya ilmiah ini. Topik pada penelitian ini adalah Pendeteksian Plagiat dengan Mesin Pencari. Terima kasih penulis ucapkan kepada bapak Ahmad Ridha, SKom MS selaku pembimbing. Terima kasih juga penulis ucapkan kepada ayah, ibu, istri serta seluruh keluarga, atas segala doa dan kasih sayangnya.
Bogor, Juli 2013 Fuad Daviratma Husni
DAFTAR ISI DAFTAR TABEL
vi
DAFTAR GAMBAR
vi
DAFTAR LAMPIRAN
vi
PENDAHULUAN
1
Latar Belakang
1
Tujuan Penelitian
1
Ruang Lingkup Penelitian
2
METODE
2
Dokumen Uji
2
Praproses Dokumen
4
Segmentasi Dokumen
4
Pembobotan Segmen dan Pemeringkatan Segmen
5
Pencarian Online
6
Pencatatan dan Identifikasi Alamat
6
Ekstraksi Dokumen Sumber dan Dokumen Uji
7
Perhitungan Jarak
7
Perhitungan Akurasi
8
HASIL DAN PEMBAHASAN Pembentukan Korpus Dokumen Uji
8 8
Praproses Dokumen Uji dan Dokumen Sumber
10
Segmentasi Dokumen
10
Pembobotan dan Pemeringkatan Segmen
11
Pencarian Online
11
Pencatatan dan Identifikasi Alamat
12
Perhitungan Jarak
13
Akurasi Deteksi Plagiat
14
SIMPULAN DAN SARAN
16
Simpulan
16
Saran
16
DAFTAR PUSTAKA
17
LAMPIRAN
17
RIWAYAT HIDUP
39
DAFTAR TABEL 1 2 3 4 5 6 7 8 9
Nilai kesamaan kosinus dokumen uji dengan sumber plagiat Hasil segmentasi dokumen uji Hasil pencarian Google Hasil pencarian Bing Perbandingan hasil kesamaan kosinus maksimum dokumen uji dengan cara identifikasi alamat dokumen sumber Hasil rata-rata deteksi plagiat dengan 40% segmen dan mesin pencari Google Hasil rata-rata deteksi plagiat dengan 40% segmen dan mesin pencari Bing Waktu rata-rata pendeteksian plagiat dengan 40% segmen (detik) dengan mesin pencari Google Waktu rata-rata pendeteksian plagiat dengan 40% segmen (detik) dengan mesin pencari Bing
9 10 11 12 12 13 13 15 15
DAFTAR GAMBAR 1 Aliran sistem deteksi plagiat 2 Metode penelitian 3 Penggunaan segmen sebagai kueri dan akurasi deteksi plagiat dengan Google
2 3 14
DAFTAR LAMPIRAN 1 Dokumen uji 2 Rata-rata kesamaan dokumen uji dengan satu dokumen sumber 3 Rata-rata kesamaan dokumen uji dengan lebih dari satu dokumen sumber 4 Hasil segmentasi dokumen uji dengan satu dokumen sumber 5 Hasil segmentasi dokumen uji dengan lebih dari satu dokumen sumber 6 Hasil deteksi plagiat dengan mesin pencari Google (dokumen uji jenis hampir sama persis) 7 Hasil deteksi plagiat dengan mesin pencari Google (dokumen uji jenis gabungan berbagai sumber) 8 Hasil deteksi plagiat dengan mesin pencari Google (dokumen uji jenis sedikit bagian sumber) 9 Hasil deteksi plagiat dengan mesin pencari Google (dokumen uji jenis restrukturisasi) 10 Hasil deteksi plagiat dengan mesin pencari Bing (dokumen uji jenis hampir sama persis) 11 Hasil deteksi plagiat dengan mesin pencari Bing (dokumen uji jenis gabungan berbagai sumber) 12 Hasil deteksi plagiat dengan mesin pencari Bing (dokumen uji jenis sedikit bagian sumber)
18 19 20 21 22 23 24 25 26 27 28 29
13 Hasil deteksi plagiat dengan mesin pencari Bing (dokumen uji jenis restrukturisasi) 14 Waktu deteksi plagiat dokumen uji jenis hampir sama persis dengan mesin pencari Google (detik) 15 Waktu deteksi plagiat dokumen uji jenis gabungan beberapa sumber dengan mesin pencari Google (detik) 16 Waktu deteksi plagiat dokumen uji jenis sedikit bagian sumber dengan mesin pencari Google (detik) 17 Waktu deteksi plagiat dokumen jenis restrukturisasi dengan mesin pencari Google (detik) 18 Waktu deteksi plagiat dokumen uji jenis hampir sama persis dengan mesin pencari Bing (detik) 19 Waktu deteksi plagiat dokumen uji jenis gabungan beberapa sumber dengan mesin pencari Bing (detik) 20 Waktu deteksi plagiat dokumen uji jenis sedikit bagian sumber dengan mesin pencari Bing (detik) 21 Waktu deteksi plagiat dokumen jenis restrukturisasi dengan mesin pencari Bing (detik)
30 31 32 33 34 35 36 37 38
PENDAHULUAN Latar Belakang Kemajuan teknik mesin pencari memudahkan orang-orang dalam mencari apa yang mereka inginkan di internet. Di sisi lain, kesempatan untuk melakukan plagiat meningkat drastis jika orang-orang memanfaatkan mesin pencari dengan tidak semestinya. Skenario khas plagiat adalah seseorang melakukan pencarian di mesin pencari dan kemudian melakukan copy-paste tanpa memahami bahan yang diambil untuk menyelesaikan tugas mereka (Liu et al. 2007). Hal ini merupakan kesalahan yang sering dilakukan oleh orang-orang terutama saat waktu yang dimiliki untuk menyelesaikan tugas tinggal sedikit. Keseriusan masalah plagiarisme di kalangan akademisi ditunjukkan oleh hasil penelitian Honig dan Bedi (2012) dengan memeriksa 279 makalah yang disajikan di International Management Division pada Academy of Management Conference 2009. Hasil penelitian menunjukkan bahwa 25% dari sampel merupakan hasil plagiarisme, dan lebih dari 13% menunjukkan plagiarisme yang signifikan. Berdasarkan perilaku plagiator, plagiat dibagi menjadi dua bagian yaitu plagiat harfiah dan plagiat kecerdasan. Plagiat harfiah adalah yang umum dilakukan dan dalam praktiknya si plagiator tidak menghabiskan banyak waktu untuk melakukan plagiat, sedangkan plagiat kecerdasan adalah mengakui kontribusi orang lain sebagai kontribusi si plagiator. Plagiat harfiah terbagi atas plagiat sama persis, mendekati persis, dan restrukturisasi, sedangkan plagiat kecerdasan terbagi atas manipulasi teks, terjemah, dan adopsi ide (Alzahrani et al. 2011). Plagiat harfiah dapat dideteksi dengan menggunakan sistem. Sistem untuk melakukan deteksi plagiat terdapat dua jenis, yaitu sistem pendeteksi online dan sistem pendeteksi offline (Mozgovoy 2006). Mozgovoy mengungkapkan bahwa sistem pendeteksi online masih sulit untuk dilakukan karena butuh banyak waktu dan perbandingan dokumen tetap dilakukan dengan sistem offline. Oleh sebab itu, penelitian ini bermaksud untuk membuat sistem pendeteksi plagiat harfiah online menjadi lebih mudah. Adanya sistem pendeteksi plagiat dengan memanfaatkan mesin pencari diharapkan dapat menghemat waktu dan tenaga yang digunakan jika dibandingkan dengan pendeteksian plagiat secara manual menggunakan mesin pencari.
Tujuan Penelitian Penelitian ini bertujuan: Membentuk korpus dokumen plagiat harfiah untuk bahasa Indonesia Membuat sistem pendeteksi plagiat harfiah untuk dokumen teks bahasa Indonesia dengan mesin pencari 3 Mendapatkan hasil deteksi dari sistem pendeteksi plagiat harfiah untuk dokumen teks dengan memanfaatkan mesin pencari 1 2
2 Ruang Lingkup Penelitian 1 2 3 4
Ruang lingkup dari penelitian ini adalah Bahasa yang digunakan adalah bahasa Indonesia Jenis plagiat yang dideteksi adalah plagiat harfiah Mesin pencari yang digunakan adalah Google dan Bing Ekstraksi teks tidak memperhatikan format asli
METODE Penelitian Liu et. al. (2011) menggunakan suatu aliran deteksi plagiat yang dapat dilihat pada Gambar 1 untuk mendeteksi suatu dokumen plagiat. Aliran sistem pendeteksi plagiat pada penelitian Liu et al. (2011) diadopsi menjadi metode pada penelitian ini (lihat Gambar 2). Terdapat 4 proses inti dalam aliran tersebut, yaitu (a) ekstraksi segmen atau potongan kata dari dokumen uji (dokumen yang ingin diketahui plagiat atau tidak), (b) pemeringkatan segmen sesuai dengan bobotnya, (c) identifikasi sumber plagiat untuk menentukan apakah dokumen uji plagiat atau tidak, dan (d) ekspansi jangkauan sebagai pilihan proses dalam mendapatkan dokumen sumber yaitu dokumen yang dicurigai adalah dokumen sumber plagiat dari dokumen uji.
Dokumen Uji Dokumen uji pada penelitian ini diperoleh dari korpus dokumen plagiat yang dibentuk pada penelitian ini. Dokumen uji dibentuk menjadi dokumen teks format PDF. Pembentukan dokumen plagiat dilakukan dengan (a) menyalin suatu dokumen sumber, (b) menyalin 2-3 dokumen sumber menjadi sebuah dokumen, (c) mengambil hanya sedikit bagian suatu dokumen sumber dan (d) menggunakan 1-2 dokumen sumber yang diterjemahkan ke bahasa Inggris yang diterjemahkan kembali ke bahasa Indonesia. Keempat jenis dokumen tersebut adalah dokumen plagiat harfiah. Dokumen jenis (a) dan (b) adalah plagiat sama persis, dokumen jenis (c) adalah plagiat mendekati sama persis dan dokumen jenis (d) adalah plagiat restrukturisasi.
Gambar 1 Aliran sistem deteksi plagiat
3 Dokumen Uji
Mulai
Ekstraksi Pdf dengan Xpdf
Konversi Pdf ke Tif dengan Ghostscript Tidak Konversi Tif ke Teks dengan Tesseract
Sukses Segmentasi Dokumen
Iya Normalisasi
Praproses Dokumen Pembobotan dan Pemeringkatan Segmen Iya
Daftar Segmen Terperingkat
Telah Diproses Semua
Tidak Pencarian Online
Pencatatan dan Identifikasi Alamat
Alamat Sumber
Iya Kosong
Tidak Ekstraksi Dokumen Uji
Ekstraksi Dokumen Sumber
Ekspansi Jangkauan
Sebagian Teks Dokumen Sumber
Sebagian Teks Dokumen Uji
Perhitungan Jarak dengan Kesamaan Kosinus Tidak Dicurigai Plagiat
Identifikasi Sumber Plagiat
Iya Bukan Dokumen Plagiat
Dokumen Plagiat
Laporan-laporan
Selesai
Gambar 2 Metode penelitian
4 Praproses Dokumen Pada tahap ini dilakukan ekstraksi teks dan normalisasi dokumen. Ekstraksi dokumen teks format PDF menggunakan aplikasi Xpdf (GCL 2011). Namun, ada pula dokumen yang tidak dapat diekstrak dengan Xpdf karena terproteksi. Jika dokumen terproteksi, maka dilakukan rekognisi karakter optik dengan cara mengkonversikan dokumen menjadi dokumen format TIFF menggunakan aplikasi Ghostscript (ASI 2012) dan mengkonversikan dokumen format TIFF menjadi dokumen teks dengan aplikasi Tesseract-ocr. Aplikasi Tesseract-ocr adalah mesin rekognisi karakter optik yang dikembangkan di Google saat ini (Google 2011). Penggunaan Ghostscript dilakukan dengan perintah “gs -dBATCH dNOPAUSE -sDEVICE=tiffg4 -r600x600 -sPAPERSIZE=a4 sOutputFile=namafilebaru.tif namafile.pdf”. Opsi dnopause dan
dbatch digunakan supaya interaksi dengan pengguna ditiadakan dan tidak berhenti saat akhir setiap halaman. Opsi sdevice dengan tiffg4 berarti dokumen dikonversikan menjadi jenis dokumen gambar TIFF hitam putih. Opsi r600x600 berarti resolusi dokumen gambar yang diinginkan adalah 600x600 dpi. Opsi spapersize dengan a4 berarti dokumen gambar dibuat seukuran kertas A4 (Artofcode 2002). Setelah dokumen berhasil dikonversikan menjadi dokumen gambar TIFF, dokumen gambar TIFF akan dikonversikan menjadi dokumen teks menggunakan Tesseract-ocr dan dapat diekstrak teksnya. Daftar pustaka tidak termasuk teks yang diperiksa karena yang menjadi acuan dalam pemeriksaan plagiat adalah bagian sebelumnya. Daftar pustaka tidak disertakan karena dapat menyebabkan kesalahan saat melakukan deteksi plagiat. Dokumen dengan topik yang sama meskipun bukan plagiat dapat memiliki daftar pustaka yang mirip sehingga akan terdeteksi sebagai plagiat. Daftar pustaka dihilangkan dengan cara memotong teks yang diawali “DAFTAR PUSTAKA” atau “REFERENSI” atau “BIBLIOGRAFI” pada 80% bagian akhir dokumen. Pemilihan pemotongan pada 80% bagian akhir dokumen bertujuan untuk tidak memotong teks pada daftar isi yang dapat menghilangkan isi dokumen. Tahap berikutnya adalah normalisasi dokumen teks. Langkah-langkah yang dilakukan adalah dengan membuang karakter selain tanda petik tunggal, titik, angka dan huruf, dan spasi yang lebih dari 1. Langkah-langkah ini dilakukan untuk mendapatkan teks dengan kata-kata tanpa ada simbol atau tanda baca lain selain titik. Tanda baca titik tidak dihilangkan karena diperlukan pada segmentasi dokumen.
Segmentasi Dokumen Metode deteksi plagiat dengan pendekatan segmentasi diperkenalkan Liu et al. (2012) dengan alasan utama yaitu waktu yang dimiliki plagiator untuk memeriksa dan mengubah setiap kalimat dalam dokumen hanya sedikit. Oleh sebab itu, kalimat yang tidak diubah dapat dengan mudah diidentifikasi sebagai plagiat. Oleh sebab itu, cukup diambil beberapa bagian saja untuk diperiksa. Pada penelitian Liu et al. (2012) semua tanda baca menjadi pemisah segmen. Jumlah minimal segmen adalah 2 kata dan tidak ada batas maksimal jumlah kata. Pada penelitian ini segmentasi dokumen berdasarkan pada tanda titik yang diikuti
5 1 spasi. Batasan jumlah kata yang baik untuk segmen adalah 20 kata. Oleh sebab itu, jumlah kata maksimum yang diterima adalah 20 kata. Jumlah minimum kata yang diterima adalah 5 kata karena jumlah kata yang terlalu sedikit kurang baik untuk menemukembalikan dokumen yang relevan (Fathi 2012). Algoritme untuk mengimplementasikan aturan segmentasi dokumen adalah seperti berikut 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
AT = daftar teks yang dipisahkan ". " countAT = jumlah teks dalam AT ctx = 0 for( ctx < countAT ){ array_kata = daftar kata pada array teks ke-'ctx' jumlah_kata = jumlah kata pada array_kata if ( jumlah_kata > 20 ) { AT ke-[ctx-1] = teks dengan array_kata pertama hingga ke-14 AT ke-[$ctx] = teks dengan array_kata ke-15 hingga terakhir ctx = ctx-2; }else if(jumlah_kata>4){ daftar_segmen <- AT ke-[ctx] } ctx = ctx + 1 }
Pembobotan Segmen dan Pemeringkatan Segmen Pada penelitian ini dilakukan pembobotan kata yang berguna untuk pembobotan segmen. Pembobotan kata dilakukan dengan ketentuan sebagai berikut. 1 Kata yang terdapat di kamus diberikan nilai bobot 1 2 Kata yang berupa angka diberikan nilai bobot 1 3 Kata yang merupakan bahasa Indonesia dengan awalan “di” diberikan nilai bobot 1 4 Jika tidak termasuk poin 1, 2 dan 3, maka pemberian bobot berdasarkan jumlah huruf pada kata tersebut; (a) lebih dari 5 huruf diberikan nilai bobot 10, (b) 4-5 huruf diberikan nilai bobot 5, dan (c) selainnya diberikan nilai bobot 3. Kamus bahasa Indonesia yang digunakan pada penelitian ini adalah Kamus Besar Bahasa Indonesia edisi III. Ketentuan (1), (2), dan (3) hanya diberikan bobot 1 karena kata tersebut terdapat pada bahasa Indonesia. Ketentuan (2) dan (3) perlu dibuat terpisah dari ketentuan (1) karena pada kamus bahasa Indonesia tidak terdapat kata dengan awalan di. Ketentuan (4) dilakukan supaya semakin panjang kata yang tidak terdapat pada bahasa Indonesia, maka semakin tinggi bobotnya dan akan menjadikan kata tersebut lebih menentukan bobot segmen. Pembobotan segmen dilakukan dengan menjumlahkan seluruh bobot kata pada segmen tersebut. Ketentuan pembobotan kata akan membuat segmen yang terdiri atas kata yang bukan dari bahasa Indonesia mendapatkan bobot lebih besar. Pemeringkatan segmen dilakukan berdasarkan nilai bobot segmen. Peringkat suatu segmen digunakan sebagai urutan segmen untuk melalui pencarian online.
6 Pemeringkatan segmen perlu dilakukan karena tidak semua segmen perlu digunakan pada pencarian online. Penelitian Butakov dan Shcherbinin (2009) mendapatkan fakta bahwa 5% segmen cukup untuk menilai apakah suatu dokumen plagiat atau tidak. Penggunaan lebih dari 40% segmen tidak meningkatkan hasil pendeteksian dokumen plagiat. Oleh sebab itu, segmen yang digunakan pada penelitian ini dibatasi maksimal 40%.
Pencarian Online Pencarian online adalah pencarian pada mesin pencari untuk mendapatkan daftar alamat serta cuplikan masing-masing hasil pencarian. Alamat serta cuplikan yang diambil maksimal 10 peringkat teratas pencarian. Pencarian online akan berhenti jika dokumen terdeteksi plagiat atau semua segmen yang ditetapkan sebagai kueri telah diproses namun dokumen belum terdeteksi plagiat. Pencarian online dengan mesin pencari Google menggunakan True Google Search (Technofreak 2012), sedangkan pencarian online dengan mesin pencari Bing menggunakan Bing Search API (Microsoft 2012). Pencarian online dengan mesin pencari mengambil hasil pencarian yang telah disesuaikan untuk negara Indonesia. Penyesuaian pada mesin pencari Google menggunakan domain Indonesia yaitu “.co.id” sedangkan pada mesin pencari Bing menggunakan parameter pasar Indonesia yaitu “en-ID”.
Pencatatan dan Identifikasi Alamat Pencarian online akan menghasilkan daftar alamat dan cuplikan. Alamat dan cuplikan akan dicatat beserta segmen yang menjadi kueri. Selain itu, frekuensi kemunculan suatu alamat juga dicatat terpisah. Identifikasi alamat adalah tahap untuk mendapatkan alamat dokumen yang harus diperiksa selanjutnya. Alamat diidentifikasi berdasarkan (1) frekuensi kemunculan suatu alamat dokumen (2) atau kemunculan kata segmen kueri pada cuplikan hasil pencarian online. Ketentuan (1) dilakukan dengan cara mendapatkan alamat yang telah tercatat lebih dari 1. Ketentuan (2) dilakukan dengan cara mendapatkan alamat yang cuplikannya memiliki minimal 70% kata pada kueri dan maksimal hanya 30% kata di cuplikan alamat tersebut yang tidak terdapat pada kueri. Ketentuan (1) dilakukan karena jika suatu alamat ada pada hasil pencarian dengan kueri berbeda maka dokumen pada alamat tersebut memiliki kemungkinan keterkaitan dengan dokumen uji, sehingga perlu dilakukan pemeriksaan. Ketentuan (2) dilakukan karena suatu cuplikan memiliki minimal 70% kata yang sama dan maksimal hanya 30% kata yang berbeda memiliki kemungkinan kesamaan yang tinggi. Oleh sebab itu, pemeriksaan tidak harus menunggu ketentuan (1) melainkan dapat langsung melakukan pemeriksaan antara dokumen uji dan dokumen sumber. Identifikasi alamat akan menghasilkan daftar alamat untuk diperiksa. Jika daftar alamat kosong, maka dilakukan pencarian online kembali dengan segmen berikutnya. Jika daftar alamat tidak kosong, maka dokumen-dokumen pada daftar alamat tersebut akan diperiksa pada tahap selanjutnya.
7 Ekspansi Jangkauan Ekspansi jangkauan adalah tahap yang dilakukan ketika suatu alamat telah dirujuk sebelumnya. Sistem tidak perlu melakukan pengunduhan ulang untuk mendapatkan dokumen sumber yang mempengaruhi kecepatan proses deteksi. Ekstraksi dokumen sumber cukup mengambil dokumen yang telah diunduh sebelumnya jika alamat tersebut telah dirujuk.
Ekstraksi Dokumen Sumber dan Dokumen Uji Setelah mendapatkan daftar alamat, dokumen pada daftar alamat akan diunduh dan diproses seperti dokumen uji untuk pengambilan teks. Selanjutnya dokumen sumber disegmentasi dengan aturan yang sama dengan dokumen uji. Setiap segmen pada dokumen sumber akan diberikan bobot berdasarkan banyaknya kata pada kueri yang terdapat pada segmen dokumen sumber. Banyaknya kata yang sama tidak diperhatikan untuk pembobotan segmen. Segmen dengan bobot terbesar atau dengan kemunculan kata terbanyak akan dijadikan acuan untuk mengekstraksi sebagian teks dokumen sumber. Sebagian teks dokumen sumber yang diambil adalah minimal 20 kata sebelum dan setelah segmen acuan serta segmen acuan tersebut. Pengambilan teks dilakukan dengan mengambil teks sebelum dan sesudahnya hingga memenuhi ketentuan minimal 20 kata atau hingga segmen terakhir yang tersedia jika tidak memenuhi ketentuan minimal 20 kata. Ekstraksi pada dokumen uji juga mengambil minimal 20 kata sebelum dan setelah segmen kueri serta segmen kueri. Pembatasan minimal 20 kata ini dilakukan supaya dapat mendeteksi suatu dokumen yang hanya memiliki sedikit teks plagiat. Ekstraksi dokumen sumber dan dokumen uji menghasilkan dua teks yaitu sebagian teks dokumen uji dan sebagian teks dokumen sumber. Kedua teks ini akan menjadi penentu apakah dokumen uji memplagiat dokumen sumber.
Perhitungan Jarak Langkah selanjutnya adalah membandingkan sebagian teks dokumen uji dan dokumen sumber. Metode untuk menghitung kesamaan sebagian teks dokumen menggunakan ukuran kesamaan kosinus dengan pembobotan yang dilakukan dengan aturan (Manning et al. 2009) { Asumsikan adalah bobot suatu kata pada suatu dokumen, sedangkan adalah frekuensi suatu kata pada suatu dokumen. Perhitungan ukuran kesamaan kosinus pada penelitian ini dilakukan dengan rumus ukuran kesamaan kosinus (Manning et al. 2009) ⃑⃑ d ⃑⃑ d sim d d |⃑⃑ d ||⃑⃑ d | Asumsikan sim d d adalah ukuran kesamaan kosinus dari d yaitu dokumen uji dan d yaitu dokumen sumber, ⃑ adalah vektor dokumen untuk d. Pembilang
8 ⃑⃑ d ⃑⃑ d didefinisikan dengan ∑ni dengan n adalah banyaknya kata unik pada dokumen uji dan dokumen sumber, adalah bobot kata pada dokumen uji dan adalah bobot kata pada dokumen sumber. Penyebut |⃑⃑ | didefinisikan dengan √∑
⃑⃑⃑⃑
.
Simbol ⃑⃑⃑⃑⃑⃑⃑⃑⃑⃑⃑ adalah kuadrat dari bobot suatu kata pada dokumen uji (d ) atau dokumen sumber (d ). Pada sebagian dokumen teks uji dan sumber, terdapat 3 bagian yaitu (a) sebelum segmen acuan, (b) segmen acuan dan (c) setelah segmen acuan. Bagianbagian ini akan digunakan dalam 3 perhitungan antara sebagian teks dokumen uji dan sumber. Perhitungan pertama membandingkan ketiga bagian tersebut. Perhitungan kedua membandingkan bagian pertama (a) dan kedua (b). Perhitungan ketiga membandingkan bagian kedua (b) dan ketiga (c). Jika di antara ketiga perbandingan tersebut mendapatkan hasil di atas 70%, dokumen uji dianggap plagiat terhadap dokumen sumber. Perhitungan jarak dilakukan dengan 3 perhitungan karena posisi segmen plagiat dapat berada di awal, akhir atau pertengahan teks dokumen uji.
Perhitungan Akurasi Setelah seluruh dokumen uji diujicobakan, maka dilakukan proses perhitungan akurasi secara manual. Perhitungan akurasi dapat dilakukan dengan rumus: ∑ dokumen u i dengan klasi ikasi benar 00% akurasi ∑ dokumen u i
Spesifikasi Perangkat Lunak dan Perangkat Keras Perangkat lunak yang digunakan dalam pengembangan sistem adalah Net Beans IDE 7.2, Apache 2.2, PHP 5.3, dan MySqL 5.5. Perangkat keras yang digunakan dalam pengembangan sistem adalah Laptop HP 4430s dengan spesifikasi prosesor Intel Core i3-2330M 2.2 GHz dan Memori RAM 4GB, dan jaringan internet dengan penyedia layanan PT Indosat Mega Media.
HASIL DAN PEMBAHASAN Pembentukan Korpus Dokumen Uji Dokumen uji pada penelitian ini menggunakan korpus dokumen plagiat yang dibentuk pada penelitian ini. Korpus dokumen plagiat terdiri atas 4 jenis yaitu dokumen hampir sama persis, gabungan beberapa sumber, sedikit bagian sumber dan restrukturisasi. Setiap jenis dokumen plagiat dibentuk 25 dokumen.
9 Pembentukan korpus dokumen plagiat menghasilkan 100 dokumen. Untuk detailnya dapat dilihat pada Lampiran 1. Pembentukan dokumen hampir sama persis dengan cara menyalin sebagian besar isi dokumen sumber. Pembentukan dokumen gabungan beberapa sumber dengan cara menyalin isi dari 2-3 dokumen berbeda. Pada dokumen jenis sedikit bagian sumber, dokumen dibentuk dengan menyalin beberapa paragraf dari dokumen sumber kemudian menggabungkannya dengan dokumen yang bukan plagiat. Dokumen bukan plagiat yang digunakan adalah dokumen teks yang dibentuk dan teruji bukan dokumen plagiat. Dokumen jenis restrukturisasi dibentuk dengan menyalin suatu dokumen sumber kemudian mengubah strukturnya menjadi berbeda dengan dokumen sumbernya. Pembentukan dokumen jenis restrukturisasi memanfaatkan layanan Google Translate 1 . Hal ini dapat dilakukan karena ketika suatu teks diterjemahkan ke suatu bahasa lain dan kemudian diterjemahkan kembali ke bahasa aslinya pada Google Translate, hasil akhir tidak sama persis dengan teks awal. Sebagai contoh, terjemahan bolak-balik (Indonesia-Inggris dari “Strategi dalam dunia pemeliharaan di industri mulai mengarah pada predictive maintenance PdM ” adalah “Strategi perawatan di dunia dalam industri mulai mengarah pada pemeliharaan predikti PDM ”. Perbedaan beberapa kata pada kalimat tersebut dapat menghasilkan perbedaan signifikan pada pencarian di mesin pencari. Penggunaan teks awal pada contoh akan memberikan hasil alamat sumber aslinya pada mesin pencari, sedangkan penggunaan teks hasil restrukturisasi pencarian pada mesin pencari tidak mendapatkan hasil alamat sumber aslinya. Jenis dokumen plagiat hampir sama persis memiliki rata-rata kemiripan yang paling tinggi dengan dokumen sumber, sedangkan plagiat dengan sedikit bagian sumber memiliki rata-rata kemiripan yang terendah (lihat Tabel 1). Hal ini karena pembentukan dokumen hampir sama persis hanya menulis ulang sumber dengan sedikit perubahan. Dokumen dengan jenis gabungan beberapa sumber mengambil dua atau tiga dokumen sebagai sumber plagiat, sehingga kemiripannya dengan suatu dokumen sumber plagiat secara spesifik menjadi turun. Dokumen dengan sedikit bagian dokumen hanya mengambil sedikit bagian dokumen yang kemudian digabungkan dengan dokumen bukan plagiat, sehingga rata-rata kemiripannya paling kecil. Dokumen jenis restrukturisasi memiliki rata-rata Tabel 1 Nilai kesamaan kosinus dokumen uji dengan sumber plagiat Jenis dokumen
Nilai rata-rata kesamaan 0.913
Nilai maksimum kesamaan 0.996
Nilai minimum kesamaan 0.505
Standar deviasi kesamaan 0.0520
Gabungan beberapa sumber
0.638
0.720
0.567
0.0685
Sedikit bagian sumber
0.505
0.580
0.382
0.0717
Restrukturisasi
0.720
0.833
0.583
0.0800
Hampir sama persis
1
http://translate.google.com/
10 kemiripan yang cukup tinggi namun dengan nilai standar deviasi yang paling besar dibandingkan dengan yang lainnya. Hal ini menunjukkan bahwa dokumen jenis restrukturisasi lebih beragam daripada dokumen plagiat jenis lainnya. Untuk detail nilai kesamaan kosinus setiap dokumen uji dapat dilihat pada Lampiran 2 dan 3. Praproses Dokumen Uji dan Dokumen Sumber Tahap praproses dokumen dilakukan untuk mengekstraksi teks. Dokumen uji menggunakan dokumen jenis PDF, sedangkan dokumen sumber yang dapat diekstrak adalah dokumen jenis PDF dan dokumen jenis HTML. Pada dokumen uji tidak terdapat dokumen yang terproteksi karena pembentukan korpus dokumen uji tidak melakukan proteksi dokumen uji. Namun, dokumen sumber plagiat dapat berupa dokumen yang terproteksi sehingga harus dilakukan upaya untuk mendapatkan teks yaitu dengan menggunakan Ghostscript dan Tesseract.
Segmentasi Dokumen Segmentasi dokumen uji menghasilkan jumlah segmen rata-rata untuk setiap jenis dokumen uji antara 141-179, maksimum 335 dan minimum 66 segmen (lihat Tabel 2). Detail jumlah segmen setiap dokumen uji dapat dilihat pada Lampiran 4 dan 5. Jumlah segmen menentukan jumlah kueri yang digunakan pada pencarian online. Segmen yang digunakan sebagai kueri dibatasi maksimal 40%, sehingga rata-rata setiap jenis dokumen memiliki daftar kueri antara 55-72 segmen. Segmentasi dengan tanda titik yang diikuti dengan spasi sudah cukup baik dalam mendapatkan segmen karena kalimat umumnya diakhiri oleh titik dan menggunakan spasi untuk mengawali kalimat. Pembatasan maksimum 20 kata dan minimum 5 kata untuk setiap segmen dapat membuat segmen menjadi kalimat yang tidak lengkap dan menghilangkan sebagian teks dari dokumen. Namun, hal ini tidak mempengaruhi hasil deteksi karena teks pada dokumen uji dan dokumen sumber plagiat diperoleh dari aturan segmentasi yang sama.
Tabel 2 Jumlah segmen hasil segmentasi dokumen uji Jenis dokumen uji
Jumlah segmen ratarata per dokumen uji 178.48
Jumlah segmen maksimum dokumen uji 335
Jumlah segmen minimum dokumen uji 66
Gabungan beberapa sumber
153.20
367
82
Sedikit bagian sumber
141.36
154
130
Restrukturisasi
137.76
243
66
Hampir sama persis
11
Pembobotan dan Pemeringkatan Segmen Pembobotan dan pemeringkatan yang dilakukan dinilai dari banyaknya kueri yang digunakan atau banyaknya pencarian yang dilakukan hingga suatu dokumen terdeteksi plagiat. Berdasarkan hasil deteksi dengan mesin pencari Google (lihat Tabel 3), rata-rata pencarian yang dilakukan adalah 5.7 kali pencarian. Hal ini menunjukkan bahwa aturan pembobotan segmen yang dilakukan sudah memberikan hasil yang baik karena penggunaan kueri dengan bobot tinggi dapat menemukan dokumen sumber plagiat. Penilaian pembobotan segmen yang dilakukan hanya berdasarkan hasil deteksi dengan mesin pencari Google karena dengan mesin pencari Google seluruh dokumen terdeteksi plagiat, sedangkan hasil deteksi dengan mesin pencari Bing tidak dapat dijadikan acuan karena tidak seluruh dokumen terdeteksi plagiat.
Pencarian Online Pencarian online dilakukan selama daftar kueri yang digunakan masih belum diproses seluruhnya dan dokumen uji belum terdeteksi sebagai plagiat. Pencarian online dengan Google memerlukan rata-rata 2.72-9.32 kali pencarian (lihat Tabel 3) untuk setiap jenis dokumen, sedangkan pencarian online dengan Bing memerlukan rata-rata 38.28-49.04 kali pencarian (lihat Tabel 4). Pencarian dengan mesin pencari Google menggunakan rata-rata 1.79-6.68% segmen untuk setiap jenis dokumen. Pencarian terbanyak dengan mesin pencari Google terjadi pada suatu dokumen restrukturisasi yang menggunakan 27.27% segmen sebagai kueri, sedangkan pada mesin pencari Bing pada setiap jenis dokumen rata-rata menggunakan lebih dari 27% segmen. Tahap pencarian online menghasilkan alamat dan cuplikan untuk diidentifikasi apakah harus diperiksa. Setiap pencarian online mengambil maksimal 10 alamat teratas. Jumlah pencarian mempengaruhi banyaknya alamat yang dicatat. Oleh sebab itu, pada mesin pencari Google rata-rata alamat yang didapatkan lebih sedikit daripada mesin pencari Bing. Rata-rata alamat yang didapatkan pada mesin pencari Google hanya 31.37 (lihat Tabel 6), sedangkan rata-rata alamat yang didapatkan pada mesin pencari Bing sebanyak 323.29 (lihat Tabel 7). Tabel 3 Hasil pencarian Google Rata-rata frekuensi pencarian 2.72
Rata-rata persentase jumlah segmen yang digunakan 1.79
Gabungan beberapa sumber
2.72
2.22
Sedikit bagian sumber
9.32
6.62
Restrukturisasi
8.04
6.68
Jenis dokumen Hampir sama persis
12 Tabel 4 Hasil pencarian Bing Rata-rata frekuensi pencarian 49.04
Rata-rata persentase jumlah segmen yang digunakan 27.92
Gabungan beberapa sumber
38.28
27.56
Sedikit bagian sumber
46.64
33.01
Restrukturisasi
45.52
34.79
Jenis dokumen Hampir sama persis
Tabel 5 Perbandingan hasil kesamaan kosinus maksimum dokumen uji dengan cara identifikasi alamat dokumen sumber Aturan identifikasi alamat dokumen sumber
Google Dokumen dengan kesamaan ≥ 0.7
Bing
Frekuensi alamat telah diperoleh lebih dari 1
54
Dokumen dengan kesamaan ≥ 0.7 10
Cuplikan minimum 70% kata kueri, maksimum 30% bukan kata kueri
46
18
Dokumen dengan kesamaan < 0.7 69
1
Pencatatan dan Identifikasi Alamat Identifikasi alamat yang dilakukan dengan aturan pertama yaitu dengan memperhatikan apakah alamat telah diperoleh dari hasil pencarian sebelumnya atau frekuensi alamat lebih dari 1, merupakan aturan yang paling banyak digunakan (lihat Tabel 5). Meskipun demikian, aturan tersebut memberikan hasil dengan kesamaan kurang dari 0.7 terbanyak dengan 69 dokumen uji, sedangkan aturan kedua hanya memberikan 1 hasil yang kurang dari 0.7. Pada umumnya, semakin tinggi suatu alamat dokumen sumber didapatkan dari hasil pencarian, maka semakin besar kemungkinan dokumen sumber tersebut memiliki keterkaitan dengan dokumen uji. Namun, keterkaitan tersebut tidak berarti dokumen uji memplagiat dokumen sumber karena hal yang terkait dapat juga berupa pembahasan mengenai topik yang sama sehingga alamat dokumen sumber diperoleh lebih dari 1. Aturan kedua lebih sedikit dilakukan karena tidak banyak hasil pencarian online yang dapat memenuhi aturan tersebut. Meskipun pada aturan kedua cuplikan dokumen sumber harus memiliki minimum 70% kata kueri dan
13 maksimum 30% bukan kata kueri, kesamaan kosinus yang diperoleh bisa mendapatkan hasil kurang dari 0.7. Hal ini karena aturan kedua tidak merepresentasikan kesamaan kosinus namun sebatas untuk mendapatkan dokumen yang akan diuji.
Perhitungan Jarak Perhitungan jarak deteksi plagiat dengan mesin pencari Google dilakukan rata-rata hanya 1.04 kali perhitungan (lihat Tabel 6), sedangkan dengan mesin pencari Bing dilakukan rata-rata 8.24 kali perhitungan (lihat Tabel 7). Kesamaan kosinus setiap jenis dokumen uji yang diperoleh deteksi plagiat dengan mesin pencari Google memperoleh nilai rata-rata antara 0.84-0.97, sedangkan dengan mesin pencari Bing hanya memperoleh 37.32-55.36. Nilai ini diperoleh dari nilai maksimum kesamaan kosinus yang diperoleh setiap dokumen uji. Pada deteksi plagiat dengan mesin pencari Google, rata-rata kesamaan kosinus terendah diperoleh dokumen restrukturisasi. Hal ini disebabkan perubahan Tabel 6 Hasil deteksi plagiat menggunakan 40% segmen dan mesin pencari Google Jenis dokumen
Hampir sama persis
Jumlah rata- Jumlah ratarata alamat rata yang perhitungan digunakan jarak 10.00 1.00
Nilai ratarata kesamaan kosinus 0.97
Nilai rata-rata Akurasi (%) 100
Gabungan beberapa sumber
15.72
1.00
0.97
100
Sedikit bagian sumber
43.76
1.00
0.99
100
Restrukturisasi
49.88
1.16
0.84
100
Tabel 7 Hasil deteksi plagiat menggunakan 40% segmen dan mesin pencari Bing Jenis dokumen
Hampir sama persis
Jumlah rata- Jumlah ratarata alamat rata yang perhitungan digunakan jarak 332.56 15.64
Nilai ratarata kesamaan kosinus 0.54
Nilai rata-rata akurasi (%) 32
Gabungan beberapa sumber
276.16
7.44
0.55
40
Sedikit bagian sumber
349.92
3.28
0.40
24
Restrukturisasi
334.52
6.60
0.37
16
14 kata-kata pada dokumen uji jika dibandingkan dengan dokumen sumber. Jenis dokumen sedikit bagian sumber memiliki rata-rata kesamaan kosinus yang tinggi yaitu 0.99. Perhitungan jarak teks dokumen yang dilakukan dengan 3 cara membuat keberadaan teks yang bukan plagiat menjadi tidak terpengaruh terhadap hasil perhitungan jarak. Dokumen jenis hampir sama persis dan gabungan beberapa sumber memiliki rata-rata kesamaan kosinus yang tinggi dan tidak berbeda. Hasil ini menunjukkan bahwa banyaknya sumber tidak membuat dokumen lebih sulit untuk dideteksi. Pada deteksi plagiat dengan mesin pencari Bing, kesamaan kosinus dihitung dari nilai terbesar ketika suatu dokumen dilakukan perhitungan jarak. Rendahnya nilai kesamaan kosinus dengan mesin pencari Bing disebabkan banyaknya dokumen yang hingga penggunaan 40% segmen tidak mendapatkan sumber plagiat.
Akurasi Deteksi Plagiat Deteksi plagiat dengan 40% segmen teratas dan mesin pencari Google mendapatkan rata-rata hasil akurasi 100% (lihat Tabel 6). Namun, deteksi plagiat dengan mesin pencari Bing hanya mendapatkan rata-rata akurasi 28% (lihat Tabel 7). Akurasi tertinggi dengan mesin pencari Bing dihasilkan jenis dokumen gabungan beberapa sumber, sedangkan akurasi terendah dihasilkan jenis dokumen restrukturisasi. Akurasi deteksi plagiat pada Bing mendapatkan akurasi rendah karena hanya 10% dari korpus dokumen uji yang dokumen sumbernya terindeks di mesin pencari Bing. Pemeriksaan apakah dokumen uji terindeks atau tidak adalah dengan melakukan pencarian pada mesin pencari dengan judul dokumen sumber dan teks pada halaman yang berisi tautan dokumen sumber. Detail hasil deteksi plagiat dengan mesin pencari Google dapat dilihat pada Lampiran 6, 7, 8 dan 9, sedangkan detail hasil deteksi plagiat dengan mesin pencari Bing dapat dilihat pada Lampiran 10,11,12, dan 13. Akurasi deteksi plagiat (%)
100 90 80 70 60 50 Google
40
Bing
30 20 10 0 1
6
11
16
21
26
31
36
Persentase penggunaan segmen (%) Gambar 3 Perbandingan penggunaan segmen sebagai kueri dan akurasi deteksi plagiat dengan mesin pencari
15 Pendeteksian dokumen plagiat dengan mesin pencari Google berhasil 100% mendeteksi seluruh dokumen plagiat dengan 28% segmen. Hasil ini sesuai dengan pernyataan Butakov dan Shcherbinin (2009) bahwa penggunaan lebih dari 40% segmen tidak meningkatkan tingkat akurasi deteksi plagiat (lihat Gambar 3). Pada pendeteksian dengan mesin pencari Bing, penggunaan 40% segmen pendeteksian hanya dapat mendeteksi 28% dari keseluruhan dokumen karena dokumen sumber belum terindeks pada mesin pencari. Waktu untuk melakukan pendeteksian suatu dokumen plagiat relatif singkat dengan mesin pencari Google. Rata-rata pencarian yang terlama adalah untuk dokumen jenis restrukturisasi dengan 39.67 detik (lihat Tabel 8). Dengan mesin pencari Bing yang tidak berhasil mendeteksi keseluruhan korpus pun, rata-rata hasil deteksi sudah dapat diketahui paling lama 378.01 detik (lihat Tabel 9). Hasil ini dapat dikatakan lebih baik karena deteksi plagiat secara manual membutuhkan waktu lebih lama. Proses yang paling berpengaruh pada waktu pendeteksian adalah proses pengunduhan dokumen sumber dan pencarian pada mesin pencari. Oleh sebab itu, dokumen sumber telah diunduh sebelumnya untuk meminimalisir waktu dan konsistensi dokumen sumber karena suatu alamat dokumen pada Tabel 8 Waktu rata-rata pendeteksian plagiat dengan 40% segmen (detik) dengan mesin pencari Google Jenis dokumen
Hampir sama persis
Waktu rata-rata ekstraksi 0.05
Waktu Waktu rata-rata rata-rata segmentasi pembobotan 0.55 0.75
Waktu rata-rata pencarian 11.10
Gabungan beberapa sumber
0.05
0.40
0.61
11.32
Sedikit bagian sumber
0.05
0.44
0.54
32.91
Restrukturisasi
0.05
0.52
0.55
39.67
Tabel 9 Waktu rata-rata pendeteksian plagiat dengan 40% segmen (detik) dengan mesin pencari Bing Jenis dokumen
Hampir sama persis
Waktu rata-rata ekstraksi 0.07
Waktu Waktu rata-rata rata-rata segmentasi pembobotan 0.79 1.47
Waktu rata-rata pencarian 311.30
Gabungan beberapa sumber
0.06
0.60
0.62
331.54
Sedikit bagian sumber
0.05
0.45
0.50
378.01
Restrukturisasi
0.07
0.49
0.63
351.44
16 internet dapat saja berubah atau tidak dapat diakses. Detail waktu deteksi plagiat dengan mesin pencari Google dapat dilihat pada Lampiran 14, 15, 16 dan 17, sedangkan detail waktu deteksi plagiat dengan mesin pencari Bing dapat dilihat pada Lampiran 18, 19, 20 dan 21. Hasil sistem pendeteksi online ini masih melalui tahap offline seperti yang diutarakan Mozgovoy (2006). Namun, otomatisasi sistem menunjukkan bahwa saat ini sistem pendeteksi online tidak lagi sulit untuk dilakukan. Hasil yang diperoleh pada penelitian ini merupakan indikasi plagiat sebenarnya. Terdapat beberapa hal yang belum didukung oleh sistem, sehingga dapat membuat dokumen yang seharusnya bukan plagiat teridentifikasi sebagai dokumen plagiat seperti kutipan langsung. Kutipan langsung pada dokumen uji pasti akan sama persis dengan dokumen sumber, sehingga jika sistem membandingkan antara dokumen uji dan dokumen sumber maka akan terindikasi plagiat.
SIMPULAN DAN SARAN Simpulan Penelitian ini menghasilkan sistem pendeteksi dokumen plagiat untuk dokumen berbahasa Indonesia dengan memanfaatkan mesin pencari. Sistem ini berhasil mendeteksi seluruh korpus dokumen plagiat dengan mesin pencari Google. Namun, perlu dilakukan pemeriksaan manual untuk memastikan dokumen tersebut adalah dokumen plagiat. Jika dokumen sumber dari dokumen plagiat belum terindeks pada mesin pencari, maka dokumen sumber tersebut tidak dapat dideteksi. Sebaliknya, jika dokumen sumber telah terindeks oleh mesin pencari, sistem ini dapat mendeteksi dokumen tersebut sebagai dokumen plagiat. Jadi, kualitas hasil sistem pendeteksi dokumen plagiat ini tergantung pada hasil pencarian yang dihasilkan oleh mesin pencari.
Saran Beberapa saran untuk penelitian selanjutnya yaitu: 1 Menambahkan korpus dokumen uji berupa dokumen yang bukan plagiat untuk mendeteksi apakah suatu dokumen uji yang bukan plagiat dikategorikan dokumen plagiat. 2 Menggunakan ukuran kesamaan teks lainnya untuk mencari ukuran kesamaan teks yang paling efektif untuk membandingkan teks plagiat dengan sumber plagiat. Ukuran kesamaan teks lainnya yang dapat diterapkan misalnya Longest Common Subsequence (LCS) yang memperhatikan urutan kata dalam teks.
17
DAFTAR PUSTAKA Alzahrani S M, Salim N B, Abraham A. 2012. Understanding plagiarism linguistic patterns, textual features, and detection methods. Sys, Man, Cyber, Part C: Appl Rev. 42(2):133-249.doi:10.1109/TSMCC.2011.2134847. Artofcode. 2002. Details of Ghostscript output devices [internet]. [diunduh 2013 April 26]. Tersedia pada: http://pages.cs.wisc.edu/~ghost/doc/AFPL/8.00/ Devices.htm [ASI] Artifex Software, Inc. c2012. Ghostscript [internet]. [diunduh 2013 April 24]. Tersedia pada: http://www.ghostscript.com/Ghostscript.html Butakov S, Shcherbinin V. 2009. On the number of search queries required for internet plagiarism detection. Di dalam: Advanced Learning Technologies; 2009 Jul 15-17; Riga. Riga (LV): [IEEE]. Hlm 482-483. Fathi S. 2012. Pembentukan passage dalam question answering system untuk dokumen bahasa Indonesia [skripsi]. Bogor (ID): Institut Pertanian Bogor. [GCL] Glyph & Cog, LLC. c2011. Xpdf: A PDF Viewer for X [internet]. [diunduh 2013 April 24]. Tersedia pada: http://www.foolabs.com/xpdf/ home.html Google. c2011. Tesseract-ocr [internet]. [diunduh 2013 Maret 4]. Tersedia pada: https://code.google.com/p/tesseract-ocr/ Honig B, Bedi A. 2012. The fox in the hen house: a critical examination of plagiarism among members of the academy of management. Acad Manag Learn & Educ. 11(1):101–123.doi:10.5465/amle.2010.0084. Liu Y, Zhang H, Chen T, Teng W . 2007. Extending Web Search for Online Plagiarism Detection. Di dalam: Information Reuse and Integration; 2007 Aug 13-15; Las Vegas. Las Vegas (US): [IEEE]. Hlm 164-169. Manning C D, Raghavan P, Schütze H. 2009. An Introduction to Information Retrieval. Cambridge Univ Press (GB): Cambrigde. Microsoft. c2012. Bing Search API [internet]. [diunduh 2013 April 10]. Tersedia pada: http://datamarket.azure.com/dataset/bing/search Mozgovoy M. 006. Desktop tools or o fline plagiarism detection in computer programs. Inform Educ. [Internet]. [diunduh 2013 Mar 16]; 5(1):97-112. Tersedia pada: http://www.mii.lt/informatics_in_education/pdf/INFE067. pdf Technofreak. c2012. True Google Search API - Google Search Results Parser/Scraper [internet]. [diunduh 2013 April 10]. Tersedia pada: http://thetechnofreak.com/downloads/true-google-search-api-google-searchresults-parser-scraper/
18 Lampiran 1 Dokumen uji Dokumen hampir sama persis 106.pdf 107.pdf 128.pdf 129.pdf 130.pdf 131.pdf 132.pdf 133.pdf 134.pdf 137.pdf 139.pdf 140.pdf 142.pdf 143.pdf 144.pdf 146.pdf 148.pdf 149.pdf 151.pdf 153.pdf 155.pdf 165.pdf 167.pdf 168.pdf 170.pdf
Gabungan beberapa sumber d2-130-132.pdf d2-133-140.pdf d2-143-148.pdf d2-151-167.pdf d2-153-142.pdf d2-153-154.pdf d2-165-154.pdf d2-165-166.pdf d2-168-146.pdf d2-170-141.pdf d3-106-144-137.pdf d3-107-153-167.pdf d3-129-146-151.pdf d3-130-131-132.pdf d3-130-134-142.pdf d3-133-136-140.pdf d3-140-139-168.pdf d3-143-144-148.pdf d3-151-167-128.pdf d3-153-142-131.pdf d3-153-154-165.pdf d3-165-154-149.pdf d3-166-167-170.pdf d3-168-146-155.pdf d3-170-141-143.pdf
Sedikit bagianRestrukturisasi sumber e-106.pdf e-107.pdf e-128.pdf e-129.pdf e-130.pdf e-131.pdf e-132.pdf e-133.pdf e-134.pdf e-137.pdf e-139.pdf e-140.pdf e-142.pdf e-143.pdf e-144.pdf e-146.pdf e-148.pdf e-149.pdf e-151.pdf e-153.pdf e-155.pdf e-165.pdf e-167.pdf e-168.pdf e-170.pdf
tr-128.pdf tr-131.pdf tr-132.pdf tr-133.pdf tr-139.pdf tr-140.pdf tr-142.pdf tr-143.pdf tr-144.pdf tr-146.pdf tr-148.pdf tr-149.pdf tr-155.pdf tr-165.pdf tr-170.pdf tr2-130-132.pdf tr2-133-140.pdf tr2-143-148.pdf tr2-151-167.pdf tr2-153-142.pdf tr2-153-154.pdf tr2-165-154.pdf tr2-165-166.pdf tr2-168-146.pdf tr2-170-141.pdf
19 Lampiran 2 Rata-rata kesamaan dokumen uji dengan 1 dokumen sumber Nama dokumen 106 107 128 129 130 131 132 133 134 137 139 140 142 143 144 146 148 149 151 153 155 165 167 168 170 e-106 e-107 e-128 e-129 e-130 e-131 e-132
Kesamaan kosinus 94.09 75.36 88.94 95.11 99.62 84.52 90.42 93.88 94.38 95.38 93.51 92.40 84.32 89.03 94.52 95.20 88.82 85.78 95.06 96.55 87.26 89.39 96.91 94.28 86.69 51.43 38.22 53.71 57.97 50.99 49.74 51.45
Nama dokumen e-133 e-134 e-137 e-139 e-140 e-142 e-143 e-144 e-146 e-148 e-149 e-151 e-153 e-155 e-165 e-167 e-168 e-170 tr-128 tr-131 tr-132 tr-133 tr-139 tr-140 tr-142 tr-143 tr-144 tr-146 tr-148 tr-149 tr-155 tr-165 tr-170
Kesamaan kosinus 49.16 51.95 55.61 51.12 45.60 54.55 42.28 50.40 51.11 53.15 49.70 53.85 50.81 49.33 51.70 53.01 43.92 51.76 79.02 74.52 79.17 83.29 80.52 79.89 75.42 74.81 82.35 81.78 79.37 76.73 79.57 78.74 74.66
20 Lampiran 3 Rata-rata kesamaan dokumen uji dengan lebih dari 1 dokumen sumber
Nama dokumen d2-130-132 d2-133-140 d2-143-148 d2-151-167 d2-153-142 d2-153-154 d2-165-154 d2-165-166 d2-168-146 d2-170-141 d3-106-144-137 d3-107-153-167 d3-129-146-151 d3-130-131-132 d3-130-134-142 d3-133-136-140 d3-140-139-168 d3-143-144-148 d3-151-167-128 d3-153-142-131 d3-153-154-165 d3-165-154-149 d3-166-167-170 d3-168-146-155 d3-170-141-143 tr2-130-132 tr2-133-140 tr2-143-148 tr2-151-167 tr2-153-142 tr2-153-154 tr2-165-154 tr2-165-166 tr2-168-146 tr2-170-141
Kesamaan Kosinus 68.18 72.02 71.96 66.50 69.13 71.96 65.06 69.70 65.32 59.49 63.64 57.29 66.11 59.96 65.33 58.07 62.93 60.55 60.52 59.36 63.94 62.89 61.57 57.80 56.65 62.44 65.19 62.15 58.26 61.22 63.30 60.28 63.66 58.98 64.49
21 Lampiran 4 Hasil segmentasi dokumen uji dengan suatu dokumen sumber Nama dokumen 106 107 128 129 130 131 132 133 134 137 139 140 142 143 144 146 148 149 151 153 155 165 167 168 170 e-106 e-107 e-128 e-129 e-130 e-131 e-132
Jumlah Segmen 325 103 179 209 344 137 172 167 277 142 128 158 165 108 231 206 168 133 194 246 66 129 256 142 153 145 136 142 140 146 140 142
Nama dokumen Jumlah Segmen e-133 e-134 e-137 e-139 e-140 e-142 e-143 e-144 e-146 e-148 e-149 e-151 e-153 e-155 e-165 e-167 e-168 e-170 tr-128 tr-131 tr-132 tr-133 tr-139 tr-140 tr-142 tr-143 tr-144 tr-146 tr-148 tr-149 tr-155 tr-165 tr-170
139 140 151 139 134 148 136 142 147 143 153 137 143 139 142 141 133 141 174 130 155 165 129 151 162 109 248 200 174 131 66 120 133
22 Lampiran 5 Hasil segmentasi dokumen uji dengan lebih dari 1 dokumen sumber
Nama dokumen d2-130-132 d2-133-140 d2-143-148 d2-151-167 d2-153-142 d2-153-154 d2-165-154 d2-165-166 d2-168-146 d2-170-141 d3-106-144-137 d3-107-153-167 d3-129-146-151 d3-130-131-132 d3-130-134-142 d3-133-136-140 d3-140-139-168 d3-143-144-148 d3-151-167-128 d3-153-142-131 d3-153-154-165 d3-165-154-149 d3-166-167-170 d3-168-146-155 d3-170-141-143 tr2-130-132 tr2-133-140 tr2-143-148 tr2-151-167 tr2-153-142 tr2-153-154 tr2-165-154 tr2-165-166 tr2-168-146 tr2-170-141
Jumlah segmen 148 167 132 108 127 201 90 122 100 89 372 147 267 122 371 119 197 112 108 108 169 129 148 84 134 133 159 129 100 121 195 91 116 94 95
23 Lampiran 6 Hasil deteksi plagiat dengan mesin pencari Google (dokumen uji jenis hampir sama persis)
Nama dokumen
106 107 128 129 130 131 132 133 134 137 139 140 142 143 144 146 148 149 151 153 155 165 167 168 170
Frekuensi Pencarian 1 1 1 1 3 3 4 3 3 1 3 3 3 1 2 5 2 3 3 5 5 1 2 6 3
Persentase Aturan Kesamaan penggunaan identifikasi kosinus segmen yang digunakan (%) 0.31 0.99 0.56 0.49 0.90 2.22 2.37 1.81 1.09 0.71 2.44 2.00 1.82 0.93 0.88 2.51 1.22 2.22 1.60 2.05 7.58 0.79 0.80 4.35 1.99
2 2 2 2 1 1 1 1 1 2 1 1 1 2 1 1 2 2 1 1 1 2 1 1 1
81.69 100.00 100.00 100.00 100.00 98.90 100.00 98.84 100.00 100.00 100.00 80.86 100.00 88.34 100.00 100.00 98.67 88.23 100.00 94.57 100.00 100.00 100.00 100.00 100.00
24 Lampiran 7 Hasil deteksi plagiat dengan mesin pencari Google (dokumen uji jenis gabungan berbagai sumber)
Nama dokumen
Frekuensi Pencarian
Persentase penggunaan segmen
d2-130-132 d2-133-140 d2-143-148 d2-151-167 d2-153-142 d2-153-154 d2-165-154 d2-165-166 d2-168-146 d2-170-141 d3-106-144-137 d3-107-153-167 d3-129-146-151 d3-130-131-132 d3-130-134-142 d3-133-136-140 d3-140-139-168 d3-143-144-148 d3-151-167-128 d3-153-142-131 d3-153-154-165 d3-165-154-149 d3-166-167-170 d3-168-146-155 d3-170-141-143
1 3 3 4 3 4 1 1 5 10 2 1 2 3 1 4 3 5 2 3 2 2 1 1 1
0.68 1.82 2.31 3.70 2.40 2.01 1.12 0.82 5.10 11.36 0.54 0.68 0.76 2.48 0.27 3.36 1.59 4.50 1.85 2.78 1.18 1.56 0.68 1.22 0.75
Aturan identifikasi yang digunakan
Kesamaan kosinus (%) 2 1 1 1 1 1 2 2 1 2 2 2 2 2 2 1 2 1 2 1 2 2 2 2 2
97.09 98.37 96.30 97.31 80.19 100.00 100.00 100.00 99.38 84.16 81.69 100.00 100.00 98.99 100.00 99.09 100.00 100.00 99.06 100.00 100.00 100.00 100.00 100.00 100.00
25 Lampiran 8 Hasil deteksi plagiat dengan mesin pencari Google (dokumen uji jenis sedikit bagian sumber)
Nama dokumen
e-106 e-107 e-128 e-129 e-130 e-131 e-132 e-133 e-134 e-137 e-139 e-140 e-142 e-143 e-144 e-146 e-148 e-149 e-151 e-153 e-155 e-165 e-167 e-168 e-170
Frekuensi Pencarian
Persentase penggunaan segmen
7 13 12 3 7 12 22 10 20 3 12 4 3 3 9 5 7 5 14 9 17 21 6 3 6
4.90 9.56 8.39 2.13 4.76 8.51 15.49 7.14 14.29 2.00 8.63 2.99 2.03 2.26 6.43 3.38 4.90 3.25 10.14 6.25 12.41 14.79 4.23 2.31 4.32
Aturan identifikasi yang digunakan
Kesamaan kosinus (%) 2 2 1 2 2 2 1 2 2 2 1 2 2 2 1 2 1 1 2 2 1 1 1 2 2
100.00 92.12 100.00 100.00 97.81 100.00 100.00 100.00 100.00 98.50 100.00 100.00 100.00 100.00 95.47 100.00 100.00 85.59 100.00 100.00 97.49 100.00 100.00 100.00 97.07
26 Lampiran 9 Hasil deteksi plagiat dengan mesin pencari Google (dokumen uji jenis restrukturisasi)
Nama dokumen
tr-128 tr-131 tr-132 tr-133 tr-139 tr-140 tr-142 tr-143 tr-144 tr-146 tr-148 tr-149 tr-155 tr-165 tr-170 tr2-130-132 tr2-133-140 tr2-143-148 tr2-151-167 tr2-153-142 tr2-153-154 tr2-165-154 tr2-165-166 tr2-168-146 tr2-170-141
Frekuensi Pencarian
Persentase penggunaan segmen
1 2 11 6 10 3 17 9 6 5 5 3 18 5 6 6 1 24 16 4 17 3 4 18 1
0.58 1.55 7.10 3.61 8.13 2.13 10.43 8.26 2.47 2.60 2.87 2.29 27.27 4.27 4.55 4.48 0.63 18.75 16.00 3.31 8.67 3.30 3.51 19.15 1.06
Aturan identifikasi yang digunakan
Kesamaan kosinus (%) 2 2 1 1 1 1 1 1 1 2 1 1 1 1 1 1 2 1 1 1 1 1 1 1 2
83.87 82.85 83.73 78.38 91.75 85.09 85.00 79.10 82.87 89.92 89.36 78.50 75.34 81.96 82.11 81.09 87.81 77.43 85.06 86.25 80.39 88.19 88.17 83.64 100.00
27 Lampiran 10 Hasil deteksi plagiat dengan mesin pencari Bing (dokumen uji jenis hampir sama persis)
Nama dokumen
106 107 128 129 130 131 132 133 134 137 139 140 142 143 144 146 148 149 151 153 155 165 167 168 170
Frekuensi Pencarian 1 1 71 82 134 1 67 3 110 1 49 60 1 43 1 79 65 54 75 97 26 50 40 55 60
Persentase Aturan Kesamaan penggunaan identifikasi kosinus segmen yang digunakan (%) 0.31 0.99 39.89 40.00 40.00 0.74 39.64 1.81 39.86 0.71 39.84 40.00 0.61 39.81 0.44 39.70 39.63 40.00 39.89 39.75 39.39 39.37 16.06 39.86 39.74
2 2 1 1 1 2 1 2 1 2 1 1 2 1 2 1 1 1 1 1 1 1 1 1 1
87.47 100.00 28.18 31.94 41.24 98.31 31.08 91.91 33.36 94.31 40.42 25.39 80.88 24.34 98.50 46.24 52.83 39.31 61.12 55.97 24.45 21.01 86.57 27.51 32.25
28 Lampiran 11 Hasil deteksi plagiat dengan mesin pencari Bing (dokumen uji jenis gabungan berbagai sumber)
Nama
d2-130-132 d2-133-140 d2-143-148 d2-151-167 d2-153-142 d2-153-154 d2-165-154 d2-165-166 d2-168-146 d2-170-141 d3-106-144-137 d3-107-153-167 d3-129-146-151 d3-130-131-132 d3-130-134-142 d3-133-136-140 d3-140-139-168 d3-143-144-148 d3-151-167-128 d3-153-142-131 d3-153-154-165 d3-165-154-149 d3-166-167-170 d3-168-146-155 d3-170-141-143
Frekuensi Pencarian 59 31 52 43 3 79 31 48 39 35 2 6 105 5 9 23 75 1 43 6 67 51 59 32 53
Persentase Aturan Kesamaan penggunaan identifikasi kosinus segmen yang digunakan (%) 39.86 18.79 40.00 39.81 2.40 39.70 34.83 39.34 39.80 39.77 0.54 4.11 39.77 4.13 2.47 19.33 39.68 0.90 39.81 5.56 39.64 39.84 39.86 39.02 39.85
1 1 1 1 1 1 1 1 2 1 2 2 1 1 2 2 1 2 1 2 1 1 1 1 1
32.02 73.18 34.67 50.51 76.49 39.11 72.49 28.05 37.97 31.55 87.47 100.00 32.35 99.39 98.54 98.95 29.48 98.50 10.53 97.96 11.90 20.73 54.22 27.05 40.87
29 Lampiran 12 Hasil deteksi plagiat dengan mesin pencari Bing (dokumen uji jenis sedikit bagian sumber)
Nama dokumen
e-106 e-107 e-128 e-129 e-130 e-131 e-132 e-133 e-134 e-137 e-139 e-140 e-142 e-143 e-144 e-146 e-148 e-149 e-151 e-153 e-155 e-165 e-167 e-168 e-170
Frekuensi Pencarian 7 9 57 56 58 56 56 27 56 60 55 53 3 53 9 59 57 61 55 57 54 45 56 52 55
Persentase Aturan Kesamaan penggunaan identifikasi kosinus segmen yang digunakan (%) 4.90 6.62 39.86 39.72 39.46 39.72 39.44 19.29 40.00 40.00 39.57 39.55 2.03 39.85 6.43 39.86 39.86 39.61 39.86 39.58 39.42 31.69 39.44 40.00 39.57
2 2 1 1 1 1 2 1 1 1 1 2 1 1 1 1 1 1 1 1 1 1 1
92.69 100.00 27.87 26.33 27.87 28.84 96.44 27.87 37.13 15.02 18.98 99.44 28.84 95.47 26.33 34.67 29.16 24.34 27.87 27.87 73.27 18.69 27.87
30 Lampiran 13 Hasil deteksi plagiat dengan mesin pencari Bing (dokumen uji jenis restrukturisasi)
Nama
tr-128 tr-131 tr-132 tr-133 tr-139 tr-140 tr-142 tr-143 tr-144 tr-146 tr-148 tr-149 tr-155 tr-165 tr-170 tr2-130-132 tr2-133-140 tr2-143-148 tr2-151-167 tr2-153-142 tr2-153-154 tr2-165-154 tr2-165-166 tr2-168-146 tr2-170-141
Frekuensi Pencarian 69 51 62 7 49 56 1 43 6 76 69 52 26 46 52 53 48 51 40 48 78 36 45 37 37
Persentase Aturan Kesamaan penggunaan identifikasi kosinus segmen yang digunakan (%) 39.88 39.53 40.00 4.22 39.84 39.72 0.61 39.45 2.47 39.58 39.66 39.69 39.39 39.32 39.39 39.55 30.38 39.84 40.00 39.67 39.80 39.56 39.47 39.36 39.36
1 1 1 1 1 1 2 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
31.31 24.52 29.89 83.25 30.85 39.35 77.14 17.89 82.87 48.54 44.05 27.58 22.13 24.40 39.71 33.61 78.97 32.84 35.27 22.11 22.50 0.00 22.26 20.65 41.43
31 Lampiran 14 Waktu deteksi plagiat dokumen uji jenis hampir sama persis dengan mesin pencari Google (detik)
Nama dokumen 106 107 128 129 130 131 132 133 134 137 139 140 142 143 144 146 148 149 151 153 155 165 167 168 170
Ekstraksi Segmentasi Pembobotan Pencarian 0.08 1.33 0.85 5.88 0.04 0.27 0.73 5.42 0.05 0.36 0.82 4.97 0.05 0.83 0.76 6.07 0.08 0.99 1.43 8.32 0.05 0.63 0.35 6.37 0.06 0.33 0.54 11.96 0.05 0.47 0.62 7.90 0.07 1.18 0.96 8.84 0.05 0.51 0.44 3.30 0.05 0.29 0.31 8.91 0.05 0.53 0.53 25.23 0.05 0.36 0.49 10.04 0.05 0.39 0.41 5.00 0.06 0.93 1.02 7.52 0.06 0.35 0.60 10.26 0.06 0.46 0.49 5.46 0.05 0.61 0.98 9.36 0.05 0.48 0.99 6.51 0.06 0.77 0.58 9.44 0.04 0.17 0.50 11.85 0.05 0.35 0.74 3.76 0.07 0.45 1.80 7.46 0.04 0.48 0.77 13.65 0.05 0.35 1.11 73.94
32 Lampiran 15 Waktu deteksi plagiat dokumen uji jenis gabungan beberapa sumber dengan mesin pencari Google (detik)
Nama dokumen d2-130-132 d2-133-140 d2-143-148 d2-151-167 d2-153-142 d2-153-154 d2-165-154 d2-165-166 d2-168-146 d2-170-141 d3-106-144-137 d3-107-153-167 d3-129-146-151 d3-130-131-132 d3-130-134-142 d3-133-136-140 d3-140-139-168 d3-143-144-148 d3-151-167-128 d3-153-142-131 d3-153-154-165 d3-165-154-149 d3-166-167-170 d3-168-146-155 d3-170-141-143
Ekstraksi Segmentasi Pembobotan Pencarian 0.05 0.37 0.89 51.31 0.05 0.29 0.57 33.34 0.05 0.23 0.85 6.41 0.04 0.26 0.62 8.31 0.05 0.33 1.61 7.30 0.06 0.52 0.50 10.01 0.04 0.31 0.26 3.54 0.05 0.40 0.32 5.54 0.04 0.32 0.73 10.83 0.04 0.22 0.23 16.73 0.09 0.86 1.72 6.99 0.05 0.28 0.54 6.03 0.07 0.70 1.02 6.06 0.04 0.36 0.31 6.20 0.08 1.03 0.97 4.47 0.05 0.40 0.40 37.70 0.06 0.55 0.57 7.96 0.05 0.29 0.41 12.28 0.05 0.34 0.29 7.31 0.05 0.20 0.30 8.45 0.06 0.33 0.45 4.49 0.05 0.25 0.48 7.06 0.06 0.28 0.52 3.78 0.04 0.34 0.26 4.58 0.06 0.55 0.49 6.40
33 Lampiran 16 Waktu deteksi plagiat dokumen uji jenis sedikit bagian sumber dengan mesin pencari Google (detik)
Nama dokumen e-106 e-107 e-128 e-129 e-130 e-131 e-132 e-133 e-134 e-137 e-139 e-140 e-142 e-143 e-144 e-146 e-148 e-149 e-151 e-153 e-155 e-165 e-167 e-168 e-170
Ekstraksi Segmentasi Pembobotan Pencarian 0.17 0.66 1.04 11.78 0.05 0.39 0.58 18.43 0.05 0.39 0.43 17.50 0.05 0.49 0.50 5.74 0.05 0.60 0.66 13.21 0.05 0.41 0.36 16.06 0.05 0.32 0.60 28.60 0.05 0.26 0.73 15.85 0.05 0.50 0.42 30.61 0.05 0.28 0.80 6.31 0.05 0.35 0.44 19.34 0.05 0.32 0.54 6.99 0.05 0.32 0.49 7.13 0.05 0.39 0.68 6.05 0.05 0.32 0.49 55.24 0.05 0.40 0.50 219.20 0.05 0.82 0.41 33.30 0.05 0.51 0.45 17.56 0.05 0.36 0.61 156.01 0.05 0.64 0.50 51.08 0.05 0.45 0.40 23.41 0.05 0.42 0.35 36.17 0.05 0.81 0.51 10.46 0.05 0.24 0.67 4.72 0.05 0.31 0.35 11.95
34 Lampiran 17 Waktu deteksi plagiat dokumen jenis restrukturisasi dengan mesin pencari Google (detik)
Nama dokumen tr-128 tr-131 tr-132 tr-133 tr-139 tr-140 tr-142 tr-143 tr-144 tr-146 tr-148 tr-149 tr-155 tr-165 tr-170 tr2-130-132 tr2-133-140 tr2-143-148 tr2-151-167 tr2-153-142 tr2-153-154 tr2-165-154 tr2-165-166 tr2-168-146 tr2-170-141
Ekstraksi Segmentasi Pembobotan Pencarian 0.11 1.60 0.62 5.86 0.04 0.27 0.48 9.30 0.05 1.14 0.48 44.50 0.05 0.42 0.85 16.01 0.05 0.33 0.58 22.42 0.05 0.50 0.75 14.22 0.05 0.35 0.53 176.93 0.05 1.01 0.42 55.18 0.06 0.84 0.98 34.20 0.06 1.47 0.66 15.26 0.06 0.36 0.46 11.79 0.05 0.54 0.62 10.82 0.03 0.13 0.18 240.61 0.05 0.20 0.71 11.50 0.05 0.29 0.59 13.86 0.05 0.40 0.62 10.39 0.05 0.53 0.76 4.89 0.05 0.30 0.43 45.68 0.04 0.28 0.48 31.44 0.04 0.42 0.39 9.26 0.05 0.73 0.77 52.54 0.04 0.22 0.38 105.06 0.04 0.22 0.35 15.14 0.04 0.28 0.31 29.47 0.04 0.17 0.25 5.35
35 Lampiran 18 Waktu deteksi plagiat dokumen uji jenis hampir sama persis dengan mesin pencari Bing (detik)
Nama dokumen 106 107 128 129 130 131 132 133 134 137 139 140 142 143 144 146 148 149 151 153 155 165 167 168 170
Ekstraksi Segmentasi Pembobotan Pencarian 0.63 3.61 2.14 17.37 0.62 1.58 3.99 20.92 0.06 2.00 3.30 298.04 0.05 2.77 4.16 266.84 0.09 3.84 2.52 525.95 0.32 0.35 0.74 3.16 0.69 0.76 0.60 289.71 0.09 0.81 1.11 10.34 0.08 1.13 1.71 435.14 0.05 0.62 1.99 2.83 0.28 1.32 2.69 169.10 0.05 0.35 1.58 190.80 0.08 1.37 1.43 2.71 0.08 0.75 1.10 170.35 0.06 2.00 2.32 2.13 0.06 3.56 2.83 252.10 0.11 1.35 1.36 391.32 0.05 1.00 0.99 216.08 0.06 1.41 1.41 245.17 0.07 2.63 1.83 62.86 0.04 0.85 0.37 77.03 0.08 2.59 1.75 132.09 0.11 1.97 2.48 153.89 0.06 1.05 1.71 277.12 0.05 0.97 0.76 292.17
36 Lampiran 19 Waktu deteksi plagiat dokumen uji jenis gabungan beberapa sumber dengan mesin pencari Bing (detik)
Nama dokumen d2-130-132 d2-133-140 d2-143-148 d2-151-167 d2-153-142 d2-153-154 d2-165-154 d2-165-166 d2-168-146 d2-170-141 d3-106-144-137 d3-107-153-167 d3-129-146-151 d3-130-131-132 d3-130-134-142 d3-133-136-140 d3-140-139-168 d3-143-144-148 d3-151-167-128 d3-153-142-131 d3-153-154-165 d3-165-154-149 d3-166-167-170 d3-168-146-155 d3-170-141-143
Ekstraksi Segmentasi Pembobotan Pencarian 0.05 0.44 0.52 233.54 0.06 0.40 0.62 177.86 0.25 0.50 0.52 193.47 0.05 0.32 0.30 129.83 0.05 0.39 0.34 28.40 0.08 0.87 0.70 281.76 0.04 0.31 0.30 84.21 0.05 0.48 0.53 185.97 0.04 0.34 0.34 122.34 0.04 0.28 0.27 185.18 0.11 1.64 1.71 12.66 0.07 0.28 0.72 24.82 0.07 0.82 1.02 553.10 0.04 0.24 0.53 22.37 0.08 0.92 1.47 18.55 0.04 0.27 0.42 66.06 0.06 0.41 0.65 206.75 0.05 0.23 0.27 1.84 0.06 0.32 0.41 164.53 0.05 0.42 0.58 12.57 0.06 0.92 0.55 180.56 0.05 0.94 0.51 139.28 0.06 0.41 0.50 265.49 0.04 0.18 0.21 169.59 0.04 0.43 0.35 260.95
37 Lampiran 20 Waktu deteksi plagiat dokumen uji jenis sedikit bagian sumber dengan mesin pencari Bing (detik)
Nama dokumen e-106 e-107 e-128 e-129 e-130 e-131 e-132 e-133 e-134 e-137 e-139 e-140 e-142 e-143 e-144 e-146 e-148 e-149 e-151 e-153 e-155 e-165 e-167 e-168 e-170
Ekstraksi Segmentasi Pembobotan Pencarian 0.06 1.08 0.74 14.13 0.07 1.27 1.04 20.72 0.07 1.18 1.07 223.92 0.06 1.03 0.66 202.13 0.07 1.01 0.72 621.37 1.34 0.80 0.81 230.21 0.05 0.35 0.68 158.52 0.05 0.82 0.88 140.63 0.05 0.36 0.63 259.78 0.05 0.42 0.92 6.10 0.05 0.36 0.81 179.95 0.05 0.55 0.49 230.90 0.05 0.53 0.76 6.42 0.05 0.41 0.34 125.39 0.05 1.20 0.97 18.11 0.07 1.40 0.71 282.35 0.05 0.85 0.78 172.86 0.05 1.13 0.66 165.80 0.07 0.90 1.09 132.97 0.07 0.41 0.75 146.50 0.05 0.72 0.75 171.83 0.07 1.35 0.80 176.00 0.06 0.86 0.49 241.05 0.06 21.69 0.61 151.52 0.06 0.84 0.45 235.46
38 Lampiran 21 Waktu deteksi plagiat dokumen jenis restrukturisasi dengan mesin pencari Bing (detik)
Nama dokumen tr-128 tr-131 tr-132 tr-133 tr-139 tr-140 tr-142 tr-143 tr-144 tr-146 tr-148 tr-149 tr-155 tr-165 tr-170 tr2-130-132 tr2-133-140 tr2-143-148 tr2-151-167 tr2-153-142 tr2-153-154 tr2-165-154 tr2-165-166 tr2-168-146 tr2-170-141
Ekstraksi Segmentasi Pembobotan Pencarian 0.05 1.04 0.88 452.88 0.05 0.75 0.98 276.31 0.06 0.89 1.16 2592.31 0.06 0.95 0.78 40.67 0.06 0.68 0.87 208.25 0.08 23.30 0.71 568.28 0.06 0.93 0.84 2.18 0.06 0.86 0.52 268.21 0.07 1.82 1.67 35.22 0.07 1.59 0.94 477.77 0.07 0.73 0.87 650.47 0.06 1.20 0.43 162.66 0.04 0.28 0.19 88.87 0.05 0.72 0.71 129.54 0.06 0.65 0.44 301.55 0.06 0.76 0.58 238.46 0.08 23.32 0.89 153.21 0.09 0.39 0.92 246.19 0.04 1.78 0.75 135.02 0.08 0.75 0.87 174.66 0.06 1.27 1.79 964.75 0.04 0.41 0.86 147.31 0.05 0.55 0.49 144.28 0.04 0.53 0.41 261.75 0.05 0.86 1.14 114.34
39
RIWAYAT HIDUP Penulis dilahirkan di Pangkalpinang, 11 Desember 1989 dari ayah Yadi dan ibu Sylvia Ratna Ningsih. Penulis merupakan anak pertama dari tiga bersaudara. Penulis menempuh sekolah menengah atas di Sekolah Menengah Atas Negeri 1 Pemali. Selama masa sekolah menengah atas, penulis aktif dalam organisasi yaitu sebagai pengurus Organisasi Siswa Intra Sekolah dan Organisasi Siswa Intra Asrama. Pada tahun 2007 penulis lulus seleksi IPB Diploma melalui jalur Undangan Seleksi Masuk IPB. Penulis menyelesaikan pendidikan diplomanya pada tahun 2010 dengan tugas akhir berjudul “Pembangunan Website PT Prima Agro Perkasa”. Pada tahun yang sama penulis melanjutkan pendidikan sarjana di IPB. Penulis diterima di Departemen Ilmu Komputer, Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor.