MAKALAH SEMINAR TUGAS AKHIR PERIODE JULI 2011
IMPLEMENTASI DETEKSI PENJIPLAKAN DENGAN ALGORITMA WINNOWING PADA DOKUMEN TERKELOMPOK I Wayan Surya Priantara 1, Diana Purwitasari2, Umi Laili Yuhana3 Teknik Informatika, Fakultas Teknologi Informasi, ITS email :
[email protected],
[email protected],
[email protected] kegiatan penjiplakan ini sangat menyusahkan dalam hal evaluasi dan penilaian, walau sudah ada sanksi yang tegas jika ada seorang pelajar melakukan penjiplakan. Kegiatan penjiplakan susah dideteksi bila dokumen tugas yang diperiksa berjumlah sangat banyak dan seorang pengajar mengajar lebih dari satu mata pelajaran. Oleh karena itu, diperlukan suatu aplikasi yang digunakan untuk mendeteksi penjiplakan pada suatu dokumen.
Abstract— Penjiplakan merupakan masalah yang semakin berkembang terutama dalam bidang pendidikan. Banyak karya tulis yang sebagian isinya dibuat dengan menjiplak dari karya orang lain. Saat ini sudah terdapat sistem yang dapat mendeteksi penjiplakan antar dokumen. Pada sistem tersebut mampu melakukan pengecekan penjiplakan secara one-to-many atau many-to-many. Namun, pada sistem tersebut membandingkan satu persatu dokumen sehingga terdapat kemungkinan dokumen yang dibandingkan tidak memiliki kesamaan topik. Sehingga diperlukan fungsi yang dapat mengelompokan dokumen dan mendeteksi penjiplakan pada tiap kelompok.
Kegiatan deteksi penjiplakan ini dilakukan untuk mengetahui tingkat presentase penjiplakan sebuah dokumen pada dokumen lain. Sehingga, dapat diketahui apakah seseorang telah melakukan penjiplakan pada suatu dokumen. Selain itu dapat memudahkan pekerjaan seorang pengajar dalam hal mengevaluasi tugas-tugas yang berbentuk dokumen.
Pada tugas akhir ini dibuat aplikasi yang mampu mengelompokan dokumen secara partisi dan mendeteksi penjiplakan pada tiap kelompok. Dalam melakukan pengelompokan dokumen dipergunakan algoritma K-means++. Algoritma K-means++ memerlukan masukan jumlah kelompok yang seharusnya terbentuk. Pada aplikasi ini dapat memperoleh rekomendasi jumlah kelompok yang sebaiknya terbentuk dengan algoritma Hartigan Index. Dalam melakukan pendeteksian penjiplakan dengan algoritma Winnowing. Algoritma ini berfungsi untuk melakukan proses document fingerprinting, yang mengubah teks menjadi sekumpulan nilai-nilai hash.
II. RISET TERKAIT Saat ini sudah terdapat sistem yang mampu mendeteksi penjiplakan pada beberapa dokumen, untuk membantu pengajar menyelesaikan pekerjaannya. Pada sistem ini mampu melakukan pengecekan yang bersifat one to many hingga many to many, sehingga dapat digunakan mendeteksi penjiplakan pada dokumen-dokumen yang berjumlah banyak[2]. Namun, pada sistem tersebut memiliki waktu komputasi yang cukup lama ketika melakukan pengecekan penjiplakan pada dokumen yang berjumlah banyak. Hal ini di karenakan sistem tersebut membandingkan satu persatu dari dokumen yang ada. Ada kemungkinan bahwa sebuah dokumen dibandingkan dengan dokumen lain yang memiliki perbedaan topik, hal ini merupakan kegiatan yang sia-sia karena tingkat presentase penjiplakan antara kedua dokumen tersebut sangat kecil bahkan 0%. Hal ini pula dapat menyebabkan waktu proses akan menjadi lama.
Kata kunci : Deteksi Plagiat, Winnowing, K-means++. Hartigan Index. I. PENDAHULUAN Pesatnya pekembangan internet menyebabkan semakin banyaknya informasi yang tersedia. Hal ini memudahkan seseorang dalam melakukan penjiplakan suatu karya. Penjiplakan menurut Kamus Besar Bahasa Indonesia (KBBI) berarti menggambar atau menulis garis-garis gambaran atau tulisan yang telah tersedia (dengan menempelkan kertas kosong pada gambar atau tulisan yang akan ditiru), mencontoh atau meniru tulisan atau pekerjaan orang lain, mencuri karangan orang lain dan mengakui sebagai karangan sendiri, mengutip karangan orang lain tanpa seizin penulisnya[1].
Oleh karena itu, diperlukan sebuah sistem yang dapat mengelompokan secara otomatis dokumen-dokumen yang akan dilakukan deteksi penjiplakan. Dokumen-dokumen dikelompokan berdasarkan topik-topik bahasan yang sama atau kalimat-kalimat umum yang menjadi ciri. Diharapkan pengelompokan secara otomatis dokumendokumen ini menyebabkan waktu proses dalam pengecekan penjiplakan menjadi lebih singkat.
Dalam bidang pendidikan kegiatan ini sering dilakukan oleh para pelajar dalam pembuatan tugas seperti tugas sekolah/kuliah dan pembuatan laporan. Di sisi pengajar,
Saat ini sudah banyak penelitian dalam bidang deteksi penjiplakan. salah satunya adalah sebuah alat yang diberi
1
MAKALAH SEMINAR TUGAS AKHIR PERIODE JULI 2011 nama siff. Siff digunakan untuk menemukan semua file yang mirip pada file sistem yang besar. Pada aplikasi ini terdapat dua mode yaitu all-against-all dan one-againstall[3].
3.
III. DETEKSI KALIMAT SAMA SEBAGAI INDIKASI PENJIPLAKAN Penjiplakan mempunyai beberapa tipe seperti[4] : 1. Word for word plagiarism Menyalin setiap kata secara lansung tanpa diubah sedikitpun. 2. Plagirism of authorship Mengakui hasil karya orang lain sebagai hasil karya sendiri dengan cara mencatumkan nama sendiri menggantikan nama pengarang sebenarnya. 3. Plagiarism of ideas Mengakui hasil pemikiran atau ide orang lain sebagai pemikirin diri sendiri 4. Plagiarism of sources
adalah sebuah fungsi yang menkonversi setiap string menjadi bilangan. Kesamaan Kata Kunci Prinsip dari metode kesamaan kata kunci adalah mencari kata kunci dari dokumen dan kemudian dibandingkan dengan kata kunci pada dokumen lain.
Sebuah karya tulis dikatakan telah menjiplak karya tulis lain apabila memiliki tingkat kesamaan yang melebihi batas toleransi tertentu yang telah ditentukan. Pada aplikasi ini melakukan pendeteksian penjiplakan dengan tipe word for word plagiarism pada sebuah karya tulisan. Dalam melakukan pendeteksian dilakukan dengan metode dokumen fingerprint. Algoritma yang digunakan adalah algoritma Winnowing, dimana algoritma ini dapat memenuhi kebutuhan dasar dalam penjiplakan. IV. ALGORITMA WINNOWING UNTUK DETEKSI KALIMAT SAMA
Jika seorang penulis menggunakan kutipan dari penulis tanpa mencantumkan narasumbernya.
Algoritma Winnowing merupakan algoritma yang digunakan dalam deteksi penjiplakan. input dari algoritma ini adalah dokumen teks yang diproses sehingga menghasilkan output berupa kumpulan nilai-nilai hash, nilai hash merupakan nilai numerik yang terbentuk dari perhitungan ASCII tiap karakter . Kumpulan-kumpulan nilai hash tersebut selanjutnya disebut fingerprint. Fingerprint inilah yang digunakan dalam deteksi penjiplakan[5].
Untuk melakukan pendeteksian penjiplakan terdapat kebutuhan mendasar yang harus dipenuhi oleh suatu algoritma penjiplakan seperti[5] : 1. Whitespace Insensitivity, yang berarti dalam melakukan pencocokan terhadap file teks seharusnya tidak terpengaruh oleh spasi, jenis huruf (kapital atau normal), tanda baca dan sebagainya. 2. Noise Surpression, yang berarti menghindari penemuan kecocokan dengan panjang kata yang terlalu kecil atau kurang relevan, misal: ‘the’. Panjang kata yang ditengarai merupakan penjiplakan harus cukup untuk membuktikan bahwa kata-kata tersebut telah dijiplak dan bukan merupakan kata yang umum digunakan. 3. Position Independence, yang berarti penemuan kecocokan / kesamaan tidak harus bergantung pada posisi kata-kata. Walau tidak dalam berada posisi yang sama pencocokan juga harus dilakukan.
Langkah awal dalam penerapan algoritma Winnowing adalah membuang karakter-karakter dari isi dokumen yang tidak relevan misal tanda baca spasi dan simbol lain. Sebagai contoh the classic problem in machine learning
theclassicprobleminmachinelearning Langkah kedua isi dokumen yang telah dilakukan pembersihan selanjutnya dilakkukan pembentukan rangkaian gram, dimana n =5.
Dalam melakukan pendeteksi penjiplakan terdapat tiga metode yaitu[6] : 1. Perbandingan Teks Lengkap Metode ini diterapkan dengan membandingkan semua isi dokumen. Pendekatan ini membutuhkan waktu yang lama tetapi cukup efektif. 2. Dokumen Fingerprint Dokumen fingerprint merupakan metode yang digunakan untuk mendeteksi keakuratan kesamaan antar dokumen. Prinsip kerja dari metode dokumen fingerprint ini dengan menggunakan teknik hashing. Teknik hashing
theclassicprobleminmachinelearning thecl lassi icpro oblem minma achin nelea arnin
2
hecla assic cprob blemi inmac chine elear rning
eclas ssicp probl lemin nmach hinel learn
class sicpr roble eminm machi inele earni
MAKALAH SEMINAR TUGAS AKHIR PERIODE JULI 2011
Maka fingerprint yang dihasilkan : 12232 12268 12411 12500 12195 12508 12756 11891 12203 12411 12261
Langkah ketiga dari rangkaian gram yang telah terbentuk dibentuk nilai hash dengan nilai ASCII tiap karakter. Pembentukan nilai hash menggunakan persamaan rolling hash. Persamaan rolling hash ditunujukan pada Persamaan (1) :
Nilai-nilai fingerprint inilah yang digunakan untuk menemukan tingkat presentase kesamaan sebuah dokumen dengan dokumen lain. Untuk mendapatkan tingkat presentase kesamaan sebuah dokumen dengan dokumen lain dapat menggunakan Persamaan Jaccard Coefficient yang ditunjukan pada Persamaan (3)
(1) Keterangan : c : nilai ASCII karakter b : basis (bilangan prima) k : banyak karakter
Similaritas(di,dj) = V.
Keuntungan dari menggunakan rolling hash adalah untuk mendapatkan nilai hash selanjutnya dapat dengan cara:
hecla assic cprob blemi inmac chine elear rning
13518 12463 12852 12411 12639 12500 13021 12195 13078 12846 11891 12203 13009 12411 12350 13582
eclas ssicp probl lemin nmach hinel learn
12232 13774 13551 12881 13127 12660 12800
ALGORITMA K-MEANS++ UNTUK PENGKLASTERAN
Algoritma K-means++ merupakan algoritma pengelompokan secara partisi yang merupakan pengembangan dari algoritma K-means. K-Means merupakan salah satu metode pengklasteran dengan pendekatan partisi yang mempartisi data yang ada ke dalam bentuk satu atau lebih kelompok. Metode ini mempartisi data ke dalam kelompok sehingga data yang memiliki karakteristik yang sama dikelompokkan ke dalam satu kelompok dan data yang mempunyai karakteristik yang berbeda dikelompokkan ke dalam kelompok yang lain.
(2) thecl lassi icpro oblem minma achin nelea arnin
(3)
class sicpr roble eminm machi inele earni
Dari dasar algoritma K-means dilakukan penyesuaian untuk data yang berupa dokumen-dokumen adalah sebagai berikut : 1. Menentukan nilai k sebagai jumlah kelompok yang ingin dibentuk. 2. Menentukan centroid (titik pusat klaster) awal secara acak sebanyak k. Centroid merupakan kumpulan dari nilai-nilai hash. Pada awalnya nilai-nilai centroid sama dengan nilai-nilai fingerprint dari dokumen yang dipilih. 3. Menghitung tingkat kesamaan setiap dokumen ke masing-masing centroid menggunakan Persamaan (3) 4. Mengelompokkan setiap dokumen berdasarkan tingkat kesamaan terbesar antara dokumen dengan centroid-nya. 5. Menentukan nilai – nilai hash sebagai centroid baru dengan Persamaan (4):
12268 13491 13538 12508 12756 12809 12261
Langkah keempat nilai-nilai hash yang telah terbentuk dibentuk window-window. Dari window-window yang telah terbentuk dilakukan pemilihan nilai hash terkecil pada tiap window untuk dijadikan fingerprint tiap dokumen.
centroidᵧ(C) =
[13518 12463 12232 12268] [12463 12232 12268 12852] [12232 12268 12852 12411] [12268 12852 12411 13774] [12852 12411 13774 13491] [12411 13774 13491 12639] [13774 13491 12639 12500] [13491 12639 12500 13551] [12639 12500 13551 13538] [12500 13551 13538 13021] [13551 13538 13021 12195] [13538 13021 12195 12881] [13021 12195 12881 12508] [12195 12881 12508 13078] [12881 12508 13078 12846] [12508 13078 12846 13127] [13078 12846 13127 12756] [12846 13127 12756 11891] [13127 12756 11891 12203] [12756 11891 12203 12660] [11891 12203 12660 12809] [12203 12660 12809 13009] [12660 12809 13009 12411] [12809 13009 12411 12800] [13009 12411 12800 12261] [12411 12800 12261 12350] [12800 12261 12350 13582]
f(Cᵧ, h) | h ∈ ⊎ W(di), (hf(h,C))/n ≥ γ
(4)
dimana hf(h,C) merupakan banyaknya sebuah hash dalam gabungan seluruh dokumen pada satu klaster (C), dan f(Cᵧ, h) merupakan nilai-nilai yang terbentuk dari nilai hash yang berjumlah minimal (((hf(h,C))/n ))⁄γ. Nilai γ merupakan masukan dari pengguna. 6.
Kembali ke langkah 3 jika nilai – nilai hash pada centroid baru dengan centroid lama tidak sama.
Namun, algoritma K-means ini memiliki kelemahan yaitu memiliki kemungkinan waktu proses yang cukup besar. 3
MAKALAH SEMINAR TUGAS AKHIR PERIODE JULI 2011 Hal ini disebabkan pada pemilihan awal centroid yang bersifat acak yang setiap data mempunyai kemungkinan terpilih sama besar. Oleh karena itu digunakan algoritma K-means++ untuk menutup kekurangan tersebut[8].
V.2 HARTIGAN INDEX Hartigan index merupakan salah satu metode statistik untuk menguji perubahan relatif dari nilai perubahan suatu kelompok. Metode ini dapat digunakan untuk mengetahui jumlah kelompok yang sesuai dari perbandingan tingkat error suatu kelompok dengan kelompok satu setelahnya. Untuk mencari nilai Hartigan Index dari suatu kelompok yang terbentuk dengan Persamaan (7) :
Dasar algoritma K-means++ adalah : 1. Menentukan satu centroid awal pada seluruh data dokumen secara acak dengan distribusi uniform. 2. Untuk setiap data dokumen d, hitung D(d), ketidakmiripan (dissimilar) antara data dokumen dan centroid terdekat yang telah dipilih. Untuk mencari nilai ketidakmiripan dapat dengan menggunakan Persamaan (5) Dissimilar(di, dc) = 1 -
H(k) = (n – k – 1) Keterangan k : jumlah kelompok n : banyaknya data
(4)
err(k) =
Nilai ketidakmiripan didapatkan dari 1 dikurangi dengan tingkat kemiripan. Nilai kemiripan didapatkan dari Persamaan (3). 3.
4. 5.
6)
7)
dimana d = ketidakmiripan antara data dengan centroid terdekat Jumlah kelompok yang seharusnya terbentuk adalah k dari nilai h(k) yang paling maksimal[10].
Tambahkan satu centroid lagi dari semua data yang belum terpilih sebagai centroid, menggunakan weighted probability distribution dimana data dokumen yang dipilih dengan probabilitas D(d2). Ulangi langkah 2 dan 3 hingga sejumlah k centroid telah dipilih Lakukan pengelompokan algoritma K-means.
VII. IMPLEMENTASI DETEKSI PENJIPLAKAN Perangkat lunak yang dibangun adalah sistem pengelompokan dokumen-dokumen serta pendeteksian penjiplakan pada tiap kelompok. Dalam implementasinya perangkat lunak ini menggunakan algoritma K-means++ untuk melakukan pengelompokan secara partisi dan algoritma Winnowing untuk membantu mencari kesamaan antara file satu dengan yang lain.
VI. PENENTUAN JUMLAH KELOMPOK YANG OPTIMAL Dalam pengelompokan diperlukan jumlah kelompok yang akan dibentuk. Jumlah kelompok yang akan dibentuk berasal dari masukan pengguna. Masukan dari pengguna mempunyai kemungkinan tidak sesuai dengan jumlah kelompok yang sebaiknya terbentuk dari data-data dokumen yang ada. Untuk itu diperlukan algoritma dalam menentukan jumlah kelompok yang sebaiknya terbentuk dari data-data yang ada seperti Rule of Thumb dan Hartigan Index.
Aplikasi Algoritma Winnowing Pembacaan Dokumen
String teks
Pembentukan Fingerprint
Fingerprint
Dokumen, Fingerprint, Centroid, Hasil Similar
Pengelompokan Penentuan Kelompok pada Dokumen Baru PenentuanJumlah Kelompok Pengecekan Tingkat Kesamaan
V.1 RULE OF THUMB Rule of Thumb merupakan algoritma penentuan jumlah kelompok yang sebaiknya terbentuk dalam pengklasteran berdasarkan banyaknya data yang tersedia[9]. Persamaan Rule of Thumb adalah :
Pengelompokan dengan Kmeans++
k
Penentuan Jumlah Kelompok
Gambar 1 Arsitektur Aplikasi Pada gambar diatas dapat diketahui bahwa aplikasi ini terdiri dari : Pembacaan Dokumen Bertugas mengekstrak konten / isi dari file yang ingin diperiksa menjadi sebuah string. Pembentukan Fingerprint Bertugas memproses string yang merupakan hasil ekstraksi dari pembacaan dokumen menjadi fingerprint dari file yang berupa nilai-nilai hash. Penentuan Kelompok
5) dimana k merupakan jumlah kelompok yang harus terbentuk dan n adalah banyaknya data yang akan dilakukan pengklasteran.
4
MAKALAH SEMINAR TUGAS AKHIR PERIODE JULI 2011
Tingkat otentik ini bertujuan untuk mengetahui tingkat keaslian atau original dari sebuah dokumen.
Bertugas menentukan kelompok mana berdasarkan isi dari dokumen. Penentuan Jumlah Kelompok Bertugas menentukan jumlah kelompok yang seharusnya terbentuk. Dalam menentukan jumlah dokumen dapat secara manual atau rekomendasi dari aplikasi. Jumlah kelompok yang didapatkan dari rekomendasi menggunakan algoritma Rule of Thumb dan Hartigan Index. Pengelompokan Dokumen Bertugas melakukan pengelompokan sejumlah dokumen. Jumlah kelompok yang terbentuk bisa dari masukan pengguna (manual) atau nilai dari Rule of Thumb dan Hartigan Index. Pengecekan Tingkat Kesamaan Bertugas melakukan pengecekan tingkat kesamaan dengan membandingkan nilai fingerprint antardokumen dan menampikan hasil tingkat kemiripan ke pengguna.
Pada bagian daftar plagiat menampilkan daftar-daftar tingkat kemiripan antar dua dokumen. Tampilan antarmuka daftar plagiat dapat dilihat pada Gambar 4.
Gambar 4 Antarmuka Daftar Plagiat Pada daftar plagiat dapat menampilkan laporan isi dokumen yang memiliki kesamaan kalimat dengan dokumen lain. Agar mudah dalam melihat kalimat yang sama, maka kalimat sama tersebut diberi tanda. Tampilan laporan kesamaan kalimat pada sebuah dokumen dapat dilihat pada Gambar 5.
Pada antarmuka terdapat beberapa fungsi-fungsi yang dapat dilakukan sehingga pengguna dapat dengan mudah menggunakannya. Gambar antarmuka ditunjukan pada Gambar 2.
Gambar 5 Antarmuka Laporan Kalimat Sama VIII. UJI COBA DAN EVALUASI Pada uji coba ini dibedakan menjadi tiga bagian yaitu penentuan jumlah kelompok terbaik, penentuan kelompok untuk dokumen baru dan perbandingan waktu deteksi plagiat. Data uji coba untuk tugas akhir ini adalah dokumen-dokumen tugas mata kuliah sosio etika pada semester gasal 2009/2010. Pada mata kuliah ini terdapat tiga buah tugas. Data tugas yang digunakan dapat dilihat pada Tabel 1.
Gambar 2 Antarmuka Aplikasi Pada bagian daftar dokumen menampilkan semua namanama dokumen yang sudah ada pada database. Selain itu menampilkan tanggal upload dari tiap dokumen dan tingkat otentik isi dari tiap dokumen. Tampilan antarmuka daftar dokumen dapat dilihat pada Gambar 3.
Tabel 1 Dataset yang Digunakan Dalam Evaluasi No 1 2
Nama Tugas Tugas 1 Tugas 2
Topik
Komunikasi Bioinformatika Surface Recontruction Hyperspectral Total
Jumlah 15 15 15 15 60
3
Tugas 3
VIII.1.
UJI COBA PENENTUAN JUMLAH KELOMPOK
Gambar 3 Antarmuka Daftar Dokumen
Dalam uji coba penentuan jumlah kelompok ini dilakukan dalam dua kegiatan yaitu menggunakan Latent Semantic Analysis (LSA) dan Hartigan Index.
Tingkat otentik sebuah dokumen merupakan tingkat orisinil atau keaslian dari isi sebuah dokumen. Tingkat otentik sebuah dokumen didapatkan dengan mencari jumlah nilai hash yang tidak dimiliki oleh dokumen lain.
Latent Semantic Analysis (LSA) adalah sebuah teknik matematika/statistik untuk menggali dan menyimpulkan hubungan kontekstual dari kata-kata dalam sebuah wacana. LSA menggunakan metode Singular Value 5
MAKALAH SEMINAR TUGAS AKHIR PERIODE JULI 2011 Dalam evaluasi penentuan jumlah kelompok dengan Hartigan Index dilakukan dengan beberapa kali percobaan. Selain itu dilakukan juga percobaan dengan beberapa nilai alpha. Nilai alpha merupakan nilai batas sebuah kalimat atau topik bahasan pada satu kelompok. Hasil jumlah kelompok yang terbentuk dapat dilihat pada Tabel 2.
Decomposition (SVD) untuk memproses kata-kata yang ada dalam dokumen[11]. Pada pengujian ini memanfaatkan fungsi SVD yang sudah terdapat pada Matlab. Fungsi dari SVD memerlukan masukan berupa matriks yang merepresentasikan hubungan jumlah frekuensi antara kata dan dokumen sehingga menghasilkan tiga buah matriks yaitu matriks S, matriks V dan matriks D.
Tabel 2 Data Jumlah Kelompok yang Terbentuk
Pada uji coba menggunakan Hartigan Index untuk mengetahui jumlah kelompok yang sebaiknya terbentuk dari data-data dokumen yang tersedia. Pada pengujian ini dilakukan dengan mengatur nilai alpha dan mengamati jumlah kelompok yang terbentuk dari data dokumen yang ada. Nilai alpha merupakan nilai batas sebuah kalimat atau topik bahasan pada satu kelompok. Hal ini bertujuan untuk mencari nilai alpha terbaik dalam pengelompokan. VIII.2.
No.
VIII.4.
1
2
3
4
5
Rata-rata
1
0,25
3
4
4
4
4
4
2
0,5
6
6
6
5
6
6
3
0,75
7
8
5
6
7
7
4
1
6
5
8
8
4
7
Nilai akurasi didapatkan dengan mencari nilai jumlah dokumen yang sesuai dengan kelompoknya dibagi dengan total jumlah dokumen pada satu kelompok. Nilai akurasi tiap kelompok dijumlahkan dan dibagi sebanyak jumlah kelompok yang terbentuk. Nilai akurasi pada tiap percobaan dapat dilihat pada Tabel 3.
UJI COBA WAKTU DETEKSI PENJIPLAKAN
Dalam pengujian ini terdapat dua skenario percobaan yaitu dokumen dideteksi penjiplakan pada kumpulan dokumen dan dokumen dideteksi penjiplakan pada kumpulan dokumen yang sudah dikelompokan dengan nilai alpha 0,5. Tujuan dari dilakukan dua skenario ini untuk melihat perbedaan waktu yang diperlukan sebuah dokumen dalam mendeteksi penjiplakan.
Percobaan
Selanjutnya dilakukan evaluasi tingkat akurasi pada tiaptiap hasil percobaan pengelompokan. Akurasi menunujukan tingkat kebenaran dalam suatu pengelompokan. Semakin besar nilai akurasi maka pengelompokan tersebut dapat dikatakan benar.
UJI COBA PENENTUAN KELOMPOK UNTUK DOKUMEN BARU
Pada pengujian penentuan kelompok untuk dokumen baru melakukan pengamatan pada dokumen baru yang masuk kedalam sistem saat kelompok-kelompok sudah terbentuk. Pada dokumen baru dilakukan pengecekan penentuan kelompok yang sesuai dengan isi dari dokumen baru. Pada penggujian ini dilakukan pengamatan kesesuaian dokumen baru terhadap hasil kelompoknya. VIII.3.
Nilai Alpha
Tabel 3 Nilai Akurasi Masing-masing Nilai Alpha
Nilai Alpha 0,25 0,5 0,75 1
EVALUASI HASIL UJI COBA
1 0,6469 0.8616 0,7085 0,0886
2 0,7613 0,8055 0,8998 0,3111
Percobaan 3 0,7158 0,7777 0,4157 0,5940
4 0,8877 0,8373 0,7368 0,5135
5 0,8134 0,8228 0,5501 0,3889
Rata-rata 0,7650 0.8209 0,6621 0,3792
Dalam evaluasi penentuan kelompok untuk dokumen baru dilakukan dengan memasukan beberapa dokumen ke dalam aplikasi dan mencocokan data dokumen yang sudah terkelompok. Kelompok-kelompok dokumen terbentuk sebanyak 6 kelompok dengan nilai alpha adalah 0,5. Penjelasan tiap kelompok dapat dilihat pada Tabel 4.
Hasil dari LSA dengan metode SVD pada Matlab dapat dilihat pada Gambar 6. Pada Gambar 6 merupakan hasil representasi dokumen-dokumen kedalam dua dimensi menggunakan SVD. Pada gambar tersebut terlihat dokumen-dokumen tersebut membentuk empat daerah..
Tabel 4 Keterangan Tiap Kelompok
No
Nama Kelompok
1 2 3 4 5 6
Kelompok 0 Kelompok 1 Kelompok 2 Kelompok 3 Kelompok 4 Kelompok 5
Jumlah Dokumen 14 6 8 17 7 8
Topik Pembahasan Bioinformatika Hyperspectral Komunikasi/Surface Hyperspectral Bioinformatika
Selanjutnya dilakukan percobaan penentuan kelompok dengan beberapa dokumen. Masing-masing dokumen memiliki pembahasan topik yang berbeda dan diharapkan masuk kedalam kelompok dengan pembahasan topik yang sama. Bila terdapat dokumen yang memiliki tidak
Gambar 6 Hasil Representasi Dokumen dengan SVD
6
MAKALAH SEMINAR TUGAS AKHIR PERIODE JULI 2011 kesamaan topik dengan topik yang telah ada pada aplikasi maka dokumen tersebut akan dikelompokan pada kelompok 0. Hasil dari percobaan dapat dilihat pada Tabel 5.
terbentuk semakin sedikit. Hal ini dikarenakan pembahasan topik pada sebuah kelompok bersifat umum atau luas sehingga diperlukan sedikit kelompok untuk menampung topik-topik yang ada. Begitu pula semakin besar nilai alpha maka jumlah kelompok yang terbentuk semakin banyak hal ini dikarenakan pembahasan topik pada sebuah topik semakin spesifik atau khusus sehingga diperlukan banyak kelompok untuk menampunt topiktopik yang ada.
Tabel 5 Hasil Uji Coba Penentuan Kelompok untuk Dokumen Baru
Nama Dokumen
Topik
Hasil Pengelompokan Kelompok 1 Bioinformatika
Ket
Tugas 2 Sostek 5107100125 Kelas B.doc Tugas 2 Sostek5107100032 kelas B.doc Tugas 2 Sostek5107100167 Kelas B.doc Tugas 2 SosTek_5107100070_ Kelas B.doc Tugas 3 Soset 5101700098 - Kelas B.doc Tugas 3 sosioetika5107100116 Kelas B.doc Tugas 3 Sostek 5106100024 - Kelas B.doc
Bioinformatika Surface
Kelompok 3 Surface
Benar
Surface
Kelompok 3 Surface
Benar
Bioinformatika
Kelompok 3 Surface
Salah
Hyperspectral
Kelompok 2 Hyperspectral
Benar
Hyperspectral
Kelompok 4 Hyperspectral
Benar
Hyperspectral
Kelompok 2 Hyperspectral
Benar
Benar
Dari hasil percobaan penentuan kelompok untuk dokumen baru bahwa proses ini memiliki tingkat kebenaran yang cukup tinggi, sehingga dalam melakukan penentuan kelompok untuk dokumen baru sesuai dengan topik pembahasan. Dari pencatatan waktu deteksi penjiplakan dapat disimpulkan bahwa waktu yang diperlukan lebih sedikit dalam pendeteksian penjiplakan pada kumpulan dokumen yang telah dikelompokan daripada kumpulan dokumen yang tidak dikelompokan. Hal ini karena jumlah dokumen yang dibandingkan lebih sedikit dan dokumen yang dibandingkan memiliki kesamaan topik. REFERENSI [1] ____,____, Kamus Besar Bahasa Indonesia,
, diakses tanggal 12 April 2011. [2] Yuwono, Putu., Yuhana, Umi Laili., dan Purwitasari, Diana. 2010. Aplikasi deteksi penjiplakan pada file teks dengan algoritma winnowing. Surabaya. [3] Manber, Ubi. 1994. Finding similar files in a large file system. In proceedings of the USENIX Winter 1994 Technical Conference. [4] Iyer, Parvati dan Singh, Abhipsita. 2005. Document similarity analysis for a plagiatrism detection system. In Proceedings of the 2nd Indian International Cenfrence on Artificial Intelegence (IICAI-05. pp 2534-2544. [5] Schleimer, S., Wilkerson, D., dan Aiken, A. 2003. Winnowing: Local algorithms for document fingerprinting. In Proceedings of the ACM SIGMOD international conference on management of data. pp 76–85. [6] Stein, S. Meyer zu Eissen. 2006. Near similarity search and plagiarism analysis. In Proceedings of the 29th Annual Conference of the German Classification Society (GfKI), Magdeburg, ISDN 1431-8841. pp. 430-437. [7] Parapar., Javier dan Barreiro, Alvaro. 2009. Evaluation of text clustering algorithms with ngram-based document fingerprints. In Proceedings of the 31st European Conference on Information Retrieval Research ECIR 2009, Toulouse, France, April 2009, Lecture Notes in Computer Science vol. 5478, pp. 645-653..
Dalam evaluasi waktu deteksi penjiplakan dilakukan pencatatan waktu yang diperlukan sebuah dokumen melakukan pendeteksian penjiplakan dengan kumpulan dokumen dan dengan kumpulan dokumen yang sudah dikelompokan sesuai dengan topik masing-masing. Hasil dari percobaan dapat dilihat pada Tabel 6 Tabel 6 Hasil Uji Coba Waktu Deteksi Penjiplakan Nama Dokumen Quick Sort2.docx Tugas 1 Soset - 5107100098 - Kelas B.doc Tugas 1 sostek - 5107100100 kelas B.doc Tugas 1 Sostek - 5106100093 Kelas B.doc Tugas 1 Sostek - 5106100104 kelas (B).doc Tugas 1 Sostek - 5106100117 Kelas B.docx
Jumlah Kelompok 1 6 64 detik 4 detik 98 detik 4 detik 88 detik 5 detik 84 detik 5 detik 107 detik 9 detik 74 detik 9 detik
IX. KESIMPULAN Dalam penentuan jumlah kelompok dengan LSA dari 60 dokumen yang dilakukan representasi kedalam dua dimensi bahwa sebaiknya dibentuk dengan menggunakan LSA sebanyak empat kelompok sedangkan dengan Hartigan Index bahwa jumlah kelompok yang sebaiknya terbentuk dari data yang ada adalah 6 dengan nilai alpha yang terbaik adalah 0,50. Hal ini dikarenakan dari jumlah kelompok yang terbentuk stabil dan nilai akurasi yang dimiliki cukup tinggi. Selain itu pembahasan topik pada tiap kelompok tidak terlalu tinggi atau pun rendah sehingga jumlah pembagian anggota tiap kelompok hampir merata. Dalam pemilihan nilai alpha dapat disimpulkan bahwa semakin kecil nilai alpha maka jumlah kelompok yang 7
MAKALAH SEMINAR TUGAS AKHIR PERIODE JULI 2011 [8] Arthur, D., dan S, Vassilvitskii. 2007. K-means++: The advantages of careful seeding. In Proceeding of the 18th Annual ACM-SIAM Symposium of Discrete Analysis, Jan. 7-9, ACM Press, New Orleans, Louisiana. pp. 1027-1035 [9] Mardia, Kantia et al. 1979. Multivariate Analysis. Academic Press. [10] Li, Xiang., Ramachandran, Rahul., Movva, Sunil., Graves, Sara., Plale, Beth., dan Vijayakumar, Nithya. 2008. Storm Clustering for Data-driven Weather Forecasting. 24th Conference on IIPS, AMS, To Appear 2008. [11] Landauer, T. K., Foltz, P. W., & Laham, D. 1998. Introduction to Latent Semantic Analysis. Discourse Processes, 25, 259-2
8
MAKALAH SEMINAR TUGAS AKHIR PERIODE JULI 2011
9