Seminar Nasional Ilmu Komputer (SNAIK 2013), Samarinda, 30 November 2013
ISSN : XXXXX
INTEGRASI SISTEM PENDETEKSI PLAGIARISME DENGAN PORTAL PENYEDIA KONTEN ILMIAH I Ketut Resika Arthana1 dan Gede Rasben Dantes2 Jurusan Pendidikan Teknik Informatika, FTK, Universitas Pendidikan Ganesha1 Jurusan Manajemen Informatika, FTK, Universitas Pendidikan Ganesha2 Jl. Udayana, Singaraja - Bali E-mail :
[email protected] [email protected] Abstrak Penelitian ini bertujuan untuk merancang arsitektur dan prototype integrasi antara sistem pendeteksi plagiarisme dengan portal penyedia konten ilmiah sehingga diperoleh penambahan koleksi baik abstrak maupun konten penuh sebagai pembanding pendeteksi plagiarisme. Isu plagiarisme dalam dunia penelitian sangat penting untuk diperhatikan karena plagiarisme melanggar etika akademis. Salah satu upaya penanggulangan plagiarisme adalah dengan dikembangkannya sistem Pendeteksi Plagiarisme. Namun muncul permasalahaan saat pengimplementasian sistem pendeteksi plagiarisme yaitu kurangnya koleksi dokumen yang digunakan sebagai pembanding. Disisi lain, terdapat berbagai portal sistem informasi yang menyediakan koleksi dokumen ilmiah baik melalui e-journal, perpustakaan digital maupun Garda Rujukan Digital (GARUDA) DIKTI-Kemdikbud Indonesia. Koleksi dokumen pada portal-portal ini seharusnya bisa dimanfaatkan untuk memperkaya dokumen pembanding dalam mendeteksi plagiarisme. Tantangan dalam pemanfaatan koleksi dari portal-portal tersebut adalah diperlukannya protokol dan format data yang diterima oleh seluruh sistem tersebut. Salah satu solusinya adalah dengan memanfaatkan protokol pertukaran data OAI-PMH(Open Archieve Initiative - Protocol for Metadata Harvesting) dengan menggunakan format metadata dublin-core. Namun, metadata Dublin-Core yang umum diimplemetasikan hanya memberikan informasi dokumen sampai dengan abstrak dokumen saja. Sedangkan beberapa portal konten ilmiah menyediakan dokumen penuh yang bisa dimanfaatkan untuk memperkaya dokumen pembanding dalam pendeteksian plagiarisme. Adapun tahapan metodologi yang diterapkan meliputi analisis kebutuhan sistem, perancangan arsitektur, pengembangan prototype dan uji coba. Melalui hasil uji coba diperoleh jumlah dokumen yang lebih banyak melalui proses Harvesting termasuk konten penuh dokumen sehinga bisa memperkaya dokumen pembanding dalam pendeteksian plagiarisme. Kata Kunci: Sistem Pendeteksi Plagiarisme, OAI, Dublin Core, Ejournal, Dokumen Crawler
I. PENDAHULUAN Plagiat adalah perbuatan secara sengaja atau tidak sengaja dalam memperoleh atau mencoba memperoleh kredit atau nilai untuk suatu karya ilmiah dengan mengutip sebagian atau seluruh karya dan/atau karya ilmiah pihak lain yang diakusi sebagai karya ilmiahnya, tanpa menyatakan sumber secara tepat dan memadai (Pasal 1 Peraturan Menteri Pendidikan Nasional tentang Pencegahan dan Penanggulangan Plagiat di Perguruan Tinggi no 17 Tahun 2010). Salah satu upaya untuk menanggulangi terjadinya plagiat adalah dengan mengembangkan dan membangun sistem pendeteksi plagiarisme untuk memberikan rekomendasi kandidat dokumen yang mirip dengan dokumen yang di bandingkan. Beberapa penelitian yang membahas tentang pengembangan sistem pendeteksian plagiarisme diantaranya adalah sistem
pendeteksi plagiarisme lintas bahasa berbasis semantik web[1], pendeteksian plagait dokumen menggunakan algoritma Rabin-Karp[2] dan Pendeteksian Plagiarisme Pada Dokumen Teks Dengan Menggunakan Algoritma Smith-Waterman [3]. Namun pada penelitian-penelitian tersebut hanya berfokus pada algoritma perbandingan tanpa menekankan pada penambahan koleksi pembanding. Secara umum, sistem pendeteksi plagiarisme terdiri dari beberapa bagian diantaranya adalah Document Submission yang merupakan bagian input dokumen yang akan dideteksi tingkat plagiatnya, Aplikasi pendeteksi yang menerapkan allgoritma pendeteksi, Database (online atau offline) serta hasil dan visualisasasi kandidat dokument. Arsitektur umum sistem pendeteksi plagiat digambarkan pada Gambar 1.
Seminar Nasional Ilmu Komputer (SNAIK 2013), Samarinda, 30 November 2013
ISSN : XXXXX
Saat ini terdapat 891.670 koleksi yang terdaftar di Garuda Dikti.
Gambar 1. Gambaran Umum Sistem Pendeteksi Plagiarisme[4] . Aplikasi pendeteksi plagiarisme menerapkan algoritma-algoritma untuk membandingkan antara koleksi dokumen dengan dokumen yang akan dideteksi tingkat plagiatinya. Sebelum dilakukan pembandingan dokumen, terlebih dahulu dilakukan preprocesing seperti stemming, tokenisasi dan penciptaan fingerprint. Selain bagian pendeteksi, diperlukan koleksi dokumen yang akan digunakan sebagai pembanding. Koleksi dokumen ini meliputi jurnal ilmiah, prosiding, skripsi, tesis, disertasi dan juga buku. Selain itu pembandingan dokumen bisa langsung ke internet, contohnya dengan memanfaatkan Google Api Search Engine[4]. Dalam penerapan sistem pendeteksi plagiarisme, dibutuhkan jumlah koleksi yang banyak dan bervariasi agar tingkat akurasi terjadinya plagiarisme lebih valid. Namun kenyataannya dalam pengimplementasian sistem pendeteksi plagiarisme sering mengalami kesulitan untuk mengumpukan koleksi dokumen yang akan dipergunakan sebagai pembanding. Disisi lain, terdapat berbagai portal sistem informasi dalam bentuk website yang menyediakan koleksi karya ilmiahnya baik dalam bentuk elektronik jurnal (E-Journal) maupun perpustakaan digital. Selain di Indonesia terdapat GARUDA (Garda Rujukan Digital) yang dikembangkan oleh Direktorat Penelitian dan Pengabdian pada Masyarakat Dikti - Kemdikbud RI. GARUDA merupakan portal penemuan referensi dan karya ilmiah Indonesia yang mengumpulkan koleksi Ejournal, Ebook domestik, tugas akhir mahasiswa, laporan penelitian serta karya umum dari berbagai perguruan tinggi dan institusi yang ada di Indonesia. Portal GARUDA memanfaatkan protokol OAI-PMH untuk mengambil koleksi dokumen dari berbagai Ejournal dan perpustakaan digital di Indonesia[5].
Koleksi-koleksi karya ilmiah tersebut seharusnya bisa dimanfaatkan untuk memperkaya koleksi dokumen sistem pendeteksi plagiarisme. Kendala yang muncul adalah bagaimana cara menghubungkan sistem pendeteksi plagiarisme dengan website-website tersebut. Solusi teknologi yang diterapkan pada penelitian ini untuk mengatasi permasalahan di atas adalah dengan memanfaatkan protokol pertukaran data OAI-PMH dengan format metada Dublin-Core. Protokol OAI-PMH menyediakan framework interoperability antar aplikasi untuk pertukaran data berdasarkan metadata Harvesting. Terdapat dua komponen utama dalam OAI-PMH yaitu Data Providers dan Service Provider. Data Provider merupakan bagian pengelola sistem yang menyediakan metadata bagi sistem yang mendukung OAI-PMH. Sedangkan Service Provider merupakan bagian yang memanfaatkan metadata dengan proses Harvesting melalui protokol OAIPMH Dengan memanfaatkan protokol OAI- PMH, antar institusi atau sistem informasi bisa melakukan pertukaran metadata. Metadata Dublin-Core merupakan metadata yang berkaitan dengan informasi koleksi karya ilmiah yang meliputi judul, pengarang, tahun terbit dan abstrak. Metadata Dublin-Core disediakan oleh data providers yang menyediakan konten ilmiah melalui protokol OAIPMH seperti pada Ejournal yang berbasis OJS. Dalam metadata Dublin-Core, konten penuh tidak disertakan dalam format metadata ini. Namun dengan menggunakan metode crawling dan parsing, konten penuh koleksi dokumen ilmiah bisa diperoleh jika disediakan. Pada paper ini akan dibangun arsitektur integrasi antara sistem pendeteksi plagiarisme dengan portal website yang menyediakan koleksi dokumen. Selain untuk integrasi, pada arsitektur ini juga dikembangkan teknik crawling dokumen sehingga konten penuh dokumen dari portal penyedia konten ilmiah bisa dimanfaatkan. Arsitektur ini di ujicobakan pada sistem plagiarisme detektor yang di bangun pada Universitas Pendidikan Ganesha dan Ejournal berbasis OJS sebagai portal penyedia konten ilmiah. Penelitian ini mengambil studi kasus di Universitas Pendidikan Ganesha dimana memanfaatkan sistem pendeteksi plagiarisme yang telah dibangun sebelumnya dan Ejournal yang telah dibangun dengan berbasis OJS (Open Journal
Seminar Nasional Ilmu Komputer (SNAIK 2013), Samarinda, 30 November 2013 System) yaitu Ejournal UNDIKSHA dan Ejournal Pascasarjana-UNDIKSHA. II. METODOLOGI PENELITIAN DAN PERANCANGAN ARSITEKTUR Adapun langkah-langkah yang diterapkan dalam integrasi antara Ejournal dengan sistem pendeteksi plagiarisme meliputi analisis kebutuhan sistem, perancangan aristektur, pengembangan prototype sistem dan uji coba sistem. 1. Analisis Kebutuhan Sistem Dalam analisis kebutuhan sistem, diidentifikasi kebutuhan untuk mengintegrasikan antara penyedia konten ilmiah dengan sistem pendeteksi plagiarisme agar sistem pendeteksi plagiarisme memiliki koleksi dokumen yang lebih banyak dalam membandingkan dan mendeteksi apakah suatu dokumen terindikasi plagiat atau tidak. Tantangan utama dalam mengintegrasikan portal penyedia konten ilmiah dengan sistem pendeteksi plagiarisme adalah bagaimana supaya sistem pendeteksi plagiarisme bisa mengakses konten dari portal penyedia konten ilmiah secara transparan dan kemungkinan sistem tersebut dibangun dengan bahasa pemrograman dan platform berbeda. Untuk itu diperlukan suatu protokol dan format data yang diterima oleh kedua sistem sehingga kedua sistem tersebut bisa saling terintegrasi. Teknologi protokol yang dipilih untuk mengintegrasikan kedua sistem ini adalah protokol OAI-PMH dengan format metadata Dublin-Core. 2. Arsitektur Sistem Langkah selanjutnya dalam pengintegrasian portal penyedia konten ilmiah dengan sistem pendeteksi plagiarisme adalah membangun arsitektur sistem. Arsitetktur sistem dibangun berdasarkan kebutuhan sistem, teknologi yang diperlukan serta kondisi yang ada saat ini.
Gambar 2. Arsitektur Integrasi antara Portal Penyedia Konten Ilmiah dengan Sistem Pendeteksi Plagiarisme
ISSN : XXXXX
Arsitektur integrasi antara portal penyedia konden ilmiah dengan sistem pendeteksi plagiarisme seperti yang digambarkan pada Gambar 2 di atas dibagi ke dalam tiga layer utama yaitu Data Layer, Application Layer dan Presentation Layer. Dalam Data Layer terdapat komponen basis data koleksi dokumen yaitu Koleksi Dokumen Lokal yang merupakan koleksi utama dari sistem pendeteksi plagiarisme. Komponen kedua dalam Data Layer adalah koleksi dokumen yang di dapatkan dari proses Harvesting link melalui protokol OAI-PMH. Sedangkan komponen ketiga yang terdapat pada Data Layer adalah basis data kumpulan link OAI dari berbagai Ejournal yang akan di Harvesting. Dalam Application Layer terdapat tiga komponen yaitu Sistem Pendeteksi Plagiarisme, OAI Harvester dan Dokumen Crawler. Sistem Pendeteksi Plagiarisme merupakan aplikasi yang berfungsi untuk mencari tingkat kesamaan antara dokumen yang dimasukkan dengan koleksi dokumen dari database. Koleksi dokumen yang digunakan sebagai pembanding diambil dari koleksi lokal dan koleksi dokumen hasil Harvesting. Komponen kedua dalam Application Layer adalah Harvester. Harvester berfungsi untuk mengumpulkan metadata dari berbagai sumber sesuai dengan link OAI yang digunakan sebagai identifier. Hasil harvester berupa metadata DublinCore dalam format XML. Metadata ini kemudian diekstraksi sehingga diperoleh data koleksi karya ilmiah yang diantaranya meliputi Judul, Pengarang dan Abstrak. Data yang diperoleh dari hasil extraksi metadata Dublin-Core tersebut kemudian disimpan ke database[6]. Contoh format metadata DublinCore seperti contoh pada gambar 3.
Karl Mustermann Algebra mathematics 2000-01-23 EN An introduction to algebra Gambar 3. Contoh Metadata Dublin-Core [7] Saat ekstraksi dari metadata Dublin-Core, belum didapatkan konten penuh artikel dari Ejournal dari portal penyedia konten ilmiah.yang menyediakan konten penuh karya ilmiah. Untuk itu pada Layer Application terdapat komponen Dokumen Crawler yang berfungsi untuk mencari konten penuh berdasarkan link yang terdapat pada halaman tersebut. Jika link dokumen penuh tersebut diperoleh seperti pada gambar 4, maka selanjutnya
Seminar Nasional Ilmu Komputer (SNAIK 2013), Samarinda, 30 November 2013
ISSN : XXXXX
dokumen tersebut di download dan kontennya akan disimpan ke dalam database. Dengan metode ini, maka data dokumen yang diperoleh tidak hanya sampai abstrak, tetapi juga sampai dengan dokumen penuh sehingga proses pendeteksian plagiarisme dokumen jadi lebih maksimal. <meta name="citation_pdf_url" content="http://ejournal.undiksha.ac.i d/index.php/JJPBS/article/download/274 /229"/> Gambar 4. Contoh URL dokumen penuh jurnal pada Ejournal berbasis OJS Pada presentation Layer terdapat interface yang mengijinkan user memasukkan dokumen yang akan dideteksi tingkat kesamaannya. Sistem Pendeteksi Plagiarisme nantinya akan menampilkan list kandidat dokumen yang memiliki tingkat kesamaan dengan dokumen yang dimasukkan. Sedangkan pada harvester dan dokumen crawler, pada presentation layer meyediakan komponen untuk berhubungan dengan ejournal yang akan diambil data koleksinya.
Gambar 6. Kode Sumber Crawling dan Parsing dokumen pada OJS
4. Pengujian Langkah awal dalam pengujian adalah dengan memasukkan alamat link OAI-PMH dari Ejournal yang berbasiskan OJS yang terdapat pada lingkungan Universitas Pendidikan Ganesha seperti pada gambar 7.
Gambar 7. Daftar Resource OAI
Gambar 5. Sistem Pendeteksi Plagiarisme
3. Pengembangan Protoype Sistem Protype sistem dikembangkan dengan memanfaatkan aplikasi pendeteksi plagiarisme yang sudah ada seperti pada Gambar 5. Pada aplikasi ini ditambahkan kemampuan untuk membaca dokumen yang diperoleh dari hasil Harvesting. Komponen yang ditambahkan meliputi harvester dan dokumen crawler serta basis data untuk menyimpan hasil koleksi dokumen yang diHarvesting dan dicrawling. Harvester dan Crawler serta parser seperti pada gambar 6 dibangun berbasiskan JSP(Java Server Pages) dan Apache Tomcat Web Server.
Setelah itu dilakukan proses Harvesting untuk mendapatkan metadata koleksi karya ilmiah yang selanjutnya akan disimpan ke dalam database. Dalam proses Harvesting dilakukan juga dokumen crawling dan parsing untuk mendapatkan dokumen penuh setiap karya ilmiah (Bagi Ejournal yang menyediakan). III. HASIL DAN PEMBAHASAN Dari hasil pengujian seperti yang ditampilkan pada gambar 8 diperoleh peningkatan jumlah koleksi karya ilmiah. Setelah dilakukan proses Harvesting diperoleh peningkatan jumlah karya ilmiah 2314 koleksi. Koleksi tersebut diperoleh dari hasil Harvesting link OAI portal konten Ilmiah di lingkungan Universitas Pendidikan Ganesha.
Seminar Nasional Ilmu Komputer (SNAIK 2013), Samarinda, 30 November 2013
Gambar 8. Hasil Uji Coba Harvesting Uji coba Harvesting dari penyedia konten ilmiah di UNDIKSHA menghabiskan waktu selama 20 menit dan 54 detik. Agar tidak menganggu kinerja server maka direkomendasikan untuk memanfaatkan penjadwalan seperti Crontab dalam melakukan Harvesting sehingga tidak menganggu kinerja server saat sedang sibuk melayani user. IV. KESIMPULAN Penelitian ini bertujuan membangun arsitektur dan protype integrasi antara sistem pendeteksi plagiarisme dengan portal penyedia konten karya ilmiah. Tahapan metodologi yang diterapkan pada penelitian ini meliputi analisis kebutuhan sistem, perancangan arsitektur, implementasi dan pengujian. Adapun protokol yang digunakan untuk mengintegrasikan adalah protokol OAI-PMH dengan format metada dublin-core. Sedangkan untuk mendapatkan konten penuh karya ilmiah dari portal adalah dengan memanfaatkan dokumen crawler dan melakukan metode parsing. Prototype ini dibangun dengan memanfaatkan sistem pendeteksi karya ilmiah yang sudah dibangun sebelumnya. Sedangkan untuk protype integrasi dibangun dengan harverster protokol OAI dan dokumen crawler. Dari hasil ujicoba diperoleh jumlah dokumen yang lebih banyak dari hasil proses Harvesting dan dokumen crawler. Dengan jumlah dokumen yang lebih banyak tentu saja akan menambah data pembanding dokumen untuk mendeteksi terjadinya plagiarisme.
ISSN : XXXXX
Ucapan Terima Kasih Ucapan terima kasih disampaikan kepada jurusan Pendidikan Teknik Informatika, Fakultas Teknologi dan Kejuruan, Universitas Pendidikan Ganesha atas pembiayaan publikasi paper ini dan juga kepada Universitas Pendidikan Ganesha atas penyediaan fasilitas (server dan akses internet) dalam melakukan uji coba sistem ini. V. DAFTAR PUSTAKA [1] Kent, C.K.; Salim, N., "Web Based Cross Language Semantic Plagiarism Detection," Dependable, Autonomic and Secure Computing (DASC), 2011 IEEE Ninth International Conference on , vol., no., pp.1096,1102, 12-14 Dec. 2011 [2] Hari Bagus Firdaus. Deteksi Plagiat Dokumen Menggunakan Algoritma Rabin-Karp. Jurnal Ilmu Komputer Dan Teknologi Informasi. 2003; Vol I Ii No.2 [3] Audi Novanta. Pendeteksian Plagiarisme Pada Dokumen Teks Dengan Menggunakan Algoritma Smith-Waterman. Student Papers (SP) Universitas Sumatera Utara. 2009 [4] Maurer, H., Kappe, F., & Zaka, B. Plagiarism - A Survey. Journal of Universal Computer Science. 2006; Vol 12 No 8 Pages : 1050 [5] Rizal Fathoni Aji. Pengembangan Garuda (Garba Rujukan Digital) Sebagai Sumber Rujukan Karya Ilmiah Di Indonesia. Yogyakarta. 2010. Seminar Nasional Aplikasi Teknologi Informasi [6] Rizal Fathoni Aji dan Wahyu C. Wibowo. Arsitektur Pertukaran Data di Indonesia. Proceding of National Conference Science & Information Technology. 2007. pp. 309-313. [7] Dublin Core. Dublin Core. http://dublincore