APLIKASI PERBAIKAN EJAAN PADA KARYA TULIS ILMIAH DIPROGRAM STUDI TEKNIK INFORMATIKA DENGAN MENERAPKAN ALGORITMA LEVENSHTEIN DISTANCE Roby Nur Hamzah Artikel Skripsi Universitas Nusantara PGRI Kediri Di Publish 12 Agustus 2016
EMIL SALIM SARMAN 1441177004006
LATAR BELAKANG MASALAH REVISI BERULANG-ULANG KARENA
TYPOGRAPHICAL ERROR
SOLUSI
EXPERT SYSTEM
TUJUAN PENELITIAN Mempermudah pengetikan karya tulis ilmiah
Meperbaiki kesalahan pengetikan
Expert system
Kualitas karya tulis jadi lebih baik
METODE/TEKNIK YANG DITERAPKAN Metode yang diterapkan menggunakan algoritma levenshtein distance.
CARA KERJA Menghitung jarak terdekat dari string sumber (s) dengan String target (t). Jika selisih String sumber (s) dengan String target (t) memiliki jarak terendah, maka akan dijadikan saran perbaikan berdasarkan urutan jarak String terendah hingga terbesar. Acuan perhitungan dengan algoritma dalam penelitian ini dibatasi dengan jarak toleransi = 2 dan banyaknya saran perbaikan adalah 20 kata.
HASIL DAN PEMBAHASAN/DISKUSI PEMBAHASAN Untuk mengetahui proses perhitungan algoritma Levenshtein Distance dalam memperbaiki kesalahan ejaan. Maka akan dilakukan sebuah simulasi algoritma dengan contoh sebagai berikut : Diketahui sebuah String sumber (s) = “teknuk” dan String target (t) = “teknik” untuk menyamakan String maka akan dilakukan perhitungan: Rumus : = d(t,t) + d(e,e) + d(k,k) + d(n,n) + d(u,i) + d(k,k) =0+0+0+0+1+0
=1 Sehingga jarak levenshtein antara String (s) = “teknuk” dan (t) = “teknik” adalah D(s,t) = 1
HASIL DAN PEMBAHASAN/DISKUSI Tabel penjelasan algoritma
KESIMPULAN Berdasarkan hasil penelitian dan implementasi sistem, maka dapat diambil kesimpulan sebagai berikut : 1. Aplikasi ini dikhususkan pada karya tulis ilmiah yang berformat *docx. 2. Acuan saran perbaikan menggunakan data dari KBBI Kemendikbud versi 3 yang disimpan pada database dan dikoneksikan pada aplikasi untuk menjadi acuan saran perbaikan kesalahan penulisan ejaan.
KAKAS BANTU PENDETEKSI KESALAHAN
TADA BACA PADA KARYA TULIS ILMIAH Ratih Nur Esti Anggraini, Mohammad Ahmaluddin Zinni, dan Siti Rochimah
Jurusan Teknik Informatika Institut Teknologi Sepuluh Nopember
Abdullah Lubis 1441177004081
LATAR BELAKANG MASALAH Dirjen DIKTI tahun 2012 : “Karya ilmiah dijadikan sebagai syarat kelulusan mahasiswa S1, S2 dan S3.”
Namun demikian, tidak semua karya
Penulisan Kata
ilmiah yang dihasilkan tersebut memiliki kualitas yang baik.
Tanda Baca
Tidak Sesuai Ejaan Yang Disempurnakan (EYD).
TUJUAN PENELITIAN Koreksi kesalahan penggunaan tanda baca
Kualitas karya tulis jadi lebih baik
Expert system
Membantu dunia keilmiahan Indonesia dalam upaya meningkatkan kualitas tulisan karya ilmiah
METODE/TEKNIK YANG DITERAPKAN Metode yang diterapkan menggunakan Algoritma Boyer-Moore.
CARA KERJA Heuristik looking-glass : Perbandingkan suatu karakter akhir pada kata w dengan suatu karakter pada teks s. Jika karakter tersebut sama maka jendela karakter akan berjalan mundur pada kedua string dan memeriksa kembali kedua karakter. Heuristik character-jump : Melakukan suatu aksi ketika terdapat perbandingan antara dua karakter yang berbeda.
HASIL DAN PEMBAHASAN/DISKUSI PEMBAHASAN Untuk dapat mengetahui tingkat performansi suatu sistem yang mampu mendapatkan kembali informasi-informasi tertentu dapat diketahui menggunakan perhitungan presisi dan recall. Presisi merupakan probabilitas informasi yang relevan dari semua informasi yang didapatkan kembali oleh sistem. Rumus untuk menghitung presisi dan recall :
rumus presisi (P) berdasarkan table contingency
rumus recall (R) berdasarkan tabel contingency
Rumus perhitungan akurasi berdasarkan tabel contingency
HASIL DAN PEMBAHASAN/DISKUSI Proses pencarian menggunakan algoritma pencarian string Boyer-Moore
KESIMPULAN Berdasarkan hasil penelitian dan implementasi sistem,maka dapat diambil kesimpulan sebagai berikut : 1. Sistem dapat membangkitkan telaah kesalahan tanda baca berdasarkan kesalahan yang dideteksi dari karya ilmiah serta penggunaan algoritma pencarian kata (dalam kasus ini menggunakan algoritma Boyer-Moore) dapat digunakan pada kasus-kasus pendeteksian kesalahan tanda baca yang berhubungan dengan penggunaan spasi atau tidak, serta penggunaan huruf kapital atau huruf normal. 2. Aplikasi ini dikhususkan pada karya tulis ilmiah yang berformat *docx.
APLIKASI KOREKSI KESALAHAN BERBASIS PADA TULISAN BERBAHASA INDONESIA UNTUK MENINGKATKAN KUALITAS PENULISAN KARYA ILMIAH Andri, Sunda Ariana, Margareta Andriani Fakultas Ilmu Komputer Universitas Bina Darma Palembang Prosiding Seminar Nasional Aplikasi Sains & Teknologi (SNAST) 2014 ISSN: 1979-911X Yogyakarta, 15 November 2014 Moh Mahpudin 1441177004340
LATAR BELAKANG MASALAH Kebiasaan berbicara sehari-hari dengan Bahasa daerah
Kurang menguasai Bahasa Indonesia yang baku
Indikasi penguasaan Bahasa Indonesia yang rendah dapat dilihat dari rendahnya nilai rata-rata Bahasa Indonesia dibandingkan dengan bahasa Inggris pada Ujian Nasional (Ariana, 2010).
TUJUAN PENELITIAN Membuat sebuah program aplikasi berbasis komputer
Mengkoreksi kesalahan penggunaan EYD
Memperbaiki kesalahan penulisan karya ilmiah
Metode/Teknik Yang Diterapkan Analisis kebutuhan sistem
Perancangan aplikasi
Implementasi dan penerapan algoritma
Kesimpulan
Penelitian ini menghasilkan sebuah perangkat lunak aplikasi yang dapat digunakan untuk melakukan koreksi kesalahan penggunaan EyD dalam dokumen berbahasa Indonesia.
HASIL DAN PEMBAHASAN Bentuk user interface aplikasi pada penelitian ini
Aplikasi koreksi ini menyediakan fungsi untuk melakukan pengecekan penggunaan kata-kata yang sesuai dengan EYD.
Metode yang digunakan untuk penentuan solusi kata yang tidak sesuai dengan EYD dalam penelitian ini menggunakan metode N-Gram. N-Gram merupakan sebuah metode yang diaplikasikan untuk pembangkitan kata atau karakter. Menurut (Gergely, 2005) N Gram adalah substring sepanjangn karakter dari sebuah string. Metode NGram digunakan untuk mengambil potongan-potongan karakter huruf sejumlah n dalam sebuah kata yang secara kontinu dibaca dari kata sumber hingga akhir dari dokumen. Contoh pada kata “TEXT” dapat dijelaskan ke dalam beberapa N-Gram sebagai berikut:
Uni-gram : T,E,X,T Bi-gram : TE,EX,XT Tri-gram : TEX,EXT Quad-gram : TEXT,EXT Salah satu keunggulan menggunakan N-Gram dan bukan suatu kata utuh secara keseluruhan adalah bahwa N-Gram tidak terlalu sensitif terhadap kesalahan penulisan yang terdapat pada suatu dokumen (Hanafi, 2009).
Alur proses aplikasi koreksi
KESIMPULAN Dari proses implementasi dan pengujian dapat diambil beberapa kesimpulan sebagai berikut: 1. Aplikasi koreksi yang dibuat dapat mendeteksi kesalahan-kesalahan yang terjadi pada dokumen-dokumen Bahasa Indonesia. 2. Aplikasi koreksi dapat melakukan perbaikan secara otomatis terhadap kata dan kalimat yang tidak sesuai dengan EyD.
APLIKASI PREDICTIVE TEXT BERBAHASA INDONESIA DENGAN METODE N-GRAM Silvia Rostianingsih, Sendy Andrian Sugianto, Liliana. Program Studi Teknik Informatika Fakultas Teknologi Industri Universitas Kristen Petra. E-mail:
[email protected],
[email protected]
ROKHMAT 1441177004052
LATAR BELAKANG MASALAH PROSES PENGETIKAN LAMA SERINGNYA TERJADI KESALAHAN KETIK (TYPO) PENULISAN KATA TIDAK SESUAI EJAAN YANG DISEMPURNAKAN (EYD).
EXPERT SYSTEM
TUJUAN PENELITIAN MEMPERCEPAT DALAM PENGETIKAN SUATU KATA
MEMPERMUDAH PENGETIKAN KARYA TULIS ILMIAH
Expert system
KUALITAS KARYA TULIS JADI LEBIH BAIK
METODE/TEKNIK YANG DITERAPKAN CARA KERJA Metodologi penelitian dilakukan dengan mempelajari tentang metode N-GramBased, dilanjutkan dengan membuat perancangan sistem tentang pengolahan kata dan metode scoring kata. Pembuatan perangkat lunak yaitu dengan mengimplementasikan desain sistem yang telah dibuat ke dalam bahasa pemrograman, meliputi language model, frequency scoring, semantic scoring, Ngram scoring. Selanjutnya dilakukan pengujian aplikasi dalam melakukan prediksi dan keystroke saving yang dihasilkan oleh tiap metode scoring. Kesimpulan dilakukan dengan membandingkan hasil prediksi dan keystroke saving yang dihasilkan dari aplikasi.
DESAIN SISTEM Dalam melakukan predictive text, user terlebih dahulu memasukkan metode ngram yang digunakan. Selanjutnya sistem akan melakukan load file kata yang ada sesuai metode n-gram yang dipilih. Sistem akan membaca input karakter dari user dan melakukan parsing data. Selanjutnya sistem melakukan searching dan scoring kata dari file untuk menghasilkan predictive text. Terakhir, sistem memberikan usulan kata yang menjadi predictive text kepada user. Rancangan sistem kerja aplikasi secara garis besar ditunjukkan pada Gambar 1.
HASIL DAN PEMBAHASAN/DISKUSI Pengujian dilakukan antara lain menguji bobot dari tiap metode scoring-nya, yakni Keystroke Saving (KS) dan Score Prediksi Efektif (SPE). Pengujian dengan menghitung keystroke saving adalah untuk menghitung seberapa banyak karakter yang dapat dihemat untuk menghasilkan sebuah teks tertentu. SPE didapat dari jumlah prediksi efektif yang terjadi dibandingkan dengan jumlah total prediksi yang terjadi. Hasil perhitungan yang didapat dari pengujian pada Bigram (Tabel 1) dan Trigram (Tabel 2) menunjukkan nilai yang hampir sama. Sedangkan untuk persentase frekuensi kata keluar (Tabel 3) menunjukkan bahwa metode bigram dan trigram masih memiliki persentase frekuensi kata keluar yang lebih tinggi dibanding metode lainnya.
KESIMPULAN Dari hasil penelitian dapat disimpulkan: 1. Rata-rata keystroke saving yang dihasilkan pada pengujian ini adalah 15 hingga 25 persen bergantung pada data training. 2. Rata-rata prediksi efektif terjadi di atas 30% dari total prediksi yang terjadi. Hal ini dikarenakan oleh pengaruh dari language model yang dapat langsung memprediksi kata dengan lebih efektif dan akurat. 3. Frekuensi dari language model yang tinggi sangat mempengaruhi scoring sistem, karena semakin tinggi frekuensi language model suatu kata, maka akan semakin tinggi pula bobot / nilai dari kata itu sendiri. 4. Semakin besar nilai n dalam n-gram berbanding terbalik dengan jumlah frekuensi keluar yang didapat, yaitu semakin kecil atau lebih jarang keluar. Penggunaan model bi-gram dan tri-gram untuk language model masih memungkinkan, karena hasil dari jumlah frekuensi keluar pada suku n-gramnya masih cukup besar dan datanya masih valid apabila diproses lebih lanjut.
Koreksi Ejaan Istilah Komputer Berbasis Kombinasi Algoritma Damerau Levenshtein dan Algoritma Soundex Akhmad Pahdi
STMIK Banjarbaru
[email protected] Journal Speed – Sentra Penelitian Engineering dan Edukasi – Volume 8 No 2 - 2016 ISSN : 1979-9330 (Print) - 2088-0154 (Online)
Fajar Rusdi Wibowo 1441177004178
LATAR BELAKANG MASALAH Kesulitan dalam mengingat, menyebutkan, dan atau menuliskan kata dan penamaan istilah didunia komputer.
TUJUAN PENELITIAN Mengukur tingkat efektivtas algoritma Damerau-Levenstein yang dikombinasikan dengan algoritma Soundex dalam koreksi ejaan dan pencocokan kata.
METODE/TEKNIK YANG DITERAPKAN Metode yang diterapkan menggunakan algoritma Damerau-Levenshtein dikombinasikan dengan algoritma Soundex..
CARA KERJA Damerau-Levenshtein mencari jarak terpendak dalam mentransformasi kata menjadi kata yang lain, selanjutnya Soundex memembagi dan mengkelompokkan huruf sesuai dengan kesamaan bunyi.
PEMBAHASAN Algoritma Damerau-Levenshtein 1.Inisialisasikan n sebagai panjang karakter dari s dan m sebagai panjang karakter dari t. Jika n = 0 atau m = 0, maka kembalikan nilai (return value) berupa jarak edit dengan rumusan: jarak_edit = max(n, m) lalu lompat ke langkah 7.
2. Buat sebuah matriks d sebanyak m + 1 baris dan n + 1 kolom. 3. Isi baris pertama dengan 0..n dan isi kolom pertama dengan 0..m. 4. Periksa setiap karakter dari s terhadap t Jika s[i] = t[j] maka cost = 0. Jika s[i] ≠ t[j] maka cost = 1.
5. Isikan nilai dari setiap sel d[i, j] baris per baris dengan: d[i, j] = min(x, y, z)
Algoritma Soundex 1. Ubah semua huruf menjadi huruf besar atau uppercase, buang semua huruf vokal, tanda baca yang tidak ada hubungan dengan kata, konsonan H,W, dan Y, serta urutan huruf yang sama (misalnya. sss). Huruf pertama selalu dibiarkan seperti semula. 2. Gabung huruf pertama dengan angka pengganti yang sesuai dengan kode numerik yang ditunjukkan pada Tabel 2.1. 3. Ambil empat kode terdepan dan selanjutnya kode tersebut menjadi kode Soundex.
PROSES PENCOCOKAN KATA Pencarian kata yang sesuai Kata kunci : getwey Jumlah karakter : 6 1. Inisialisasi n sebagai panjang karakter kata kunci, dan m sebagai panjang karakter kata-kata yang akan diukur jarak kedekatannya (asumsi, kata “activity”), sehingga mendapatkan penghitungan jumlah n=6 dan jumlah m=8 2. Buat matrix d sebanyak m+1 dan n+1 kolom. 3. Pada matriks yang telah dibuat, isi baris pertama dengan 0..n dan isi kolom pertama dengan 0..m. 6. Setelah langkah iterasi di atas selesai, maka jarak edit akan ditemukan pada sel d[n, m] yaitu sel pada pojok kanan baris terakhir. 7. Selesai.
4. Periksa setiap karakter dari s terhadap t. 5. Isikan nilai dari setiap sel d[i, j] baris per baris. Langkah ini akan selalu berulang sampai semua matriks terisi. d[1,1] = min((d[1-1,1]+1),(d[1,1-1]+1),(d[1-1,1-1]+cost)) = min((d[0,1]+1),(d[1,0]+1),(d[0,0] +1)) = min(2,2,1) = 1 d[1,2] = min((d[1-1,2]+1),(d[1,2-1]+1),(d[1-1,2-1]+cost)) = min((d[0,2]+1),(d[1,1]+1),(d[0,1]+1)) = min(3,2,2) = 2
KESIMPULAN Selama bunyi dan karakter pertama dari kata kunci sama dengan kata sumber maka efektivitas algoritma Soundex sedikit lebih baik dibandingkan dengan algoritma Damerau-Levenstein, dengan tingkat keberhasilan sebesar 74% sedangkan tingkat keberhasilan DamerauLevenstein sebesar 70%, kombinasi dari algoritma Damerau Levenstein dan algoritma Soundex terbukti dapat meningkatkan tingkat akurasi koreksi ejaan untuk Istilah komputer,dengan tingkat akurasi sebesar 92% sedangkan 2% Damerau-Levenstein dan Soundex menyarankan kata atau istilah komputer yang tidak relevan.
ARSITEKTUR UNTUK APLIKASI DETEKSI KESAMAAN DOKUMEN BAHASA INDONESIA Anna Kurniawati, Kemal Ade Sekarwati, I wayan Simri Wicaksana Fakultas Ilmu komputer dan Teknologi Informasi Universitas Gunadarma Konferensi Nasional Sistem Informasi 2012,STMIK - STIKOM Bali , 23-25 Pebruari 2012
Aef Saefulah 1441177004117
Latar Belakang Dengan aplikasi
Tanpa aplikasi
Plagiat
Hanya mencari pada kesamaan judulnya atau tema saja
Plagiat
Mencari kesamaan kata pada judul
Mencari kesamaan pada gabungan kata dan kalimat
Mencari kesamaan pada arti dari keseluruhan kata paragraf dan dokumen
Penelitian pengukuran kesamaan dokumen Aplikasi Tessy (Test of Text Similarity)
Belum mempertimbangan struktur kalimat dan sinonim untuk membandingkan kalimat.
Plagiat masih bisa dilakukan dan ditemukan pada hasil karya tulis mahasiswa.
Peneliti : Sinta Agustina Pembandingan dokumen menggunakan algoritma Rarp Kabin
Pembandingan dokumen menggunakan algoritma Swith Waterman
Peneliti : Didi Achjari
Peneliti : Audi Novanta
Peneliti : Saul Schleimer 2003, Noorzima 2005
Penelitian pengukuran kemiripan
Menggunakan Metode Dokumen fingerprinting dengan algoritma Winnowing.
Peneliti : Parvati Iyer, 2005
Menggunakan Metode Keyword Similarity dengan teknik DOT. Objek Penelitian yang digunakan adalah dokumen berbahasa Inggris. Dokumen yang digunakan sebanyak 20 data.
Peneliti : Sinta Agustina 2008, Hari Bagus, 2003.
Menggunakan metode String matching dengan algoritma Karp Rabin. Objek Penelitian yang digunakan adalah dokumen berbahasa Indonesia.
Metodologi penelitian
Arsitektur Deteksi Kesamaan Dokumen
• • •
Kemiripan kalimat Rata-rata kemiripan kalimat Rata-rata maksimum kemiripan dokumen
Kesimpulan Dalam membangun arsitektur untuk aplikasi kesamaan dokumen terdiri dari 3 bagian penting, yaitu : 1. Penentuan Struktur Kalimat atau SPOK, 2. Kesamaan Dokumen 3. Analisis Sinonim Kata.