PERINGKASAN DOKUMEN BAHASA INDONESIA MENGGUNAKAN METODE K-MEANS
MUHAMMAD RHEZA MUZTAHID
DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2015
PERNYATAAN MENGENAI SKRIPSI DAN SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA Dengan ini saya menyatakan bahwa skripsi berjudul Peringkasan Dokumen Bahasa Indonesia Menggunakan Metode K-Meansadalah benar karya saya dengan arahan dari komisi pembimbing dan belum diajukan dalam bentuk apa pun kepada perguruan tinggi mana pun. Sumber informasi yang berasal atau dikutip dari karya yang diterbitkan maupun tidak diterbitkan dari penulis lain telah disebutkan dalam teks dan dicantumkan dalam Daftar Pustaka di bagian akhir skripsi ini. Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut Pertanian Bogor.
Bogor, November 2015 Muhammad Rheza Muztahid G64134021
ABSTRAK MUHAMMAD RHEZA MUZTAHID. Peringkasan Dokumen Bahasa Indonesia Menggunakan Metode K-Means. Dibawah bimbingan JULIO ADISANTOSO. Membaca dokumen yang memiliki teks yang sangat panjang merupakan kegiatan yang menghabiskan banyak waktu. Perlu dilakukan peringkasan terhadap dokumen teks yang besar agar meringankan beban pengguna untuk tidak membaca dokumen secara keseluruhan. Penelitian ini mengusulkan untuk pembuatan peringkasan dokumen otomatis menggunakan fitur kata dan metode K-Means. Ringkasan dokumen otomatis dapat digunakan untuk mendapatkan ringkasan teks dengan cepat sehingga memudahkan pengguna untuk mendapatkan informasi utama dari sebuah dokumen. Penelitian ini melakukan peringkasan dokumen dengan menggunakan fitur kata dan metode k-means. Hasil penelitian yang telah dilakukan menghasilkan rata-rata akurasi 58.51%, recall 22.06%, precision 43.84%, dan f-measure 27.88%. Kata kunci: fitur kata, k-means, peringkasan dokumen
ABSTRACT MUHAMMAD RHEZA MUZTAHID. Text Summarization For Indonesian Language Using K-Means Method. Supervised by JULIO ADISANTOSO. Read a document that has a very long texts is an activity that spend a lot of time. Need summarize the large text documents in order to ease the burden on the user to not read the document as a whole. This research proposes to manufacture automatic text summarization using word features and K-Means method. Automatic text summary can be used to get a quick summary of the text by making it easier for users to get key information from a document. Result of this research produces average accuracy 58.51%, recall 22.06%, precision 43.88%, and f-measure 27.88%. Keywords: k-means, text summarization, word features
PERINGKASAN DOKUMEN BAHASA INDONESIA MENGGUNAKAN METODE K-MEANS
MUHAMMAD RHEZA MUZTAHID
Skripsi sebagai salah satu syarat untuk memperoleh gelar Sarjana Komputer pada Departemen Ilmu Komputer
DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2015
Penguji: 1. Ahmad Ridha, SKom MS 2. Husnul Khotimah, SKomp MKom
Judul Skripsi Nama Mahasiswa NIM
:
Peringkasan Dokumen Bahasa Indonesia Menggunakan Metode K-Means : Muhammad Rheza Muztahid : G64134021
Disetujui oleh
Ir Julio Adisantoso, MKom Pembimbing
Diketahui oleh
Dr Ir Agus Buono, MSi MKom Ketua Departemen
Tanggal Lulus :
PRAKATA Puji syukur penulis panjatkan kehadirat Allah SWT yang telah memberikan rahmat dan hidayah-Nya sehingga penulis dapat menyelesaikan skripsi yang berjudul “Peringkasan Dokumen Bahasa Indonesia Menggunakan Metode K-Means”. Skripsi ini disusun sebagai syarat mendapat gelar Sarjana Komputer (SKomp) pada Program Sarjana Ilmu Komputer di Fakultas Matematika dan Ilmu Pengetahuan Alam Institut Pertnaian Bogor (IPB). Akhir kata, penulis mengucapkan terimakasih kepada semua pihak yang telah banyak membantu dalam menyelsaikan skripsi ini. Semoga skripsi ini dapat memberikan kontribusi yang bermakna bagi pengembangan wawasan para pembaca, khususnya mahasiswa dan masyarakat pada umumnya. Semoga karya ilmiah ini bermanfaat. Bogor, November 2015 Muhammad Rheza Muztahid
DAFTAR ISI Halaman DAFTAR TABEL
iv
DAFTAR GAMBAR
iv
PENDAHULUAN Latar Belakang . . . . . . Perumusan Masalah . . . . Tujuan Penelitian . . . . . Manfaat Penelitian . . . . Ruang Lingkup Penelitian
. . . . .
1 1 2 2 3 3
METODE Pengumpulan Dokumen . . Pengindeksan . . . . . . . Peringkasan Teks . . . . . Evaluasi . . . . . . . . . . Lingkungan Pengembangan
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
3 3 4 5 9 10
HASIL DAN PEMBAHASAN Pengumpulan Dokumen . . . Pengindeksan . . . . . . . . Peringkasan Teks . . . . . . Evaluasi . . . . . . . . . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
10 10 11 14 18
SIMPULAN DAN SARAN 25 Simpulan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 Saran . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 DAFTAR PUSTAKA
25
LAMPIRAN 27 1. Daftar dokumen skripsi yang digunakan . . . . . . . . . . . . . . . . . 27 RIWAYAT HIDUP
31
DAFTAR TABEL 1 2 3 4 5 6 7 8 9 10 11 12
Matriks TFISF . . . . . . . . . . . . . . . . . . . . . . . . . . . Pendukung untuk menghitung recall, precision, f-measure, dan akurasi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Record frekuensi kemunculan kata terhadap dokumen . . . . . . . Sebaran nilai IDF . . . . . . . . . . . . . . . . . . . . . . . . . . Matriks hasil TFISF dokumen ke-4 . . . . . . . . . . . . . . . . . Hasil clustering dokumen ke-4 . . . . . . . . . . . . . . . . . . . Hasil ringkasan dengan tingkat peringkasan 30% . . . . . . . . . Hasil ringkasan dengan tingkat peringkasan 20% . . . . . . . . . Hasil ringkasan dengan tingkat peringkasan 10% . . . . . . . . . Suatu percobaan hasil peringkasan Dokumen 91 . . . . . . . . . . Suatu percobaan hasil peringkasan Dokumen 9 . . . . . . . . . . Percobaan hasil peringkasan Dokumen 9 dengan fitur kata baru . .
.
7
. . . . . . . . . . .
9 12 13 16 18 19 19 19 21 22 22
. . . . . . . . . . .
4 6 8 9 11 20 20 21 23 23 24
DAFTAR GAMBAR 1 2 3 4 5 6 7 8 9 10 11
Diagram alur peringkasan teks otomatis . . . . . . . . . . . . . Skema pemisahan kalimat dan case folding . . . . . . . . . . . Algoritma K-Means . . . . . . . . . . . . . . . . . . . . . . . . Proses seleksi kalimat . . . . . . . . . . . . . . . . . . . . . . . Statistik kalimat 100 dokumen . . . . . . . . . . . . . . . . . . Perbandingan nilai akurasi peringkasan otomatis . . . . . . . . . Perbandingan nilai recall peringkasan otomatis . . . . . . . . . Perbandingan nilai precision peringkasan otomatis . . . . . . . Perbandingan nilai f-measure peringkasan otomatis . . . . . . . Perbandingan keseluruhan hasil ringkasan . . . . . . . . . . . . Dokumen 10.txt yang mengalami perubahan akurasi berlawanan
. . . . . . . . . . .
1
PENDAHULUAN Latar Belakang Peningkatan teknologi informasi yang begitu pesat telah membuat terjadinya peningkatan dokumen teks digital secara besar-besaran. Riset yang dilakukan MGI (2011) menerangkan bahwa pada tahun 2010 ada 5 milyar pengguna mobile phone, 300 milyar potongan konten yang dibagikan di facebook setiap bulannya, lebih dari 7 exabyte data baru yang disimpan oleh perusahaan global, sementara konsumen menyimpan lebih dari 6 exabyte data baru pada perangkat seperti Personal computer (PC) dan notebook. Data yang mengandung informasi tersebut tersebar dalam bentuk dokumen teks seperti artikel, berita, buku, makalah ilmiah, dan lain-lain. Dokumen yang banyak ini juga memiliki teks yang sangat panjang dan menyebabkan isi dokumen sulit dimengerti dengan cepat. Mencari informasi utama dari dokumen yang besar adalah pekerjaan yang sangat sulit. Perlu dilakukan peringkasan terhadap dokumen teks tersebut agar dapat dengan cepat menghasilkan informasi bagi pengguna. Fungsi ringkasan ini adalah untuk membantu pengguna mendapatkan informasi yang relevan dengan cepat tanpa harus membaca dokumen secara keseluruhan. Agrawal et al. (2014) menerangkan bahwa peringkasan teks adalah suatu proses untuk menciptakan versi kompresi dari teks tertentu yang menyediakan informasi yang berguna bagi pengguna. Ringkasan dokumen dapat menghasilkan informasi inti dokumen secara singkat namun memenuhi keperluan pembaca. Teknik untuk peringkasan dokumen dapat diklasifikasikan ke dalam dua kategori: ekstraksi dan abstraksi (Suanmali et al. 2009). Suanmali et al. (2009) menerangkan bahwa peringkasan dengan teknik ekstraksi adalah menyeleksi kalimat atau frasa dari teks asli dengan menghitung skor tertinggi dan menggabungkannya menjadi suatu teks pendek baru atau ringkasan tanpa mengubah teks sumber. Sedangkan teknik abstraksi menggunakan metode linguistik untuk memeriksa dan menafsirkan teks. Keuntungan menggunakan teknik ekstraksi adalah mudah untuk diterapkan dan didasarkan pada fitur-fitur statistik bukan pada hubungan semantik dalam memilih kalimat penting atau kata kunci dari dokumen. Akan tetapi, kekurangan teknik ekstraksi yaitu cenderung tidak konsisten dan informasi yang saling bertentangan tidak dapat disajikan secara akurat. Sedangkan keuntungan dari teknik abstraksi yaitu menghasilkan rasio kompresi yang baik, serta mendapatkan ringkasan yang lebih akurat karena menggunakan hubungan semantik. Akan tetapi, teknik abstraksi lebih sulit diterapkan karena membutuhkan pemahaman teks asli (Munot dan Govilkar 2014). Selain teknik ekstraksi dan abstraksi, terdapat pendekatan lain yaitu berdasarkan mesin pembelajaran. Pada umumnya terdapat dua jenis algoritma pembelajaran yaitu supervised learning algorithms dan unsupervised learning algorithms (Wajeed dan Adilakshmi 2009). Menurut Wajeed dan Adilakshmi (2012) supervised
2 learning merupakan algoritma yang menyediakan data latih yang dapat disebut sebagai label kelas atau atribut keputusan, sedangkan unsupervised learning tidak memiliki data latih. Pada umumnya proses peringkasan dokumen otomatis terdiri atas beberapa tahapan yaitu pengumpulan dokumen, pengindeksan, pemilihan fitur, pembobotan kalimat dan pengujian. Hal yang paling penting dalam peringkasan dokumen otomatis adalah tahap pembobotan kalimat. Tahapan inilah yang menentukan kalimatkalimat mana saja yang dipilih dan dimasukkan ke dalam hasil peringkasan. Kebanyakan sistem peringkasan teks otomatis dilakukan dengan teknik ekstraksi. Suanmali et al. (2009) melakukan ekstraksi kalimat penting menggunakan aturan fuzzy dan fuzzy set untuk pembobotan kalimat berdasarkan pada 8 fitur yaitu judul, panjang kalimat, bobot kata, posisi kalimat, kesamaan kalimat, kata tematik, dan kata benda yang tepat. menghasilkan rata-rata precision sebesar 49.77%, recall 45.70%, dan f-measure 47.18%. Mustaqhfiri (2011) menggunakan metode Maximum Marginal Relevance (MMR) untuk pembobotan kalimat yang menghasilkan rata-rata recall 60%, precision 76% dan f-measure 65% dari evaluasi antara ringkasan otomatis dengan ringkasan manual. Penelitian yang sudah sering dilakukan umumnya digunakan untuk dokumen yang pendek seperti dokumen artikel dan berita, sedangkan untuk dokumen yang panjang seperti dokumen karya ilmiah yang terdiri atas beberapa bab belum terlalu banyak dilakukan. Oleh karena itu, penelitian yang akan dilakukan adalah membuat peringkasan dokumen otomatis untuk dokumen karya ilmiah, yaitu skripsi, dengan menggunakan teknik ekstraksi dengan menggunakan metode K-Means sebagai pembobotan kalimat. Hal ini karena K-Means mempunyai kemampuan mengelompokkan data dalam jumlah yang cukup besar dengan waktu komputasi yang relatif cepat dan efisien (Arai dan Barakbah 2007).
Perumusan Masalah Perumusan masalah dalam penelitian ini yaitu: 1. Bagaimana metode pembobotan kalimat berdasarkan fitur kata untuk keperluan peringkasan teks? 2. Apakah metode K-Means tepat digunakan dalam peringkasan teks? 3. Bagaimana implementasi metode K-Means untuk peringkasan dokumen skripsi?
Tujuan Penelitian Tujuan dari penelitian ini antara lain: 1. Mengembangkan peringkasan dokumen otomatis menggunakan pembobotan kalimat berdasarkan fitur kata. 2. Menganalisis ketepatan penggunaan metode K-Means dengan pembobotan
3 kalimat dalam peringkasan dokumen otomatis. 3. Mengimplementasikan metode K-Means untuk peringkasan dokumen skripsi.
Manfaat Penelitian Penelitian ini diharapkan aplikasi yang dibangun dapat menghasilkan metode peringkasan yang efektif dan memiliki kinerja yang baik.
Ruang Lingkup Penelitian Adapun ruang lingkup dari penelitian ini antara lain: 1. Penelitian ini menggunakan dokumen skripsi Ilmu Komputer berbahasa Indonesia. 2. Pembobotan kalimat dilakukan berdasarkan fitur kata dan dengan menggunakan metode Term Frequency-Inverse Sentence Frequency. 3. Pemilihan fitur kata dilakukan dengan menggunakan metode Inverse Document Frequency. 4. Peneliti menggunakan metode K-Means untuk pengelompokan kalimat. 5. Penelitian ini dilakukan dengan menggunakan tingkat peringkasan 30%, 20%, dan 10%. 6. Evaluasi dilakukan dengan membandingkan hasil ringkasan manual dan hasil ringkasan sistem menggunakan teknin F-Measure.
METODE Penelitian ini dilakukan dengan beberapa tahap yaitu tahap pengumpulan dokumen, tahap pengindeksan, proses peringkasan, dan evaluasi . Diagram alur proses dapat dilihat pada Gambar 1.
Pengumpulan Dokumen Dokumen yang digunakan dalam penelitian ini adalah 100 dokumen yang diambil dari repository.ipb.ac.id. Setiap dokumen akan dibuat ringkasan manualnya dan juga dibuat ringkasan menggunakan sistem peringkasan otomatis. kedua hasil ringkasan akan dibandingkan guna mengukur seberapa akurat sistem peringkasan otomatis yang dibuat.
4
Gambar 1 Diagram alur peringkasan teks otomatis Kumpulan dokumen yang didapat dari repository.ipb.ac.id adalah merupakan dokumen dengan format PDF. setiap dokumen akan diubah secara manual menjadi bentuk format TXT. Beberapa aturan yang digunakan pada tahap ini adalah: 1. Tidak melibatkan tabel, gambar, persamaan, algoritme beserta penjelasannya. 2. Bukan berupa list pendek, kecuali pada bagian kesimpulan dan saran. 3. Kutipan tidak dihilangkan. 4. Judul bab dan sub bab dihilangkan. 5. Catatan kaki dihilangkan. 6. Tinjauan pustaka dihilangkan.
Pengindeksan Pengindeksan terdiri atas dua tahap yaitu pemisahan kata dan pemilihan fitur kata. Pengindeksan sangatlah penting dilakukan karena pada tahap ini akan menghasilkan fitur kata untuk dijadikan bahan pembobotan kalimat.
5 Pemisahan Kata Tahap pertama dalam pengindeksan yaitu memisahkan kata-kata dari teks dalam dokumen. Seluruh dokumen akan diproses untuk dijadikan kumpulan kata yang akan digunakan pada proses selanjutnya yaitu pemilihan fitur kata. Pemisahan kata dilakukan dengan menggunakan delimiter karakter white space pada setiap kalimat atau text, dan juga dilakukan case folding untuk mengubah semua huruf pada setiap kata menjadi bentuk yang seragam. Pemilihan Fitur Kata Penelitian ini menggunakan fitur kata untuk mendapatkan bahan ringkasan. Pemilihan fitur kata merupakan proses untuk memilih kata-kata yang akan dijadikan kata kunci untuk menentukan penting atau tidaknya sebuah kalimat. Untuk memilih kata kunci, seluruh kata harus memiliki bobot nilai dan diurutkan berdasarkan nilai bobot dari yang terbesar hingga terkecil. Terdapat beberapa cara pemilihan fitur kata antara lain yaitu Mutual Information (MI), Chi-Square (Chi-square (χ 2 ), dan Inverse Document Frequency (IDF) (Manning et al. 2008). MI dan Chi-square (χ 2 ) baik digunakan sebagai metode pemilihan fitur kata untuk klasifikasi teks, sedangkan metode IDF baik digunakan untuk peringkasan teks (Manning et al. 2008). Maka dari itu, penelitian ini menggunakan metode Inverse Document Frequency (IDF). Luthfiarta et al. (2013) menerangkan bahwa IDF adalah perhitungan logaritma pembagian jumlah dokumen dengan frekuensi dokumen yang memuat suatu term. Persamaan IDF adalah sebagai berikut: IDFt = log(
N ) DFt
(1)
dengan N adalah jumlah seluruh dokumen, DFt adalah jumlah dokumen yang mengandung kata t. Jika sebuah kata muncul di banyak dokumen, maka hasil dari IDF akan semakin kecil, begitu pula sebaliknya. Kata-kata yang sering muncul pada setiap dokumen biasanya adalah kata yang tidak penting. Beberapa contoh kata yang mungkin sering muncul di setiap dokumen ; “di”, ”ke”, “pada”, “dengan”, “lalu”, dan lain sebagainya.
Peringkasan Teks Proses peringkasan merupakan tahap inti dari penelitian ini, yang akan menghasilkan ringkasan sistem yang nantinya akan menjadi bahan pembanding dengan hasil ringkasan manual untuk dilakukan evaluasi. Proses peringkasan terdiri dari beberapa tahap yaitu parsing kalimat, pembobotan TF-ISF, pengelompokan kalimat dengan menggunakan metode K-Means, dan yang terakhir adalah menyeleksi kalimat dari setiap kelompok untuk dijadikan sebagai ringkasan.
6 Pemisahan Kalimat Tahap pertama dalam proses peringkasan adalah memisahkan dokumen menjadi kumpulan kalimat. Kalimat adalah gabungan dari dua buah kata atau lebih yang menghasilkan suatu makna tertentu dan diakhiri dengan suatu tanda titik sebagai tanda berhenti. Kalimat dapat dipisah dengan memperhatikan beberapa tanda baca seperti titik (.), tanda seru (!), dan tanda tanya (?). Pemisahan kalimat berfungsi untuk mengumpulkan kalimat-kalimat yang terdapat pada dokumen. Pada proses ini juga dilakukan case folding untuk mengubah semua huruf di dalam dokumen ke dalam bentuk yang seragam. Pada penelitian ini semua kata diseragamkan dengan huruf kecil (lower case). Contoh pemisahan kalimat dan case folding dapat dilihat pada skema berikut:
Gambar 2 Skema pemisahan kalimat dan case folding
Pembobotan TF-ISF Pembobotan Term frequency – inverse sentence frequency (TF-ISF) dilakukan setelah mendapatkan fitur kata yang akan digunakan. Pada Tahap ini juga nilai TFISF dari setiap kalimat akan dijumlahkan dan dijadikan sebagai nilai dari suatu kalimat yang nantinya akan digunakan pada tahap seleksi kalimat. Persamaan ISF dan TF-ISF dapat dilihat pada persamaan berikut: (Rino et al. 2004). ISFt = log(
N ) SFt
T FISFt,s = T Ft,s × ISFt
(2) (3)
7 dengan T Ft,s adalah frekuensi kemunculan kata t pada kalimat s, N adalah banyaknya kalimat dalam dokumen, dan SFt adalah banyaknya kalimat yang mengandung kata t. Nilai T FISFt,s akan tinggi jika kata t muncul beberapa kali dalam kalimat dan jarang muncul pada kalimat lain, dan rendah jika kata t muncul hampir di seluruh kalimat (Manning et al. 2008). Bobot kata ke t pada kalimat ke s dalam peringkasan dokumen dapat dituliskan sebagai suatu matriks term-sentence sebagai berikut: Tabel 1 Matriks TFISF
t1 t2 t3 t4 t5 ... tm
s1
s2
s3
... sn
w1,1 w2,1 w3,1 w4,1 w5,1 ... wm,1
w1,2 w2,2 w3,2 w4,2 w5,2 ... wm,2
w1,3 w2,3 w3,3 w4,3 w5,3 ... wm,3
... ... ... ... ... ... ...
w1,n w2,n w3,n w4,n w5,n ... wm,n
Clustering Kalimat dengan Metode K-Means Clustering adalah metode untuk mengatur koleksi data yang besar dengan partisi beberapa data set secara otomatis, sehingga objek yang memiliki kesamaan akan dikelompokkan ke dalam suatu kelompok yang berbeda dengan kelompok lainnya (Muflikhah dan Baharudin 2009). K-means adalah salah satu teknik clustering dengan tujuan membagi sejumlah objek ke dalam partisi-partisi dengan melihat titik tengah (centroid) yang diberikan (Wadhvani et al. 2013). Suatu objek data termasuk dalam suatu cluster jika memiliki jarak terpendek terhadap centroid cluster tersebut. Clustering yang dilakukan pada penelitian ini digunakan untuk mengelompokan kalimat. Kalimat yang berada pada satu kelas adalah kalimat yang memiliki makna yang sama, sehingga nantinya akan dilakukan seleksi kalimat dengan cara mengambil salah satu kalimat dari setiap cluster sebagai perwakilan akan makna tertentu. Secara umum algoritma K-Means dapat dilihat pada Gambar 3. Banyaknya cluster pada penelitian ini bergantung pada tingkat peringkasan dan jumlah kalimat pada dokumen yang akan diringkas. Pada penelitian ini terdapat 3 tingkat peringkasan yaitu 30%, 20%, dan 10%. Apabila jumlah kalimat pada dokumen yang akan diringkas sebanyak 150 kalimat, dengan tingkat peringkasan sebesar 10%, maka jumlah cluster adalah sebanyak 150 x 0.10 = 15 cluster. Penentuan centroid awal (initial centroid) dilakukan dengan cara mengambil data dari tabel matriks TFISF secara acak atau random. Pada pengulangan berikutnya, centroid dihitung dengan menghitung nilai rata-rata data pada setiap cluster. Jika centroid baru berbeda dengan centroid sebelumnya, maka proses dilanjutkan
8 ke langkah berikutnya. Namun Jika centroid yang baru dihitung sama dengan centroid sebelumnya, maka proses clustering selesai. Rumus yang digunakan untuk menghitung jarak data dengan centroid adalah rumus euclidean distance. Adapun rumus euclidean distance dapat dilihat pada persamaan berikut; s n
d(xi , c j ) =
∑ (xik − c jk )2
(4)
j=1
dengan d adalah jarak data dengan centroid, j adalah banyaknya data, k adalah dimensi, c adalah centroid, dan x adalah data. Pengelompokan data dilakukan dengan memilih data yang memiliki jarak terpendek dengan centroid.
Gambar 3 Algoritma K-Means
Seleksi Kalimat Seleksi kalimat adalah proses akhir untuk menghasilkan ringkasan. Kalimat yang berada pada satu cluster adalah kalimat yang memiliki makna yang sama. Oleh karena itu, Seleksi kalimat dilakukan dengan cara mengambil satu kalimat dari setiap cluster yang dihasilkan dari algoritma K-Means. Seleksi kalimat dilakukan dengan cara mengurutkan kalimat dari nilai tertinggi hingga terendah yang didapat dari penjumlahan nilai TFISF. Pengurutan kalimat dilakukan pada setiap cluster, sehingga pada setiap cluster akan dipilih satu kalimat
9 yang memiliki nilai tertinggi. Banyaknya kalimat hasil ringkasan adalah sebanyak jumlah cluster yang bergantung pada banyaknya kalimat pada dokumen yang akan diringkas dan besarnya tingkat peringkasan.
Gambar 4 Proses seleksi kalimat
Evaluasi Peringkasan sistem dilakukan pada seluruh dokumen dengan tingkat peringkasan 30%, 20%, dan 10%. Ada beberapa teknik evaluasi untuk mengukur kualitas performa dari model clustering kalimat, diantaranya adalah information metrix, misclassification index, purity, F-Measure (Luthfiarta et al. 2013). Penelitian ini menggunakan teknik F-measure untuk mengukur kinerja model yang diusulkan. Pengukuran F-Measure berdasar pada nilai Precision dan Recall. Luthfiarta et al. (2013) menerangkan bahwa, semakin tinggi nilai Precision danRecall maka semakin tinggi pula tingat akurasinya. Recall adalah proporsi kalimat yang ditemukan kembali sebagai ringkasan, dan Precision adalah proporsi jumlah kalimat yang ditemukan dan dianggap relevan (J. Yang et al. 2014). Menurut Manning et al. (2008) untuk memudahkan melakukan perhitungan, maka digunakan tabel pendukung yang dapat dilihat pada Tabel 2. Tabel 2 Pendukung untuk menghitung recall, precision, f-measure, dan akurasi
Retrieved Not Retrieved
Relevant
Non-Relevant
tp fn
fp tn
Dari Tabel 2, nilai Recall, Precision, F-Measure, dan Akurasi dapat dihitung menggunakan rumus sebagai berikut: Recall =
tp tp+ fn
(5)
10
Precision =
F − Measure =
Akurasi =
tp tp+ f p
(6)
2 × Recall × Precision Recall + Precision
(7)
t p + tn t p + f p + f n + tn
(8)
sedangkan t p (true positive) adalah jumlah kalimat relevan yang terambil, f p (false positive) adalah jumlah kalimat yang tidak relevan yang terambil, f n (false negative) adalah jumlah kalimat relevan yang tidak terambil, dan tn (true negative) adalah jumlah kalimat yang tidak relevan yang tidak terambil.
Lingkungan Pengembangan Spesifikasi perangkat keras dan perangkat lunak yang digunakan untuk penelitian ini adalah sebagai berikut: 1. Perangkat keras berupa komputer personal dengan spesifikasi sebagai berikut: • Processor Core i7 vPro • RAM 8GB • Monitor LCD 14.0” HD • SSD 250 GB 2. Perangkat lunak: • Sistem Operasi Windows 8 • Bahasa pemrograman PHP • XAMPP v1.8.0 • Sublime Text 3 digunakan sebagai editor kode program
HASIL DAN PEMBAHASAN Pengumpulan Dokumen Kumpulan dokumen yang didapat dari repository.ipb.ac.id adalah merupakan skripsi mahasiswa Ilmu Komputer Institut Pertanian Bogor sebanyak 100 dokumen. Pengumpulan dokumen dilakukan dengan cara mengunduh secara acak tanpa memperhatikan indikator apapun. Keseluruhan dokumen tersebut digunakan sebagai data latih untuk menentukan fitur kata dan juga sebagai data uji untuk pengujian
11 sistem peringkasan otomatis. Setelah didapat 100 dokumen, dilakukan konversi secara manual dengan cara melakukan copy-paste setiap kalimat pada dokumen PDF yang sesuai dengan aturan yang telah dibuat, ke dalam file berformat TXT. Proses pengumpulan dokumen ini memakan waktu yang cukup lama karena harus memeriksa setiap kalimat dan disesuaikan dengan aturan yang telah dibuat. Hasil konversi menghasilkan rata-rata 134 kalimat dalam setiap dokumen. Adapun perbandingan banyaknya kalimat setelah dan sebelum dilakukan konversi dapat dilihat pada Gambar 5.
Gambar 5 Statistik kalimat 100 dokumen Secara keseluruhan, rata-rata sebesar 34.33% dari isi dokumen adalah tinjauan pustaka dan kalimat yang menjelaskan tentang gambar, tabel, dan persamaan/rumus. Oleh karena itu, rata-rata hanya 65.67% dari isi dokumen yang diikutsertakan dalam proses konversi dokumen. Selain melakukan perubahan dokumen ke dalam bentuk TXT, juga dilakukan peringkasan manual yang nantinya akan digunakan sebagai bahan pembanding dengan hasil ringkasan sistem untuk melakukan evaluasi. Pada penelitian ini diasumsikan bahwa hasil ringkasan manual adalah baik.
Pengindeksan Pengindeksan dilakukan dengan cara mengunggah satu persatu seluruh dokumen TXT ke dalam sistem. Sistem akan melakukan pemisahan kata serta menyimpan kata-kata yang terdapat pada setiap dokumen. kata yang telah disimpan akan digunakan untuk pembobotan kata dengan penghitungan IDF. Pemisahan Kata Pemisahan kata dilakukan dengan menggunakan delimiter karakter whitespace dan dijadikan ke dalam bentuk array. adapun potongan kode algoritma pemisahan kata yang digunakan pada penelitian ini adalah sebagai berikut:
12
1. $filename = ’./DATA_UPLOAD’.$path; 2. $content = strtolower(file_get_contents($filename)); 3. $wordArray = preg_split(’/[^ a-z]/’,$content, -1, PREG_SPLIT_NO_EMPTY); 4. $wordFrequencyArray = array_count_values($filteredArray); 5. arsort($wordFrequencyArray); Penelitian ini menggunakan fungsi ”array count values()” pada bahasa pemrograman PHP untuk mendapatkan frekuensi kata dan memfilter kata agar tidak terjadi redudansi kata pada array yang telah didapat di setiap dokumen. Potongan kode di atas memisahkan kata pada dokumen dengan memperhatikan karakter huruf yang dipisahkan oleh whitespace. sedangkan untuk angka dan/atau karakter selain huruf, tidak akan dianggap sebagai kata. Tabel 3 Record frekuensi kemunculan kata terhadap dokumen Kata adalah dan proses metode sistem nilai funsi model pengembangan berbasis format evaluasi fitur komputer system user query relevan sql video euclidean zulkifli xmlhttprequest
Frekuensi 100 100 96 92 88 87 79 70 66 61 57 53 48 46 39 38 25 25 11 11 4 1 1
Setelah mendapatkan kumpulan kata pada dokumen, kumpulan kata tersebut disimpan ke dalam database. Pemisahan kata pada 100 dokumen dalam penelitian ini telah menghasilkan record sebanyak 59230 kata. Namun, record tersebut masih
13 mencatat seluruh kata yang keluar pada setiap dokumen. Contoh kasus; kata ’adalah’ muncul di setiap dokumen yang artinya terdapat 100 record kata ’adalah’. Pada record tersebut juga terdapat 4 kata yang hanya terdiri dari 2 karakter yaitu: ”et”, ”al”, ”id”, dan ”ms”. jika 59230 record dilakukan teknik distinct (menghilangkan duplikasi) berdasarkan kata juga tidak mengikut sertakan kata yang hanya terdiri dari 2 karakter, maka akan menghasilkan 11151 kata unik. Beberapa kata unik dapat dilihat pada Tabel 3. Pada Tabel 3 dapat dilihat bahwa ada kata yang memiliki makna yang sama sperti kata ’sistem’ dan ’system’. Kata ’sistem’ muncul pada 88 dokumen, sedangkan kata ’system’ muncul pada 39 dokumen. Hal ini membuat bobot nilai kedua kata tersebut berbeda yang seharusnya dapat dijadikan 1 kata yang sama. Namun, pada penelitian ini kasus di atas tetap dijadikan 2 kata yang berbeda dan bobot yang berbeda karena sulitnya melakukan standarisasi kata dan bahkan mungkin merupakan suatu ungkapan atau obyek yang berbeda. Penelitian ini juga tidak menggunakan stemming dalam proses pemisahan kata karena proses stemming (proses untuk menemukan kata dasar dari sebuah kata) pada bahasa Indonesia lebih rumit/kompleks karena terdapat variasi imbuhan yang harus dibuang untuk mendapatkan kata dasar dari sebuah kata. Pemilihan Fitur Kata Pemilihan fitur kata didapat dengan menggunakan metode IDF. Pada penelitian ini, nilai IDF yang diambil sebagai fitur kata adalah nilai IDF yang terletak pada 0.1 ≤ IDF < 2.0 . Hal ini bertujuan untuk mendapatkan fitur kata yang keluar lebih dari 10 dokumen dan tidak pada seluruh dokumen. Adapun nilai IDF yang dihasilkan dapat dilihat pada Tabel 4. Tabel 4 Sebaran nilai IDF Frekuensi 1-13 14-20 21-30 31-40 41-50 51-60 61-70 71-80 81-90 91-100
Jumlah Kata
IDF
10195 4.61 - 2.04 295 1.97 - 1.61 229 1.56 - 1.20 140 1.17 - 0.92 72 0.89 - 0.69 64 0.67 - 0.51 39 0.49 - 0.36 34 0.34 - 0.22 25 0.20 - 0.11 58 0.09 - 0.00
Pada Tabel 4 terlihat bahwa dari 11151 kata, terdapat 10195 kata yang memiliki frekuensi kemunculan 1-13 dokumen. Apabila fitur kata yang digunakan memiliki frekuensi kemunculan yang kecil pada dokumen, maka peluang kemunculan
14 kata tersebut pada suatu kalimat juga semakin kecil. Hal ini akan mengakibatkan peluang kalimat bernilai nol akan semakin besar sehingga sulit untuk melakukan pembobotan kalimat. Pada Tabel 4 dapat dilihat bahwa nilai IDF yang memenuhi persyaratan atau 0.1 ≤ IDF < 2.0 terdapat pada kata-kata dengan frekuensi kemunculan di antara 14 sampai dengan 90 dokumen. Dari 11151 kata unik dari seluruh dokumen, terpilih sebanyak 894 kata yang memiliki nilai 0.1 ≤ IDF < 2.0 .
Peringkasan Teks Proses peringkasan otomatis dilakukan dengan cara mengunggah dokumen kedalam sistem. Sistem akan melakukan beberapa proses terhadap dokumen yang telah diunggah. Adapun proses yang akan dilakukan yaitu; pemisahan kalimat, pembobotan TF-ISF, clustering dengan menggunakan metode K-Means, dan proses terakhir adalah seleksi kalimat. Pemisahan Kalimat Pemisahan kalimat dilakukan dengan menggunakan beberapa indikator seperti titik (.), tanda seru (!), dan tanda tanya (?). kesulitan yang dihadapi adalah penggunaan tanda baca seperti titik (.) tidak hanya digunakan pada saat mengakhiri sebuah kalimat. Oleh karena itu, dilakukan perubahan karakter menggunakan fungsi PHP str replace() pada kasus-kasus tertentu seperti; 1. Tanda titik pada angka yang merupakan bilangan desimal. contoh 25.67 akan diubah menjadi 25*67. 2. Pada penulisan ”et al.” akan diubah menjadi ”et al*”. 3. Pada penulisan yang memberikan informasi format dari sebuah file. seperti .TXT, .PDF, data.sql, akan diubah menjadi *PDF yang nantinya akan diubah kembali menjadi tanda titik (.) untuk hasil peringkasan otomatis. contoh kasus: pada dokumen ke-10 kalimat ke-4: "Zang et al. (2001) telah menggunakan Support Vector Machine (SVM) untuk klasifikasi pada sistem temu kembali citra ciri warna." diubah menjadi: "Zang et al* (2001) telah menggunakan Support Vector Machine (SVM) untuk klasifikasi pada sistem temu kembali citra ciri warna." proses ini hanya untuk menemukan tanda titik pada akhir kalimat. Setelah itu, tanda ”*” akan kembali diganti menjadi tanda ”.” seperti: "Zang et al. (2001) telah menggunakan Support Vector Machine (SVM) untuk klasifikasi pada sistem temu kembali citra ciri warna."
15 Pada dasarnya algoritma pemrograman yang dibuat akan memisahkan kalimat menggunakan tanda titik (.), tanda seru (!), dan tanda tanya (?) yang setelahnya diikuti dengan karakter white space kecuali pada kasus tertentu seperi penulisan ”et al.”. Hal ini berguna untuk tidak memisahkan kata yang menjelaskan suatu istilah yang memberikan informasi tertentu seperti .PDF, .TXT, menyatakan suatu url seperti http://ipb.ac.id, dan lain sebagainya. Masalah dapat muncul apabila terdapat suatu kalimat yang diakhiri dengan indikator berhenti namun tidak disertai karakter white space, maka kalimat tidak akan terpisah hingga menemukan indikator yang disertai dengan white space. Hal ini akan terjadi apabila terdapat kesalahan penulis dalam menulis teks dokumen (human error). Namun, pada penelitian ini, dari 100 dokumen tidak terdapat kasus seperti yang dijelaskan diatas. Pembobotan TFISF Pembobotan TFISF dilakukan dengan menggunakan fitur kata yang telah didapat pada tahap pengindeksan. TFISF dilakukan untuk pembobotan kalimat pada masing-masing dokumen. Adapun potongan kode program untuk menentukan nilai TF adalah sebagai berikut; 1. foreach($fiturkata->result() as $fit){ 2. $fitur_kata = " ".$fit->kata." "; 3. $SFkata[$fit->kata]= 0; 4. foreach($sentence->result() as $sen){ 5. $kalimat = $sen->kalimat; 6. $kalimat = str_replace(array("?", ".", "!", ","), ’ ’, $kalimat); 7. $kalimat = " ".$kalimat." "; 8. $tf[$sen->id_kalimat_sementara][$fit->id] = substr_count($kalimat, $fitur_kata); 9. if($tf[$sen->id_kalimat_sementara][$fit->id] !=0){ 10. $SFkata[$fit->kata] += 1; 11. } 12. } 13. } Pada baris ke-6 kode pogram di atas, jika terdapat kata yang diikuti dengan karakter tertentu, maka karakter tersebut akan dihilangkan guna memudahkan mencari kata yang sesuai dengan fitur kata pada kalimat. Pada baris ke-8 kode pogram menggunakan fungsi substr-count untuk menemukan kata pada kalimat yang sesuai dengan fitur kata. Masalah yang terjadi adalah fungsi tersebut juga mengikut sertakan kata yang bukan benar-benar sesuai dengan fitur kata. contoh kasus seperti fitur kata ”perlu” akan terdeteksi muncul pada kalimat yang memiliki kata ”perluasan”. Untuk mengatasi masalah tersebut, di-
16 lakukan penambahan white space pada awal dan akhir dari fitur kata seperti yang dilakukan pada baris ke-2 potongan kode program di atas. Hal ini berguna untuk menemukan fitur kata yang benar pada setiap kalimat. Sehingga, fitur kata ”<spasi>perlu<spasi>” tidak akan terdeteksi pada kata ”perluasan”. Potongan kode program diatas berhasil menghasilkan penghitungan TF dengan cukup baik. Sedangkan potongan program pembobotan TFISF adalah sebagai berikut; 1. foreach($sentence->result() as $sen2){ 2. $TF = $tf[$sen2->id_kalimat_sementara][$fit2->id]; 3. $SF = $SFkata[$fit2->kata]; 4. if($TF == 0 || $SF ==0){ 5. $TFISF = 0; 7. } 8. else{ 9. $BAG = $jum/$SF; 10. $ISF = log($BAG,10); 11. $TFISF = $TF * $ISF; 12. echo "
".$TFISF." | "; 13. } 14. $total_kalimat[$sen2->id_kalimat_sementara] += $TFISF; 15. $ArrayKmeans[$sen2->id_kalimat_sementara][$BanyakKata]= $TFISF; 16. } Kode baris ke-9,10,dan 11 adalah kode program yang disesuaikan dengan rumus penghitungan TFISF seperti pada Persamaan 3. Pada kode baris ke-14 dilakukan penjumlahan nilai TFISF dari setiap kalimat dan dijadikan sebagai nilai dari suatu kalimat yang nantinya akan digunakan pada tahap seleksi kalimat. Adapun hasil matriks pembobotan TFISF pada dokumen ke-4 dapat dilihat pada Tabel 5. Tabel 5 Matriks hasil TFISF dokumen ke-4 Fitur Kata
S1
S2
...
S72
S73
...
acak 0 0 ... acuan 0 0 ... adanya 0 0 ... adapun 0 0 ... administrator 0 0 ... agar 0 0 ... akhir 0 0 ... akses 0 0 ... aktivitas 0 0 ... akurasi 0 0 ... ... ... ... ... TOTAL 30.66 10.94 ...
0 0 0 0 0 1.30 0 0 0 0 ... 6.60
0 ... 0 ... 2.07 ... 0 ... 0 ... 0 ... 0 ... 0 ... 0 ... 0 ... ... ... 11.86 ...
S119 0 0 0 0 0 0 0 0 0 ... 21.65
17 Pada penelitian ini pembobotan TFISF menghasilkan rata-rata matriks dengan dimensi 134 x 894, dan pada umumnya berbentuk sparse matriks karena banyak elemen yang bernilai nol. Hal ini disebabkan karena tidak setiap kata terdapat di setiap kalimat, maka TFISF akan bernilai nol. Clustering Kalimat dengan Metode K-Means Banyaknya cluster pada penelitian ini bergantung pada tingkat peringkasan dan jumlah kalimat pada dokumen yang akan diringkas. adapun potongan kode program untuk menentukan banyaknya cluster adalah sebagai berikut: 1. $BanyakCluster = ($BanyakKalimat * 30) / 100 ; 2. $BanyakCluster = floor($BanyakCluster); Pada baris ke-2 digunakan fungsi floor untuk menghasilkan nilai bulat pada hasil penghitungan berdasarkan tingkat peringkasan. Misalnya; pada dokumen ke-10 terdapat 119 kalimat dengan tingkat peringkasan sebesar 30%, maka jumlah cluster adalah sebanyak 119 x 0.30 = 35,70 akan menjadi 35 cluster. Pada penelitian ini, penentuan centroid awal (initial centroid) dilakukan dengan cara mengambil data dari matriks TFISF secara acak atau random. Setelah itu, centroid berikutnya akan dilakukan penghitungan sesuai dengan Persamaan 4 sampai iterasi ke-n. Masalah yang ditemui adalah pada penghitungan dan iterasi yang dilakukan memakan waktu yang cukup lama dikarenakan besarnya dimensi matriks TFISF yang rata-rata berdimensi 134 x 894. Rata-rata membutuhkan waktu sekitar 10 detik untuk menyelesaikan clustering kalimat. Adapun hasil clustering pada dokumen ke-4 dengan tingkat peringkasan 30% dapat dilihat pada Tabel 6. Setiap cluster dapat memiliki minimal 1 kalimat dan maksimal banyak kalimat. Sebagai contoh pada Tabel 6, hasil dari cluster 31 (C31) pada dokumen ke-4 terdapat 4 kalimat yaitu: 1. ”dengan menggunakan time constraint 4 bulan, ternyata maksimal item yang dapat dibentuk pada sebuah sequence adalah 5 (5-sequence).” [bobot = 6.35] 2. ”dengan menggunakan time constraint 2 bulan, ternyata maksimal item yang dapat dibentuk pada sebuah sequence adalah 8 (8-sequence).” [bobot = 6.35] 3. ”dengan menggunakan time constraint 20 hari, ternyata maksimal item yang dapat dibentuk pada sebuah sequence adalah 2 (2-sequence).” [bobot = 6.86] 4. ”dengan menggunakan time constraint 6 bulan, ternyata maksimal item yang dapat dibentuk pada sebuah sequence adalah 6 buah (6-sequence).” [bobot = 8.43] Jika dilihat pada kalimat-kalimat tersebut, secara keseluruhan mambahas tentang ”time constraint”. Oleh karena itu, proses clustering telah berhasil mengelompokkan kalimat yang memiliki makna yang hampir sama.
18 Tabel 6 Hasil clustering dokumen ke-4 Cluster C1 C2 C3 ... C21 C22 C23 ... C31 C32 C33 C34 C35
Jumlah Kalimat 3 7 2 ... 1 3 7 ... 4 1 2 2 1
Seleksi Kalimat Seleksi kalimat dilakukan dengan cara mengurutkan kalimat dari nilai tertinggi hingga terendah yang telah didapat dari penjumlahan nilai TFISF pada tahap pembobotan TFISF. Pengurutan kalimat dilakukan pada setiap cluster, sehingga setiap cluster akan diwakilkan oleh satu kalimat yang memiliki nilai tertinggi. Setiap kalimat pada hasil cluster 31 (C31) pada dokumen ke-4 telah memiliki bobot nilai yang apabila dilakukan seleksi kalimat pada C31 akan terpilih kalimat ke-4 dengan bobot nilai 8.43. Kalimat ”dengan menggunakan time constraint 6 bulan, ternyata maksimal item yang dapat dibentuk pada sebuah sequence adalah 6 buah (6-sequence)” akan mewakili C31 dan keluar sebagai ringkasan.
Evaluasi Clustering selalu memberikan hasil yang berbeda-beda. Hal ini disebabkan karena proses clustering sangat bergantung pada penentuan centroid awal yang pada penelitian ini dilakukan dengan memilih baris data secara acak. Untuk mengatasi hal ini, setiap dokumen dilakukan peringkasan otomatis sebanyak 4 kali pada setiap besar tingkat peringkasan dan diambil nilai rata-rata dari setiap hasilnya. Total percobaan peringkasan otomatis sistem dilakukan sebanyak 1200 kali. Adapun evaluasi hasil ringkasan sistem dengan ringkasan manual dapat dilihat pada Tabel 7, 8, dan 9. Nilai evaluasi hasil ringkasan sistem pada tiap percobaan dalam satu tingkat peringkasan tidak jauh berbeda walau menghasilkan keluaran ringkasan yang berbeda. Hasil ringkasan sistem pada tingkat peringkasan 30% menghasilkan rata-rata re-
19 Tabel 7 Hasil ringkasan dengan tingkat peringkasan 30% Recall Precision F-Measure Akurasi
Percobaan-1 0.33 0.43 0.37 0.57
Percobaan-2 0.33 0.43 0.37 0.57
Percobaan-3 0.33 0.43 0.37 0.57
Percobaan-4 0.33 0.43 0.37 0.57
Rata-rata 0.33 0.43 0.37 0.57
Tabel 8 Hasil ringkasan dengan tingkat peringkasan 20% Recall Precision F-Measure Akurasi
Percobaan-1 0.22 0.43 0.29 0.58
Percobaan-2 0.22 0.44 0.29 0.59
Percobaan-3 0.22 0.42 0.28 0.58
Percobaan-4 0.22 0.44 0.29 0.59
Rata-rata 0.22 0.43 0.29 0.58
Tabel 9 Hasil ringkasan dengan tingkat peringkasan 10% Recall Precision F-Measure Akurasi
Percobaan-1 0.11 0.45 0.17 0.60
Percobaan-2 0.12 0.48 0.18 0.60
Percobaan-3 0.11 0.45 0.18 0.60
Percobaan-4 0.11 0.43 0.17 0.60
Rata-rata 0.11 0.45 0.17 0.60
call 32.95%, Precision 43.07%, f-measure 36.98%, dan akurasi sebesar 57.11%. Untuk tingkat peringkasan 20% menghasilkan rata-rata recall 22.11%, Precision 43.40%, f-measure 28.96%, dan akurasi sebesar 58.44%. Sedangkan pada tingkat peringkasan 10% hasil ringkasan sistem menghasilkan rata-rata recall 11.13%, Precision 45.06%, f-measure 17.70%, dan akurasi sebesar 60%. Nilai akurasi terendah adalah sebesar 43.21% pada tingkat peringkasan 20%, dan nilai akurasi tertinggi adalah sebesar 83.87% yang terdapat pada hasil ringkasan dengan tingkat peringkasan 10%. Nilai minimum, maksimum, dan rata-rata akurasi peringkasan otomatis sistem dapat dilihat pada Gambar 6. Pada Gambar 6 dapat dilihat bahwa rata-rata nilai akurasi berbanding terbalik dengan tingkat peringkasan sistem. Rata-rata nilai akurasi sistem akan semakin rendah jika tingkat peringkasan semakin tinggi. Hal ini disebabkan karena semakin rendah tingkat peringkasan, maka akan menjadi semakin sedikit kalimat ringkasan yang dihasilkan oleh sistem dan semakin kecil pula peluang kesalahannya. Selain perbandingan nilai akurasi, dalam evaluasi hasil ringkasan juga terdapat perbandingan nilai recall, precision, dan f-measure yang dapat dilihat pada Gambar 7, 8, dan 9. Pada Gambar 7 terlihat nilai recall terendah adalah sebesar 4.28% pada tingkat peringkasan 10%, dan nilai recall tertinggi adalah sebesar 41.14% yang terdapat pada hasil ringkasan dengan tingkat peringkasan 30%. Rata-rata nilai recall sistem akan semakin tinggi seiring meningkatnya tingkat peringkasan. Artinya, semakin besar tingkat peringkasan, akan menghasilkan semakin banyak kalimat yang muncul sebagai ringkasan sistem, dan semakin besar pula peluang munculnya kalimat yang sesuai dengan ringkasan manual.
20
Gambar 6 Perbandingan nilai akurasi peringkasan otomatis
Gambar 7 Perbandingan nilai recall peringkasan otomatis Pada Gambar 8 terlihat nilai precision terendah adalah sebesar 10.59% pada tingkat peringkasan 30%, dan nilai precision tertinggi adalah sebesar 71.87% yang terdapat pada hasil ringkasan dengan tingkat peringkasan 10%. Rata-rata nilai precision sistem menjadi semakin rendah seiring meningkatnya tingkat peringkasan. Artinya, semakin besar tingkat peringkasan, semakin kecil pula proporsi jumlah kalimat ringkasan yang dihasilkan sistem dan dianggap relevan. walau begitu, perbedaan nilai precision hasil peringkasan otomatis tidaklah begitu besar. Precision merupakan rasio jumlah kalimat ringkasan sistem yang relevan dengan total jumlah kalimat yang diambil sistem sebagai ringkasan. Adapun nilai precision yang tertinggi dari percobaan pada penelitian ini terdapat pada dokumen 91 yaitu sebesar 0.81 dengan jumlah kalimat ringkasan yang dihasilkan sistem sebesar 16
21
Gambar 8 Perbandingan nilai precision peringkasan otomatis Tabel 10 Suatu percobaan hasil peringkasan Dokumen 91 10%
20%
30%
Jumlah Kalimat Ringkasan Sistem 8.00 Jumlah Kalimat Ringkasan Manual 43.00 Jumlah Kalimat pada Dokumen 83.00 TP 6.00 FN 37.00 FP 2.00 TN 38.00 Recall 0.14 Precision 0.75 F-measure 0.24 Akurasi 0.53
16.00 43.00 83.00 13.00 30.00 3.00 37.00 0.30 0.81 0.44 0.60
24.00 43.00 83.00 16.00 27.00 8.00 32.00 0.37 0.67 0.48 0.58
kalimat dan terdapat 13 kalimat yang relevan dengan ringkasan manual. Nilai hasil peringkasan pada dokumen 91 dapat dilihat pada Table 10. Nilai precision yang terendah terdapat pada percobaan meringkas dokumen 9 yang memberikan nilai precision sebesar 0.07 dengan jumlah kalimat ringkasan yang dihasilkan sistem sebesar 30 kalimat dan hanya terdapat 2 kalimat yang relevan dengan ringkasan manual. Nilai hasil peringkasan pada dokumen 9 dapat dilihat pada Table 11. Hal ini jelas sangat bergantung dengan seberapa banyak kalimat yang relevan dan jumlah kalimat yang diambil oleh sistem sebagai hasil ringkasan. Apabila ringkasan system dibandingkan dengan ringkasan manual, maka baik atau tidaknya ringkasan manual dan atau ringkasan sistem sangatlah mempengaruhi hasil evaluasi. Baik atau tidaknya ringkasan manual sangatlah bersifat subyektif. Sedangkan baik atau tidaknya hasil ringkasan sistem bergantung pada fitur kata yang digunakan. Fitur yang digunakan penelitian ini adalah kata yang memiliki nilai 0.1 ≤ IDF < 2.0.
22 Tabel 11 Suatu percobaan hasil peringkasan Dokumen 9 10%
20%
30%
Jumlah Kalimat Ringkasan Sistem 30.00 61.00 92.00 Jumlah Kalimat Ringkasan Manual 28.00 28.00 28.00 Jumlah Kalimat pada Dokumen 307.00 307.00 307.00 TP 2.00 7.00 9.00 FN 26.00 21.00 19.00 FP 28.00 54.00 83.00 TN 251.00 225.00 196.00 Recall 0.07 0.25 0.32 Precision 0.07 0.11 0.10 F-measure 0.07 0.16 0.15 Akurasi 0.53 0.76 0.67 Pada dokumen 9 yang memiliki precision terkecil, dicoba untuk melakukan peringkasan dengan fitur kata 0.1 ≤ IDF < 3.5 untuk melihat apakah precision berubah signifikan ketika fitur kata lebih banyak. Adapun hasil peringkasan dokumen 9 dengan fitur kata 0.1 ≤ IDF < 3.5 dapat dilihat pada Tabel 12. Tabel 12 Percobaan hasil peringkasan Dokumen 9 dengan fitur kata baru 10%
20%
30%
Jumlah Kalimat Ringkasan Sistem 30.00 61.00 92.00 Jumlah Kalimat Ringkasan Manual 28.00 28.00 28.00 Jumlah Kalimat pada Dokumen 307.00 307.00 307.00 TP 4.00 8.00 12.00 FN 24.00 20.00 16.00 FP 26.00 53.00 80.00 TN 253.00 226.00 199.00 Recall 0.14 0.28 0.42 Precision 0.13 0.13 0.13 F-measure 0.13 0.17 0.20 Akurasi 0.83 0.76 0.68 Pada Tabel 12 dapat dilihat peningkatan nilai precision ketika fitur kata diubah. Namun, perubahan tersebut tidaklah begitu besar. Kecilnya nilai precision pada Dokumen 9 dapat dipengaruhi oleh ringkasan manual yang merupakan acuan dari evaluasi. Jumlah ringkasan manual yang kecil dan atau kualitas ringkasan manual yang kurang baik dapat menyebabkan peluang meningkatnya nilai f p . Pada Gambar 9 terlihat nilai f-measure terendah adalah sebesar 6.25% pada tingkat peringkasan 10%, dan nilai f-measure tertinggi adalah sebesar 47,54% yang terdapat pada hasil ringkasan dengan tingkat peringkasan 30%. Rata-rata nilai fmeasure sistem akan semakin tinggi seiring meningkatnya tingkat peringkasan.
23
Gambar 9 Perbandingan nilai f-measure peringkasan otomatis Perbandingan keseluruhan baik recall, precision, f-measure, maupun akurasi dari hasil ringkasan antara tingkat peringkasan 10%, 20%, dan 30% dapat dilihat pada Gambar 10.
Gambar 10 Perbandingan keseluruhan hasil ringkasan Nilai rata-rata recall meningkat seiring dengan meningkatnya tingkat peringkasan. Untuk nilai rata-rata precision mengalami penurunan seiring dengan meningkatnya tingkat peringkasan. namun penurunannya tidak begitu besar. Untuk nilai rata-rata f-measure meningkat seiring dengan meningkatnya tingkat peringkasan. Sedangkan nilai rata-rata akurasi cenderung menurun seiring dengan meningkatnya tingkat peringkasan. Dikatakan rata-rata karena dari 100 dokumen, ada beberapa dokumen yang justru memberikan hasil yang berbeda dari perbandingan nilai rata-rata keseluruhan dokumen. Adapun hal-hal yang terjadi adalah; 1. Terdapat 7 dokumen yang nilai akurasinya berlawanan (meningkat seiring dengan meningkatnya tingkat peringkasan). 2. Terdapat 13 dokumen dengan nilai precision yang berlawanan (semakin tinggi
24 seiring meningkatnya tingkat peringkasan).
Gambar 11 Dokumen 10.txt yang mengalami perubahan akurasi berlawanan Pada Gambar 11 merupakan salah satu contoh dokumen yang menghasilkan nilai akurasi yang semakin tinggi seiring dengan meningkatnya tingkat peringkasan. Evaluasi yang dilakukan pada penelitian ini sangat bergantung kepada ringkasan manual yang dilakukan pada setiap dokumen. Sistem melakukan dengan menggunakan fitur kata dan metode K-Means untuk menghasilkan ringkasan. Sedangkan ringkasan manual dilakukan oleh manusia dan merangkum isi dokumen berdasarkan kehendak masing-masing untuk memilih kalimat mana yang dianggap baik sebagai peringkasan otomatis. Tingkat peringkasan yang semakin tinggi membuat jumlah kalimat yang keluar sebagai hasil ringkasan sistem juga meningkat. Nilai t p, f n, f p, dan tn sangat mempengaruhi hasil precision dan akurasi. Sedangkan banyaknya kalimat ringkasan yang dikeluarkan oleh sistem dan baiknya ringkasan manual yang dibuat oleh manusia juga sangat mempengaruhi nilai t p, f n, f p, dan tn. Hal yang terjadi pada dokumen yang memiliki nilai akurasi yang berlawanan adalah; karena hasil evaluasi memiliki nilai penjumlahan tn dengan t p yang meningkat seiring dengan meningkatnya tingkat peringkasan. Sedangkan pada umumnya hasil penjumlahan nilai tn dengan t p akan menurun seiring meningkatnya tingkat peringkasan.
SIMPULAN DAN SARAN Simpulan Berdasarkan penelitian yang telah dilakukan, dapat disimpulkan beberapa hal sebagai berikut: 1. Sistem peringkasan dokumen otomatis berdasarkan fitur kata telah berhasil dikembangkan. 2. Penggunaan metode K-Means dengan pembobotan kalimat berdasarkan fitur kata menghasilkan rata-rata akurasi 58.51%, recall 22.06%, precision 43.84%, dan f-measure 27.88%. 3. Clustering menggunakan K-Means membuat hasil ringkasan mengalami perubahan disetiap kali percobaan dan membuat tingkat akurasi hasil ringkasan selalu berubah. Sehingga, peringkasan dokumen dengan menggunakan metode K-Means tidak menghasilkan ringkasan yang statis.
Saran Pembuatan ringkasan manual untuk setiap dokumen sebaiknya dibuat oleh lebih dari satu orang agar mendapatkan ringkasan yang obyektif (bersifat umum) dengan harapan akurasi yang didapatkan akan lebih baik.
DAFTAR PUSTAKA Agrawal, Ayush, dan Utsay Gupta. 2014. “Extraction Based Approach for Text Summarization Using KMeans Clustering” dalam: IJSRP 4 (11). Agusta, L. 2009. “Perbandingan Algoritma Stemming Porter dengan Algoritma Nazief Adriani untuk Stemming Dokumen Teks Bahasa Indonesia” dalam: Konferensi Nasional Sistem dan Informatika. Arai, K dan AR Barakbah. 2007. “Hierarchical K-means: an Algorithm for Centroids Initialization for K-means. 1” dalam: Saga University, pp. 25–31. Luthfiarta, A, J Zeniarja, dan A Salam. 2013. “Algoritma Latent Semantic Analysis (LSA) Pada Peringkas Dokumen Otomatis untuk Proses Clustering Dokumen” dalam: Seminar Nasional Teknologi Informasi Komunikasi Terapan 2013 (SEMANTIK 2013). Manjula, KS, S Begum, dan DVS Ramana. 2013. “Extracting Summary from Documents Using K-Mean Clustering Algorithm” dalam: International Journal of Advanced Research in Computer and Communication Engineering 2 (8), p. 3244. Manning, CD, P Raghavan, dan H Schutze. 2008. An Introduction to Information Retrieval. Cambridge University Press. Manyika, J et al. 2011. “Big data: The Next Frontier for Innovation, Competition, and Productivity” dalam: [MGI] McKinsey Global Institute.
26 Muflikhah, L dan B Baharudin. 2009. “Document Clustering using Concecpt Space and Cosine Similarity Measuremenr” dalam: Internatinal Conference on Computer Technology and Development, pp. 58–62. Munot, N dan SS Govilkar. 2014. “Comparative Study of Text Summarization Methods” dalam: International Journal of Computer Applications 102 (2), pp. 33–37. Mustaqhfiri, M. 2011. “Peringkasan Teks Otomatis Berita Olahraga Berbahasa Indonesia Menggunakan Metode Maximum Marginal Relevance”. Skripsi. Universitas Islam Negeri Maulana Malik Ibrahim. Rino, LHM et al. 2004. “Advances in Artificial Inteligence – SBIA 2004: 17th Brazilian Symposium on Artificial Intelligence” dalam: Ana LCB 3171, pp. 240– 241. Suanmali, L, N Salim, dan MS Binwahlan. 2009. “Fuzzy Logic Based Method for Improving Text Summarization” dalam: IJCSIS 2 (1). Wadhvani, R, RK Pateriya, dan D Roy. 2013. “A Topicdriven Summarization using K-mean Clustering and Rf-Isf Sentence Ranking” dalam: International Journal of Cmputer Aplications 79 (8). Wajeed, MA dan T Adilakshmi. 2009. “Text Classification Using Machine Learning” dalam: Journal of Theoretical and Applied Information Technology 7 (2). – 2012. “Comparison of Supervised and Semi-Supervised Fuzzy Clusters in Text Categorization” dalam: International Journal of Fuzzy Logic System (IJFLS) 2 (1). Yang, J, Z Qu, dan Z Liu. 2014. “Improved FeatureSelection Method Considering the Imbalance Problem in Text Categorization” dalam: Hindawi Publishing Corporation the Scientific World Journal 2014, p. 625342. Yang, Y dan JO Pedersen. “A Comparative Study on Feature Selection in Text Categorization” dalam: ed. by Morgan Kaufmann, Nashville, and Tenn. USA.
27
Lampiran 1. Daftar dokumen skripsi yang digunakan No.
Nama File
Judul Dokumen
1
G06amu.pdf
2
G06ede.pdf
3
G06fso.pdf
4
G06hag.pdf
5
G06rhs.pdf
6
G09apa2.pdf
7
G09eap.pdf
8
G09nls.pdf
9 10
G09sha.pdf G09wsj.pdf
11
G09yar.pdf
12 13
G11afr.pdf G11ara.pdf
14
G11hra.pdf
15
G11jaz.pdf
16
G11kau.pdf
17
G11kpa.pdf
18
G11mrf.pdf
19 20
G11mus.pdf G11pra.pdf
21
G12kab.pdf
22
G12nsa2.pdf
23
G12zmu.pdf
24
G13ant.pdf
25
G13cpy.pdf
26
G13cws.pdf
Pengembangan Aplikasi Data Mining Menggunakan Fuzzy Association Rules Sistem Informasi Untuk Melihat Rute Terpendek dan Jalur Angkot Berbasis SMS Pengembangan Sistem Informasi Geografis Hutan Kota Propinsi DKI Jakarta Penentuan Pola Sekuensial Pada Data Transaksi Perpustakaan IPB Menggunakan Algoritma Graph Search Techniques Sistem Informasi Dinas Pendidikan Berorientasi Objek dan Berbasis Web (Studi Kasus Kota Tanjung Pinang Kepulauan Riau) Sistem Informasi Geografi Asrama Putri TPB IPB Berbasis Web Menggunakan Alov Map Pengenalan Wajah Dengan Citra Pelatihan Tunggal Menggunakan Algoritme VF15 Berbasis Histogram Ekspansi Kueri Pada Sistem Temu Kembali Informasi Berbahasa Indonesia Menggunakan Kamus Dwibahasa Perancangan Prototipe Ebook Reader Menggunakan Usability Engineering Optimasi Query Citra Dengan Relevance Feedback dan Support Vector Machine Penentuan Tingkat Keberhasilan Mahasiswa Tingkat I IPB Menggunakan Induksi Pohon Keputusan dan Bayesian Classifier Identifikasi Campuran Nada Pada Suara Piano Menggunakan Codebook Klasifikasi Dokumen Bahasa Indonesia Menggunakan Metode Semantic Smoothing Clustering Konsep Dokumen Berbahasa Indonesia Menggunakan Bisecting K-Means Pengenalan Iris Mata Dengan Backpropagation Neural Network Menggunakan Praproses Transformasi Wavelet Data Warehouse dan Aplikasi OLAP Akademik Kurikulum Mayor-Minor Berbasis Linux Klasifikasi Dokumen Tumbuhan Obat Menggunakan Algoritma KNN Fuzzy Klasifikasi Genre Musik Menggunakan Learning Vector Quantization (LVQ) Pengembangan Distribusi ILOS Multimedia (ILOSMEDIA) Pengenalan Kata Berbasiskan Fenom Dengan Pemodelan Resilient Backpropagation Rancang Bangun Komunikasi Data Wireless Mikrocontroler Menggunakan Modul Xbee Zigbee (IEEE 802.15.4) Klasifikasi Dokumen Bahasa Indonesia Menggunakan Semantic Smoothing Dengan Ekstraksi Ciri Chi-Square Analisis Pengaruh Dinamika Peer Pada Hierarchical Peer-To-Peer Menggunakan Topologi Superpeer Penerapan Teknik Penarikan Contoh Kuota Untuk Penentuan Aplikasi Pada Distro IPB Linux Operating System (ILOS) Implementasi Jaringan Peer-To-Peer Tak Terstrukstur Menggunakan Protokol JXTA Deteksi Malware Berbasis System Call Dengan Klasifikasi Support Vector Machine Pada Android
28 No.
Nama File
Judul Dokumen
27
G13dan.pdf
28
G13dsu.pdf
29 30 31
G13eap.pdf G13ens.pdf G13esa.pdf
32
G13fam.pdf
33
G13fdh.pdf
34
G13fir.pdf
35
G13gka.pdf
36
G13hap.pdf
37
G13ita.pdf
38
G13mam.pdf
39 40
G13mir.pdf G13mpa.pdf
41 42 43
G13naz1.pdf G13nca.pdf G13nfp.pdf
44
G13rjs.pdf
45
G13rrp.pdf
46
G13rsu.pdf
47
G13sba.pdf
48
G13sra1.pdf
49
G13swi.pdf
50
G14aam1.pdf
51 52
G14aau.pdf G14ada.pdf
53
G14adn.pdf
54
G14afa.pdf
Perbandingan Algoritme C4.5 dan Cart Pada Data Tidak Seimbang Untuk Kasus Prediksi Risiko Kredit Debitur Kartu Kredit Pengindeksan Ontologi Dokumen Bahasa Indonesia Menggunakan Latent Semantic Analysis Pencarian Teks Bahasa Indonesia Pada Mesin Pencari Berbasis Soundex Identifikasi Varietas Ubi Jalar Menggunakan Metode Decision Tree J48 Aplikasi Bagan Warna Daun Untuk Optimasi Pemupukan Tanaman Padi Menggunakan K-Nearest Neighbor Cross Language Question Answering System Menggunakan Pembobotan Heuristic dan Multidokumen Sistem Pendeteksi Plagiat Harfiah Pada Dokumen Teks Berbahasa Indonesia Dengan Memanfaatkan Mesin Pencari Pembangunan Framework Untuk Deteksi Perubahan dan Irisan Wilayah Pada Data Spatiotemporal Sistem Pencarian Turunan Kata Pada Al-Quran Menggunakan Light Stemming dan Clustering Untuk Pembicara Bahasa Indonesia Analisis Pengaruh Kecepatan Mobilitas Terhadap Kinerja Video Streaming Pada Jaringan Wireless Ad Hooc Peningkatan Pelayanan Penilangan Melalui Sistem E-Violation (Studi Kasus Satuan Lalu Lintas Polres Bogor) Sistem Informasi Geografis Ruang Kuliah Kampus IPB Dramaga Berbasis Mobile Dengan Platform Android OS Penerapan Algoritme Dijkstra Pada Rute Angkot Bogor Berbasis Android Optimasi Jaringan Saraf Tiruan Menggunakan Algoritme Genetika Untuk Peramalan Panjang Musim Hujan Identifikasi Kolektibilitas Kredit Menggunakan Decision Tree Koreksi DNA Sequencing Error Dengan Metode Spectral Alignment Sistem Deteksi Luka Pada Otot Kaki Abalon (Haliotis Asinina) Menggunakan Metode Histogram dan Morfologi Identifikasi Varietas Kunyit Berdasarkan Ciri Fisik Menggunakan Algoritme C4.5 Peringkas Dokumen Berbahasa Indonesia Berbasis Kata Benda Dengan BM25 Penentuan Jalur Tercepat dan Terpendek Berdasarkan Kondisi Lalu Lintas Di Kota Bogor Menggunakan Algoritme Dijkstra dan Algoritme FloydWarshall Pelayanan Publik Online: Sistem Online dan SMS Gateway Pada Pelayanan Izin Usaha Industri Pembangunan Data Warehouse dan Aplikasi OLAP Kepegawaian Institut Pertanian Bogor Peringkasan Teks Bahasa Indonesia Dengan Pemilihan Fitur C4.5 dan Klasifikasi Naive Bayes Pengembangan Sistem Informasi Desain Lanskap Tanaman Obat Keluarga Pada Cloud Computing Penerapan SOM Untuk Pengenalan Nada Pada Angklung Modern Pengklasifikasian Genre Musik Berdasarkan Sinyal Audio Menggunakan Support Vector Machine Post Pruning Pohon Keputusan Spasial Untuk Klasifikasi Kemunculan Titik Panas Prediksi Panjang Musim Hujan Menggunakan Time Delay Neural Network
29 No.
Nama File
Judul Dokumen
55
G14aha1.pdf
56
G14amu5.pdf
57
G14apr1.pdf
58
G14ash.pdf
59
G14ask.pdf
60
G14atr.pdf
61
G14bsi.pdf
62
G14cfr.pdf
63
G14dam.pdf
64
G14dfm.pdf
65
G14ead.pdf
66
G14egp.pdf
67
G14esy.pdf
68
G14fam.pdf
69
G14fap1.pdf
70
G14fel.pdf
71 72
G14gpr.pdf G14htr.pdf
73 74
G14iad.pdf G14ins.pdf
75
G14kil.pdf
76
G14kum.pdf
77
G14lns.pdf
78 79
G14man.pdf G14mch.pdf
80
G14mdh.pdf
Implementasi dan Analisis Kinerja Switch Openflow dan Switch Konvensional Pada Jaringan Komputer Penerapan Jaringan Saraf Tiruan Untuk Pemodelan Prakiraan Curah Hujan Bulanan Penambahan Layer Google Maps Pada Spatial Data Warehouse Titik Panas Di Indonesia Klasifikasi Fragmen Metagenom Menggunakan Oblique Decision Tree Dengan Optimasi Algoritme Genetika Steganografi Linguistik Metode Nicetext Menggunakan Kata dan Variasi Pola Kalimat Dasar Bahasa Indonesia Aplikasi Mobile Identifikasi Penyakit Daun Kubis Dengan Fast Fourier Transform dan Probabilistic Neural Network Pengelompokan Sekuens DNA Menggunakan Metode K-Means dan Fitur N-Mers Frequency Pencarian Jarak Titik Akses Sinyal Wireless Fidelity (WiFi) Dengan Location Based Servise (LBS) Pada Android Di Area IPB Darmaga Deteksi Data Titik Api Di Provinsi Riau Menggunakan Algoritme Clustering K-Means Klasifikasi Formula Jamu Berdasarkan Khasiat Menggunakan Oblique Decision Tree Dengan Optimasi Menggunakan Algoritme Genetika Analisis Sentimen Dengan Klasifikasi Naive Bayes Pada Pesan Twitter Menggunakan Data Seimbang Web Log Mining Menggunakan K-Means Pada Server Proxy Untuk Perancangan Manajemen Bandwidth IPB Pengembangan Aplikasi Pertukaran SMS Rahasia Berbasis Android Menggunakan Algoritme RSA Pemodelan Biplot Pada Klasifikasi Fragmen Metagenom Dengan K-Mers Sebagai Ekstraksi Ciri dan Probabilistic Neural Network Sebagai Classifier Implementasi Bidirectional HTTP Pada Aplikasi Chat Berbasis Web Menggunakan Protokol Bayeux Klasifikasi Fragmen Metagenom Menggunakan Fitur Spaced N-Mers dan K-Nearest Neighbour Aplikasi Mobile GIS Pencarian Tempat Olahraga Di Bogor Analisis dan Perancangan Sistem Tata Kelola Kelembagaan dan Sumber Daya FMIPA IPB Menggunakan Enterprise Architecture Planning Hierarchical Clustering Pada Data Time Series Hotspot Provinsi Riau Identifikasi Plat Nomor Dengan Principal Component Analysis Menggunakan Metode Jaringan Syaraf Tiruan Propagasi Balik Teknik Penyisipan Informasi Pada Fitur Poligon Peta Vektor Menggunakan Reversible Watermarking Optimasi Penggunaan Lahan Menggunakan Algoritme Genetika Untuk Mendukung Peningkatan Produktivitas Pertanian Penerapan Learning Vector Quantization (LVQ) dan Ekstraksi Ciri Menggunakan Mel-Frequency Ceptrum Coeficients (MFCC) Untuk Transkripsi Suara Ke Teks Migrasi Spatial Data Warehouse Hotspot Ke Sistem Operasi Linux Ubuntu Identifikasi Citra Luka Abalon (Haliotis Asinina) Menggunakan Gray Level Co-occurrence Matrix dan Klasifikasi Probabilistic Neural Network Klasifikasi Fragmen Metagenom Menggunakan KNN dan PNN Dengan Ekstraksi Fitur Gray Level Co-occurrence Matrix (GLCM) Pada Variasi Panjang Fragmen
30 No.
Nama File
Judul Dokumen
81
G14mhu.pdf
82
G14mlr.pdf
83
G14naf.pdf
84
G14nas1.pdf
85
G14rad.pdf
86
G14ref.pdf
87 88 89
G14rfh.pdf G14rku.pdf G14rku2.pdf
90
G14rma.pdf
91 92
G14rmf.pdf G14rse.pdf
93
G14rtr.pdf
94
G14sda.pdf
95
G14sro1.pdf
96
G14tmp.pdf
97
G14yse.pdf
98
G15ekd.pdf
99
G15fdw.pdf
100
G15hri.pdf
Integrasi Basis Data dan Pipeline Single Nucleotide Polymorphism Untuk Pemuliaan Tanaman Kedelai Pengembangan dan Implementasi Sistem Pemadaman Api Pada FireFighting Robot Clustering Data Indeks Pembangunan Manusia (IPM) Pulau Jawa Menggunakan Algortime ST-DBSCAN dan Bahasa Pemrograman R Clustering Dokumen Skripsi Berdasarkan Abstrak Dengan Menggunakan Bisecting K-Means Penentuan Lokasi Ideal Berdasarkan Total Jarak Tempuh Terpendek Dari Berbagai Lokasi Menggunakan Algoritme Dijkstra Pengembangan Sistem Informasi Tanaman Hias Lanskap Untuk Masyarakat Umum Pada Cloud Computing Pendeteksian Kemiripan Kode Program C Dengan Algoritme K-Medoids Temu Kembali Informasi Dokumen XML Dengan Pembobotan Per Konteks Klasifikasi Protein Family Menggunakan Algoritme Probabilistic Neural Network (PNN) Clustering Dataset Titik Panas Dengan Algoritme DBSCAN Menggunakan Web Framework Shiny Pada Bahasa Pemrograman R Aplikasi Perangkat Uji Pupuk Berbasis Android Menggunakan Fitur Warna Pengembangan Sistem Keamanan Traksaksi Peta Digital Menggunakan Teknik Kriptografi Pengelompokan Kode Program C Berdasarkan Kemiripan Struktur Menggunakan Metode Hierarchical Agglomerative Clustering Pemanfaatan Citra Satelit Untuk Identifikasi Tingkat Perubahan Tutupan Lahan Dengan Menggunakan Metode Fuzzy C-Means Transkripsi Suara Ke Teks Bahasa Indonesia Berbasis Suku Kata Menggunakan Codebook dan 2-Level Dynamic Programming Pengembangan Silsilah (Tarombo) Adat Batak Berbasis Web Menggunakan R4 Framework Simulasi Master Data Untuk Data Exchange Evaluasi Kinerja Dosen Berbasis Replika Basis Data Pemodelan Support Vector Machine Untuk Klasifikasi Bakteri Patogen dan Non Patogen Berdasarkan Data Sekuens Genom Online Analytical Processing (OLAP) Berbasis Web Untuk Tanaman Holtikultura Menggunakan Palo Aplikasi Android Untuk Pengenalan Citra Karakter Jepang Dengan Library Tesseract
31
RIWAYAT HIDUP Penulis dilahirkan di Tanjung Gading pada tanggal 29 Oktober 1992 dari ayah Husen Sadim dan ibu Milwani Syam. Penulis adalah putra kedua dari tiga bersaudara. Tahun 2010 penulis lulus SMA Negeri 1 Matauli Pandan dan pada tahun yang sama penulis lulus seleksi masuk Institut Pertanian Bogor Program Diploma, Program Keahlian Manajemen Informatika. Setelah menempuh pendidikan pada program Diploma, penulis melanjutkan pendidikan tingkat sarjana pada program Ekstensi Ilmu Komputer IPB angkatan ke-8.