PERINGKASAN TEKS OTOMATIS DOKUMEN BAHASA INDONESIA DENGAN ALGORITMA GENETIKA LEMBAR JUDUL KOMPETENSI REKAYASA PERANGKAT LUNAK
SKRIPSI
LUH GEDE PUTRI SUARDANI NIM. 1208605018
PROGRAM STUDI TEKNIK INFORMATIKA JURUSAN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM UNIVERSITAS UDAYANA BUKIT JIMBARAN 2016
SURAT PERNYATAAN KEASLIAN KARYA ILMIAH Yang bertanda tangan di bawah ini menyatakan bahwa naskah Skripsi dengan judul: ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ………………………………………………………………………………………
Nama
: Luh Gede Putri Suardani
NIM
: 1208605018
Program Studi : Teknik Informatika E-mail
:
[email protected]
Nomor telp/HP : 081337136811 Alamat
: Jalan Giri Kencana No. 21
Belum pernah dipublikasikan dalam dokumen skripsi, jurnal nasional maupun internasional atau dalam prosiding manapun, dan tidak sedang atau akan diajukan untuk publikasi di jurnal atau prosiding manapun. Apabila di kemudian hari terbukti terdapat pelanggaran kaidah-kaidah akademik pada karya ilmiah saya, maka saya bersedia menanggung sanksi-sanksi yang dijatuhkan karena kesalahan tersebut, sebagaimana diatur oleh Peraturan Menteri Pendidikan Nasional Nomor 17 Tahun 2010 tentang Pencegahan dan Penanggulangan Plagiat di Perguruan Tinggi.
Demikian Surat Pernyataan ini saya buat dengan sesungguhnya untuk dapat dipergunakan bilamana diperlukan.
Denpasar, Mei 2016 Yang membuat pernyataan, Materai (Luh Gede Putri Suardani) NIM. 1208605018
LEMBAR PENGESAHAN TUGAS AKHIR
Judul
: Peringkasan Teks Otomatis Dokumen Bahasa Indonesia dengan Algoritma Genetika
Kompetensi
: Rekayasa Perangkat Lunak
Nama
: Luh Gede Putri Suardani
NIM
: 1208605018
Tanggal Seminar : Disetujui oleh :
Pembimbing I
Pembimbing II
(Agus Muliantara, S.Kom., M.Kom.)
(I Putu Gede Hendra Suputra, S.Kom., M.Kom.)
NIP. 198006162005011001
NIP. 198812282014041001
ii
Judul Nama NIM Pembimbing I Pembimbing II
: Peringkasan Teks Otomatis Dokumen Bahasa Indonesia dengan Algoritma Genetika : Luh Gede Putri Suardani : 1208605018 : Agus Muliantara, S.Kom.,M.Kom. : I Putu Gede Hendra Suputra, S.Kom.,M.Kom.
ABSTRAK Memahami isi dokumen melalui ringkasan teks dokumen memerlukan waktu yang lebih singkat dibandingkan membaca seluruh isi dokumen, sehingga ringkasan teks menjadi sangat penting. Namun demikian, membuat ringkasan dokumen memerlukan waktu dan biaya yang banyak bila dokumen yang diringkas berjumlah banyak dan isi dokumen yang panjang. Oleh karena itu, ringkasan teks dokumen secara otomatis diperlukan untuk mengatasi masalah waktu baca dan biaya. Dalam peringkasan teks otomatis hal yang penting dilakukan adalah bagaimana cara menentukan informasi penting dari sebuah dokumen. Informasi penting dapat diperoleh dengan menggunakan teknik ekstraksi. Teknik ekstraksi merupakan teknik peringkasan secara lengkap yang terdiri dari urutan-urutan kalimat yang disalin dan memilih bagian-bagian kalimat penting dari dokumen asli. Peringkasan teks otomatis dengan teknik ekstraksi dapat dilakukan dengan menggunakan beberapa fitur ekstraksi teks. Penelitian ini menggunakan beberapa fitur teks dalam melakukan peringkasan teks dokumen yaitu fitur keyword positif, kesamaan dengan kalimat lain, kesamaan kalimat dengan judul dan cosine similarity. Dari nilai fitur tersebut kalimat akan dirangking secara optimal dengan algoritma genetika. Pada penelitian ini, algoritma genetika digunakan untuk melakukan optimasi bobot fitur ekstraksi pada peringkasan teks bahasa Indonesia. Pada tahap pelatihan algoritma genetika mampu melakukan optimasi bobot fitur ekstraksi teks yang menghasilkan akurasi sekitar 73,02%. Kata kunci : peringkasan, teks, otomatis, fitur, ekstraksi teks, algoritma genetika.
iii
Title Name Registration First Supervisor Second Supervisor
: Compacting Automatic text of Indonesian Document by Using Genetic Algorithms : Luh Gede Putri Suardani : 1208605018 : Agus Muliantara, S.Kom.,M.Kom. : I Putu Gede Hendra Suputra, S.Kom.,M.Kom.
ABSTRACT Understanding the content of a document through a summarized document text requires a shorter time compared to reading the entire document, so that a summary of the text becomes very important. However, making a summarized or compressed document takes time and costs a lot when documents to be summarized or compressed are numerous and lengthy . Therefore, the automatic compressed document text is needed to overcome the problem of reading time and costs. In automatic text compressing, the important thing to do is how to determine the important information from a document. Important information can be obtained by using the extraction technique. Extraction technique is a complete compressing technique consisting of sequences of sentences copied and the chosen parts of important sentences from the original document. Automatic text compressing by extraction techniques can be performed by using several features of text extraction. This study uses some features in performing compression in the document text that is positive keyword features, sentence similarities with others, sentence similarities with the title and cosine similarity. Of the value of the feature line, it was ranked optimally with genetic. In this research, the genetic algorithm was used to optimize the extraction of feature weight on the compressing Indonesian text. In the training phase the genetic algorithm was capable of optimizing the weight of text extraction feature that produces an accuracy of about 73.02% . Keywords: compressing, text, automatic, features, text extraction, genetic algorithms.
iv
KATA PENGANTAR
Penelitian dengan judul Peringkasan Teks Otomatis Dokumen Bahasa Indonesia dengan Algoritma Genetika ini disusun dalam rangkaian kegiatan pelaksanaan Tugas Akhir di Jurusan Ilmu Komputer FMIPA UNUD. Sehubungan dengan telah terselesaikannya penelitian ini, maka diucapkan terima kasih dan penghargaan kepada berbagai pihak yang telah membantu pengusul, antara lain: 1.
Bapak Agus Muliantara, S.Kom., M.Kom. selaku Ketua Jurusan Ilmu Komputer FMIPA Universitas Udayana sekaligus pembimbing I yang telah membimbing dan membantu menyempurnakan penelitian ini.
2.
Bapak I Putu Gede Hendra Suputra, S.Kom., M.Kom. selaku Pembimbing II yang telah banyak membantu dan meluangkan waktu untuk penelitian ini.
3.
Ibu Dra. Ni Wayan Arnati, M.Hum dan Bapak Drs. I Wayan Teguh, M.Hum selaku pakar yang telah banyak membantu dan meluangkan waktu untuk penelitian ini.
4.
Bapak-bapak dan ibu-ibu dosen di Jurusan Ilmu Komputer yang bersedia meluangkan waktunya untuk memberikan masukan dalam penyempurnaan penelitian ini.
5.
Rekan-rekan mahasiswa di Jurusan Ilmu Komputer yang telah memberi dukungan, motivasi, semangat dan kerja sama dalam penelitian ini. Penulis menyadari bahwa tugas akhir ini masih belum sempurna, untuk itu
kritik dan saran yang bermanfaat demi kesempurnaan tugas akhir ini sangat diharapkan.
Bukit Jimbaran, Maret 2016 Penyusun
Luh Gede Putri Suardani
v
DAFTAR ISI
LEMBAR JUDUL ................................................................................................... i LEMBAR PENGESAHAN TUGAS AKHIR ........................................................ ii ABSTRAK ............................................................................................................. iii ABSTRACT ........................................................................................................... iv KATA PENGANTAR ............................................................................................ v DAFTAR ISI .......................................................................................................... vi DAFTAR TABEL .................................................................................................. ix DAFTAR GAMBAR .............................................................................................. x DAFTAR LAMPIRAN ......................................................................................... xii BAB I PENDAHULUAN ....................................................................................... 1 1.1 Latar Belakang ................................................................................ 1 1.2 Rumusan Masalah ........................................................................... 3 1.3 Batasan Masalah.............................................................................. 3 1.4 Tujuan Penelitian ............................................................................ 4 1.5 Manfaat Penelitian .......................................................................... 4 1.6 Metodologi Penelitian ..................................................................... 4 1.6.1 Desain Penelitian .................................................................... 4 1.6.2 Pengumpulan Data ................................................................. 4 1.6.3 Pengolahan Data Awal ........................................................... 6 1.6.4 Metode yang Digunakan ........................................................ 6 BAB II TINJAUAN PUSTAKA............................................................................. 7 2.1 Peringkasan Teks Otomatis ............................................................. 7 2.2 Kalimat ............................................................................................ 7 2.3 Text Preprocessing .......................................................................... 8 2.3.1 Tokenizing .............................................................................. 9 2.3.2 Filtering ................................................................................. 9 2.3.3 Stemming .............................................................................. 10 2.4 Fitur Ekstraksi Teks ...................................................................... 13 2.4.1 Fitur Keyword Positif (F1) ................................................... 13 vi
2.4.2 Fitur Kemiripan Antar-Kalimat (F2) .................................... 14 2.4.3 Fitur Kalimat yang Menyerupai Judul Dokumen (F3) ......... 15 2.4.4 Fitur Cosine Similarity (F4) ................................................. 16 2.5 Pembobotan Fitur Ekstraksi Teks ................................................. 18 2.6 Evaluasi Hasil Ringkasan Sistem .................................................. 18 2.7 Algoritma Genetika ....................................................................... 20 2.7.1 Istilah dalam Algoritma Genetika ........................................ 21 2.7.2 Struktur Algoritma Genetika ................................................ 21 2.8 Model Pengembangan Waterfall ................................................... 26 2.9 Functional Decomposition Diagram (FDD) ................................. 27 2.10 Data Flow Diagram (DFD) ........................................................ 28 2.11 Pengujian Black Box ................................................................... 28 2.12 Tinjauan Studi ............................................................................. 29 BAB III ANALISIS DAN PERANCANGAN ..................................................... 31 3.1 Analisis Kebutuhan Sistem ........................................................... 31 3.1.1 Kebutuhan Fungsional ......................................................... 32 3.1.2 Kebutuhan Non-Fungsional ................................................. 33 3.2 Functional Decomposition Diagram (FDD) ................................. 33 3.3 Data Flow Diagram (DFD) .......................................................... 35 3.3.1 Context Diagram .................................................................. 35 3.3.2 DFD Level-0 Sistem ............................................................ 36 3.3.3 DFD Level-1 Training ......................................................... 39 3.3.4 DFD Level-1 Testing ........................................................... 41 3.3.5 DFD Level-1 Peringkasan Teks ........................................... 42 3.3.6 DFD Level-1 Manajemen Data Dokumen ........................... 44 3.3.7 DFD Level-1 Manajemen Data Bobot ................................. 45 3.4 Diagram Alir ................................................................................. 46 3.4.1 Diagram Alir Proses Peringkasan Teks................................ 46 3.4.2 Diagram Alir Proses Algoritma Genetika ............................ 48 3.5 Entity Relationship Diagram ......................................................... 51 3.6 Rancangan Antar Muka Sistem..................................................... 53 vii
3.7 Pengujian dan Evaluasi ................................................................. 59 3.7.1 Skenario Pengujian Sistem................................................... 59 BAB IV HASIL DAN PEMBAHASAN .............................................................. 61 4.1 Lingkungan Implementasi............................................................. 61 4.2 Implementasi Basis Data ............................................................... 61 4.3 Implementasi Program .................................................................. 63 4.4 Implementasi Antarmuka Sistem .................................................. 68 4.5 Pengujian ....................................................................................... 74 4.5.1 Pengujian Fungsionalitas Sistem (Black Box Testing) ......... 74 4.5.2 Pengujian Hasil Ringkasan Sistem ...................................... 75 4.5.3 Pengujian Koefisien Dice..................................................... 79 BAB V KESIMPULAN DAN SARAN ................................................................ 81 5.1 Kesimpulan ................................................................................... 81 5.2 Saran .............................................................................................. 81 DAFTAR PUSTAKA ........................................................................................... 82
viii
DAFTAR TABEL
Tabel 2.1 Kombinasi awalan akhiran yang tidak diijinkan ................................... 12 Tabel 2.2 Cara menentukan tipe awalan untuk kata yang diawali dengan"te" ..... 12 Tabel 2.3 Jenis awalan berdasarkan tipe awalannya ............................................. 12 Tabel 2.4 Term frequency dan inverse sentence frequency .................................. 17 Tabel 2.5 Data Matriks Kemiripan ....................................................................... 18 Tabel 2.6 Contoh Perhitungan ROUGEn .............................................................. 20 Tabel 3.1 Tabel Kebutuhan Fungsional Sistem .................................................... 32 Tabel 3.2 Penjelasan Proses dan Sub Proses dalam FDD ..................................... 34 Tabel 3.3 Rancangan Tabel Pengujian Black Box ................................................ 59 Tabel 4.1 Penggalan Kode Perhitungan Nilai ROUGE ........................................ 63 Tabel 4.2 Penggalan Kode Perhitungan Roullete Wheel ....................................... 65 Tabel 4.3 Penggalan Kode Perhitungan Crossover Algoritma Genetika .............. 66 Tabel 4.4 Tabel Penggalan Mutasi ........................................................................ 67 Tabel 4.5 Tabel model kromosom terbaik untuk rasio 30% ................................. 68 Tabel 4.6 Hasil Pengujian Black Box .................................................................... 74 Tabel 4.7 Pengujian Ringkasan Sistem terhadap Ringkasan Manual Jenis 1 ....... 75 Tabel 4.8 Pengujian Ringkasan Sistem terhadap Ringkasan Manual Jenis II ...... 77 Tabel 4.9 Hasil Pengujian Koefisien Dice ............................................................ 79
ix
DAFTAR GAMBAR Gambar 1.1 Format Dokumen Asli ......................................................................... 5 Gambar 2.1 Tahap Preprocessing Text ................................................................... 9 Gambar 2.2 Ilustrasi fitur kemiripan antar kalimat ............................................... 14 Gambar 2.3 Ilustrasi fitur kalimat yang menyerupai judul dokumen ................... 15 Gambar 2.4 Taksonomi pengujian peringkasan teks ............................................ 19 Gambar 2.5 Ilustrasi Model Waterfall .................................................................. 26 Gambar 2.6 Simbol-simbol pada DFD ................................................................. 29 Gambar 3.1 Functional Decomposition Diagram ................................................. 33 Gambar 3.2 Context Diagram Sistem ................................................................... 36 Gambar 3.3 DFD Level 0 Sistem .......................................................................... 37 Gambar 3.4 DFD Level-1 Proses Training ........................................................... 40 Gambar 3.5 DFD Level-1 Testing......................................................................... 41 Gambar 3.6 DFD Level-1 Peringkasan Teks ........................................................ 42 Gambar 3.7 DFD Level-1 Manajemen Data Dokumen ........................................ 44 Gambar 3.8 DFD Level-1 Manajemen Data Bobot .............................................. 45 Gambar 3.9 Diagram Alir Sistem ......................................................................... 48 Gambar 3.10 Diagram Alir Proses Algoritma Genetika ....................................... 49 Gambar 3.11 Representasi Kromosom ................................................................. 48 Gambar 3.12 Entity Relationship Diagram Sistem ............................................... 52 Gambar 3.13 Rancangan Antarmuka Tampilan Login ......................................... 54 Gambar 3.14 Rancangan Antar Muka Tampilan Beranda Admin ........................ 55 Gambar 3.15 Rancangan Antarmuka Tampilan Peringkasan Teks ...................... 55 Gambar 3.16 Rancangan Antarmuka Tampilan Hasil Peringkasan Teks ............. 56 Gambar 3.17 Rancangan Antarmuka Tampilan Detail Proses.............................. 56 Gambar 3.18 Rancangan Antarmuka Tampilan Training ..................................... 57 Gambar 3.19 Rancangan Antarmuka Tampilan Testing ....................................... 57 Gambar 3.20 Rancangan Antarmuka Tampilan Manajemen Data Dokumen....... 58 Gambar 3.21 Rancangan Antarmuka Tampilan Form Edit Ringkasan Manual ... 58 Gambar 3.22 Rancangan Antarmuka Tampilan Manajemen Data Bobot ............. 59 x
Gambar 4.1 Skema Basis Data Sistem .................................................................. 61 Gambar 4.2 Implementasi Tampilan Login .......................................................... 69 Gambar 4.3 Implementasi Tampilan Beranda Admin .......................................... 69 Gambar 4.4 Implementasi Tampilan Peringkasan Teks Input File ....................... 70 Gambar 4.5 Implementasi Tampilan Peringkasan Teks Input Manual ................. 70 Gambar 4.6 Implementasi Tampilan Hasil Peringkasan Teks .............................. 71 Gambar 4.7 Implementasi Detail Proses ............................................................... 71 Gambar 4.8 Implementasi Tampilan Training ...................................................... 72 Gambar 4.9 Implementasi Tampilan Testing ........................................................ 72 Gambar 4.10 Implementasi Tampilan Manajemen Data Dokumen...................... 73 Gambar 4.11 Implementasi Tampilan Form Edit Ringkasan Manual .................. 73 Gambar 4.12 Implementasi Tampilan Manajemen Data Bobot............................ 74
xi