PERINGKASAN TEKS OTOMATIS DOKUMEN TUNGGAL PADA BERITA KRIMINAL BERBAHASA INDONESIA MENGGUNAKAN METODE MAXIMAL MARGINAL RELEVANCE (MMR)
TUGAS AKHIR Sebagai Persyaratan Guna Meraih Gelar Sarjana Strata 1 Teknik Informatika Universitas Muhammadiyah Malang
Disusun Oleh : Yuan Aulia Rahma (07560057)
JURUSAN TEKNIK INFORMATIKA FAKULTAS TEKNIK UNIVERSITAS MUHAMMADIYAH MALANG 2013 i
LEMBAR PERSETUJUAN
PERINGKASAN TEKS OTOMATIS DOKUMEN TUNGGAL PADA BERITA KRIMINAL BERBAHASA INDONESIA MENGGUNAKAN METODE MAXIMAL MARGINAL RELEVANCE (MMR)
TUGAS AKHIR
Sebagai Persyaratan Guna Meraih Gelar Sarjana Strata 1 Teknik Informatika Universitas Muhammadiyah Malang
Menyetujui,
Dosen Pembimbing I
Dosen Pembimbing II
Yudha Munarko,S.Kom,MSc.
Yufis Azhar, S.Kom
10891090233
ii
LEMBAR PENGESAHAN PERINGKASAN TEKS OTOMATIS DOKUMEN TUNGGAL PADA BERITA KRIMINAL BERBAHASA INDONESIA MENGGUNAKAN METODE MAXIMAL MARGINAL RELEVANCE (MMR)
TUGAS AKHIR Sebagai Persyaratan Guna Meraih Gelar Sarjana Strata 1 Teknik Informatika Universitas Muhammadiyah Malang
Disusun Oleh : Yuan Aulia Rahma 07560057 Tugas Akhir ini telah diuji dan dinyatakan lulus melalui sidang majelis penguji Pada :
,
Menyetujui, Penguji I
Penguji II
(Setio Basuki, S.T)
(Wahyu Andhyka Kusuma,S.Kom)
Nip.108.0907.0477
Nidn.0720068701
Mengetahui, Ketua Jurusan Informatika
Eko Budi Cahyono, S.Kom, MT 10895040330 iii
SURAT PERNYATAAN
Yang bertanda tangan dibawah ini: Nama
: Yuan Aulia Rahma
NIM
: 07560057
Tempat,Tanggal Lahir : Banyuwangi, 06 Agustus 1989 NIM
: 07560057
Fakultas / Jurusan
: Teknik / Teknik Informatika
Menyatakan bahwa hasil karya ilmiah / skripsi /tugas akhir yang berjudul: “Automated Text Summarization Dokumen Tunggal Berita Kriminal Berbahasa Indonesia Menggunakan Metode MMR”. Adalah bukan merupakan hasil karya tulis orang lain, bak sebagian maupun keseluruhan, kecuali dalam kutipan yang telah disebutkan sumbernya. Demikian surat pernyataan ini dibuat dengan sebenar-benarnya, dan apabila pernyataan ini tidak benar, saya siap mendapatkan sanksi akademis.
Mengetahui
Malang, 6 Maret 2013
Dosen Pembimbing I
Yang Menyatakan
Yuda Munarko,S.Kom. M.Sc
YuanAulia Rahma
NIP.108.0611.443
iv
ABSTRAK
Pembaca cenderung lebih menyukai membaca ringkasan teks daripada membaca keseluruhan isi dokumen. Dengan bentuk ringkasan pembaca lebih mudah memahami isi tulisan serta menghemat waktu. Namun pada kenyataannya tidak semua teks dokumen mempunyai ringkasan teks. Oleh karena itu diperlukan sebuah sistem yang dapat meringkas dokumen secara otomatis.ATS (Automated Text Summarization) atau dalam bahasa Indonesia disebut dengan Peringkasan Teks Otomatis merupakan perangkat lunak berbasis komputer untuk menghasilkan teks yang lebih pendek dari teks aslinya namun masih menyimpan poin utama dari teks yang diringkas. Terdapat dua pendekatan pada peringkasan teks otomatis, yaitu ekstraksi dan abstraksi. Dalam tugas akhir ini Peringkasan Teks Otomatis menggunakan metode ekstraksi. Proses perhitungan menggunakan perhitungan TF-IDF dan Cosine Similarity. Proses selanjutnya yaitu pencocokan dokumen hasil ringkasan dengan dokumen aslinya dengan mencari nilai relevance-nya menggunakan algoritma MMR (Maximal Marginal Relevance). Dengan menggunakan algoritma MMR sistem mampu menghasilkan sebuah dokumen dengan imput dan output dalam bahasa Indonesia secara otomatis,yaitu mengambil sumber informasi,mengekstrak informasi terpenting dan mempresentasikannya kepada user. Sistem Peringkasan Teks Otomatis mampu menghasilkan ringkasan sebesar 70% dari jumlah kalimat dokumen asli.
Kata Kunci: Peringkasan teks otomatis,ekstraksi,TF-IDF,Cosine Similarity,MMR
v
ABSTRACT
Readers tend to prefer reading the summary of the text than to read this entire document. In summary form the reader to more easily understand the content of posts and save time. But in reality, not all have the document text summary text. Therefore we need a system that can summarize documents automated.ATS (Automated Text Summarization) or in the Indonesian language called Peringkasan Teks Otomatis is a computer-based software to generate text that is shorter than the originals, but still keep the main points of the text summarized. There are two approaches in automatic text peringkasan, that is extraction and abstraction. In this final Automated Text Summarization extraction method. Calculation process using TF-IDF calculation and Cosine Similarity. The next process is the matching document with a summary of the results of the original document by finding its value relevance algorithm MMR (Maximal Marginal Relevance). By using the algorithm MMR system is able to produce a document with the imput and output in the Indonesian language automatically, ie taking information sources, extract the most important information and present it to the user. Automatic Text Peringkasan system able to produce summaries for 70% of the original sentences. Keywords: automatic text summarization, extraction, TF-IDF, Cosine Similarity, MMR
vi
PERSEMBAHAN
Tugas Akhir ini saya persembahankan kepada: 1. Allah Subhananahu wa ta’ala, yang tiada henti melimpahkan rahmat dan hidayah-Nya. 2. Rasulullah Muhammad SAW. 3. Mama dan Ayah, tiada kata yang bisa menggambarkan rasa terima kasih atas do’a dan pengorbanan yang telah Mama dan Ayah berikan. 4. Adikku satu-satunya yang kusayangi,terima kasih selalu mendo’akanku dan menyemangatiku. 5. Bapak Yuda Munarko dan Bapak Yufis Azhar,terima kasih atas bimbingan dan kesediaannya meluangkan waktu untuk membantu menyelesaikan Tugas Akhir ini. 6. Seluruh dosen Teknik Informatika Universitas Muhammadiyah Malang. 7. Sandi Jaya Pratama,terima kasih selalu memberikan semangat,do’a dan dukungannya. 8. Pipo terima kasih selalu memberikan semangat dan do’anya. 9. Ibu Emy,Ayah Sugeng,Dek Tanty,Tante Vila,Yeni Ae,Wiwin Winastri,Widya(Tyas),Kiky, Yudha S,Ismy S,Cintya,Liza,Novi, Mbak Dhian dan semuanya, terima kasih atas supportnya dan do’a dari kalian semua.
vii
KATA PENGANTAR
Alhamdulillah,segala puji bagi Allah SWT yang telah memberi petunjuk dan rahmat sehingga penulis dapat menyelesaikan tugas akhir yang berjudul “Automated Text Summarization Dokumen Tunggal Berita Kriminal Berbahasa Indonesia Dengan Metode MMR ini”. Pada tugas akhir ini dibuat sebuah perangkat lunak yang dapat meringkas teks dokumen tunggal yang berupa berita criminal berbahasa Indonesia secara otomatis atau biasa disebut dengan ATS (Automated Text Summarization). Dengan memanfaatkan teknologi ATS, system ini nantinya diharapkan dapat memudahkan pengguna dalam mrndapatkan informasi garis besar tentang dokumen yang dikehendaki. Penulis
menyadari
bahwa
penelitian
ini
masih
jauh
dari
kesempurnaan.Oleh karena itu penulis mengharapkan saran dan kritik yang bersifat membangun untuk pengembangan ke depannya. Perangkat lunak ini juga masih membutuhkan pengembangan lebih lanjut sehingga dapat lebih bermanfaat. Akhir kata penulis mengucapkan terimakasih kepada semua pihak yang telah membantu hingga tugas akhir ini terselesaikan.
Malang,6 Maret 2013
Yuan Aulia Rahma
viii
DAFTAR ISI
HALAMAN JUDUL.......................................................................................................... i LEMBAR PERSETUJUAN.............................................................................................. ii LEMBAR PENGESAHAN ............................................................................................. iii LEMBAR PERNYATAAN ............................................................................................. iv ABSTRAK ........................................................................................................................ v ABSTRACT ..................................................................................................................... vi LEMBAR PERSEMBAHAN ......................................................................................... vii KATA PENGANTAR ................................................................................................... viii DAFTAR ISI .................................................................................................................... ix DAFTAR GAMBAR ...................................................................................................... xii DAFTAR TABEL .......................................................................................................... xiii
BAB I : PENDAHULUAN 1.1. Latar Belakang .......................................................................................................... 1 1.2. Rumusan Masalah ...................................................................................................... 2 1.3. Tujuan ........................................................................................................................ 3 1.4. Batasan Masalah......................................................................................................... 3 1.5. Metodologi Penyelesaian Masalah ............................................................................. 3 1.6. Sistematika Penulisan ................................................................................................ 5
BAB II : LANDASAN TEORI 2.1 Automated Text Summarization ................................................................................ 7 2.2 Berita dan Kriminal .................................................................................................... 8 2.3 Kamus Kriminal atau Kamus Hukum ........................................................................ 8 2.4 Data Mining ............................................................................................................... 8 2.5 Text Mining……………………………………………………………………........ 9 2.5.1 Pemecahan Kalimat ............................................................................................... 10 2.5 .2 Case Folding ......................................................................................................... 10 2.5.3 Tokenizing Kata ..................................................................................................... 11 ix
2.5.4 Filtering Kata ........................................................................................................ 11 2.5.5 Stemming .............................................................................................................. 12 2.6 Pembobotan TF-IDF ................................................................................................. 12 2.7 Cosine Similarity....................................................................................................... 13 2.8 MMR ......................................................................................................................... 16
BAB III : ANALISA DAN PERANCANGAN SISTEM 3.1. Teknologi Yang Digunakan ..................................................................................... 18 3.1.1. Bahasa Pemrograman ........................................................................................... 18 3.2 Analisa Perancangan Sistem ..................................................................................... 18 3.2.1 Desain Perangkat Lunak ........................................................................................ 18 3.2.2 Use Case Diagram dan Scenario ............................................................................ 21 3.2.3 Activity Diagram .................................................................................................... 22 3.2.3.1 Activity Diagram TextPreprocesing ................................................................... 22 3.2.3.2 Activity Diagram Pemecah Kalimat ................................................................... 23 3.2.3.3 Activity Diagram Case Folding .......................................................................... 24 3.2.3.4 Activity Diagram Filtering .................................................................................. 25 3.2.3.5 Activity Diagram Tokenizing Kalimat ............................................................... 26 3.2.3.6 Activity Diagram Stemming ............................................................................... 28 3.2.3.7 Activity Diagram Sistem Pembobotan Kalimat .................................................. 29 3.2.3.8 Activity Diagram Pembobotan Relevance Query ............................................... 30 3.2.4 Sequence Diagram ................................................................................................. 32 3.2.5 Perancangan Antar Muka ....................................................................................... 33
BAB IV : IMPLEMENTASI DAN PENGUJIAN 4.1. Implementasi Sistem ................................................................................................ 36 4.1.1 Implementasi Preprosessing ................................................................................... 36 4.1.1.1 Class TextMining Proses .................................................................................... 36 4.1.1.2 Implementasi Kamus Kriminal ........................................................................... 38 4.1.1.3 Implementasi TF-IDF.......................................................................................... 39 4.1.1.4 Implementasi Cosine Similarity .......................................................................... 40 4.1.1.5 Implementasi Algoritma MMR ........................................................................... 41 x
4.1.1.6 Hasil Ringkasan .................................................................................................. 42 4.1.1.7 Perbandingan Hasil Pengujian ............................................................................ 43 4.2 Pengujian ................................................................................................................... 44 4.2.1 Pengujian Fungsi .................................................................................................... 44 4.2.1.1 Pengujian Menu Awal ......................................................................................... 44 4.2.1.2 Halaman Proses ................................................................................................... 45 4.3 Pengujian Summary .................................................................................................. 51
BAB V : KESIMPULAN DAN SARAN 5.1. Kesimpulan .............................................................................................................. 62 5.2. Saran ........................................................................................................................ 62 DAFTAR PUSTAKA .................................................................................................... 63 LAMPIRAN ................................................................................................................... 64
xi
DAFTAR GAMBAR Gambar 2.1. Tahapan Text Mining ................................................................................... 9 Gambar 3.1 Flowchart Sistem ATS ................................................................................ 19 Gambar 3.2 Proses Pembobotan Kalimat........................................................................ 20 Gambar 3.3 Use Case Diagram Sistem ........................................................................... 21 Gambar 3.34 Activity Diagram TextPreprocesing.......................................................... 23 Gambar 3.5 Activity Diagram Pemecahan Kalimat ........................................................ 23 Gambar 3.5 Activity Diagram Case Folding................................................................... 24 Gambar 3.6 Acitivity Diagram Filtering ......................................................................... 25 Gambar 3.7 Acitivy Diagram Tokenizing ....................................................................... 26 Gambar 3.7 Acitivy Diagram Stemming ........................................................................ 28 Gambar 3.5 Activity Diagram Sistem Pembobotan tf-idf............................................... 29 Gambar 3.5 Activity Diagram Relevance Query ............................................................ 30 Gambar 3.6 Activity Diagram Pembobotan Cosine Similarity....................................... 32 Gambar 3.7 Activity Diagram Pembobotan MMR ......................................................... 33 Gambar 3.9 Perancangan Menu Utama .......................................................................... 34 Gambar 3.10 Perancangan Halaman Proses.................................................................... 35 Gambar 4.7. Class TextMiningProses ............................................................................. 37 Gambar 4.8 Class MMR ................................................................................................. 41 Gambar 4.9 Tampilan menu ............................................................................................ 44 Gambar 4.10 Tampilan menu awal ................................................................................. 45 Gambar 4.12 Hasil Query ............................................................................................... 46 Gambar 4.13 Hasil IDF ................................................................................................... 47 Gambar 4.14 Hasil Sentence ........................................................................................... 47 Gambar 4.15 Hasil Table TF........................................................................................... 48 Gambar 4.16 Hasil Table DF .......................................................................................... 48 Gambar 4.17 Hasil pengujian MMR ............................................................................... 49 Gambar 4.18 View output hasil pengujian MMR ........................................................... 49 Gambar 4.19 Hasil ringkasan .......................................................................................... 50 Gambar 4.20 Table perbandingan hasil ......................................................................... 50
xii
DAFTAR TABEL Tabel 2.1 Contoh Pemecahan Kalimat ............................................................................ 10 Tabel 2.2 Contoh Case Folding....................................................................................... 10 Tabel 2.3 Contoh Tokenizing Kata ................................................................................. 11 Tabel 2.4 Filtering ........................................................................................................... 11 Tabel 2.5 Stemming ....................................................................................................... 12 Tabel 2.6 Contoh Perhitungan Cosine Similarity ........................................................... 14 Tabel 3.1 Scenario Aktor ................................................................................................ 21 Tabel 3.2 Scenario use case Peringkasan Teks Otomatis Berita Kriminal ..................... 22 Tabel 3.1 Hasil Pemecahan kalimat ............................................................................... 24 Tabel 3.2 Hasil Case Folding ......................................................................................... 25 Tabel 3.3 Hasil Filtering ................................................................................................. 26 Tabel 3.4 Tokenizing ...................................................................................................... 27 Tabel 3.5 Stemming ........................................................................................................ 29 Table 4.1 Perhitungan manual oleh user ......................................................................... 51
xiii
DAFTAR PUSTAKA
[1] Abdul Kadir. 2004. “Dasar Pemrograman Java 2”. Yogyakarta : ANDI OFFSET. [2] Milkha Harlian Ch. 2006, “Text Mining”, Machine Learning Text Categorization, University of Texas [3] Rolly Intan, Andrew Defeng. “Hard : Subject-Based Search Engine Menggunakan Tf-Idf Dan Jaccard’s Coefficient”. Surabaya : Jurusan Teknik Informatika, Fakultas Teknologi Industri, Universitas Kristen Petra Surabaya. [4] Muhamad Iqbal Aziz. 2010. “Development Program Application To The Measurement Of Documents Resemblance Text Mining, Tf-Idf, And Vector Space Model Algorithm”. Undergraduate Program, Faculty of Industrial Engineering, Gunadarma University [5] Carbonell, J., &Goldstein, J. (1998). TheUse of MMR,DiversityBasedReranking for ReorderingDocumentsandProducingSummaries. Prosiding SIGIR, 335-336. New York. [6] Lianthy Mellia, 2005, Otomatisasi Pembuatan Ringkasan dari Suatu Teks (Automatic Text Summarizer), Indonesia: Universitas Pasundan Bandung. [7]
“Pengenalan Bahasa Java”. Bab 2 Modul JENI
xiv