SISTEM PERINGKAS BERITA OTOMATIS BERBASIS TEXT MINING MENGGUNAKAN GENERALIZED VECTOR SPACE MODEL STUDI KASUS BERITA DIAMBIL DARI MEDIA MASSSA ONLINE
oleh Budhi Kurniawan Wangsa NIM : 622009005
Skripsi Untuk melengkapi salah satu syarat memperoleh Gelar Sarjana Teknik Program Studi Sistem Komputer Fakultas Teknik Elektronika dan Komputer Universitas Kristen Satya Wacana Salatiga
Januari 2014
INTISARI Salah satu informasi yang sangat banyak dicari saat ini adalah berita. Berita yang dicari lebih diinginkan jika dalam bentuk yang sudah diringkas. Peringkasan membutuhkan pengembangan algoritma baru dan tentu saja membutuhkan pencarian yang lebih terarah ke sumber berita dari media massa online yang menggunakan Bahasa Indonesia dan juga media massa online yang terpercaya. Focused crawler adalah solusi pencarian berita yang terarah karena focused crawler melihat isi dari suatu halaman web untuk menilai apakah halaman web tersebut sesuai atau tidak dengan konteks pencarian. Metode generalized vector space model (GVSM) adalah metode untuk menilai tingkat kemiripan tiap kalimat terhadap suatu topik dokumen. Dengan metode GVSM ini dapat diketahui kalimat mana yang lebih berbobot terhadap suatu dokumen sehingga dapat dilakukan peringkasan dengan memperhatikan tingkat kemiripan kalimat. Dari hasil perancangan dan pengujian didapat tingkat kesuksesan focused crawler sebesar 53% sementara dari kuesioner hasil ringkasan menggunakan metode GVSM dinilai secara rata-rata 2,71 dari skala 1-4 oleh empat puluh orang responden. Sistem mampu meringkas sebanyak 754 berita dari 797 berita yang didapat atau sekitar 94% dari berita yang didapat. Sehingga didapat kesimpulan bahwa sistem yang dirancang mampu mencari berita secara terarah sekaligus meringkas berita dengan hasil yang dapat diterima.
i
ABSTRACT News is becoming one of the most important information. Currently, news is preferred to be found in a simplified form. The simple form of news is summary. In case of search and summarizer all news in Indonesian trustworthy online mass media automatically a new algorithm and system must be developed. Focused crawler is a solution for a directional search in case of news collecting from online mass media because focused crawler is able to judge whether the news page is relevant not only from the title but also from the content. Generalized vector space model (GVSM) is a method to judge similarity of each sentence to the document topic. Using GVSM method the similarity coefficient of each sentence can be known and sentences with low rate of similarity coefficient can be cut. The results of development and testing of this system are the success rate for focused crawler search and rating for summarizer result. The success rate for focused crawler search is 53% and summary that’s resulted from GVSM method is rated 2.7 from scale 1-4 by forty respondents. The system can summarize 754 of 797 news. That is about 94% from the total collected news. It can be concluded that this system can search and summarize the news automatically as a solution to the problem.
ii
KATA PENGANTAR
Segala puji syukur dan kemuliaan hanya bagi Tuhan Yesus Kristus berkat kasih karunia-Nya yang berlimpah dan penyertaan-Nya yang sempurna sehingga skripsi dengan judul “Sistem Peringkas Berita Otomatis berbasis Text Mining menggunakan Generalized Vector Space Model Studi Kasus Berita Diambil dari Media Massa Online ” dapat diselesaikan dari awal pengusulan, pembuatan, hingga akhirnya selesai. Skripsi ini digunakan sebagai salah satu syarat untuk mendapatkan gelar Sarjana Teknik di Fakultas Teknik Elektronika dan Komputer Universitas Kristen Satya Wacana, Salatiga. Dalam kesempatan ini penulis menyampaikan ucapan terima kasih sebesar besarnya kepada : 1. Bapak Dekan Fakultas Teknik Elektronika dan Komputer Dr. Iwan Setyawan 2. Bapak Darmawan Utomo, M.Eng. selaku pembimbing I yang sangat banyak membimbing, memberi saran, serta mengajari penulis banyak hal selama proses pembuatan skripsi ini dan selama menjalani perkuliahan di Siskom. 3. Bapak Saptadi Nugroho, M.Sc. selaku Kaprogdi Sistem Komputer, pembimbing II, dan wali studi di tahun terakhir atas bimbingan, saran, serta strategi yang diberikan dalam proses merancang skripsi ini dan juga atas segala saran kepada penulis selama proses perkuliahan baik sebagai asisten ataupun sebagai mahasiswa. 4. Bapak Banu Wirawan Yohanes, S.T. dan bapak Hartanto Kusuma Wardana, M.T. atas bantuan dan juga izin menggunakan hasil penelitian Pak Banu untuk mendukung skripsi ini serta juga sebagai dosen dan mentor yang memberi banyak saran dan masukan berharga selama proses perkuliahan. 5. Bapak Handoko, M. Eng. Selaku wali studi penulis hingga tahun ketiga yang banyak memberi arahan dan pengalaman berharga selama berkuliah. 6. Segenap staff pengajar Fakultas Teknik Elektronika dan Komputer atas didikan selama proses perkuliahan. 7. Staff Tata Usaha FTEK atas bantuan dalam hal administrasi.
iii
8. Orang tua dan adik yang terkasih di Lampung yang telah memberi dukungan dalam segala hal. Mami Kekeng di surga yang sudah seperti ibu kedua bagi penulis. Serta keluarga Toa Ik di Salatiga yang menjadi rumah kedua penulis. 9. Teman teman terdekat selama kuliah dan hidup di Salatiga Edo, Ricky, Angel, Anneke, Jeffrey, Samuel Eko, Krisma, Abi. 10. Teman teman FTJE ’09 dan juga rekan rekan Siskomers yang terkasih yang tidak dapat disebutkan satu persatu. 11. C Computer Club FTEK UKSW dan juga team ECEPT beserta pengurusnya atas kesempatan mengembangkan diri bersama disana dari 2010-2012. 12. Ibu Dyah Vollyeti dan Pak Esap Dwi Basuki atas bantuan dan masukan dalam mengumpulkan responden. Penulis menyadari bahwa dalam penyusunan skripsi ini terdapat banyak kekurangan, oleh sebab itu dengan kerendahan hati penulis mengharapkan saran dan kritik yang membangun untuk lebih menyempurnakan penulisan ini. Akhirnya penulis berharap semoga skripsi ini dapat bermanfaat dan memberikan informasi bagi pembaca, khususnya yang berkepentingan. Tuhan memberkati kita semua. Salatiga, Januari 2014 Penulis,
Budhi Kurniawan Wangsa
iv
DAFTAR ISI INTISARI ....................................................................................................................... i ABSTRACT .................................................................................................................... ii KATA PENGANTAR .................................................................................................... iii DAFTAR ISI ................................................................................................................... v DAFTAR GAMBAR ...................................................................................................... vii DAFTAR TABEL............................................................................................................viii DAFTAR SINGKATAN ................................................................................................. ix BAB I PENDAHULUAN ............................................................................................... 1 1.1. Tujuan .............................................................................................................. 1 1.2. Latar Belakang ................................................................................................. 1 1.3. Gambaran Sistem .............................................................................................. 6 1.4. Spesifikasi Sistem ............................................................................................ 9 1.3. Sistematika Penulisan ....................................................................................... 10 BAB II DASAR TEORI .................................................................................................. 12 2.1. Focused Crawler .............................................................................................. 12 2.1.1. Definisi.................................................................................................... 12 2.1.2. Focused Crawler dengan Algoritma Genetik ......................................... 12 2.2. Text Mining ....................................................................................................... 14 2.3. Metode Vector Space Model (VSM)................................................................. 15 2.3.1. Definisi.................................................................................................... 15 2.3.2. Metode Term Frequency-Inverse Document Frequency (TF-IDF) ....... 16 2.3.3. Similarity Coefficient .............................................................................. 17 2.4. Metode Generalized Vector Space Model (GVSM) ......................................... 18 2.5. Contoh Perhitungan Nilai SC ........................................................................... 19 2.5.1. Menghitung Nilai IDF dan TF ............................................................... 20 2.5.2. Menghitung Panjang Vektor Kalimat dan Query .................................. 21 2.5.3. Menghitung Nilai SC ............................................................................. 22 2.5.4. Mengembangkan Nilai SC dengan GVSM ............................................ 22
v
BAB III PERANCANGAN ............................................................................................. 24 3.1. Perancangan Database ...................................................................................... 24 3.1.1 Pembentukan Tabel.................................................................................. 24 3.1.2. Entity Relationship Diagram (ERD)....................................................... 26 3.2. Perancangan User Interface (UI) ...................................................................... 26 3.3. Proses Kerja Sistem Keseluruhan .................................................................... 27 3.3.1. Proses Parsing pada Focused Crawler .................................................... 28 3.3.2. Perhitungan Nilai SC pada VSM............................................................. 30 3.3.3. Pengembangan VSM menjadi GVSM .................................................... 33 3.3.4. Pembentukan Penyortir Topik ................................................................ 34 3.4. Metode Pengujian Sistem ................................................................................ 35 3.4.1. Metode Klasifikasi ................................................................................. 35 BAB IV HASIL PENGUJIAN DAN ANALISA ........................................................... 36 4.1. Tahapan Pengujian ............................................................................................ 36 4.2. Cara Pengujian .................................................................................................. 37 4.2.1. Cara Pengujian Focused Crawler .......................................................... 37 4.2.1. Cara Pengujian Sistem Peringkas Berita ............................................... 40 4.3. Peralatan Pengujian ........................................................................................... 41 4.4. Pengujian Focused Crawler ............................................................................. 42 4.5. Pengujian Sistem Peringkas Berita .................................................................. 48 4.6. Analisa Hasil Pengujian ................................................................................... 53 BAB V PENUTUP .......................................................................................................... 55 5.1. Kesimpulan ...................................................................................................... 55 5.2. Saran dan Pengembangan ................................................................................ 56 DAFTAR PUSTAKA ...................................................................................................... 57 LAMPIRAN A Detail Pengujian Focused Crawler .......................................................A-1 LAMPIRAN B Kuesioner Ringkasan Berita ..................................................................B-1 LAMPIRAN C Rekapitulasi Kuesioner .........................................................................C-1
vi
DAFTAR GAMBAR
Gambar 1.1 Contoh pencarian pada Google ..........................................................................2 Gambar 1.2. Keluaran pencarian pada sistem yang diusulkan ..............................................3 Gambar 1.3. Blok Diagram Sistem ........................................................................................6 Gambar 1.4 Keluaran pencarian pada sistem yang diusulkan ...............................................7 Gambar 3.1. ERD Sistem Peringkas Berita ...........................................................................26 Gambar 3.2. Diagram Alir Parsing .......................................................................................29 Gambar 3.3.a Diagram Alir perhitungan SC pada VSM (a) ..................................................30 Gambar 3.3.b Diagram Alir Perhitungan SC pada VSM (b) .................................................31 Gambar 3.4 Diagram Alir Pengembangan Nilai SC pada GVSM .........................................33 Gambar 4.1 Konfigurasi File App.Config .............................................................................38 Gambar 4.2 Tampilan Masukan Domain Lexicon dan Keyword ...........................................43 Gambar 4.3 Rata-Rata Tingkat Kesuksesan Pencarian Tiap Topik.......................................44 Gambar 4.4 Tingkat Kesuksesan Pencarian Topik Politik ....................................................46 Gambar 4.5 Data Hasil Akhir Proses Crawling .....................................................................47 Gambar 4.6 Data Isi Berita ....................................................................................................48 Gambar 4.7 Jumlah Responden Berdasarkan Kategori Pekerjaan.........................................50 Gambar 4.8 Tampilan frmSummarizerTrial ..........................................................................51 Gambar 4.9 Tampilan frmSummazrizer ................................................................................52 Gambar 4.10 Tampilan frmAdmin ........................................................................................53
vii
DAFTAR TABEL
Tabel 1.1 Perbandingan mesin pencari dengan aplikasi yang diusulkan ...............................5 Tabel 2.1 Perhitungan tf, idf kalimat dan query (bersambung) .............................................20 Tabel 2.1 Perhitungan tf, idf kalimat dan query (lanjutan) ....................................................21 Tabel 3.1. Detil Tabel mPage ................................................................................................24 Tabel 3.3. Detil Tabel mPageContent ...................................................................................25 Tabel 3.3. Detil Tabel mResultPage ......................................................................................25 Tabel 4.1 Data Web dan Tag Identifier Halaman (bersambung) ...........................................39 Tabel 4.1 Data Web dan Tag Identifier Halaman (lanjutan) ..................................................40 Tabel 4.2 Ringkasan Pengujian Focused Crawler.................................................................44 Tabel 4.3 Kriteria Penilaian ...................................................................................................49 Tabel 4.4 Data Berita pada Kuesioner ...................................................................................49 Tabel 4.5 Ringkasan Hasil Penilaian Responden ..................................................................50
viii
DAFTAR SINGKATAN
ERD
Entity Relationship Diagram
GVSM
Generalized Vector Space Model
HTML
Hyper Text Markup Language
SC
Similarity Coefficient
TF-IDF
Term Frequency- Inverse Document Frequency
URL
Uniform Resource Locator
VSM
Vector Space Model
ix