SISTEM PERINGKAS BERITA ONLINE OTOMATIS MENGGUNAKAN ALGORITMA TEXTTEASER
SKRIPSI
ANWAR PASARIBU 111402008
PROGRAM STUDI S1 TEKNOLOGI INFORMASI FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI UNIVERSITAS SUMATERA UTARA MEDAN 2015
Universitas Sumatera Utara
SISTEM PERINGKAS BERITA ONLINE OTOMATIS MENGGUNAKAN ALGORITMA TEXTTEASER
SKRIPSI Diajukan untuk melengkapi tugas dan memenuhi syarat memperoleh ijazah Sarjana Teknologi Informasi
ANWAR PASARIBU 111402008
PROGRAM STUDI S1 TEKNOLOGI INFORMASI FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI UNIVERSITAS SUMATERA UTARA 2015
Universitas Sumatera Utara
i
PERSETUJUAN
Judul
: SISTEM PERINGKAS BERITA ONLINE OTOMATIS MENGGUNAKAN ALGORITMA TEXTTEASER
Kategori
: SKRIPSI
Nama
: ANWAR PASARIBU
Nomor Induk Mahasiswa
: 111402008
Program Studi
: SARJANA (S1) TEKNOLOGI INFORMASI
Departemen
: TEKNOLOGI INFORMASI
Fakultas
: ILMU KOMPUTER DAN TEKNOLOGI INFORMASI (FASILKOM-TI) UNIVERSITAS SUMATERA UTARA
Diluluskan di Medan, Januari 2016 Komisi Pembimbing
:
Pembimbing 2
Pembimbing 1
Seniman, S.Kom., M.Kom. NIP 19870525 201404 1 001
Dani Gunawan, S.T., M.T. NIP 19820915 201212 1 002
Diketahui/Disetujui oleh Program Studi S1 Teknologi Informasi Ketua,
Muhammad Anggia Muchtar, S.T., MM.IT. NIP 19800110 200801 1 010
Universitas Sumatera Utara
ii
PERNYATAAN
SISTEM PRINGKASAN BERITA ONLINE MENGGUNAKAN ALGORTIMA TEXTTEASER
SKRIPSI
Saya mengakui bahwa skripsi ini adalah hasil karya sendiri, kecuali beberapa kutipan dan ringkasan yang masing-masing disebutkan sumbernya.
Medan, Januari 2016
Anwar Pasaribu 111402008
Universitas Sumatera Utara
iii
UCAPAN TERIMA KASIH
Puji dan syukur penulis sampaikan ke hadirat Allah SWT yang telah memberikan rahmat dan hidayah-Nya sehingga penulis dapat menyelesaikan skripsi ini sebagai syarat untuk memperoleh gelar Sarjana Teknologi Informasi, Program Studi S1 Teknologi Informasi Universitas Sumatera Utara. Ucapan terima kasih penulisan sampaikan kepada Bapak Dani Gunawan, S.T., M.T. selaku pembimbing pertama dan Bapak Seniman, S.Kom., M.Kom. selaku pembimbing kedua yang telah banyak meluangkan waktu untuk memberikan kritik dan saran dalam penelitian dan penulisan skripsi ini. Selanjutnya, terima kasih juga kepada Bapak Muhammad Anggia Muchtar, ST., M.M.IT sebagai dosen penguji pertama serta Ibu Dr. Erna Budhiarti Nababan, M. IT sebagai dosen penguji kedua. Penulis juga mengucapkan terima kasih kepada Bapak dan Ibu dosen S1 Teknologi Informasi yang telah mengajar dan memberikan masukan serta saran yang bermanfaat selama proses perkuliahan hingga dalam penulisan skripsi ini. Ucapan terima kasih juga ditujukan kepada semua pegawai dan staf tata usaha Teknologi Informasi dan Fasilkom-TI, yang telah membantu proses administrasi selama perkuliahan. Penulis juga berterima kasih kepada kedua orang tua penulis, Bapak Asmar Pasaribu dan Ibu Agonna Siregar yang telah membesarkan penulis dengan penuh cinta dan kasih. Terima kasih juga penulis ucapkan kepada seluruh teman-teman S1 Teknologi Informasi yang telah bersama-sama melewati perkuliahan dengan penulis, serta temanteman mahasiswa USU lainnya.
Universitas Sumatera Utara
iv
ABSTRAK
Peringkas teks otomatis menjadi salah satu solusi untuk menghadapi pesatnya arus informasi sekarang ini khususnya berita online. Solusi ini memberikan versi teks yang lebih singkat namun tetap mewakili bagian penting dari teks asli. Penelitian ini mengambil data dari tiga situs berita online yaitu kompas.com, detik.com, dan liputan6.com. Kemudian data yang diperoleh diringkas menggunakan metode ekstraktif yang bekerja dengan cara mengambil kalimat-kalimat penting dari teks asli tanpa memodifikasinya. Untuk itu digunakan algoritma TextTeaser yang memanfaatkan empat elemen yang terdiri dari judul teks, posisi kalimat, panjang kalimat, dan frekuensi keyword untuk menentukan apakah kalimat termasuk ringkasan atau tidak. Selanjutnya teks juga akan diringkas menggunakan algoritma TextRank yang bekerja dengan memberikan peringkat pada graf representasi objek (kalimat) dalam teks untuk menentukan apakah kalimat termasuk dalam ringkasan. Hasil ringkasan TextTeaser kemudian diuji dengan mengevaluasi menggunakan metode evaluasi intrinsic termasuk metode recall (R), precision (P), dan F-Score (F) dengan hasil ringkasan TextRank pada 3075 data berita. Sehingga 60,11% dari total data memiliki nilai F-Score ≥ 0,5 yang berarti algoritma TextTeaser memiliki tingkat presisi yang cukup baik untuk mengambil kalimat-kalimat penting dalam teks berita. Selanjutnya dari data tersebut, terdapat nilai F-Score > 0,7 untuk 31,36% atau sekitar 884 berita yang memiliki presisi ringkasan yang lebih baik untuk menggambarkan isi teks berita.
Kata kunci: TextTeaser, TextRank, berita, peringkasan teks otomatis, peringkasan ekstraktif.
Universitas Sumatera Utara
v
ONLINE NEWS SUMMARIZATION SYSTEM USING TEXTTEASER ALGORITHM
ABSTRACT
Automatic text summarization become one of the solutions to deal with the rapid flow of information today, especially online news. This solution provides a shorter version but still represents important parts of the original text so that the general description of the contents of the entire text can be understood in a relatively shorter time. This research took data from three online news sites which are kompas.com, detik.com, and liputan6.com. Furthermore summarize the data using extractive methods by taking the main idea from the original text without any modification. For that purpose, used TextTeaser algorithm which utilizes the four elements consisting of text title, sentence position, sentence length, and keywords frequency. The four elements of this text will produce a score of each sentence to determine whether the sentence include in summary or not. Generated summary was tested with intrinsic evaluation methods, including recall (R), precision (P), and F-Score (F). The evaluation method then used to evaluates the summary by TextTeaser with summary by TextRank for 3075 news articles. So that 60.11% of the total news has a value of F-Score ≥ 0.5 which means that the TextTeaser algorithm is good enough in case to collect important sentences from news article. Furthermore, from the data contained F-Score values > 0.7 at 31.36%, or about 884 news data that have a better summary to describe the whole contents of the news article.
Keyword: TextTeaser, TextRank, news, automatic text summarization, extractive summary.
Universitas Sumatera Utara
vi
DAFTAR ISI
Hal. Persetujuan ...................................................................................................................... i Pernyataan ...................................................................................................................... ii Ucapan Terima Kasih.................................................................................................... iii Abstrak .......................................................................................................................... iv Abstract .......................................................................................................................... v Daftar Isi ....................................................................................................................... vi Daftar Tabel ................................................................................................................ viii Daftar Gambar............................................................................................................... ix BAB 1 Pendahuluan ....................................................................................................... 1 Latar Belakang ....................................................................................................... 1 Rumusan Masalah .................................................................................................. 2 Batasan Masalah..................................................................................................... 3 Tujuan Penelitian.................................................................................................... 3 Manfaat Penelitian .................................................................................................. 3 Metodologi Penelitian ............................................................................................. 3 Sistematika Penulisan ............................................................................................. 4 BAB 2 Landasan Teori .................................................................................................. 6 Berita..................................................................................................................... 6 Karakteristik berita ........................................................................................... 6 Peringkasan Teks Otomatis ..................................................................................... 7 Algoritma TextTeaser ............................................................................................. 9 Algoritma TextRank .............................................................................................. 12 Periodic Tasks...................................................................................................... 15 Web Data Extraction ............................................................................................ 17 Python content extraction ............................................................................... 18 Android ............................................................................................................... 21 Library pendukung ......................................................................................... 22 Natural Language Toolkit (NLTK) ........................................................................ 24 REST................................................................................................................... 25 Evaluasi Hasil Ringkasan .................................................................................... 26 Penelitian Terdahulu ........................................................................................... 27 BAB 3 Analisis dan Perancangan Sistem .................................................................... 29 Arsitektur Umum.................................................................................................. 29 Analisis Data........................................................................................................ 30 Data Berita .................................................................................................... 31 Data stopword................................................................................................ 34 Analisis Sistem..................................................................................................... 35 Ekstraksi isi berita .......................................................................................... 35 Pembersihan teks berita .................................................................................. 36 Persiapan proses peringkasan .......................................................................... 36
Universitas Sumatera Utara
vii
Menentukan frekuensi keyword ...................................................................... 38 Menentukan skor judul teks ............................................................................ 43 Menentukan skor panjang kalimat ................................................................... 44 Menentukan skor posisi kalimat ...................................................................... 44 Menentukan skor total .................................................................................... 44 Perancangan Sistem .............................................................................................. 45 Perancangan antarmuka sistem ........................................................................ 45
BAB 4 Implementasi dan Pengujian Sistem ................................................................ 50 Implementasi Sistem............................................................................................. 50 Spesifikasi perangkat keras yang digunakan ..................................................... 50 Spesifikasi perangkat lunak yang digunakan .................................................... 51 Implementasi Perancangan Antarmuka .................................................................. 51 Tampilan halaman sign in ............................................................................... 51 Tampilan halaman sign up .............................................................................. 51 Tampilan halaman home ................................................................................. 52 Tampilan halaman news details ....................................................................... 53 Tampilan halaman settings.............................................................................. 53 Tampilan halaman choose news source ............................................................ 54 Hasil Ringkasan ................................................................................................... 54 Pengujian Hasil Ringkasan .................................................................................... 57 BAB 5 Kesimpulan dan Saran ..................................................................................... 62 Kesimpulan .......................................................................................................... 62 Saran ................................................................................................................... 62 Daftar Pustaka .............................................................................................................. 64
Universitas Sumatera Utara
viii
DAFTAR TABEL
Hal. Tabel 2.1 Nilai berdasarkan skor posisi kalimat (Balbin, 2011) .................................. 10 Tabel 2.2 TextRank dibandingkan dengan sistem lain (Mihalcea & Tarau, 2004) ...... 14 Tabel 2.3 Contoh penggunaan crontab (Solem, 2015) ................................................ 17 Tabel 2.4 Penelitian terdahulu ..................................................................................... 28 Tabel 3.1 Contoh URL situs berita .............................................................................. 31 Tabel 3.2 Contoh stopword .......................................................................................... 35 Tabel 3.3 Contoh top keyword ..................................................................................... 39 Tabel 3.4 Skor keyword ............................................................................................... 40 Tabel 3.5 Menghitung nilai variabel DBS ................................................................... 40 Tabel 3.6 Skor total SBS .............................................................................................. 42 Tabel 3.7 Hitung fitur judul berita ............................................................................... 43 Tabel 3.8 Keterangan bagian-bagian tampilan server .................................................. 46 Tabel 4.1 Contoh hasil evaluasi sistem ........................................................................ 57 Tabel 4.2 Frekuensi nilai F-Score pada seluruh data ................................................... 58 Tabel 4.3 Frekuensi nilai F-Score berita kompas.com ................................................ 59 Tabel 4.4 Frekuensi nilai F-Score berita detik.com ..................................................... 60 Tabel 4.5 Frekuensi nilai F-Score berita liputan6.com................................................ 60
Universitas Sumatera Utara
ix
DAFTAR GAMBAR
Hal. Gambar 2.1 Alur proses Celery (Smith, 2014) ............................................................ 16 Gambar 2.2 Contoh penggunaan Celery periodic tasks (Solem, 2015) ....................... 17 Gambar 2.3 Goose menentukan bagian yang bukan isi berita (Pfeiffer, 2014) ........... 19 Gambar 2.4 Goose Menentukan Lokasi Isi Berita (Pfeiffer, 2014) ............................. 19 Gambar 2.5 Goose Menandai Gambar Utama untuk Berita (Pfeiffer, 2014) .............. 20 Gambar 2.6 Contoh indikasi halaman bersambung ..................................................... 20 Gambar 2.7. Arsitektur PushBots (Google Developers, 2015) .................................. 24 Gambar 3.1 Arsitektur umum sistem peringkas berita ................................................ 30 Gambar 3.2 Indikasi berita bersambung tekno.kompas.com ........................................ 32 Gambar 3.3 Indikasi berita bersambung health.liputan6.com ..................................... 33 Gambar 3.4 Indikasi berita bersambung health.detik.com ........................................... 34 Gambar 3.5 Flowchart text preprocessing ................................................................... 37 Gambar 3.6 Contoh input teks ..................................................................................... 37 Gambar 3.7 Teks setelah menghilangkan tanda baca .................................................. 37 Gambar 3.8 Hasil penguraian kata dari teks dan huruf kecil ....................................... 38 Gambar 3.9 Kata-kata setelah penghapusan stopword ................................................ 38 Gambar 3.10 Input judul dan teks berita ...................................................................... 38 Gambar 3.11 Tampilan console server sistem peringkas ............................................. 45 Gambar 3.12 Rancangan (1) halaman sign in dan (2) halaman sign up ...................... 46 Gambar 3.13 Rancangan halaman home ...................................................................... 47 Gambar 3.14 Rancangan halaman news details ........................................................... 48 Gambar 3.15 Rancangan halaman Settings .................................................................. 48 Gambar 3.16 Rancangan halaman Choose News Source ............................................. 49 Gambar 4.1 Tampilan halaman sign in ........................................................................ 51 Gambar 4.2 Tampilan halaman sign up ....................................................................... 52 Gambar 4.3 Tampilan halaman home .......................................................................... 52 Gambar 4.4 Tampilan halaman news details ............................................................... 53 Gambar 4.5 Tampilan halaman settings....................................................................... 53 Gambar 4.6 Tampilan halaman choose news source ................................................... 54
Universitas Sumatera Utara