BAB I PENDAHULUAN
1.1 Latar Belakang Membaca adalah salah satu aktifitas yang dilakukan oleh seseorang untuk mendapatkan intisari dari sebuah teks, misalnya teks berita. Untuk mendapatkan intisari dari sebuah teks biasanya seseorang harus membaca seluruh isi teks yang ada. Namun, pada kenyatannya hanya dengan membaca ringkasan seseorang dapat memperoleh intisari dari teks tersebut. Membaca dan memahami keseluruhan teks membutuhkan waktu yang cukup lama. Oleh karena itu, ringkasan teks sangat penting untuk mengatasi masalah waktu baca tersebut. Akan tetapi, untuk membuat sebuah ringkasan membutuhkan biaya dan waktu pula. Sehingga, diperlukan sebuah sistem yang dapat melakukan peringkasan teks secara otomatis agar proses lebih efisien. Peringkasan teks otomatis (automatic text summarization atau ATS) adalah teknik pembuatan ringkasan dari sebuah teks secara otomatis dengan memanfaatkan aplikasi yang dijalankan pada komputer untuk menghasilkan informasi yang paling penting dari dokumen aslinya (Zaman and Winarko 2011). Banyaknya kalimat hasil peringkasan teks tersebut tidak lebih dari 50% dokumen asalnya (Radev and McKeown 2002). Terdapat dua bagian dari kriteria peringkasan teks yaitu ekstraksi dan abstraksi (Suanmali et al, 2009). Teknik ekstraksi yaitu teknik peringkasan secara lengkap yang terdiri dari urutan-urutan kalimat yang disalin dan memilih bagianbagian kalimat penting dari dokumen asli. Sedangkan teknik abstraksi adalah teknik peringkasan dengan mengambil informasi penting dari dokumen kemudian menghasilkan
ringkasan
dengan
menciptakan
kalimat
baru
yang
merepresentasikan intisari dari dokumen tersebut. Pada umumnya abstraksi dapat meringkas teks lebih kuat daripada ekstraksi, tetapi state-of-the-art teknik abstraksi masih lemah dan teknik abstraksi mengaplikasikan teknologi natural
1
2
language generation yang merupakan bahasan yang dikembangkan tersendiri. Sehingga, sebagian besar penelitian saat ini difokuskan pada teknik ekstraksi. Dalam metode ekstraksi, tingkat kompresi merupakan faktor penting yang digunakan untuk menentukan rasio antara panjang ringkasan dan teks asli. Dengan meningkatnya tingkat kompresi, ringkasan akan lebih besar dan lebih banyak mengandung konten yang tidak signifikan. Sedangkan, jika tingkat kompresi menurun ringkasan menjadi pendek dan lebih banyak informasi yang hilang. Menurut Yeh et al dalam Suanmali et al (2009) ketika tingkat kompresi 5%-30% kualitas ringkasan dapat diterima. Dari penelitian yang dilakukan Aristoteles dkk (2012) dengan tingkat kompresi 10%, 20% dan 30% menunjukkan bahwa nilai akurasi tertinggi terdapat pada tingkat kompresi 30%. Oleh karena itu penelitian ini menggunakan tingkat kompresi 30% dari dokumen asli. Peringkasan teks menggunakan teknik ekstraksi memiliki beberapa bagian penting dalam proses peringkasan yaitu bagaimana cara menentukan kalimatkalimat yang penting dalam sebuah dokumen. Salah satu caranya dapat menggunakan beberapa fitur ekstraksi teks seperti posisi kalimat, koneksi antar kalimat, kalimat positif, dan sebagainya. Menurut Aristoteles dkk (2012), dari sebelas fitur kalimat yang digunakan yaitu: posisi kalimat, keyword positif, keyword negatif, kemiripan antar kalimat, kalimat yang menyerupai judul, kalimat yang mengandung nama entiti, kalimat yang mengandung nama numerik, panjang kalimat, koneksi antar kalimat, penjumlahan bobot koneksi antar kalimat dan cosine similarity ada empat fitur yang sudah merepresentasikan sebelas fitur lainnya dalam peringkasan teks. Empat fitur tersebut adalah fitur keyword positif, kesamaan dengan kalimat lain, kesamaan kalimat dengan judul, dan cosine similarity. Selain itu waktu komputasi untuk keempat fitur tersebut lebih singkat daripada komputasi sebelas fitur (Aristoteles dkk, 2012). Tiap-tiap fitur ekstraksi teks tersebut memiliki tingkat pengaruh yang berbeda-beda terhadap hasil ringkasan sistem. Oleh karena itu dibutuhkan sebuah algoritma optimasi untuk menentukan tingkat kepentingan atau nilai bobot dari tiap-tiap fitur ekstraksi. Salah satu algoritma optimasi yang dapat digunakan adalah algoritma genetika. Pada tugas akhir ini digunakan algoritma genetika
3
untuk melakukan optimasi bobot fitur ekstraksi pada peringkasan teks Bahasa Indonesia dikarenakan permasalahan bobot fitur ekstraksi tersebut dapat direpresentasikan dalam bentuk kromosom. Evaluasi hasil peringkasan teks menggunakan Recall-Oriented Understudy for Gisting Evaluation atau ROUGE (Steinberger & Jezek, 2009). ROUGE adalah toolkit evaluasi oleh Lin (2004) yang telah menjadi standar untuk evaluasi peringkasan otomatis. ROUGE membandingkan ringkasan yang dihasilkan oleh program dengan ringkasan yang dihasilkan manusia. Evaluasi dilakukan dengan menggunakan peraturan ROUGE n-gram. Menurut Suanmali et al (2009), ROUGE-1 memiliki korelasi tertinggi dengan penilaian manusia dengan tingkat kepercayaan 95%. Hal ini menyatakan bahwa ROUGE-1 secara konsisten sangat berkorelasi dengan penilaian manusia. 1.2 Rumusan Masalah Adapun rumusan masalah yang dapat diambil dalam penulisan penelitian ini adalah: a. Bagaimana
membangun
sistem
yang
mampu
melakukan
proses
peringkasan teks otomatis dokumen Bahasa Indonesia? b. Bagaimana penggunaan algoritma genetika dalam mengoptimasi bobot tiap fitur teks peringkasan otomatis dokumen Bahasa Indonesia? 1.3 Batasan Masalah Batasan masalah dalam penelitian ini adalah sebagai berikut. 1. Sistem yang dibangun adalah sistem berbasis web. 2. Pembuatan ringkasan sistem berdasarkan teknik ekstraksi. Tidak ada perubahan struktur kalimat dalam ringkasan. Ringkasan berupa gabungan kalimat-kalimat terpenting dari teks asli. 3. Pembuatan ringkasan hanya berlaku pada single-document tidak berlaku pada multi-document. 4. Dokumen teks yang digunakan adalah dokumen Bahasa Indonesia dari penelitian Ridha (2002) dengan tema politik. 5. Pengujian hasil ringkasan sistem menggunakan kompresi 30% dari jumlah kalimat dokumen asli.
4
6. Dokumen ringkasan manual yang digunakan untuk pengujian hasil ringkasan sistem adalah ringkasan manual yang dibuat oleh dua orang pakar dalam bidang Sastra Indonesia. 1.4 Tujuan Penelitian Tujuan dari penelitian ini adalah merancang dan mengimplementasikan sebuah sistem peringkasan teks otomatis untuk dokumen berbahasa Indonesia dengan algoritma genetika. 1.5 Manfaat Penelitian Dengan menerapkan algoritma genetika dalam peringkasan teks otomatis dokumen Bahasa Indonesia diharapkan dapat menghasilkan ringkasan yang berisi intisari dari keseluruhan dokumen sehingga pengguna sistem dapat membuat keputusan untuk melanjutkan membaca keseluruhan dokumen atau cukup dengan membaca ringkasan. 1.6 Metodologi Penelitian Pada sub bab metodologi penelitian ini akan menjelaskan langkah-langkah yang akan dilalui untuk melakukan perancangan sistem. Adapun sub bab bahasan yang akan dijelaskan adalah desain penelitian, pengumpulan data, pengolahan data awal, dan metode yang digunakan. 1.6.1 Desain Penelitian Penelitian ini mengambil judul “Peringkasan Teks Otomatis Dokumen Bahasa Indonesia dengan Algoritma Genetika”. Desain penelitian yang digunakan dalam penelitian ini adalah riset eksperimental. Untuk menggambarkan riset eksperimental bisa dilakukan pada dua kelompok dimana kelompok satu disebut control tanpa diberi perlakukan apapun sedangkan pada kelompok ke dua diberikan perlakuan (treatment) (Hasibuan 2007). 1.6.2 Pengumpulan Data Jenis data yang digunakan pada penelitian ini adalah data sekunder, yaitu data yang didapat tidak secara langsung dari objek penelitian. Data sudah dikumpulkan oleh pihak lain dengan berbagai cara atau metode. Dataset berasal dari penelitian Ridha (2002) yang diambil dari media online kompas.com dengan tema politik dari tanggal 11 Maret 2002 sampai 11 April 2002. Dataset berjumlah
5
150 dokumen, 100 dokumen digunakan untuk tahap training dan 50 dokumen digunakan untuk tahap testing. Dataset menggunakan dokumen dalam bentuk format XML sederhana, dan jenis dokumen yang digunakan bertipe teks. Gambar 1.1 merupakan contoh format dokumen asli yang digunakan pada tahap pelatihan dan pengujian.
<TITLE>Tim Koneksitas Kasus 27 Juli Hendaknya Transparan
Jakarta, Kompas - Tim Pembela Demokrasi Indonesia (TPDI) selaku kuasa hukum Dewan Pimpinan Pusat Partai Demokrasi Indonesia Perjuangan (DPP PDI-P) meminta tim koneksitas yang menyidik kasus penyerbuan Kantor DPP PDI Jalan Diponegoro Nomor 58 Jakarta tanggal 27 Juli 1996 (Kasus 27 Juli) bersikap transparan dan obyektif dalam mengungkap kasus tersebut. Para tersangka yang diajukan adalah bawahan yang sengaja dikorbankan, sementara pucuk pimpinan pemegang komando diselamatkan tanpa proses hukum.
Hal itu diungkapkan Koordinator TPDI Petrus Selestinus dalam surat yang ditujukan kepada Ketua Tim Koneksitas Penyidikan Peristiwa 27 Juli 1996. Surat itu diperoleh Kompas hari Selasa (9/4). TPDI mengonstantir adanya kekuatan dan pengaruh dari pihak-pihak tertentu yang berhasil mempengaruhi dan membelokkan target penyidikan kasus 27 Juli, baik untuk menentukan jumlah tersangka maupun untuk memperlemah bukti-bukti materiil dalam penuntutan dan persidangan pengadilan.
Indikasinya, kata Selestinus, hingga saat ini tim koneksitas belum berhasil memenuhi petunjuk jaksa penuntut umum untuk menyempurnakan hasil pemeriksaan tim koneksitas meskipun pengembalian berkas perkara telah sering dilakukan jaksa kepada tim koneksitas. Selestinus menjelaskan, dalam penyidikan yang dilakukan Korps Reserse Mabes Polri ditemukan bukti bahwa yang terlibat dalam peristiwa 27 Juli 1996 itu adalah institusi dan oknum-oknum dari kalangan TNI, Polri, dan sipil. Atas desakan Komisi II DPR dibentuk Tim Koneksitas selaku penyidik peristiwa 27 Juli 1996. Tim itu diketuai oleh Kepala Korps Reserse Mabes Polri dan Komandan Pusat Polisi Militer (Puspom)-sebagai wakil ketua.
Mengutip laporan polisi No Pol: LP/1939/VII/1996 tanggal 7 Agustus 1996 dan No 106/A-106/VII/1998 tanggal 31 Juli 1998, Selestinus mengatakan, nama Jenderal (Purn) Feisal Tanjung dan Jenderal (Pol/ Purn) Dibyo Widodo dilaporkan untuk diperiksa dan diminta pertanggungjawabannya. Akan tetapi, dalam perkembangan penyidikan Tim Koneksitas, kedua nama tersebut hilang begitu saja tanpa diadakan penyidikan secara lebih mendalam mengenai keterlibatan kedua jenderal dimaksud.
Gambar 1.1 Format Dokumen Asli Dokumen yang sudah dikumpulkan kemudian akan diringkas secara manual oleh dua orang pakar Bahasa Indonesia. Peringkasan manual ini bertujuan untuk mengevaluasi hasil ringkasan sistem dengan cara membandingkan hasil
6
ringkasan sistem dengan hasil ringkasan manual. Ringkasan manual juga disimpan dalam format xml. 1.6.3 Pengolahan Data Awal Proses yang dilakukan setelah mendapatkan data terkait dengan penelitian yaitu pengolahan data sehingga data tersebut diubah dan menjadi informasi yang berguna. Data-data yang diperoleh tersebut, selanjutnya akan diolah sesuai kebutuhan sistem. Untuk dapat melakukan proses perhitungan selanjutnya, maka data dokumen yang telah dikumpulkan perlu dilakukan proses awal atau disebut sebagai text preprocessing. 1.6.4 Metode yang Digunakan Pada sistem peringkasan teks otomatis dokumen Bahasa Indonesia ini menggunakan algoritma genetika untuk menghitung nilai fitness yang tertinggi dalam menentukan kromosom dalam kasus ini bobot fitur-fitur ekstraksi teks.