Update Summarization Untuk Kumpulan Dokumen Berbahasa Indonesia Widhaprasa E. Waliprana
Masayu Leylia Khodra
Institut Teknologi Bandung
Institut Teknologi Bandung
[email protected]
[email protected]
ABSTRAK Update summarization menghasilkan ringkasan dengan mempertimbangkan informasi yang telah dibaca oleh pengguna sebelumnya. Pada makalah ini dikaji teknik update summarization pada kumpulan dokumen berbahasa Indonesia. Sistem peringkasan ini memiliki dua subsistem peringkasan yang berbeda untuk kumpulan dokumen yang diasumsikan sudah dibaca oleh pengguna dan kumpulan dokumen yang belum dibaca oleh pengguna. Untuk setiap subsistem, terdapat komponen praproses, komponen penentuan topik dengan frequent term-based clustering untuk menentukan topik umum dari kumpulan dokumen, dan komponen pemilihan kalimat dengan maximal marginal relevance dalam proses perankingan kalimat dan juga proses update untuk menentukan kalimat yang menjadi hasil ringkasan. Dari hasil pengujian setiap komponen, didapatkan kesimpulan bahwa frequent term-based clustering mampu menghasilkan topik dari kumpulan dokumen yang menjadi masukan dan maximal marginal relevance mampu melakukan perankingan kalimat untuk menentukan kalimat yang menjadi hasil ringkasan tanpa mengandung informasi yang sudah dibaca dan memiliki redundansi informasi yang rendah.
Penelitian mengenai update summarization sudah banyak dilakukan pada DUC/TAC dan juga pada penelitian lainnya, namun semua penelitian hanya dilakukan pada kumpulan dokumen berbahasa Inggris. Penelitian pada kumpulan dokumen berbahasa Indonesia belum ada yang melakukannya sehingga perlu dilakukan penelitian mengenai update summarization pada kumpulan dokumen berbahasa Indonesia. Pada makalah ini, dikaji teknik peringkasan yang dapat diimplementasikan dalam melakukan update summarization pada kumpulan dokumen berbahasa Indonesia. Pada bagian selanjutnya, akan dibahas konsep-konsep yang digunakan dalam penelitian update summarization ini. Bagian 3 akan membahas sistem peringkasan INUSUM yang dikembangkan, sedangkan bagian 4 membahas pengujian sistem peringkasan yang telah dilakukan terhadap setiap komponen INUSUM. Pada bagian terakhir, dibahas kesimpulan dan penelitian selanjutnya yang akan dilakukan.
2. UPDATE SUMMARIZATION
Kata Kunci Frequent term-based clustering, maximal marginal relevance, redundansi, ringkasan, update summarization.
1. PENDAHULUAN Pada masa ini, informasi sudah tersebar sangat banyak di internet. Informasi tersebut tersebar dalam bentuk dokumen seperti artikel, berita, dan makalah ilmiah. Jumlah dokumen yang banyak ini menimbulkan masalah yaitu konten dokumen sulit dimengerti yang disebabkan oleh terlalu banyaknya informasi atau disebut juga information overload. Peringkasan dokumen merupakan salah satu cara untuk mengatasi masalah information overload. Peringkasan teks otomatis mampu menghasilkan ringkasan yang memiliki konten penting pada dokumen sumber (Jiaming, 2008). Salah satu jenis peringkasan teks otomatis adalah peringkasan multidokumen yaitu peringkasan dengan banyak dokumen sumber. Namun, hasil peringkasan multidokumen ini masih sering memiliki informasi yang sudah diketahui dan memiliki redundansi informasi. Update summarization adalah bentuk peringkasan multidokumen berdasarkan asumsi bahwa pengguna sudah pernah membaca informasi sebelumnya (Aggarwal dkk., 2009). Dengan kata lain, informasi pada ringkasan yang diterima bersifat up-to-date atau baru. Jenis peringkasan ini menjadi bahan kompetisi pada workshop tahunan untuk penelitian mengenai teknologi pemrosesan bahasa alami yang dinamakan Document Understanding Conference (DUC) pada tahun 2007 dan sudah berganti nama menjadi Text Analysis Conference (TAC) sejak tahun 2008. Columbiaβs Newsblaster (http://newsblaster.cs.columbia.edu) merupakan sebuah aplikasi penyaji berita online dengan berbagai fitur diantaranya pengkategorian dan peringkasan. Newsblaster menyediakan
6
sebuah prototipe update summarizer yang berfungsi untuk menghasilkan ringkasan berita yang baru.
Update summarization menghasilkan ringkasan yang tidak memiliki informasi yang telah dibaca karena informasi tersebut diabaikan dalam proses peringkasan. Peringkasan ini sangat berkaitan dengan pengecekan kebaruan yang dapat digambarkan sebagai masalah tambahan selain penentuan informasi yang penting. Pengecekan kebaruan adalah proses identifikasi informasi yang belum diketahui pembaca. Berdasarkan TAC 2008 dalam update summarization task, terdapat 2 proses peringkasan yang harus dilakukan yaitu kumpulan dokumen A dan kumpulan dokumen B. Kumpulan dokumen A menggunakan sistem peringkasan biasa, lalu kumpulan dokumen B diringkas dengan asumsi bahwa pengguna sudah membaca informasi di kumpulan dokumen A sehingga ringkasan dokumen B tidak boleh berisikan informasi yang terdapat pada kumpulan dokumen A. Identifikasi topik utama pada kumpulan dokumen merupakan hal penting dalam melakukan peringkasan multidokumen. Identifikasi topik tersebut dilakukan dengan clustering, yaitu membagi sekumpulan objek menjadi sekumpulan kelompok (cluster) dengan tujuan agar kelompok objek yang memiliki tingkat kesamaan yang tinggi berada dalam satu kelompok yang sama. Untuk peringkasan berbasis clustering, topik utama dari kumpulan dokumen direpresentasikan dalam suatu cluster. Metode clustering yang digunakan dalam penelitian ini adalah frequent term-based clustering (Beil dkk., 2009) yang dapat dilihat pada Alg 1. FTC(database D, float minsup) SelectedTermSets:= {}; n:= |D|; RemainingTermSets:= minsup);
DetermineFrequentTermsets(D,
while |cov(SelectedTermSets)| β n do
Widhaprasa E. Waliprana, Masayu Leylia Khodra
for each set in RemainingTermSets do
πππ(π 1 , π 2 ) = cos(π 1 , π 2 ) =
Calculate overlap for set;
(
BestCandidate:= element of Remaining TermSets with minimum overlap; SelectedTermSets:=SelectedTermSets {BestCandidate};
π 1 . π 2 |π 1 ||π 2 |
3)
βͺ
Keterangan:
RemainingTermSets:=RemainingTermSets{BestCandidate};
πππ :
Pengukuran kesamaan antara 2 vektor
Remove all documents in cov(BestCandidate) from D and from the coverage of all of the RemainingTermSets; return SelectedTermSets and the cover of the elements of SelectedTermSets;
Alg. 1 Frequent term-based clustering (Beil dkk., 2009) Frequent term-based clustering merupakan teknik clustering dengan menggunakan sekumpulan term yang sering muncul secara bersamaan dalam frekuensi tinggi pada kumpulan dokumen sebagai cluster. Sekumpulan term tersebut dinamakan frequent term set. Setiap frequent term set tersebut merupakan topik yang telah diidentifikasi. Secara umum frequent termbased clustering memilih pasangan kata yang sering muncul secara bersamaan dalam kalimat tanpa memperhatikan urutan kemunculan kata tersebut. Maximal Marginal Relevance (MMR) digunakan dalam proses update summarization sebagai metode pemilihan kalimat yang hasilnya akan menjadi ringkasan (Carbonell & Goldstein, 1998). MMR dikembangkan untuk pemilihan kalimat dengan memperhatikan apakah kalimat tersebut relevan dengan query dan memperhatikan kebaruan informasi. Misalkan terdapat sebuah query Q, kemudian terdapat kumpulan kalimat yang sudah dipilih S. Untuk setiap kandidat kalimat s_i, nilai MMR dapat dihitung dengan menggunakan rumus berikut: πππ
= ππππππ₯ [ π πππ1 (π π , π) β (1 β π) max πππ2 (π π , π π )] π π βπ
(1)
Keterangan:
π
:
πππ1 : πππ2 :
Parameter dengan interval nilai [0,1] untuk mengatur tingkat kepentingan relatif antara relevansi dan redundansi Pengukuran kesamaan antara kandidat kalimat dengan query Pengukuran kesamaan antara kandidat kalimat dengan kalimat yang sudah dipilih
Pada (1) terdapat pengukuran kesamaan πππ. Dalam kasus ini pengukuran kesamaan dilakukan dengan cosine similarity. Penghitungan cosine similarity dilakukan dengan cara menghitung kedekatan antara kedua vektor unit teks tersebut. Salah satu cara untuk melakukan pengukuran kedekatan antara kedua vektor yaitu dengan memperhatikan perbedaan arah dari kedua vektor yang direpresentasikan dengan sudut yang dibentuk. Sebagai contoh, misalkan terdapat dua vektor kalimat π 1 dan π 2 yang merupakan dua buah vektor dalam ruang berdimensi πdan ΞΈ merupakan sudut yang dibentuk oleh kedua vektor. Persamaan dari perkalian dalam kedua vektor tersebut tertera dalam persamaan (2) berikut:
π 1 . π 2 = |π 1 ||π 2 | cos ΞΈ
(2)
Keterangan: |π |
:
Jarak Euclidean vektor s dengan titik nol
Perhitungan kesamaan antar kedua vektor yang diturunkan dari persamaan (2) adalah rumus (3) berikut ini.
3. SISTEM PERINGKASAN INUSUM Untuk mendapatkan hasil ringkasan yang tidak memiliki informasi yang sudah diketahui dan redundansi informasi, digunakan update summarization. Pada sistem update summarization, diperlukan komponen yang berfungsi untuk melakukan proses update. Pada komponen tersebut dilakukan pengecekan apakah suatu informasi sudah pernah diketahui atau belum. Jika informasi belum pernah diketahui, maka informasi tersebut akan masuk ke dalam ringkasan yang dibentuk. Sedangkan jika informasi sudah pernah diketahui, maka informasi tersebut akan diabaikan. Pada peringkasan kumpulan dokumen, perlu diidentifikasi topik utama yang terdapat pada kumpulan dokumen tersebut. Topik ini akan menjadi pembanding apakah suatu kandidat kalimat relevan terhadap dokumen sumber. Topik juga berfungsi sebagai parameter perankingan kandidat kalimat. Oleh karena itu, sistem update summarization ini memerlukan suatu komponen yang berfungsi untuk menentukan topik dari kumpulan dokumen. Tahap pemilihan kalimat merupakan tahap utama dari peringkasan kalimat. Perankingan kalimat dilakukan pada tahap pemilihan kalimat. Pada tahap ini juga, proses update perlu dilakukan untuk memberikan ranking yang rendah pada kalimat yang memiliki informasi yang sudah diketahui, sehingga kalimat tersebut tidak masuk ringkasan. Oleh karena itu, sistem ini memerlukan suatu komponen pemilihan kalimat yang berfungsi untuk mengecek apakah kandidat kalimat relevan terhadap dokumen sumber dan mengecek apakah kandidat kalimat memiliki informasi yang sudah pernah diketahui. Sistem peringkasan yang dibangun menerima masukan kumpulan dokumen berbahasa Indonesia karena sistem update summarization untuk kumpulan dokumen berbahasa Indonesia belum pernah dilakukan sebelumnya. Oleh karena itu, diperlukan tahap praproses untuk mengolah kalimat berbahasa Indonesia sebelum melakukan proses peringkasan. Sistem update summarization untuk kumpulan dokumen berita berbahasa Indonesia ini diberi nama INUSUM (Indonesian News Update Summarizer). INUSUM didesain berdasarkan TAC 2008 untuk update summarization task. Arsitektur sistem dapat dilihat pada Gambar 1. Sistem mampu menerima masukan 2 kumpulan dokumen, sehingga INUSUM terbagi menjadi 2 subsistem. Subsistem pertama adalah subsistem peringkasan kumpulan dokumen A yaitu kumpulan dokumen yang diasumsikan sudah dibaca oleh pengguna dan subsistem kedua adalah subsistem peringkasan dokumen B yaitu kumpulan dokumen yang belum dibaca pengguna. Pada subsistem peringkasan kumpulan dokumen A dan B terdapat tahap praproses, tahap penentuan topik dan tahap pemilihan kalimat. Keluaran dari sistem adalah 2 ringkasan dari masukan 2 kumpulan artikel berita. Ringkasan pertama adalah ringkasan dari kumpulan dokumen A dan ringkasan kedua adalah ringkasan dari kumpulan dokumen B yaitu ringkasan yang sudah up-to-date.
Jurnal Cybermatika | Vol. 1 No. 2 | Desember 2013 | Artikel 2
7
Pembobotan kata tersebut menggunakan konsep term frequency (tf), inverse document frequency (idf), dan normalization.
3.2 Komponen Penentuan Topik Pada komponen penentuan topik ini dilakukan penentuan topik umum dari kumpulan data yang telah melewati tahap praproses. Penentuan topik umum ini dilakukan dengan menggunakan frequent-term based clustering. Topik umum direpresentasikan dalam cluster yang dihasilkan. Pada komponen ini dilakukan: 1. Pemisahan kalimat menjadi term Pemisahan kalimat yang sudah melalui tahap praproses menjadi kumpulan term sebagai kandidat topik.
Gambar 1. Diagram sistem INUSUM
3.1 Komponen Praproses Pada komponen praproses, dilakukan pemrosesan data masukan yang bertujuan agar teks menjadi siap untuk melalui proses peringkasan. Masukan data dari komponen praproses ini adalah kumpulan dokumen berita berbahasa Indonesia dan keluarannya adalah data teks yang sudah siap untuk diolah ke tahap selanjutnya. Beberapa tahapan praproses yang digunakan pada sistem ini adalah: 1. Pemisahan Kalimat Pemisahan kalimat ini merupakan proses pemisan teks pada dokumen menjadi kumpulan kalimat. Teknik yang digunakan dalam pemisahan kalimat adalah memisahkan kalimat dengan tanda titik (.), tanda tanya (?), dan tanda seru (!) sebagai delimiter. Namun jika terdapat kalimat yang hanya terdiri dari satu atau dua kata, maka kalimat tersebut tidak masuk ke dalam kandidat kalimat, sehingga kalimat tersebut dihilangkan. 2. Case Folding Case folding adalah proses pemrosesan teks dimana semua teks diubah ke dalam case yang sama dan pada kasus ini teks diubah representasinya ke dalam huruf kecil semua. 3. Penghilangan stopword Penghilangan stopword adalah proses menghilangkan kata-kata yang sering muncul, namun tidak berarti. Stopword dikatakan tidak berarti karena tidak memiliki keterkatitan dengan topik tertentu. Untuk mendeteksi apakah suatu kata merupakan suatu stopword atau bukan adalah menggunakan kamus stopword yang sudah ditentukan sebelumnya. Contoh stopword pada bahasa Indonesia adalah, di, ke, dari, pada, dan lain-lain.
2. Pemilihan term Pemilihan term dilakukan dengan cara mengambil term yang signifikan pada dokumen. Term yang signifikan yaitu term yang jumlahnya banyak pada suatu dokumen. Term yang jumlahnya sedikit tidak dimasukkan dalam pemilihan karena bukan merupakan topik umum. Kemudian persebaran term pada dokumen perlu dicatat untuk diidentifikasi frequent-term setnya. 3. Identifikasi frequent-term set Pada tahap ini dilakukan identifikasi frequent-term set untuk menjadi cluster-cluster berbeda. Identifikasi dilakukan dengan cara menghitung kemunculan term pada dokumen. Jika suatu term terdapat banyak di dokumen, maka term tersebut menjadi sebuah cluster. Setelah mengecek semua term, kombinasikan satu term dengan term lain dan hitung kemunculannya pada dokumen. Jika jumlahnya banyak, maka kombinasi term tersebut juga menjadi sebuah cluster. Ukuran banyak atau tidaknya sebuah term, ditentukan di awal dengan menggunakan nilai standar minimum, jika jumlah kemunculan term melebihi nilai standar tersebut, maka jumlah kemunculan term dianggap banyak. 4. Filtrasi frequent-term set Pada tahap ini dilakukan filtrasi frequent-term set yang sudah diidentifikasi sebelumnya. Filtrasi dilakukan dengan menghitung entropy overlap dari tiap cluster yang sudah diidentifikasi dengan menggunakan: πΈπ(πΆπ ) = βπ·π βπ β
1 ππ
1
ln ( ) ππ
(
4. Stemming Stemming merupakan proses pencarian akar (root) kata dari tiap kata yaitu dengan mengembalikan suatu kata berimbuhan ke bentuk dasarnya (stem). Untuk pemrosesan pada bahasa Indonesia, proses stemming dilakukan dengan menghilangkan imbuhan yang mengawali dan mengakhiri kata sehingga diperoleh bentuk dasar dari kata tersebut.
Keterangan:
5. Pembobotan kata Pada tahap ini dilakukan pengubahan dokumen menjadi representasi yang dapat diproses dengan mudah yaitu dengan menggunakan model ruang vektor. Ruang vektor merupakan sebuah model aljabar untuk merepresentasikan dokumen teks sebagai vektor pada ruang vektor. Representasi vektor yang terbentuk untuk tiap dokumen yaitu sebagai berikut:
Cluster yang dipilih adalah cluster yang memiliki nilai entropy overlap paling rendah dan mengandung paling banyak dokumen. Pemilihan cluster dilakukan hingga setiap cluster yang dipilih mengandung setiap dokumen sumber
π·π = π€1 . π1 + π€2 . π2 + β― + π€π . ππ ( 4) Keterangan: π·π π€π ππ
8
: : :
Vektor dokumen ke- π Bobot kata ππ Kata ke- π
5)
πΆπ π·π ππ
: : :
Cluster ke-i Dokumen ke-j yang mengandung πΆπ Frekuensi cluster yang mengandung dokumen π·π
3.3 Komponen Pemilihan Kalimat Pada komponen pemilihan kalimat ini dilakukan pemilihan kalimat untuk menjadi ringkasan. Pemilihan kalimat dilakukan dengan cara perankingan kalimat yang menggunakan metode MMR. Pemilihan kalimat berdasarkan cluster yang sudah ditentukan dari tahap sebelumnya. Fungsi dari cluster ini adalah untuk mengecek apakah kandidat kalimat relevan terhadap dokumen sumber atau tidak. Pada komponen pemilihan kalimat ini, terdapat perbedaan antara komponen untuk kumpulan dokumen A dengan
Widhaprasa E. Waliprana, Masayu Leylia Khodra
komponen untuk kumpulan dokumen B. Perbedaannya adalah pada komponen untuk kumpulan dokumen A, skor perankingan kalimat dihitung hanya berdasarkan kalimat yang sudah terpilih. Sedangkan pada komponen untuk kumpulan dokumen B, skor perankingan kalimat dihitung tidak hanya berdasarkan kalimat yang sudah terpilih, tetapi berdasarkan hasil ringkasan kumpulan dokumen A. Pada proses pemilihan kalimat untuk kumpulan dokumen A dilakukan perankingan dengan menggunakan metode MMR. Perankingan dilakukan secara biasa berdasarkan rumus (1). Kalimat yang memiliki nilai MMR tinggi setelah dicek kerelevanan dengan sumber dan tingkat redundansinya, maka kalimat tersebut dimasukkan ke dalam π sedangkan jika nilai MMR rendah, kalimat tersebut akan diabaikan. Kalimat yang terdapat pada π merupakan hasil ringkasan kumpulan dokumen A yang akan dikirimkan ke komponen pemilihan kalimat kumpulan dokumen B. Tidak jauh berbeda dengan kumpulan dokumen A, pada proses pemilihan kalimat untuk kumpulan dokumen B dilakukan perankingan dengan menggunakan metode MMR. Berdasarkan rumus (1) dijelaskan bahwa π merupakan kalimat yang sudah dipilih sebelumnya, namun untuk pemilihan kalimat untuk kumpulan dokumen B, nilai π diinisiasi awal dengan ringkasan kumpulan dokumen A yang sudah dibentuk sebelumnya. Pada bagian inilah proses update terjadi. Kandidat kalimat yang memiliki informasi kurang lebih sama dengan kalimat yang sudah pernah dibaca memiliki nilai MMR yang rendah, karena nilai kesamaan antar kalimat tersebut tinggi, sehingga kalimat tersebut tidak akan dimasukkan ke dalam π. Kalimat yang tidak memilki informasi yang sama dengan kalimat yang sudah pernah dibaca memiliki nilai MMR yang tinggi, sehingga kalimat ini akan dimasukkan ke dalam π. Hasil ringkasan untuk kumpulan dokumen B adalah kalimat yang terdapat dalam π dikurangi dengan hasil ringkasan A. Hasil ringkasan ini sudah bersifat up-to-date.
lebih mendekati relevansi dengan dokumen sumber atau menghilangkan redundansi dengan kalimat yang sudah pernah dibaca. Penentuan parameter optimal perangkat lunak dilakukan dengan cara menentukan hasil ringkasan menggunakan update summarization secara manual untuk setiap kumpulan dokumen A dan kumpulan dokumen B yang diberikan. Hasil ringkasan ini diasumsikan ringkasan yang up-to-date. Kemudian sistem INUSUM juga akan menghasilkan ringkasan untuk setiap nilai parameter π. Setiap hasil ringkasan dari sistem INUSUM tersebut dibandingkan dengan ringkasan yang up-to-date. Nilai parameter π optimal adalah yang hasil ringkasannya paling sesuai atau mendekati dengan ringkasan yang up-to-date. Nilai parameter π pada sistem INUSUM yang paling optimal adalah 0.4.
4.1 Hasil Pengujian Rekapitulasi hasil dari kuesioner pengujian keluaran sistem dapat dilihat pada Tabel 1, Tabel 2, dan Tabel 3 sesuai dengan kasus ujinya, yaitu: 1.
Rata-rata nilai keberterimaan ringkasan kumpulan dokumen A adalah (3.5 + 3.4 + 2.9) / 3 = 3.26 atau berada di range diterima.
2.
Rata-rata nilai keberterimaan ringkasan kumpulan dokumen B adalah (2.7 + 2.4 + 3.1) / 3 = 2.73 atau berada di range diterima.
3.
Rata-rata nilai keberterimaan ringkasan bersifat up-to-date adalah (2.7 + 2.9 + 3.3) / 3 = 2.97 atau berada di range diterima.
Kesimpulan yang dapat diambil dari hasil pengujian ini adalah hasil ringkasan keluaran sistem INUSUM dapat diterima dan hasil ringkasan bersifat up-to-date. Tabel 1 Hasil rekapitulasi kuesioner pengujian 1
4. PENGUJIAN Tujuan pengujian adalah mengevaluasi keluaran dari sistem yang dibangun apakah hasil ringkasan bisa diterima dan juga bersifat up-to-date. Pengujian dilakukan dengan melakukan validasi hasil ringkasan kepada 10 responden untuk menilai apakah ringkasan bisa diterima dan bersifat up-to-date. Pada pengujian ini terdapat 3 kasus uji dengan topik kumpulan dokumen yang berbeda. Responden diberikan kumpulan dokumen A dan kumpulan dokumen B untuk dibaca terlebih dahulu. Setelah itu responden juga diberikan hasil ringkasan kumpulan dokumen A dan ringkasan kumpulan dokumen B oleh sistem INUSUM. Tugas responden adalah memberikan nilai dari setiap hasil ringkasan yang dihasilkan yaitu apakah hasil ringkasan kumpulan dokumen A dan hasil ringkasan kumpulan dokumen B dapat diterima dan juga apakah hasil ringkasan kumpulan dokumen B bersifat up-to-date.
Responden
1 2 3 4 5 6 7 8 9 10
Deskripsi penilaian yang digunakan: a. b. c. d. e.
Nilai 0 apabila tidak diterima. Nilai 1 apabila kurang diterima. Nilai 2 apabila cukup diterima Nilai 3 apabila diterima. Nilai 4 apabila sangat diterima.
Hasil dari pengujian ini adalah presentase tiap nilai yang diberikan terhadap hasil ringkasan tersebut. Sebelum pengujian, dilakukan penentuan nilai parameter optimal perangkat lunak yaitu nilai parameter π yang paling optimal. Nilai parameter π optimal ini perlu dicari karena nilai ini merupakan nilai acuan apakah ringkasan yang dibentuk
Nilai keberterimaan ringkasan kumpulan dokumen A 4 3 4 3 4 3 3 4 3 4
Pengujian 1 Nilai keberterimaan ringkasan kumpulan dokumen B 2 3 2 2 4 2 3 3 3 3
Nilai keberterimaan ringkasan bersifat up-todate 3 2 2 2 4 2 2 3 4 3
Tabel 2 Hasil rekapitulasi kuesioner pengujian 2
Responden
1 2 3 4 5 6
Nilai keberterimaan ringkasan kumpulan dokumen A 4 3 4 3 4 3
Pengujian 2 Nilai keberterimaan ringkasan kumpulan dokumen B 3 3 1 1 4 1
Jurnal Cybermatika | Vol. 1 No. 2 | Desember 2013 | Artikel 2
Nilai keberterimaan ringkasan bersifat up-todate 4 3 3 1 4 2
9
7 8 9 10
3 3 3 4
3 2 2 4
3 3 2 4
Tabel 3 Hasil rekapitulasi kuesioner pengujian 3
Responden
1 2 3 4 5 6 7 8 9 10
Nilai keberterimaan ringkasan kumpulan dokumen A 3 2 2 2 4 3 3 2 4 4
Pengujian 3 Nilai keberterimaan ringkasan kumpulan dokumen B 4 3 2 3 4 3 2 3 4 3
Nilai keberterimaan ringkasan bersifat up-todate 3 3 3 2 4 3 3 4 4 4
Contoh hasil update summarization menggunakan INUSUM dengan masukan kumpulan dokumen A berasal dari: http://news.detik.com/read/2013/05/26/152027/2256114/10/tabr akkan-diri-ke-kereta-api-di-bantul-yoga-tewas-seketika dan kumpulan dokumen B berasal dari: http://news.detik.com/read/2013/05/26/154617/2256122/10/aksi -yoga-tabrakkan-diri-ke-kereta-jadi-perbincangan-di-mediasosial?nd772204btr http://www.solopos.com/2013/05/26/tertabrak-kereta-korbanadalah-ketua-panitia-locstock-festival-410126 menghasilkan ringkasan: Dalam forum internet dan diskusi di twitter, Yoga dikenal dengan nama Bobby Yoga Temanya kurang lebih sama, mengaitkan aksi bunuh diri Yoga dan acara musik di Yogyakarta Nah, spekulasi berhembus kalau Yoga bunuh diri karena didorong oleh permasalahan yang muncul dari konser tersebut Hingga kini belum jelas apa motif korban melakukan bunuh diri Fee artist yang belum dibayar, plus berbagai hujatan dan tuntutan yang disuarakan di Twitter membuat batin Bobby tertekan Topik yang dihasilkan dengan menggunakan frequent-term basedclustering dengan masukan kumpulan dokumen A dan kumpulan dokumen B dari sumber sebelumnya adalah: Untuk kumpulan dokumen A: [kereta, yoga]
10
Untuk kumpulan dokumen B: [tabrak, twitter, bunuh, bobby, yoga]
5. PENUTUP Pada makalah ini, telah dijelaskan bahwa untuk membuat sistem update summarization, diperlukan proses update pada komponen sistem yang berfungsi untuk mengecek apakah informasi yang dihasilkan sudah pernah dibaca atau belum. Kemudian proses update tersebut dapat dilakukan pada tahap pemilihan kalimat yaitu dengan memberikan nilai rendah untuk kalimat yang mengandung informasi yang sudah diketahui pada saat perankingan. Untuk parameter π pada sistem INUSUM dalam melakukan update summarization, didapatkan nilai yang paling optimal adalah 0.4. Secara keseluruhan, hasil dari pengujian keluaran sistem menghasilkan nilai keberterimaan ringkasan dokumen A sebesar 3.26, nilai keberterimaan ringkasan kumpulan dokumen B sebesar 2.73, dan keberterimaan ringkasan bersifat up-to-date sebesar 2.97. Oleh karena itu, hasil keluaran sistem INUSUM dapat diterima. Untuk penelitian selanjutnya, dapat dilakukan pengeliminasian topik yang sudah pernah dibaca oleh pengguna, sehingga sistem tidak menghasilkan ringkasan untuk topik yang sudah pernah dibaca. Selain itu, pada proses update summarization dapat dibuat suatu korpus update sebagai gold standard agar pengujian hasil keluaran sistem menjadi lebih objektif.
6. REFERENSI Barzilay, R., & Elhadad, M. (1997). Using Lexical Chains for Text Summarization. Mathematics and Computer Science Dept. Ben Gurion University. Beil, F., Ester, M., & Xu, X. (2009). Frequent Term-Based Text Clustering. Carbonell, J., Goldstein, J. (1998) : The Use of MMR, Diversity-Based Reranking for Reordering Documents and Producing Summaries Goldstein, J., Mittal, V., Carbonell, J., & Kantrowitz, M. (2000). MultiDocument Summarization By Sentence Extraction. Language Technologies Institute Carnegie Mellon University. Hovy, E., & Lin, C. (1997). Automated Text Summarization in SUMMARIST. Information Sciences Institute of the University of Southern California, (pp. 18-24). Kogilavani, A., & Balasubramani, P. (2010). Clustering And Feature Specific Sentemce Extraction Based Summarization of Multiple Documents. International Journal of Computer Ccience & Information Technology. Mandala, R. (2006). Evaluasi Kinerja Sistem Penyaringan Informasi Model Ruang Vektor. Seminar Nasional Aplikasi Teknologi Informasi 2006 (SNATI 2006). Yogyakarta. Markou, M., & Singh, S. (2003). Novelty Detection: A Review - Part 1: Statistical Approaches. Department of Computer Science, PANN Research, University of Exeter, Exeter EX4 4PT, UK. McKeown, K., Barzilay, R., Chen, J., Elson, D., Evans, D., Klavans, J., et al. (2003). Columbiaβs Newsblaster: New Features and Future Directions. Department of Computer Science Columbia University. Rosell, M. (2009). Information Retrieval and Text Clustering. Tala, F. Z. (2003). A Study of Stemming Effects on Information. Institutefor Logic, Language and Computation Universite itvan Amsterdam The Netherlands.
Widhaprasa E. Waliprana, Masayu Leylia Khodra