BAB 4 HASIL DAN PEMBAHASAN
4.1
Uji Algoritma Pengujian algoritma dilakukan untuk tahap training dan testing. Setiap
dokumen dalam training dan testing melalui proses read text input, presummarization (split into paragraphs, sentence and word tokenization, convert to lowercase, stop words elimination, dan lemmatization), serta summarization (kalkulasi TF-ISF, sentence location, relative sentence length, LDA topic modeling, title similarities, keyword similarities, sentence cohesion, numerical data, dan sentence extraction). Akan tetapi sebelum training dan testing dilakukan, perlu diperhatikan bahwa dalam LDA topic modeling, model LDA telah dibuat sebelumnya dengan melalui inferensi hidden topic structure terhadap kumpulan dokumen berukuran sangat besar. Model LDA tersebut disimpan dan akan dipakai dalam training dan testing, khususnya pada saat transformasi bag of words dari judul, isi, dan keywords artikel ke bentuk LDA. Transformasi ini diperlukan untuk penghitungan title similarities, keyword similarities, dan sentence cohesion.
4.1.1 Spesifikasi Sistem Untuk pengujian, algoritma Automatic Text Summarization berbahasa Indonesia diimplementasikan dengan menggunakan Python 2.7.5, Django 1.5.2., package NLTK 2.0.4, library Gensim 0.8.6, database MySQL 5.5.32, dan web server Apache 2.4.4 pada localhost environment. Komputer dilengkapi dengan processor Intel Core 2 Duo P8800 2.66 GHz dan RAM sebesar 4 GB.
4.1.2 Training Dokumen training yang digunakan berjumlah 100 dokumen berbahasa Indonesia yang merupakan kumpulan artikel dari situs kompas.com, detik.com, tempo.co, gatra.com, chip.co.id, dan femina.co.id. Artikel yang digunakan merupakan artikel dari tanggal 29 Februari 2012 sampai 6 Desember 2013. Jumlah kalimat per artikel berada pada rentang 6-67 kalimat. Rata-rata jumlah kalimat per artikel yaitu 16,11 kalimat. 91
92
Ringkasan referensi yang digunakan adalah hasil ringkasan manual yang dibuat oleh 38 orang dengan rasio sebesar 30% pada tanggal 7-12 Desember 2013. Ringkasan sistem yang digunakan pada tahap training memiliki rasio 30%. Input judul, isi dokumen, dan rasio akan divalidasi terlebih dahulu. Kemudian pre-summarization akan dijalankan. Setelah isi dokumen dipisahkan ke dalam paragraf-paragraf, NLTK tokenizer digunakan untuk sentence and word tokenization. Lalu disusul oleh konversi ke huruf kecil, eliminasi stop words, dan lemmatization. Dalam lemmatization akan dilakukan dictionary lookup ke database MySQL kamus bahasa Indonesia. Proses selanjutnya adalah summarization. Kalkulasi nilai features TF-ISF, lokasi kalimat, panjang relatif kalimat, LDA topic modeling, title similarities, keyword similarities, sentence cohesion, dan numerical data akan dilakukan. Hasilnya akan dipakai untuk ekstraksi kalimat ringkasan sesuai dengan input rasio. Setelah melalui proses read input text, pre-summarization, dan summarization, nilai features setiap kalimat akan digunakan dalam training Genetic Algorithm untuk menemukan bobot masing-masing feature. Genetic Algorithm dilakukan untuk 100 generasi, dengan masing-masing generasi terdiri dari 1000 kromosom. Elitist selection diberlakukan dengan meloloskan secara langsung 50 kromosom yang memiliki nilai fitness tertinggi. Crossover rate yang digunakan adalah 0,8 dan mutation rate sebesar 0,2. Training GA berlangsung selama 18 menit 41,792 detik. Berdasarkan hasil training,
nilai
fitness
tertinggi
diperoleh
dari
kromosom
'1001111011001111111010011001' dengan nilai presisi rata-rata 100 dokumen sebesar 0,5549982. Kromosom tersebut di-decode per 4 bits sehingga diperoleh 7 nilai bobot features dengan rentang nilai 0-15.
93
Tabel 4.1 Bobot Features Hasil Training Genetic Algorithm Features
Binary Kromosom
Bobot Features
TF-ISF
1001
9
Sentence location
1110
14
Relative sentence length
1100
12
Title similarities
1111
15
Keyword similarities
1110
14
Sentence cohesion
1001
9
Numerical data
1001
9
Persamaan umum nilai kalimat berdasarkan bobot features (Wk) dan nilai sentence features (S_Fk(S)) adalah sebagai berikut:
Dengan demikian setelah bobot features hasil training GA disertakan, maka persamaan lengkap untuk kalkulasi nilai kalimat pada tahap testing yaitu:
4.1.3 Testing Tahap testing merupakan tahap pembuatan ringkasan yang nantinya akan dipakai oleh pengguna. Sejumlah 50 artikel berbahasa Indonesia diambil dari situs kompas.com (20 artikel), detik.com (10 artikel), tempo.co (2 artikel), gatra.com (8 artikel), chip.co.id (2 artikel), dan femina.co.id (8 artikel) untuk menjadi bagian dari kumpulan dokumen testing. Ringkasan referensi yang digunakan adalah hasil ringkasan manual. Ringkasan referensi tersebut akan menjadi tolak ukur bagi ringkasan yang dihasilkan oleh sistem. Kumpulan 50 artikel dibuat ringkasan manualnya oleh 29 orang pada tanggal 15-20 Desember 2013. Tanggal publikasi artikel tersebut yaitu antara 24 Januari 2011 sampai 14 Desember 2013. Jumlah kalimat per artikel berada pada rentang 5-33 kalimat dengan rata-rata 14,94 kalimat per artikel. Jumlah kata per artikel berkisar antara 114-571 kata dan rata-ratanya yaitu 280,12 kata.
94
Setelah input judul, isi dokumen, dan rasio ringkasan diterima, akan dilakukan validasi terlebih dahulu. Langkah berikutnya adalah pre-summarization. Isi dokumen yang sudah dipisahkan ke dalam paragraf-paragraf, akan diproses dengan bantuan NLTK tokenizer untuk sentence and word tokenization. Seluruh token akan dikonversi ke huruf kecil, stop words dieliminasi, dan dilakukan lemmatization. Lemmatization menggunakan dictionary lookup ke database MySQL kamus bahasa Indonesia. Setelah pre-summarization tersebut selesai dijalankan, maka akan dilanjutkan ke proses inti yaitu summarization. Untuk setiap kalimat akan dilakukan kalkulasi nilai features TF-ISF, lokasi kalimat, panjang relatif kalimat, LDA topic modeling, title similarities, keyword similarities, sentence cohesion, dan numerical data. Masing-masing nilai feature akan dikalikan dengan bobot feature yang telah didapat dari training dalam persamaan berikut ini.
Kalimat-kalimat akan diurutkan dari nilai terbesar hingga terkecil. Sejumlah kalimat dengan nilai teratas akan diekstraksi untuk menjadi ringkasan. Jumlah kalimat yang terpilih untuk menjadi bagian dari ringkasan diperoleh dari input rasio dikalikan dengan jumlah kalimat. Tersedia pilihan rasio 5%-50% dengan interval 5%. Berikut ini adalah contoh salah satu artikel dan hasil ringkasan sistem dengan menggunakan rasio 30%. Artikel berjudul "Mudah Fokus pada Detail Tanda IQ Tinggi?" ditulis oleh Lusia Kus Anna dan dipublikasikan di situs Kompas pada tanggal 27 Mei 2013. Artikel diakses tanggal 6 Desember 2013 dengan sumber: http://health.kompas.com/read/2013/05/27/1719535/Mudah.Fokus.pada.Detail.Tanda .IQ.Tinggi.
95
Artikel asli: Mudah Fokus pada Detail Tanda IQ Tinggi? Sebuah riset terbaru menunjukkan bahwa kecerdasan adalah soal bagaimana pilihan otak untuk mengabaikan sesuatu, bukannya tentang kemampuan otak memproses informasi dengan cepat. Orang yang memiliki tingkat kecerdasan (IQ) tinggi cenderung lebih lambat mendeteksi gerakan besar di latar belakang karena otak mereka menyaring informasi yang dianggap tidak penting. Karena itu mereka lebih pandai dalam mendeteksi obyek bergerak berukuran kecil. Penelitian tersebut dilakukan terhadap 53 orang dan dimuat dalam Current Biology. Penelitian dilakukan dengan tes penglihatan dan tes kecerdasan standar. Hasil penelitian menunjukkan, orang dengan skor IQ tinggi lebih cepat dalam mengenali gerakan arah panah berukuran kecil di layar komputer. "Dari studi sebelumnya kami menyangka para partisipan akan kesulitan mendeteksi gerakan besar, tetapi ternyata orang dengan IQ tinggi paling payah dalam hal itu," kata Michael Melnick dari Universitas Rochester. Para peneliti menjelaskan bahwa dalam kebanyakan skenario, gerakan di latar belakang tidak terlalu penting dibanding objek kecil yang bergerak di bagian depan. Misalnya saja saat menyetir mobil, berjalan di lorong, atau menggerakkan mata ke dalam ruangan. Semakin tinggi tingkat kecerdasan seseorang, demikian juga dengan kemampuan mereka menyaring gerakan di latar belakang yang mengganggu dan berkonsentrasi pada apa yang ada di depan. "Untuk kecerdasan, dibutuhkan kemampuan memproses informasi penting dengan cepat. Tapi kita juga perlu bisa fokus pada informasi yang paling penting dan menyaring yang tidak penting," kata Duje Tadin, salah satu peneliti. Dalam studi awal terhadap 12 orang, ada korelasi sebesar 64 persen antara penekanan gerakan dan tingkat IQ. Dalam studi lebih besar terhadap 53 orang, kaitannya mencapai 71 persen. Meski begitu kemampuan untuk mengabaikan gerakan di latar belakang bukan satu-satunya cara untuk mengukur kecerdasan. Hal ini karena kecerdasan adalah susunan yang selalu berubah, kita tidak bisa mendeteksinya hanya dari satu bagian otak saja. "Namun karena tes ini sangat sederhana dan paling dekat dengan nilai IQ, maka ini bisa menjadi petunjuk tentang apa yang membuat otak lebih efisien dan tentunya lebih cerdas," kata Tadin.
96
Hasil ringkasan sistem dengan rasio 30%: Mudah Fokus pada Detail Tanda IQ Tinggi? Sebuah riset terbaru menunjukkan bahwa kecerdasan adalah soal bagaimana pilihan otak untuk mengabaikan sesuatu, bukannya tentang kemampuan otak memproses informasi dengan cepat. Orang yang memiliki tingkat kecerdasan (IQ) tinggi cenderung lebih lambat mendeteksi gerakan besar di latar belakang karena otak mereka menyaring informasi yang dianggap tidak penting. "Dari studi sebelumnya kami menyangka para partisipan akan kesulitan mendeteksi gerakan besar, tetapi ternyata orang dengan IQ tinggi paling payah dalam hal itu," kata Michael Melnick dari Universitas Rochester. "Untuk kecerdasan, dibutuhkan kemampuan memproses informasi penting dengan cepat. Tapi kita juga perlu bisa fokus pada informasi yang paling penting dan menyaring yang tidak penting," kata Duje Tadin, salah satu peneliti. "Namun karena tes ini sangat sederhana dan paling dekat dengan nilai IQ, maka ini bisa menjadi petunjuk tentang apa yang membuat otak lebih efisien dan tentunya lebih cerdas," kata Tadin.
4.1.3.1 Kecepatan Dalam uji pembuatan ringkasan untuk 50 dokumen, ditemukan bahwa rasio ringkasan tidak memengaruhi kecepatan. Tabel berikut ini menunjukkan rincian waktu proses yang diperlukan untuk membuat ringkasan.
Tabel 4.2 Rincian Uji Kecepatan Pembuatan Ringkasan No
1
2
3
4
5
Judul Artikel Kirim Surat Jadi Lebih Asyik dengan Cookies Huruf Ini! Mungkin Ini Penyebab Orang Ketagihan Biskuit Oreo Semangka Mini Ini Dibuat Acar dan Obat di Amerika Selatan Sering Makan Umphokoqo Jadi Rahasia Umur Panjang Nelson Mandela Batasi Konsumsi Gula 5 Sendok Teh Sehari Agar Tak Mudah Sakit Gigi
Jumlah
Jumlah Waktu
Kalimat
Kata
(detik)
17
233
3,082
16
267
2,906
17
252
2,824
18
258
2,837
16
248
2,672
97
Tabel 4.2 Rincian Uji Kecepatan Pembuatan Ringkasan 6
7
8 9 10
Hati-hati, Konsumsi Susu Sapi Mentah Sebabkan Infeksi Bakteri Cegah Bakteri pada Miss V dengan Konsumsi Yogurt dan Kacang Sapi yang Diberi Pakan Rumput dan Red Clover Hasilkan Susu Tinggi Omega Mengantuk Bikin Ngidam Junk Food Peningkatan Konsumsi Daging di India dan China Berpotensi Rusak Lingkungan
16
293
3,030
14
218
2,718
12
235
2,624
18
282
2,891
12
231
2,666
11
Tanda-tanda Kecanduan Gula
19
375
2,984
12
Mengatasi Anak yang Kecanduan Game
33
571
3,642
12
288
2,650
13
Gigi Habis karena Kecanduan Minuman Ringan
14
Ganja Berpotensi Cegah Kerusakan Otak
14
314
2,996
15
Mudah Fokus pada Detail Tanda IQ Tinggi?
16
318
2,904
13
245
3,041
16
Obat Migrain Saat Hamil Kurangi Kecerdasan Bayi
17
Tanda-tanda Anak Punya Kecerdasan Tinggi
23
381
3,024
18
Pencernaan Sehat Pengaruhi Kecerdasan Anak
14
291
2,900
16
286
2,773
18
362
3,026
19
20
Agar Anak Pintar Baca, Konsumsi Ini Selama Hamil Jutaan Perokok Pasif Ikut Tanggung Risiko Kesehatan
21
Cegah Perokok Pasif
17
343
2,886
22
Perokok Pasif Paling Dirugikan
22
383
3,258
23
Perokok Pasif Berisiko Lebih Tinggi Diabetes
11
271
2,713
24
Indonesia dalam Kondisi Bahaya Narkoba
6
204
2,586
25
Alkohol Tak Bantu Lupakan Kenangan Buruk
19
337
3,142
26
Benarkah Bir Punya Manfaat Kesehatan?
22
390
3,158
27
Alkohol Bukan Pelepas Stres
15
320
2,844
17
333
2,814
28
Salah Diet, Risiko Osteoporosis Orang Gemuk Meningkat
98
Tabel 4.2 Rincian Uji Kecepatan Pembuatan Ringkasan 29 30 31
32
Tangkal Osteoporosis dengan Susu atau Suplemen Kalsium? Ubah Perilaku Jika Ingin Makan Sehat Intel dan Kemdikbud Berikan Penghargaan Kepada 6 Guru Berprestasi Link Facial Coding, Membaca Respons Iklan di TV Lewat Raut Wajah
19
339
3,186
16
310
3,234
12
379
3,268
12
250
2,882
33
Ketidakpastian Nilai Rupiah
12
160
2,570
34
Investasi di Bursa
8
114
2,402
35
Proposal Kredit yang Baik
11
178
2,525
36
Koleksi Kartu Keanggotaan
7
141
2,454
5
143
2,395
37
Samuel Wattimena Menang Di Fiji Fashion Week 2013
38
Kesepakatan Soal Karier
14
242
2,588
39
Warna Alami Henna
8
120
2,454
40
Guratan Hitam, Kohl
8
160
2,454
14
282
2,900
22
313
3,289
6
170
2,632
24
399
3,146
7
153
2,424
15
281
2,694
22
456
3,100
17
390
2,870
14
266
2,691
11
231
2,782
41 42 43
44 45 46 47 48 49 50
Qiang Hui Optimistis Indonesia Bisa Raih Emas Tiger Woods Kehilangan Salah Satu Sponsor Konversi BBM ke BBG Terus Diupayakan bagi Nelayan Indonesia Harus Tolak Didikte Negara Maju di WTO Gubernur BI Terus Berupaya Jaga Likuiditas Pasar Keuangan Indonesia Pengaruhi Gejolak Nilai Tukar Rupiah Dua Faktor Macetkan Sistem Presidensil Mahfud: Presidensil Macet Karena Presiden "Disandera" JK:Saya Tidak Akan Pernah Keluar dari Golkar Presidensial Tak Efektif karena SBY Resmi Bentuk Oposisi
99
Kumpulan 50 artikel tersebut memiliki rata-rata waktu proses 2,85062 detik untuk rata-rata panjang artikel 14,94 kalimat dan 280,12 kata. Rangkuman dari rincian uji kecepatan pembuatan ringkasan dapat dilihat pada tabel berikut ini.
Tabel 4.3 Gambaran Umum Uji Kecepatan Pembuatan Ringkasan
Artikel
50 artikel
Waktu Tercepat
Waktu Terlama
Rata-rata Waktu
(Jumlah Kalimat,
(Jumlah Kalimat,
(Rata-rata
Jumlah Kata)
Jumlah Kata)
Kalimat, Kata)
2,395 detik
3,642 detik
(5 kalimat,
(33 kalimat,
143 kata)
571 kata)
2,85062 detik (rata-rata 14,94 kalimat, 280,12 kata)
Dapat disimpulkan bahwa jumlah kalimat dan kata dalam dokumen memiliki pengaruh terhadap lama waktu pembuatan ringkasan, tetapi tidak secara mutlak menentukan durasi tersebut. Secara keseluruhan, kecepatan pembuatan ringkasan sistem dari artikel dalam pengujian ini berada pada rentang 2,395-3,642 detik dan mengungguli kecepatan pembuatan ringkasan secara manual.
4.1.3.2 Presisi, Recall, dan F-measure Dalam kalkulasi presisi, recall, dan F-measure untuk 50 artikel, ringkasan referensi yang digunakan adalah ringkasan manual yang dibuat oleh 29 orang dengan rasio berkisar antara 15%-30%. Sedangkan ringkasan kumpulan artikel dibuat oleh sistem dengan tiga rasio yaitu 10%, 20%, dan 30%.
100
Tabel 4.4 Presisi dan Recall Ringkasan Sistem Rasio 10% (50 Artikel) Rasio Judul Artikel
No
Presisi Recall
RM (%)
1
2
3
4
5
6
7
8 9 10
Kirim Surat Jadi Lebih Asyik dengan Cookies Huruf Ini! Mungkin Ini Penyebab Orang Ketagihan Biskuit Oreo Semangka Mini Ini Dibuat Acar dan Obat di Amerika Selatan Sering Makan Umphokoqo Jadi Rahasia Umur Panjang Nelson Mandela Batasi Konsumsi Gula 5 Sendok Teh Sehari Agar Tak Mudah Sakit Gigi Hati-hati, Konsumsi Susu Sapi Mentah Sebabkan Infeksi Bakteri Cegah Bakteri pada Miss V dengan Konsumsi Yogurt dan Kacang Sapi yang Diberi Pakan Rumput dan Red Clover Hasilkan Susu Tinggi Omega Mengantuk Bikin Ngidam Junk Food Peningkatan Konsumsi Daging di India dan China Berpotensi Rusak Lingkungan
0,500
0,333
20
0
0
20
0,500
0,250
25
0,500
0,333
15
0,500
0,200
30
1,000
0,500
25
1,000
0,250
30
1,000
0,250
30
0,500
0,250
30
1,000
0,250
30
11
Tanda-tanda Kecanduan Gula
0,500
0,200
25
12
Mengatasi Anak yang Kecanduan Game
0,333
0,100
30
13
Gigi Habis karena Kecanduan Minuman Ringan
1,000
0,250
30
14
Ganja Berpotensi Cegah Kerusakan Otak
1,000
0,250
30
15
Mudah Fokus pada Detail Tanda IQ Tinggi?
0,500
0,250
25
16
Obat Migrain Saat Hamil Kurangi Kecerdasan Bayi
0
0
20
17
Tanda-tanda Anak Punya Kecerdasan Tinggi
0,500
0,167
25
18
Pencernaan Sehat Pengaruhi Kecerdasan Anak
0
0
30
0
0
25
19
Agar Anak Pintar Baca, Konsumsi Ini Selama Hamil
101
Tabel 4.4 Presisi dan Recall Ringkasan Sistem Rasio 10% (50 Artikel) 20
Jutaan Perokok Pasif Ikut Tanggung Risiko Kesehatan
0,500
0,200
30
21
Cegah Perokok Pasif
0,500
0,250
30
22
Perokok Pasif Paling Dirugikan
1,000
0,286
30
23
Perokok Pasif Berisiko Lebih Tinggi Diabetes
1,000
0,333
30
24
Indonesia dalam Kondisi Bahaya Narkoba
0
0
30
25
Alkohol Tak Bantu Lupakan Kenangan Buruk
1,000
0,333
30
26
Benarkah Bir Punya Manfaat Kesehatan?
0,500
0,200
25
27
Alkohol Bukan Pelepas Stres
0,500
0,200
30
0,500
0,200
30
0,500
0,200
25
0,500
0,250
25
1,000
0,250
30
1,000
0,250
30
28
29 30 31
32
Salah Diet, Risiko Osteoporosis Orang Gemuk Meningkat Tangkal Osteoporosis dengan Susu atau Suplemen Kalsium? Ubah Perilaku Jika Ingin Makan Sehat Intel dan Kemdikbud Berikan Penghargaan Kepada 6 Guru Berprestasi Link Facial Coding, Membaca Respons Iklan di TV Lewat Raut Wajah
33
Ketidakpastian Nilai Rupiah
1,000
0,250
30
34
Investasi di Bursa
1,000
0,500
25
35
Proposal Kredit yang Baik
0
0
30
36
Koleksi Kartu Keanggotaan
0
0
30
1,000
1,000
25
1,000
0,250
30
37
Samuel Wattimena Menang Di Fiji Fashion Week 2013
38
Kesepakatan Soal Karier
39
Warna Alami Henna
0
0
25
40
Guratan Hitam, Kohl
1,000
0,500
25
41
Qiang Hui Optimistis Indonesia Bisa Raih Emas
1,000
0,250
30
42
Tiger Woods Kehilangan Salah Satu Sponsor
1,000
0,286
30
1,000
0,500
30
43
Konversi BBM ke BBG Terus Diupayakan bagi Nelayan
102
Tabel 4.4 Presisi dan Recall Ringkasan Sistem Rasio 10% (50 Artikel) 44 45 46 47 48 49 50
Indonesia Harus Tolak Didikte Negara Maju di WTO Gubernur BI Terus Berupaya Jaga Likuiditas Pasar Keuangan Indonesia Pengaruhi Gejolak Nilai Tukar Rupiah Dua Faktor Macetkan Sistem Presidensil Mahfud: Presidensil Macet Karena Presiden "Disandera" JK: Saya Tidak Akan Pernah Keluar dari Golkar Presidensial Tak Efektif karena SBY Resmi Bentuk Oposisi
0,500
0,143
30
1,000
0,500
30
1,000
0,500
25
1,000
0,286
30
1,000
0,400
30
1,000
0,250
30
1,000
0,500
20
Nilai presisi rata-rata dari ringkasan dengan rasio 10% tersebut adalah 0,66666 dan recall rata-rata sebesar 0,258. Dengan demikian nilai F-measure dapat dihitung sebagai berikut:
103
Tabel 4.5 Presisi dan Recall Ringkasan Sistem Rasio 20% (50 Artikel) Rasio Judul Artikel
No
Presisi Recall
RM (%)
1
2
3
4
5
6
7
8 9 10
Kirim Surat Jadi Lebih Asyik dengan Cookies Huruf Ini! Mungkin Ini Penyebab Orang Ketagihan Biskuit Oreo Semangka Mini Ini Dibuat Acar dan Obat di Amerika Selatan Sering Makan Umphokoqo Jadi Rahasia Umur Panjang Nelson Mandela Batasi Konsumsi Gula 5 Sendok Teh Sehari Agar Tak Mudah Sakit Gigi Hati-hati, Konsumsi Susu Sapi Mentah Sebabkan Infeksi Bakteri Cegah Bakteri pada Miss V dengan Konsumsi Yogurt dan Kacang Sapi yang Diberi Pakan Rumput dan Red Clover Hasilkan Susu Tinggi Omega Mengantuk Bikin Ngidam Junk Food Peningkatan Konsumsi Daging di India dan China Berpotensi Rusak Lingkungan
0,333
0,333
20
0
0
20
0,667
0,500
25
0,250
0,333
15
0,333
0,200
30
0,667
0,500
25
0,667
0,500
30
1,000
0,500
30
0,250
0,200
30
0,500
0,250
30
11
Tanda-tanda Kecanduan Gula
0,500
0,400
25
12
Mengatasi Anak yang Kecanduan Game
0,286
0,200
30
13
Gigi Habis karena Kecanduan Minuman Ringan
1,000
0,500
30
14
Ganja Berpotensi Cegah Kerusakan Otak
1,000
0,750
30
15
Mudah Fokus pada Detail Tanda IQ Tinggi?
0,667
0,500
25
16
Obat Migrain Saat Hamil Kurangi Kecerdasan Bayi
0,667
0,667
20
17
Tanda-tanda Anak Punya Kecerdasan Tinggi
0,200
0,167
25
18
Pencernaan Sehat Pengaruhi Kecerdasan Anak
0,333
0,250
30
0
0
25
19
Agar Anak Pintar Baca, Konsumsi Ini Selama Hamil
104
Tabel 4.5 Presisi dan Recall Ringkasan Sistem Rasio 20% (50 Artikel) 20
Jutaan Perokok Pasif Ikut Tanggung Risiko Kesehatan
0,750
0,600
30
21
Cegah Perokok Pasif
0,333
0,200
30
22
Perokok Pasif Paling Dirugikan
0,750
0,429
30
23
Perokok Pasif Berisiko Lebih Tinggi Diabetes
1,000
0,667
30
24
Indonesia dalam Kondisi Bahaya Narkoba
0
0
30
25
Alkohol Tak Bantu Lupakan Kenangan Buruk
0,750
0,500
30
26
Benarkah Bir Punya Manfaat Kesehatan?
0,500
0,400
25
27
Alkohol Bukan Pelepas Stres
0,667
0,400
30
0,667
0,400
30
0,250
0,200
25
0,333
0,250
25
1,000
0,500
30
1,000
0,500
30
28
29 30 31
32
Salah Diet, Risiko Osteoporosis Orang Gemuk Meningkat Tangkal Osteoporosis dengan Susu atau Suplemen Kalsium? Ubah Perilaku Jika Ingin Makan Sehat Intel dan Kemdikbud Berikan Penghargaan Kepada 6 Guru Berprestasi Link Facial Coding, Membaca Respons Iklan di TV Lewat Raut Wajah
33
Ketidakpastian Nilai Rupiah
1,000
0,500
30
34
Investasi di Bursa
0,500
0,500
25
35
Proposal Kredit yang Baik
0,500
0,333
30
36
Koleksi Kartu Keanggotaan
0,500
0,500
30
1,000
1,000
25
1,000
0,750
30
37
Samuel Wattimena Menang Di Fiji Fashion Week 2013
38
Kesepakatan Soal Karier
39
Warna Alami Henna
0
0
25
40
Guratan Hitam, Kohl
0,500
0,500
25
41
Qiang Hui Optimistis Indonesia Bisa Raih Emas
0,333
0,250
30
42
Tiger Woods Kehilangan Salah Satu Sponsor
1,000
0,571
30
1,000
0,500
30
43
Konversi BBM ke BBG Terus Diupayakan bagi Nelayan
105
Tabel 4.5 Presisi dan Recall Ringkasan Sistem Rasio 20% (50 Artikel) 44 45 46 47 48 49 50
Indonesia Harus Tolak Didikte Negara Maju di WTO Gubernur BI Terus Berupaya Jaga Likuiditas Pasar Keuangan Indonesia Pengaruhi Gejolak Nilai Tukar Rupiah Dua Faktor Macetkan Sistem Presidensil Mahfud: Presidensil Macet Karena Presiden "Disandera" JK: Saya Tidak Akan Pernah Keluar dari Golkar Presidensial Tak Efektif karena SBY Resmi Bentuk Oposisi
0,400
0,286
30
1,000
0,500
30
1,000
0,750
25
0,750
0,429
30
0,667
0,400
30
0,667
0,500
30
1,000
1,000
20
Hasil nilai presisi rata-rata dari ringkasan dengan rasio 20% tersebut yaitu 0,60274. Sedangkan nilai recall rata-ratanya yaitu 0,4213. Dengan demikian nilai Fmeasure dapat dihitung sebagai berikut:
106
Tabel 4.6 Presisi dan Recall Ringkasan Sistem Rasio 30% (50 Artikel) Rasio Judul Artikel
No
Presisi Recall
RM (%)
1
2
3
4
5
6
7
8 9 10
Kirim Surat Jadi Lebih Asyik dengan Cookies Huruf Ini! Mungkin Ini Penyebab Orang Ketagihan Biskuit Oreo Semangka Mini Ini Dibuat Acar dan Obat di Amerika Selatan Sering Makan Umphokoqo Jadi Rahasia Umur Panjang Nelson Mandela Batasi Konsumsi Gula 5 Sendok Teh Sehari Agar Tak Mudah Sakit Gigi Hati-hati, Konsumsi Susu Sapi Mentah Sebabkan Infeksi Bakteri Cegah Bakteri pada Miss V dengan Konsumsi Yogurt dan Kacang Sapi yang Diberi Pakan Rumput dan Red Clover Hasilkan Susu Tinggi Omega Mengantuk Bikin Ngidam Junk Food Peningkatan Konsumsi Daging di India dan China Berpotensi Rusak Lingkungan
0,400
0,667
20
0,200
0,333
20
0,400
0,500
25
0,400
0,667
15
0,400
0,400
30
0,600
0,750
25
0,500
0,500
30
0,750
0,750
30
0,400
0,400
30
0,500
0,500
30
11
Tanda-tanda Kecanduan Gula
0,500
0,600
25
12
Mengatasi Anak yang Kecanduan Game
0,200
0,200
30
13
Gigi Habis karena Kecanduan Minuman Ringan
1,000
1,000
30
14
Ganja Berpotensi Cegah Kerusakan Otak
0,750
0,750
30
15
Mudah Fokus pada Detail Tanda IQ Tinggi?
0,400
0,500
25
16
Obat Migrain Saat Hamil Kurangi Kecerdasan Bayi
0,500
0,667
20
17
Tanda-tanda Anak Punya Kecerdasan Tinggi
0,286
0,333
25
18
Pencernaan Sehat Pengaruhi Kecerdasan Anak
0,250
0,250
30
19
Agar Anak Pintar Baca, Konsumsi Ini Selama Hamil
0,400
0,500
25
107
Tabel 4.6 Presisi dan Recall Ringkasan Sistem Rasio 30% (50 Artikel) 20
Jutaan Perokok Pasif Ikut Tanggung Risiko Kesehatan
0,800
0,800
30
21
Cegah Perokok Pasif
0,400
0,400
30
22
Perokok Pasif Paling Dirugikan
0,857
0,857
30
23
Perokok Pasif Berisiko Lebih Tinggi Diabetes
0,667
0,667
30
24
Indonesia dalam Kondisi Bahaya Narkoba
0,500
0,500
30
25
Alkohol Tak Bantu Lupakan Kenangan Buruk
0,500
0,500
30
26
Benarkah Bir Punya Manfaat Kesehatan?
0,571
0,800
25
27
Alkohol Bukan Pelepas Stres
0,400
0,400
30
0,400
0,400
30
0,500
0,600
25
0,400
0,500
25
0,750
0,750
30
1,000
1,000
30
28
29 30 31
32
Salah Diet, Risiko Osteoporosis Orang Gemuk Meningkat Tangkal Osteoporosis dengan Susu atau Suplemen Kalsium? Ubah Perilaku Jika Ingin Makan Sehat Intel dan Kemdikbud Berikan Penghargaan Kepada 6 Guru Berprestasi Link Facial Coding, Membaca Respons Iklan di TV Lewat Raut Wajah
33
Ketidakpastian Nilai Rupiah
0,750
0,750
30
34
Investasi di Bursa
0,500
0,500
25
35
Proposal Kredit yang Baik
0,333
0,333
25
36
Koleksi Kartu Keanggotaan
0,500
0,500
30
0,500
0,500
20
0,750
0,750
30
37
Samuel Wattimena Menang Di Fiji Fashion Week 2013
38
Kesepakatan Soal Karier
39
Warna Alami Henna
0
0
25
40
Guratan Hitam, Kohl
0,500
0,500
25
41
Qiang Hui Optimistis Indonesia Bisa Raih Emas
0,500
0,500
30
42
Tiger Woods Kehilangan Salah Satu Sponsor
0,857
0,857
30
1,000
1,000
30
43
Konversi BBM ke BBG Terus Diupayakan bagi Nelayan
108
Tabel 4.6 Presisi dan Recall Ringkasan Sistem Rasio 30% (50 Artikel) 44
Indonesia Harus Tolak Didikte Negara Maju di WTO
0,429
0,429
30
45
Gubernur BI Terus Berupaya Jaga Likuiditas
0,500
0,500
30
0,600
0,750
25
0,857
0,857
30
0,400
0,400
30
0,500
0,500
30
0,667
1,000
20
46 47 48 49 50
Pasar Keuangan Indonesia Pengaruhi Gejolak Nilai Tukar Rupiah Dua Faktor Macetkan Sistem Presidensil Mahfud: Presidensil Macet Karena Presiden "Disandera" JK: Saya Tidak Akan Pernah Keluar dari Golkar Presidensial Tak Efektif karena SBY Resmi Bentuk Oposisi
Untuk ringkasan dengan rasio 30% tersebut, nilai presisi rata-rata yaitu 0,53448 dan nilai recall rata-rata sebesar 0,58134. Dengan demikian nilai F-measure dapat dihitung sebagai berikut:
Berikut ini adalah rangkuman dari uji presisi, recall, dan F-measure terhadap 50 dokumen dengan rasio ringkasan sistem 10%, 20%, dan 30%.
Tabel 4.7 Presisi, Recall, dan F-measure 50 Artikel Rasio Ringkasan Rata-rata Presisi
Rata-rata Recall
Rata-rata F-measure
10%
0,66666
0,258
0,372025
20%
0,60274
0,4213
0,495946
30%
0,53448
0,58134
0,556926
Dapat disimpulkan bahwa nilai rata-rata presisi menurun dan recall membaik seiring dengan bertambahnya rasio ringkasan. Semakin tinggi nilai presisi berarti semakin sedikit hasil ringkasan sistem yang tidak berhubungan. Sedangkan semakin
109
tinggi nilai recall berarti semakin banyak informasi penting pada ringkasan referensi yang juga terdapat pada ringkasan sistem. Idealnya ringkasan yang baik adalah ringkasan yang memiliki nilai presisi dan recall yang tinggi. Akan tetapi pada pengujian terlihat bahwa kenaikan presisi akan dibarengi dengan penurunan recall dan sebaliknya. F-measure digunakan untuk menyatakan kualitas ringkasan sistem dengan memadukan presisi dan recall. Terlihat nilai F-measure tertinggi didapatkan saat rasio ringkasan 30%. Nilai F-measure sebesar 0,556926 dan presisi sebesar 0,53448 untuk ringkasan dengan rasio 30% tersebut lebih tinggi dibandingkan dengan: 1. Nilai F-measure metode sentence features dengan Latent Semantic Analysis milik Aristoteles, Herdiyeni, Ridha, dan Adisantoso tahun 2012 yaitu sebesar 0,4763 untuk rasio 30%. 2. Nilai F-measure sebesar 0,45359 dan presisi 0,46471 untuk metode sentence features dan Genetic Algorithm milik Suanmali, Binwahlan, dan Salim tahun 2011. 3. Nilai presisi metode Lexical Chains dan Genetic Algorithm milik Berker dan Gungor tahun 2013 yaitu sebesar 0,46.
4.2
Evaluasi Evaluasi dilakukan melalui kuesioner terhadap pengguna untuk mengukur
kualitas ringkasan secara subjektif.
4.2.1 Evaluasi User Evaluasi user ini terdiri dari dua metode yaitu kuesioner mengenai tingkat keterwakilan artikel asli oleh ringkasan dan menjawab soal berdasarkan ringkasan wacana.
4.2.1.1 Kuesioner Sejumlah 55 artikel asli dan ringkasan rasio 30% dari tahap testing disajikan kepada pengguna melalui kuesioner. Kuesioner disebarkan melalui spreadsheet Google Docs dari tanggal 28 Desember 2013 hingga 4 Januari 2014. Evaluasi user ini bersifat subjektif. Pengguna diminta untuk menilai apakah ringkasan tersebut sudah mewakili informasi yang dibutuhkan dan terpenting dari artikel asli. Pilihan jawaban yang tersedia yaitu:
110
1. Sangat tidak mewakili 2. Tidak mewakili 3. Cukup 4. Mewakili 5. Sangat tidak mewakili Total respon yang diterima untuk 55 artikel tersebut adalah sebanyak 645 jawaban dengan rincian sebagai berikut:
Tabel 4.8 Hasil Kuesioner Pilihan Jawaban
Jumlah Respon
Persentase (%)
Sangat tidak mewakili
5
0,775
Tidak mewakili
35
5,426
Cukup
154
23,876
Mewakili
330
51,163
Sangat mewakili
121
18,760
Dari hasil tersebut dapat disimpulkan bahwa sebanyak 69,923% merupakan respon positif terhadap keterwakilan artikel asli oleh ringkasan sistem rasio 30%. Respon negatif sejumlah 6,201% dan netral sejumlah 23,876%. Perbedaan signifikan antara respon positif dengan respon negatif dan netral menunjukkan bahwa pengguna merasa bahwa kualitas mayoritas ringkasan sudah memuaskan karena sudah mewakili informasi penting yang dibutuhkan dari artikel asli. Selain itu, Drs. Marcus Bambang Walgito, SF.Th. selaku dosen bahasa Indonesia juga turut mengevaluasi keterwakilan artikel asli oleh ringkasan sistem rasio 30%. Jumlah artikel beserta ringkasannya yaitu sebanyak 5 (lima) buah. Hasil evaluasi ringkasan sistem yaitu 2 ringkasan sangat mewakili, 2 ringkasan mewakili, dan 1 ringkasan tidak mewakili artikel asli.
4.2.1.2 Menjawab Soal Pada evaluasi ini diambil 8 buah wacana bahasa Indonesia yang terdapat dalam ujian tingkat nasional. Seluruh soal pilihan ganda yang berkaitan dengan wacana tersebut juga turut ditampung, yaitu sebanyak 25 soal. Wacana dan soal diambil dari SIMAK UI 2012 (2 wacana 3 soal), UN SD 2009 (1 wacana 5 soal),
111
EBTANAS SD 1994 (1 wacana 3 soal), EBTANAS SMP 1987 (1 wacana 4 soal), EBTANAS SMP 1990 (1 wacana 3 soal), EBTANAS SMA 1986 (1 wacana 5 soal), dan EBTANAS SMA 1994 (1 wacana 2 soal). Wacana yang dipilih adalah wacana yang memiliki panjang 200 karakter atau lebih. Pada tanggal 8 dan 9 Januari 2014, Drs. Marcus Bambang Walgito, SF.Th. selaku dosen bahasa Indonesia menjawab soal-soal tersebut tanpa melihat wacana asli, melainkan dengan memakai hasil ringkasan sistem dengan rasio 30% dari wacana asli. Hasilnya yaitu 21 soal dapat dijawab hanya dengan membaca ringkasan sistem, sedangkan 4 soal lainnya tidak dapat dijawab karena tidak cukup informasi dalam ringkasan sistem (tetapi dapat dijawab saat membaca wacana asli). Dari evaluasi ini dapat disimpulkan bahwa ringkasan sistem mengandung mayoritas informasi yang diperlukan untuk menjawab soal-soal tersebut.
4.3
Implementasi Algoritma diimplementasikan melalui aplikasi web yang dibuat dengan
framework Django yang berbasis Python. Aplikasi juga menggunakan database MySQL untuk keperluan lemmatization. Pada tampilan utama aplikasi terdapat input fields untuk judul, isi teks, dan rasio ringkasan.
Gambar 4.1 Tampilan Utama Aplikasi
112
Pilihan rasio ringkasan yang tersedia yaitu antara 5% hingga 50% dengan interval 5%. Berikut ini adalah contoh input judul, isi artikel, dan rasio ringkasan.
Gambar 4.2 Contoh Input pada Aplikasi
Saat pengguna menekan tombol 'Ringkas', maka akan dilakukan validasi terlebih dulu. Jika isi dokumen tidak melebihi 200 karakter, maka akan kembali ke tampilan utama aplikasi. Sebaliknya, jika isi dokumen memenuhi syarat terdiri dari 200 karakter atau lebih, proses pemilihan kalimat ringkasan akan dilakukan oleh sistem dan hasilnya ditampilkan.
113
Gambar 4.3 Contoh Hasil Ringkasan
Selain hasil ringkasan, terdapat pula pilihan untuk membuat ringkasan lain (kembali ke tampilan utama), simpan ringkasan dalam format plain text (.txt), dan simpan ringkasan dalam format PDF (.pdf). Jika tombol simpan ringkasan dalam format plain text atau PDF ditekan, file attachment berisi ringkasan dapat didownload oleh pengguna. Tersedia juga pilihan untuk menampilkan teks asli.
Gambar 4.4 Pilihan untuk Menampilkan Teks Asli
114
Saat tombol tampilkan teks asli ditekan, maka teks asli akan muncul seperti pada Gambar 4.5. Pengguna juga dapat menyembunyikan kembali teks asli tersebut.
Gambar 4.5 Tampilan Teks Asli