BAB IV HASIL PENGUJIAN DAN ANALISA
Bab ini menjelaskan mengenai pengujian dari sistem yang telah dibuat. Penjelasan mengenai pengujian dibagi menjadi beberapa bagian antara lain tahapan pengujian, cara pengujian, dan detail pengujian pada focused crawler dan sistem peringkas berita.
4.1.
Tahapan Pengujian Sistem yang telah dibuat akan diuji dalam beberapa bagian. Pengujian dipisahkan
berdasarkan bagian-bagian dari sistem. Sistem terdiri dari dua bagian utama yaitu bagian pencari berita dan bagian peringkas berita. Untuk bagian pencari berita sistem menggunakan focused crawler menggunakan algoritma genetik. Sehingga tahap pertama pengujian adalah pengujian focused crawler. Sementara pada bagian peringkas berita yang menggunakan metode GVSM akan diuji juga dengan cara yang berbeda. Pengujian focused crawler dilakukan untuk melihat sejauh mana focused crawler bisa diterapkan untuk pencarian berita. Hal ini perlu dilakukan karena focused crawler yang digunakan adalah focused crawler yang bekerja secara umum menelusuri keseluruhan web dan kemudian crawler dimodifikasi sehingga dapat mengambil isi berita saja. Pengujian dilakukan untuk melihat sejauh mana crawler dapat mengambil berita yang sesuai dengan masukan dari pengguna. Pengujian sistem peringkas berita dilakukan dengan tujuan melihat tingkat kualitas berita menurut orang yang akan membaca ringkasan berita tersebut. Pengujian perlu dilakukan sebab ada kemungkinan pendapat pengguna akan berbeda-beda terhadap hasil dari ringkasan sehingga perlu dilakukan pengujian berupa survei terhadap ringkasan berita tersebut. Survei diharapkan dapat memberi gambaran seberapa baik responden mengganggap kualitas dari ringkasan yang dihasilkan oleh sistem.
36
37
4.2.
Cara pengujian Dua tahap pengujian dilakukan dengan implementasi yang berbeda. Pengujian
focused crawler tidak menggunakan survei, sedangkan pengujian hasil ringkasan yang dibentuk oleh sistem menggunakan responden.
4.2.1. Cara Pengujian Focused Crawler Focused crawler diuji dengan memperhatikan beberapa bagian penting yang berkaitan antara lain parameter dari pengguna dan juga melihat jenis-jenis keluaran untuk tiap-tiap masukan yang berbeda-beda. Beberapa parameter dibuat sama dengan penelitian focused crawler sebelumnya sedangkan beberapa parameter disesuaikan dengan penelitian ini. Keluaran yang didapat juga merupakan hasil modifikasi dari focused crawler sebelumnya sehingga setiap keluaran perlu diperhatikan secara detail. Parameter yang merupakan bagian utama dari focused crawler dan tidak mengalami perubahan untuk setiap percobaan adalah sebagai berikut : 1. populationSize: ukuran populasi, banyaknya halaman web yang membentuk sebuah populasi pada implementasi Algoritma Genetik. 2. generationSize: ukuran generasi, banyaknya perulangan (iterasi) pembentukan populasi yang dilakukan pada tahap Algoritma Genetik. 3. crossoverRate: probabilitas cross-over, peluang terjadinya rekombinasi pada tahap Algoritma Genetik. 4. mutationRate: probabilitas mutasi, peluang terjadinya mutasi pada tahap Algoritma Genetik. [2] Keempat parameter tersebut diatur didalam sebuah file bernama App.config dan kemudian akan diambil oleh program untuk kemudian digunakan dalam proses crawling. Nilai-nilai untuk keempat parameter tersebut antara lain : 1. populationSize
: 100 (dalam range 1-100)
2. generationSize
: 100 (dalam range 1-100)
3. crossoverRate
: 0.7
(dalam range 0-1)
4. mutationRate
: 0.7
(dalam range 0-1)
Pemilihan nilai-nilai tersebut adalah berdasarkan hasil penelitian focused crawler sebelumnya. Dimana dari penelitian tersebut didapatkan nilai-nilai parameter yang akan
38
memeberikan hasil yang terbaik adalah nilai-nilai parameter yang digunakan dalam penelitian ini. Gambar 4.1 menampilkan contoh konfigurasi pada file App.config yang digunakan pada penelitian ini.
Gambar 4.1 Konfigurasi File App.Config
Dari Gambar 4.1 dapat dilihat juga ada beberapa parameter lain yaitu : proxy, pagesInDB, storage, dan logFile. Parameter-parameter tersebut adalah parameter untuk penyimpanan data dari penelitian sebelumnya. Parameter storage dan logFile diubah sesuai dengan
media
penyimpanan
yang
digunakan
sementara
parameter
pagesInDB
dipertahankan dalam jumlah besar. Parameter storage adalah lokasi penyimpanan file-file HTML hasil crawling sementara parameter logFile adalah nama file yang akan dibuat untuk melihat laporan hasil crawling. Sementara parameter proxy tidak digunakan karena jaringan internet yang digunakan untuk percobaan tidak menggunakan proxy. Media yang digunakan untuk pencarian dibatasi dari media masssa online saja sehingga tidak ada halaman selain media massa online yang akan diambil isinya dan disimpan dalam database. Media masssa online yang diambil juga dibatasi dalam beberapa media massa online saja. Pembatasan berupa pemberian data tag identifier yang hanya sedikit. Crawler diberi modifikasi yaitu hanya akan mengambil isi berita berdasarkan tag identifier sesuai dengan rancangan proses parsing pada subbab 3.3.1. Jika tidak ditemukan
39
tag identifier pada halaman yang dicari otomatis halaman itu dianggap tidak memiliki isi berita yang terkait. Data-data mengenai tag identifier disimpan dalam database dan dalam mengambil data tersebut digunakan URL dari halaman web yang terkait untuk menentukan tag identifier dari setiap halaman. Media massa online yang menjadi sumber berita secara garis besar adalah sebagai berikut : 1. Detik.Com 2. Kompas.Com 3. VivaNews.Com Sementara data detail dari halaman web untuk setiap media massa dan juga tag identifier ditampilkan dalam Tabel 4.1. Tabel 4.1 Data Web dan Tag Identifier Halaman (bersambung)
No 1
Nama Media Kompas.Com nasional
2
vivanews.com
3
kompas bola
4
kompas entertaintment kompas Indonesia Satu kompas.com internasional kompas.com sains vivanews.com mobile
5
6 7 8
9 10 11
kompas.com regional kompas.com bisnis kompas.com lipsus Jokowi
Start Tag
End Tag
URL nasional.komp as.com
class="brea k double">
regional.komp as.com bisniskeuanga n.kompas.com lipsus.kompas. com/gebrakan -jokowibasuki
40
Tabel 4.1 Data Web dan Tag Identifier Halaman (lanjutan)
No 12
Nama Media detik news
13
detik mobile
14
kompas.com health kompas.com health mobile kompas.com megapolitan detik health
15 16 17
Start Tag <stro ng>
<stro ng>
End Tag
URL news.detik.co m m.detik.com/n ews health.kompas .com m.kompas.co m/health megapolitan.k ompas.com health.detik.co m
Dari data pada Tabel 4.1 dapat dilihat bahwa ada media yang memiliki tag identifier yang berbeda beda untuk setiap bagian halaman sehingga membutuhkan data yang lebih detail. Dalam hal ini media yang dimaksud adalah Kompas.com sementara untuk media seperti detik.Com dan VivaNews.com tidak membutuhkan banyak variasi identifier. Dengan adanya proses parsing ini maka crawler secara otomatis membatasi pencarian hanya pada tiga jenis media tersebut beserta halaman halamannya sehingga pencarian dapat lebih dipersempit khusus pada ketiga media massa online tersebut. Keluaran yang didapat oleh focused crawler adalah keluaran berupa isi berita serta judul dari halaman yang didapat selama proses crawling. Dengan kata lain sudah ada modifikasi terhadap keluaran dari focused crawler yaitu jika sebelummya yang didapat adalah keseluruhan halaman maka setelah proses modifikasi didapat hanya isi berita dan judulnya saja. URL dari berita juga ikut disimpan dalam database. Isi yang didapat juga sudah bersih dari tag tag HTML karena ada proses pembersihan tag HTML.
4.2.2. Cara Pengujian Sistem Peringkas Berita Pengujian hasil ringkasan menggunakan metode klasifikasi yang membutuhkan bantuan responden untuk melihat kualitas dari hasil ringkasan. Ringkasan yang akan diuji adalah ringkasan berita yang sudah diambil oleh focused crawler selama proses crawling. Beberapa parameter dalam pengujian ringkasan antara lain adalah parameter masukan dan
41
juga parameter penilaian. Parameter masukan adalah bagian yang akan diisi atau dinilai oleh responden dalam kuesioner, sementara parameter keluaran adalah hasil penilaian dari responden. Kuesioner disebarkan dan diambil sampel sejumlah empat puluh responden. Jumah sampel responden minimal yang baik adalah tiga puluh sampel untuk penelitian secara umum [9]. Jenis sampel yang digunakan dalam penelitian ini adalah sampel acak. Sampel acak yang dimaksud adalah tidak ditentukan ruang lingkupnya secara khusus baik daerah, usia, atau apapun yang membatasi jenis sampel. Pemilihan digunakannya sampel acak adalah karena berita pada umumnya akan dibaca oleh banyak orang atau dapat dikatakan umum sehingga sampel juga dipilih secara beragam dan tidak dibatasi. Informasi dari responden hanya dibatasi nama dan pekerjaan untuk menghindari adanya sampel ganda dan juga untuk melihat ragam sampel. Dalam melakukan pengujian dibuat lembar kuesioner yang dilampirkan pada Lampiran B. Dalam lembar kuesioner itulah disertakan parameter-parameter masukan yang menjadi bahan penilaian responden dan juga menjadi field isian responden. Parameter masukan dalam pengujian ringkasan adalah :
Berita asli yang belum diringkas
Judul berita
Hasil ringkasan berita
Data diri responden (nama dan pekerjaan)
Tujuan dari dimasukkannya berita asli ke dalam kuesioner adalah untuk dijadikan perbandingan oleh responden dalam menilai kualitas dari ringkasan yang dihasilkan oleh sistem. Data diri responden dicantumkan dengan tujuan melengkapi informasi sampel responden. Judul berita juga dapat dijadikan acuan responden dalam menilai hasil ringkasan.
4.3.
Peralatan Pengujian Peralatan pengujian adalah perlatan yang digunakan untuk melakukan pengujian
sekaligus juga sebagai tempat pembuatan sistem. Pengujian yang diuji menggunakan bantuan alat adalah pengujian focused crawler sedangkan keseluruhan sistem juga dibuat
42
menggunakan
bantuan
peralatan.
Pengujian
dan
pembuatan
dilakukan
dengan
menggunakan notebook Lenovo Z480--9807 spesifikasi sebagai berikut :
Processor
: Intel Core-i5 3210M – 2,5Ghz
Memory
: 4 GB DDR3
Hard disk drive
: Western Digital 750 GB
Sistem operasi
: Windows 7 Ultimate Edition
Sementara perangkat lunak serta jaringan yang digunakan dalam perancangan dan juga pengujian adalah :
4.4.
Bahasa Pemrograman
: Visual C#
Perangkat Lunak
: Microsoft Visual Studio .NET 2010
Database
: Microsoft SQL Server 2008
Jaringan Internet
: Telkom Speedy pada Indekos. Kecepatan 3 Mb/S.
Pengujian Focused Crawler Pengujian focused crawler ditekankan pada seberapa baik crawler bisa
mendapatkan berita-berita yang relevan dengan masukan selama proses crawling. Masukan yang diberikan berbeda-beda setiap kali pengujian dan yang membedakan antara setiap masukan adalah domain lexicon dan keyword dari setiap percobaan pencarian. Sementara beberapa percobaan memiliki juga kesamaan yaitu dalam topik berita yang dicari. Sesuai dengan pembatasan topik pada penelitian ini difokuskan ke dalam enam topik. Sehingga dalam proses pencarian dan juga menentukan jenis berita yang akan dicari tetap mengacu pada enam topik yang sudah ditentukan. Keenam topik yang dijadikan patokan dalam pengujian adalah sebagai berikut : 1. Politik 2. Kriminal 3. Kesehatan 4. Olahraga 5. Pemerintahan 6. Ekonomi
43
Untuk masing-masing topik tersebut akan dilakukan pencarian sebanyak lima kali dengan keyword dan domain lexicon yang berbeda-beda untuk menentukan pencarian. Setelah dilakukan pencarian maka akan dilihat pula keluaran dari sistem dan dilakukan penilaian terhadap sistem. Dalam menentukan keyword dan juga domain lexicon digunakan cara manual yaitu memilih langsung halaman web apa yang akan dijadikan domain lexicon atau dengan kata lain menjadi titik awal crawling dan juga menentukan keyword apa yang sesuai dengan domain lexicon yang sudah ditentukan. Proses memberi masukan berupa domain lexicon dan juga keyword mengalami modifikasi dari penelitian focused crawler sebelumnya. Jika sebelumnya kedua masukan tersebut ada dalam file app.config sebagaimana tercantum pada Gambar 4.1 maka setelah modifikasi kedua masukan tersebut akan diberikan pada textbox menggunakan windows form application seperti yang tertampil pada Gambar 4.2.
Gambar 4.2 Tampilan Masukan Domain Lexicon dan Keyword
44
Tujuan dari modifikasi ini adalah untuk memudahkan pengguna dalam melakukan pencarian. Jika masih harus menggunakan file app.config maka pengguna harus membuka file terlebih dahulu sehingga proses menjadi tidak fleksibel. Penilaian terhadap hasil crawling adalah berupa tingkat kesuksesan. Tingkat kesuksesan adalah perbandingan berapa banyak berita yang relevan dengan jumlah berita. Penilaian mengenai apakah suatu berita relevan atau tidak dilakukan secara manual dengan membaca satu persatu berita yang disimpan setiap pencarian. Tingkat kesuksesan dalam satuan persentase keberhasilan dengan nilai tertinggi 100% dan nilai terendah 0%. Ringkasan dari hasil pengujian focused crawler ditampilkan pada Tabel 4.2 berikut. Sementara data detail dari proses pengujian dapat dilihat pada Lampiran A. Tabel 4.2 Ringkasan Pengujian Focused Crawler
Tingkat Kesuksesan Percobaan ke(Dalam satuan %) 1
2
3
4
5
Rata-Rata (Dalam satuan %)
Kesehatan
80,0
87,5
71,4
32,1
66,6
67,5
Ekonomi
64,4
76,4
63,6
85,7
40,0
66,0
Pemerintahan
100,0
50,0
53,8
50,0
50,0
60,7
Politik
90,7
57,8
29,4
50,0
30,0
51,6
Olahraga
27,7
26,3
20,0
54,5
62,5
38,2
Kriminal
31,4
39,2
55,5
7,6
48,5
36,5
Topik Berita
Sementara perbandingan rata-rata tingkat kesuksesan pencarian untuk tiap-tiap topik berita digambarkan dalam diagram pada Gambar 4.3.
45
Dalam Satuan %
Rata Rata Tingkat Kesuksesan per Topik 80 70 60 50 40 30 20 10 0
Rata Rata Tingkat Kesuksesan
TOPIK Gambar 4.3 Rata-Rata Tingkat Kesuksesan Pencarian Tiap Topik
Dari Tabel 4.2 dapat diambil rata-rata kesuksesan percobaan dari keseluruhan topik adalah 53%. Nilai tersebut lebih rendah dari target yang dipasang. Ada empat faktor yang menyebabkan rendahnya nilai tersebut antara lain. 1. Berita yang sudah masuk tidak akan masuk lagi sehingga mengakibatkan kemungkinan berita-berita yang dicari pada pencarian terakhir sudah diambil oleh crawler pada pencarian pencarian awal. Misalkan di awal sudah ditemukan berita mengenai melemahnya rupiah maka jika pada pencarian berikutnya mencari topik melemahnya rupiah jumlah berita menurun karena sudah diambil pada pencarian pertama. 2. Starting page yang ideal sangat sedikit. 3. Gaya bahasa dan judul yang beragam 4. Judul topik yang merupakan headline (misalkan: Korupsi Banten) banyak tercantum di banyak halaman berita lain sehingga menyebabkan halaman berita lain ikut terambil Penyebab yang pertama adalah berita yang dicari sudah diambil pada pencarian sebelumnya sehingga berita tersebut justru tidak diambil pada proses pencarian yang berkaitan. Sebagai contoh jika pada pencarian pertama terdapat berita-berita yang tidak sesuai maka ada kemungkinan di pencarian kedua dan seterusnya justru berita yang ada dalam pencarian pertama itulah yang relevan dengan topik pencarian.
46
Penyebab yang pertama berkaitan juga dengan penyebab keempat yaitu topik yang dicari merupakan headline sehingga berita-berita yang berkaitan tersebut ada di hampir semua halaman. Gambar 4.4 menampilkan data tingkat kesuksesan pencarian pada topik politik yang mengindikasikan adanya penurunan tingkat kesuksesan.
Tingkat Kesuksesan Pencarian Topik Politik Dalam Satuan %
100 80 60 40 Tingkat Kesuksesan
20 0 1
2
3
4
5
Percobaan KeGambar 4.4 Tingkat Kesuksesan Pencarian Topik Politik
Penyebab kedua yaitu starting page yang ideal sulit dicari. Starting page sangat menentukan ke arah mana pencarian akan ditentukan dan sebagai domain lexicon maka starting page juga berfungsi sebagai referensi pencarian berikutnya. Dari starting page juga akan ditelusuri URL yang ada di dalam halaman web tersebut untuk kemudian dikombinasikan sesuai dengan prinsip cross-over. Contoh starting page yang sangat ideal adalah pada percobaan topik pemerintahan dengan tingkat kesuksesan 100% starting pagenya adalah http://lipsus.kompas.com/gebrakan-jokowi-basuki. Dari starting page tersebut didapat banyak URL berita. Penyebab ketiga yaitu judul dari sebagian besar halaman web tidak baku sementara crawler juga menilai relevansi suatu halaman web dari judul halaman tersebut. Judul juga bisa mempengaruhi URL dari suatu halaman web sebab pada umumnya URL suatu halaman web juga mengandung unsur judul dari halaman web tersebut. Jika judul yang digunakan tidak baik maka kemungkinan besar nilai relevansi halaman tersebut kecil. Judul berita yang bisa dikategorikan buruk jika mengandung unsur berikut :
Bahasa tidak baku.
47
Menggunakan kata-kata yang berulang-ulang.
Menggunakan perumpamaan atau makna tersirat.
Contoh judul berita yang buruk misalkan pada berita dengan judul : “Jokowi Ayo Rp 5000 Ya Sekali Foto! – Kompascom”. Keluaran akhir dari proses pencarian ini adalah isi berita beserta keterangan keterangan berita yang dibutuhkan seperti judul dan URL halaman web berita tersebut. Sebagian hasil akhir pencarian dari proses pengujian focused crawler ditampilkan pada Gambar 4.5 dan isi berita dari hasil akhir ditampilkan pada Gambar 4.6.
Gambar 4.5 Data Hasil Akhir Proses Crawling
48
Gambar 4.6 Data Isi Berita
4.5.
Pengujian Sistem Peringkas Berita Pada pengujian sistem peringkas berita poin yang diujikan adalah ringkasan dari
berita. Pengujian ini menggunakan bantuan kuesioner untuk mempercepat pengumplan data dari responden. Bahan yang digunakan responden untuk menilai meliputi ringkasan berita, berita asli, dan judul berita. Sementara responden memberi identitas berupa nama dan latar belakang pekerjaan. Responden yang diminta untuk mengisi kuesioner berjumlah empat puluh orang responden dengan latar belakang pekerjaan yang berbeda-beda. Jumlah berita yang diberikan pada responden untuk dinilai adalah sejumlah lima berita dengan masing masing berita memiliki ringkasan dan berita asli itu sendiri. Selain itu responden juga diminta memberikan komentar tambahan serta kalimat yang seharusnya ada atau tidak ada dalam suatu ringkasan. Penilaian dilakukan dengan metode klasifikasi yaitu responden memberikan penilaian terhadap masing masing berita dengan klasifikasi sebagai berikut.
49
Tabel 4.3 Kriteria Penilaian
Kriteria
Nilai
Sangat Baik
4
Baik Buruk
3 2
Sangat Buruk
1
Sementara untuk data berita yang disertakan dalam kuesioner dijabarkan dalam Tabel 4.4. Tabel 4.4 hanya memuat data umum berita sementara isi berita beserta ringkasan dari berita dapat dilhat secara lebih mendetail pada Lampiran B. Tabel 4.4 Data Berita pada Kuesioner
No Berita
Judul Berita
1 Wakil Ketua MK Yakin Tak Ada Lagi Hakim Konstitusi Terjerat Kasus 2 Indonesia Juara Umum Yamaha ASEAN Cup Race 2013 3 Gempa 67 SR Guncang Maluku Tak Berpotensi Tsunami 4 Dr Lo Kalau Mau Kaya Ya Jangan Jadi Dokter tapi Pedagang 5 Belajar Bahasa Inggris Sambil Rayakan Halloween
Kategori Kriminal Olahraga Peristiwa Tokoh Pendidikan
Beberapa topik berita yang disebarkan pada kuesioner memang tidak sama dengan berita yang dicari per topik pada pengujian focused crawler. Alasan utama pemilihan topik yang beragam adalah untuk memilih berita yang berisi cukup ringan dan mudah dibaca. Berita 2, 4, dan 5 pada Tabel 4.4 memiliki keunggulan dari segi jumlah kalimat ataupun isi berita sehingga dimasukkan ke dalam kuesioner. Berita pada kuesioner dibuat mudah dibaca dan menarik supaya responden berminat menilai dengan serius kuesioner ini. Sebab pada umumnya jika kuesioner sulit dipahami maka responden akan menjawab lebih secara asal. Responden pada pengujian hasil ringkasan ini terdiri dari 40 orang responden yang terbagi dalam kategori pekerjaan yang berbeda-beda. Dari semua pekerjaan tersebut dapat
50
dikelompokkan untuk mempermudah melihat gambaran dari ragam sampel. Kategori kategori pekerjaan dari responden antara lain :
Karyawan dimana termasuk didalamnya karyawan swasta, pegawai negeri sipil, desainer interior, dan manager.
Pengajar atau akademisi yaitu antara lain guru, pengajar kursus, dosen, dan asisten laboratorium.
Wiraswasta, pengusaha, wiraswasta komputer, kontraktor dan retailer obat
Pekerjaan lain seperti pendeta, ibu rumah tangga, pensiunan, dan mahasiswa.
Perbandingan jumlah responden untuk tiap-tiap pekerjaan digambarkan melalui diagram pada Gambar 4.7. Sementara untuk melihat detail responden dapat dilihat pada Lampiran C.
Jumlah orang
Perbandingan Responden Berdasarkan Pekerjaan 14 12 10 8 6 4 2 0
13
12
11
4 Jumlah Karyawan
Pengajar dan Akademisi
Wiraswasta Pekerjaan Lain
Pekerjaan Gambar 4.7 Jumlah Responden Berdasarkan Kategori Pekerjaan
Ringkasan dari penilaian responden dapat dilihat pada Tabel 4.5 yaitu berupa ratarata penilaian untuk tiap-tiap ringkasan dari berita 1 hingga berita 5. Detil penilaian responden dapat dilihat pada Lampiran C. Tabel 4.5 Ringkasan Hasil Penilaian Responden
Berita KeRata-rata (Sesuai Kriteria Penilaian)
1
2
3
4
5
2,60
2,52
2,77
3,00
2,65
51
Dari Tabel 4.5 dapat diambil rata-rata keseluruhan penilaian dari berita 1 hingga berita ke 5 adalah 2,71 atau jika mengacu pada kriteria penilaian dapat dikatakan mendekat ke arah Baik. Hasil ringkasan yang dibuat oleh sistem oleh karena itu dapat dikatakan secara umum dapat diterima oleh pembaca berita. Akan tetapi beberapa responden memberikan komentar tambahan terhadap hasil ringkasan dimana komentar tersebut antara lain :
Ringkasan yang bagus harus berisi detil kejadian dan data lengkap.
Isi berita tidak menyeluruh seperti aslinya.
Perhatikan detil bahasan
Sementara untuk tampilan perangkat lunak dari sistem peringkas berita dipecah menjadi beberapa form sesuai rancangannya yaitu frmSummarizerTrial, frmSummarizer, dan frmAdmin. Dengan fungsi masing-masing form telah dijelaskan pada subbab 3.2. Form frmSummarizer trial adalah bagian yang berfungsi melihat rincian proses peringkasan seperti tertampil pada Gambar 4.8.
Gambar 4.8 Tampilan frmSummarizerTrial
52
Sementara form frmSummarizer adalah form yang berfungsi meringkas berita dalam jumlah banyak sekaligus dan juga melihat jumlah berita yang gagal diringkas. Dari percobaan peringkasan untuk semua jenis berita yang sudah didapat dari proses crawling yaitu sejumlah 797 berita didapat 754 berita yang dapat diringkas atau dengan kata lain sebanyak kurang lebih 94% berita yang sudah dicari dapat diringkas. Sejumlah 6% berita yang tidak teringkas dikarenakan berbagai faktor antara lain berita tidak ada isinya, atau berita terlalu kotor karena banyak tag HTML yang tidak dapat dibersihkan. Form frmSummarizer tertampil pada Gambar 4.9.
Gambar 4.9 Tampilan frmSummarizer
Hasil akhir dari proses peringkasan yang dapat dilihat dengan mudah oleh pengguna ada pada frmAdmin dimana pengguna dapat mencari berita dengan judul yang sesuai dan sudah terkategori secara otomatis. Dengan hasil akhir tertampil pada Gambar 4.10.
53
Gambar 4.10 Tampilan frmAdmin
4.6.
Analisa Hasil Pengujian Dari hasil pengujian terhadap kedua bagian utama dari sistem dapat dianalisa
keberhasilan dan kegagalan dari masing-masing pengujian. Pengujian focused crawler mengalami lebih banyak kegagalan dan masalah dibandingkan dengan pengujian hasil ringkasan oleh sistem. Akan tetapi terdapat juga kelemahan dalam hasil ringkasan sistem dan keunggulan juga dari focused crawler seteleh melakukan pengujian. Beberapa analisa mengenai focused crawler antara lain
Focused crawler mampu mengambil halaman berita pada media massa online namun memiliki keterbatasan dalam memilih berita dengan isi yang benar-benar sesuai dengan topik pencarian. Tingkat keberhasilan pemilihan berita untuk focused crawler adalah 53%.
Focused crawler yang sudah dimodifikasi mampu dengan baik memisahkan halaman yang merupakan halaman media massa online yang memuat berita dengan halaman yang tidak memuat berita.
Walaupun seringkali mendapat hasil yang tidak sesuai dengan topik pencarian crawler mampu mengambil berita dengan jumlah yang cukup besar di setiap kali pencarian sehingga membuat jumlah data untuk disimpan semakin banyak.
54
Focused crawler cocok digunakan untuk mencari berita dengan tema pemerintahan, kesehatan, dan ekonomi sementara kurang tepat untuk mencari berita dengan topik olahraga dan kriminal. Hal ini disebabkan berita dengan topik kriminal umumnya sering menjadi headline sehingga sebelum dilakukan pencarian berita sudah lebih dulu diambil. Sementara untuk topik olahraga crawler kesulitan mencari karena keterbatasan starting page yang ideal serta gaya bahasa penulisan berita olahraga yang seringkali tidak baku.
Sementara beberapa analisa mengenai hasil ringkasan adalah sebagai berikut :
Dalam
membentuk
ringkasan
menggunakan
GVSM
sistem
mampu
memanfaatkan thesaurus yang ada, akan tetapi jika judul berita dan isi tidak memiliki kesamaan arti sehingga penggunaan thesaurus pada GVSM tetap dipengaruhi isi berita.
Gaya bahasa berita juga membuat sistem terkadang mengalami kesalahan dalam meringkas. Tapi pada umumnya hasil ringkasan sistem dapat diterima oleh responden.
Responden yang memiliki penilaian atau komentar negatif terhadap hasil ringkasan secara umum memiliki pemahaman hasil ringkasan oleh sistem sebagai hasil ringkasan menurut teori Bahasa Indonesia dimana ringkasan dibentuk ulang sementara ringkasan yang dibentuk oleh sistem adalah ringkasan hasil pemangkasan kalimat [3].
Dari hasil kuesioner dapat dilihat bahwa ringkasan secara garis besar mendekati penilaian baik dan dapat diterima oleh responden.