DESAIN TIMELINE UNTUK PENCARIAN BERITA BAHASA INDONESIA DILENGKAPI DENGAN FILTER KATEGORISASI BERITA DAN PERINGKASAN BERITA Yosi Kristian Dosen Teknik Informatika Sekolah Tinggi Teknik Surabaya e-mail:
[email protected]
ABSTRAK Dalam dunia modern seperti ini, informasi sangat dibutuhkan oleh masyarakat. Penyampaian informasi dilakukan melalui media yang berbeda-beda. Pencarian informasi menjadi sulit karena banyaknya informasi yang tersebar di berbagai media. Salah satunya adalah situs surat kabar online. Masyarakat bisa mendapatkan informasi dengan membaca surat kabar secara online. Oleh karena itu dibuatlah program untuk mengambil berita-berita dari surat-surat kabar ini dan menyimpannya ke dalam media penyimpanan lokal. Tiap berita digolongkan sesuai dengan kategori masing-masing, kemudian semua berita ini digabung menjadi satu ke dalam sebuah database. Setelah didapatkan databasenya, dibuat sebuah program untuk mencari berita-berita yang terdapat di dalamnya. Agar user dapat mencari berita secara cepat, ditambahkan fitur-fitur, seperti timeline dan advanced search. Selain itu juga, user dapat membaca ringkasan berita tersebut. Privasi tiap situs surat kabar yang mengakibatkan URL berubah pola, ataupun jika situs tidak diberikan indeks berita, menjadi kendala dalam pengambilan berita. Untuk memudahkan dalam melakukan proses kategorisasi dan peringkasan, diperlukan sebuah topic keyword berbahasa Indonesia. Kata kunci: crawling, parsing, querying, timeline, kategorisasi, peringkasan
ABSTRACT In this modern era, information is really needed by people. Information is given from many different media. Searching an information became difficult because too many information was spread in many different media. Newspaper online was one of the media. People can gain information by reading online newspaper. Because of that, a program to take the news from the online newspaper and then save them to a local storage was developed. All of the news will be combined to a database. But before the news was combined, the news must be classified in each categorization. After the database is ready to used, a program to search the news in the media must be developed. To help user search faster, some feature like timeline and advanced search must be added. User also can read the summary of the news.Privacy of each newspaper site that can make the URL change into different pattern or newspaper without news index can give some trouble to the news gathering proccess. An Indonesian topic keyword was needed to make the categorization and summarization proccess easier. Keywords: crawling, parsing, querying, timeline, categorization, summarization.
nya ke halaman web. Komponen yang penting dalam pencarian berita pada umumnya adalah tanggal kapan berita itu dirilis. Sebab tanggal perilisan berita menjadi acuan umum keakuratan berita tersebut. Untuk itu, dibutuhkan sebuah search engine yang dapat mencari halamanhalaman web yang memuat berita dan dapat mengelompokkan berita-berita tersebut berdasar periode waktunya, sehingga akan memudahkan
PENDAHULUAN Dewasa ini, internet telah berkembang pesat. Semua kegiatan manusia dapat dilakukan secara online melalui internet, seperti dengan adanya surat kabar online. Surat kabar online ini sangat berguna bagi orang yang ingin membaca berita tanpa berlangganan ataupun membeli surat kabar. Surat kabar online tersebut mendokumentasikan berita-
56
DINAMIKA TEKNOLOGI Vol. 4, No. 2; April 2012: 56-63
para pengguna internet dalam mencari berita yang diperlukan pada waktu tertentu. Situs berita yang sangat banyak mengakibatkan user kesulitan untuk menemukan informasi yang dibutuhkan. Untuk itu diperlukan sebuah search engine berita yang dapat melakukan pencarian berita pada tanggal tertentu. Halaman web yang ditampilkan diurutkan sesuai dengan tanggal posting berita.
Web Crawling adalah proses mengambil kumpulan halaman dari sebuah web untuk dilakukan pengindeksan sehingga mendukung kinerja search engine. Tujuan dari proses crawling adalah mempercepat dan mengefisienkan kumpulan halaman web dengan cepat, mengumpulkan struktur tautan yang menghubungkan kumpulan halaman web tersebut.
Selain itu, search engine ini dilengkapi dengan timeline berita yang mengelompokkan berita yang dicari oleh user berdasarkan rentang waktu tertentu. Dengan adanya timeline ini diharapkan lebih memudahkan user dalam melakukan pencarian suatu berita. Database berita berasal dari hasil crawl yang kemudian dilakukan proses parsing. Dari proses parsing didapat teks berita murni yang kemudian dikategorikan dan diringkas secara otomatis. Dengan demikian user dapat melakukan pencarian berita dengan filter kategori dan dapat membaca ringkasan berita nya.
TEKNIK CRAWLING Search engine pada umumnya akan melakukan crawling ke semua web yang ada, dan menyimpannya di dalam sebuah database yang besar. Pada database ini juga akan dilakukan pengindexan untuk mempercepat pencarian. Cara ini cukup efektif pada saat itu, karena pada saat itu halaman web berupa halaman web statik dengan extensi htm / html. Prinsip umum search engine: 1. Spider merupakan sebuah program menyerupai browser yang mendownload halaman web. 2. Crawler program yang secara otomatis mengikuti semua link yang ada pada tiap halaman. 3. Indexer program yang menganalisa halaman web yang didownload oleh spider dan crawler. 4. Database tempat penyimpanan semua data didownload dan telah dianalisa oleh sebuah search engine
Gambar 1. Struktur Web Crawling
Gambar 1 merupakan struktur dari web crawling. Crawler diberi sebuah initial query dan intial URL. URL ini lah yang akan menjadi awal pencarian crawler. URL yang dijelajahi akan dimasukkan ke dalam sebuat queue termasuk semua halaman web yang terkait dengan URL tersebut untuk diambil kemudian. Sebelum diambil, sebuah alamat URL akan dicek terlebih dahulu, apakah web tersebut sudah pernah diambil atau tidak, ataupun web tersebut merupakan mirror, dan sebagainya. Jika web tersebut belum pernah dimasukkan ke dalam database, maka web tersebut akan dimasukkan ke dalam database beserta semua link yang terdapat dalam web tersebut. WebWagon1 adalah sebuah tool sederhana yang didesain untuk membantu user dalam menyimpan sebuah halaman web ke dalam sebuah tempat penyimpan data. WebWagon berfungsi sebagai Web navigator. WebWagon meng-copy dokumen HTML dari sebuah halaman web dan menyimpannya ke dalam local disk yang kemudian dapat dipergunakan untuk browsing secara off-line. File yang telah didownload akan di simpan ke dalam sebuah sub-directory berupa sebuah hypertext. URL-URL dikumpulkan oleh WebWagon dari halaman web yang telah didownload dilist dalam sebuah queue.
5. Result engine sebuah engine yang menampilkan hasil pencarian. 6. Web Server sebuah server yang bertanggung jawab atas interaksi antara user dan komponen search engine yang lain.
1 http://www.softpedia.com/get/Internet/Other-InternetRelated/WebWagon.shtml
57
DINAMIKA TEKNOLOGI Vol. 4, No. 2; April 2012: 56-63
TEKNIK KATEGORISASI DAN PERINGKASAN Langkah pertama dalam text categorization adalah untuk mengubah dokumen, yang khususnya merupakan strings of characters, menjadi suatu bentuk yang sesuai untuk learning algorithm dan classification task. Penelitian Information Retrieval menyarankan bahwa kata dasar akan menjadi suatu unit representasi yang baik dan pengurutan dalam suatu dokumen merupakan hal yang tidak begitu penting dalam berbagai task. Hal ini kemudian mengarah kepada representasi nilai atribut dari teks. Setiap pemisahan kata k1 berhubungan dengan suatu feature, dengan jumlah kemunculan kata k1 dalam dokumen sebagai nilainya. Untuk menghindari vektor yang tidak penting, kata dianggap sebagai feature saja jika kata tersebut muncul dalam training data minimal 3 kali dan jika kata tersebut bukan merupakan stop word (seperti dan, atau, dan lain-lain).
dari isi suatu komputer.
artikel
dengan
menggunakan
Terdapat dua pendekatan pada peringkasan teks, yaitu ekstraksi (shallower approaches) dan abstraksi (deeper approaches). Pada teknik ekstraksi, sistem menyalin unit-unit teks yang dianggap paling penting atau paling informatif dari teks sumber menjadi ringkasan. Unit-unit teks yang disalin dapat berupa klausa utama, kalimat utama, atau paragraf utama. Sedangkan teknik abstraksi melibatkan parafrase dari teks sumber. Teknik abstraksi mengambil intisari dari teks sumber, kemudian membuat ringkasan dengan menciptakan kalimat-kalimat baru yang merepresentasikan intisari teks sumber dalam bentuk berbeda dengan kalimat-kalimat pada teks sumber. Untuk lebih jelasnya mengenai proses summarisasi dapat dilihat pada gambar 3.
Salah satu metode kategorisasi yaitu Naive Bayes. Untuk menggunakan metode ini diperlukan sebuah data training dan serangkaian keyword. Untuk lebih jelasnya dapat dilihat pada gambar 2. Data input ditraining terlebih dahulu, dari proses training diperoleh beberapa kemungkinan kategori. Dari dokumen yang telah ditraining, dilakukan proses klasifikasi. Dokumen yang memiliki kemungkinan kategori dilakukan perhitungan kemudian diambil nilai terbaik untuk dijadikan kategori.
Gambar 3. Arsitektur Text Summarization
Dokumen input dilakukan analisa untuk mengetahui karakteristik dokumen. Dokumen yang telah dianalisa, diproses dengan suatu metode tertentu untuk mendapatkan inti kalimat. Langkah selanjutnya perpaduan antar inti kalimat yang ada. Hasil perpaduan tersebut yang dijadikan sebagai ringkasan.
ARSITEKTUR PROGRAM Dalam program ini terdapat 3 modul utama, yaitu modul crawler dan parsing, modul kategorisasi dan peringkasan, dan modul timeline dan search engine.
Gambar 2. Arsitektur Kategorisasi dengan Naive Bayes
Text Summarization adalah sebuah proses untuk menghasilkan ringkasan atau summary dari suatu artikel tapi tetap memiliki gambaran yang akurat
58
Modul crawler dan parsing merupakan proses pembentukan database berita yang terdiri dari program crawler dan parsing berita. Input dari program crawler berupa indeks berita atau tanggal berita dan outputnya berupa teks HTML. Input dari program parsing adalah teks HTML yang merupakan hasil crawl, dan outputnya adalah URL, judul, dan isi berita.
DINAMIKA TEKNOLOGI Vol. 4, No. 2; April 2012: 56-63
Modul kategorisasi dan peringkasan merupakan proses kategorisasi berita secara otomatis kemudian dilakukan peringkasan berita secara otomatis pula. Terdapat 2 proses dalam modul ini yaitu kategorisasi berita dan peringkasan berita. Input dari program kategorisasi berita adalah isi berita hasil parsing dan outputnya adalah berita yang telah dikategorisasi. Input dari program peringkasan adalah berita hasil kategorisasi, dan outputnya adalah ringkasan berita. Modul timeline dan search engine merupakan proses pencarian berita oleh user yang hasil pencariannya berupa berita yang relevan serta timeline berita berupa grafik. Input dari search engine berasal dari user yaitu kata kunci, mode search dan mode timeline. Outputnya adalah berita hasil pencarian dan grafik timeline. Gambar 4 merupakan arsitektur program pada modul utama. Terdapat 3 modul yang saling berkaitan. Modul crawler dan parsing dan modul kategorisasi dan peringkasan merupakan server side. Sedangkan modul timeline dan search engine merupakan client side. Apabila user ingin mencari suatu berita, user dapat menginputkan sebuah kata kunci yang berhubungan dengan berita yang ingin dicari pada search engine interface. Setelah itu search engine akan meng-querykan kata kunci tersebut ke dalam database. Apabila berita yang ingin dicari telah ditemukan, search engine akan menampilkan hasil pencarian berserta timeline berita kepada user. Dalam hal ini, user dan search engine interface berada pada sisi client.
crawl yang berupa text HTML dikonversi sehingga menjadi teks berita murni. Selanjutnya, berita yang telah dikonversi akan dikategorikan sesuai dengan topik berita tersebut dengan menggunakan metode Naive Bayes, kemudian berita tersebut akan diringkas dengan menggunakan metode Optimal Position Policy. Proses crawl dan konversi ini merupakan sisi server pada program ini. Hasil konversi yang berupa URL, tanggal posting, judul, kategori, isi, dan ringkasan berita akan dimasukkan ke dalam database, dalam program ini menggunakan Microsoft Access 2003.
MODUL CRAWLER DAN PARSING Untuk program crawler dibuat dengan menggunakan bahasa VB.Net dengan platform Microsoft Visual Studio 2005 dengan komponen tambahan yaitu WebWagon. Ada 6 situs yang akan dicrawl yaitu : o www.okezone.com o www.suarapembaruan.com o www.detiksurabaya.com o www.detikfinance.com o www.jawapos.com o www.indopos.co.id Karena itu akan ada 6 program crawler yang akan dibuat. Untuk program yang kedua adalah program parsing yang akan dibuat dengan menggunakan Borland Delphi 7. Fungsi program ini adalah untuk mengkonversi teks HTML berubah menjadi file database Microsoft Access 2003. Pada proses ini juga terjadi proses pembacaan tanggal. Input : Teks HTML Output : Judul berita, teks berita dan tanggal posting Pada gambar 5 berikut ini merupakan blok diagram dari modul crawler dan parsing.
Gambar 4. Arsitektur Program
Program crawler mem-fetch berita yang ada pada situs berita bahasa Indonesia, yang kemudian hasil
Gambar 5. Blok Diagram Modul Crawler dan Parsing
59
DINAMIKA TEKNOLOGI Vol. 4, No. 2; April 2012: 56-63
Pertama, dilakukan fetching pada situs berita bahasa Indonesia dari masing-masing URL, kemudian dilakukan proses crawler dengan bantuan komponen WebWagon. Hasil crawler diparsing untuk mendapatkan hasil berupa teks murni.
Output: URL, judul, tanggal, isi, link, ringksan berita, dan timeline.
MODUL KATEGORISASI DAN PERINGKASAN Dalam modul kategorisasi dan peringkasan ini terdapat 2 program yaitu program kategorisasi dan program peringkasan yang keduanya terintegrasi. Program ini dibuat dengan Borland Delphi 7. Untuk proses kategorisasi berita menggunakan metode Naive Bayes dan untuk proses peringkasan berita menggunakan metode Optimal Position Policy. Input : Teks berita murni (hasil parsing) Output : Kategori berita, ringkasan berita Hasil berita pada modul crawler dan parsing yang berupa teks berita murni dikategorikan sesuai dengan kategori berita masing-masing dengan menggunakan metode Naive Bayes. Hasil berita yang telah dikategorikan diproses dengan menggunakan metode Optimal Position Policy untuk diperoleh ringkasan berita. Setelah diperoleh hasil ringkasan maka dilakukan konversi ke dalam database. Selain kategori dan ringkasan berita, URL, judul, tanggal posting, dan isi berita juga disimpan ke dalam database. Gambar 6 merupakan blok diagram dari modul kategorisasi dan peringkasan.
Gambar 6. Blok Diagram Modul Kategorisasi dan Peringkasan
MODUL TIMELINE DAN SEARCH ENGINE Untuk menampilkan hasil dari program crawler dan program kategorisasi dan peringkasan, diperlukan sebuah aplikasi yang nantinya juga akan digunakan oleh user untuk mencari berita. Search engine berita ini berfungsi sebagai aplikasi yang digunakan oleh user untuk mencari suatu berita dan kemudian hasil pencariannya berupa sebuah timeline yang menunjukkan jumlah berita, beserta judul, isi, link dan ringkasan beritanya. Dalam program ini, pembuatan web search engine berita ini dibuat dengan menggunakan bahasa ASP.NET dengan platform Microsoft Visual Studio 2005, sedangkan timeline berita menggunakan Adobe Flash CS3 dengan ActionScript 2.0. Input : Kata kunci, mode search dan mode timeline
60
Gambar 7. Blok Diagram Modul Timeline dan Search Engine
DINAMIKA TEKNOLOGI Vol. 4, No. 2; April 2012: 56-63
Hasil pencarian yang ditampilkan adalah tanggal posting, judul berita, isi berita, link berita, dan ringkasan berita. Isi berita akan ditampilkan apabila user mengklik judul berita. Link berita akan mengarahkan user kepada sumber berita sebenarnya, akan tetapi tidak semua link berita dapat dikunjungi dikarenakan privasi dari tiap surat kabar online berbeda-beda. User juga dapat membaca ringkasan berita tersebut apabila mengklik ”Baca ringkasan” yang disediakan pada web hasil pencarian. Gambar 8 merupakan halaman utama tempat user memasukkan input.
Gambar 8. Tampilan Halaman Utama
Gambar 8 merupakan halaman utama tempat user melakukan input. Apabila user selesai melakukan input, untuk menampilkan hasil user cukup menekan tombol search. Gambar 9 merupakan tampilan hasil pencarian.
Gambar 9. Tampilan Hasil Pencarian
Hasil pencarian yang ditampilkan berupa grafik timeline dan berita yang meliputi URL, judul, tanggal, isi, link, dan ringkasan.
UJI COBA Uji coba ini meliputi 3 bagian, yaitu uji coba crawler dan parsing, uji coba kategorisasi dan
peringkasan, dan ujicoba timeline dan search engine. Uji Coba Crawler dan Parsing Berikut akan diberikan sebuah contoh hasil crawler dan hasil parsing. Hasil Crawl Jawa Pos :
http://www.jawapos.com/index.php?act= detail_c&id=335001|| Jawa Pos Online ||<meta httpequiv="Content-Type" content="text/html; charset=iso-8859-1"><meta name="keywords" content="Jawapos, Jawa Pos, Koran, Berita, Deteksi, Metropolis, Jakarta Raya, Surat Kabar, Jawa, Jawa Timur, Surabaya, Indonesia, Graha Pena">
Selasa, 08 Apr 2008, Buka Peluang Lebih Besar Belajar di AS
SURABAYA - American Indonesian Exchange Foundation (Aminef) kembali berbagi informasi peluang beasiswa untuk belajar di Amerika Serikat (AS). Kemarin (7/4), bertempat di International Village Building, Universitas Surabaya (Ubaya), Yayasan Pertukaran Amerika-Indonesia itu berbagi informasi tentang program beasiswa Fullbright. ... <strong>©Copyright 2006, Jawa Pos Onlinecolo'INDOSATIM2 | height="5"> |
| |
Hasil Parsing: URL : http://www.jawapos.com/index.php?act=detail_c& id=335001 Title : Buka Peluang Lebih Besar Belajar di AS Tanggal: 04/08/2008 Isi: American Indonesian Exchange Foundation (Aminef) kembali berbagi informasi peluang beasiswa untuk belajar di Amerika Serikat (AS). Kemarin (7/4), bertempat di International Village Building, Universitas Surabaya (Ubaya),.... Uji Coba Kategorisasi dan Peringkasan
61
DINAMIKA TEKNOLOGI Vol. 4, No. 2; April 2012: 56-63
Berita 1 : [PADANG] Ribuan korban, hingga Jumat (2/10) masih tertimbun di bawah reruntuhan bangunan yang roboh akibat gempa 7,6 SR yang mengguncang Padang dan sejumlah wilayah di Sumbar, Rabu (20/9) lalu. Di antaranya adalah siswa lembaga pendidikan Gama Kota Padang, yang belum bisa dievakuasi. … … Sementara itu, data dari Pusat Penanggulangan Krisis (PPK) Depkes, hingga Kamis (1/10) malam, tercatat sedikitnya 715 orang menjadi korban akibat gempa bumi. Perinciannya, 247 orang meninggal dunia, 460 orang luka berat, serta 8 orang luka ringan di Kota Padang Panjang. Kategori : Nasional Ringkasan : Ribuan korban, hingga Jumat (2/10) masih tertimbun di bawah reruntuhan bangunan yang roboh akibat gempa 7,6 SR yang mengguncang Padang dan sejumlah wilayah di Sumbar, Rabu (20/9) lalu.
Pengetahuan Indonesia (LIPI), Danny Hilman Natawidjaja mengatakan, Pulau Sumatera berpotensi dilanda gempa dengan skala yang lebih besar, yaitu di atas 8 pada skala richter (SR)… Baca Ringkasan http://www.suarapembaruan.com/Ne ws/2008/01/04/Ekonomi/eko05.htm Selasa, 22 Juli 2008 news.okezone.com : Ancaman Gus Dur Dinilai PKB JAKARTA - Ancaman yang sempat dilontarkan KH Abdurrahman Wahid (Gus Dur) yang akan menyerukan warga NU untuk golput pada pemilu 2009 nanti, dinilai tidak akan berpengaruh pada suara PKB.Hal… http://news.okezone.com/index.php/ ReadStory/2008/07/22/1/130045/anc aman-gus-dur-dinilai-pkb-nggakngaruh
Uji Coba Timeline dan Search Engine Kata Kunci : Gempa
KESIMPULAN Tabel 1. Hasil Pencarian Kata Kunci Gempa
Kamis, 01 Kamis, 01 Oktober 2009 Oktober Korban Tewas Mencapai Ribuan 2009 Jumlah korban tewas akibat gempa bumi berkekuatan 7,6 skala richter (SR) yang mengguncang Sumatera Barat (Sumbar) Rabu (30/9), diperkirakan lebih dari 1.000 orang. Hingga Kamis (1/10) pagi... Baca Ringkasan http://www.suarapembaruan.com/Ne ws/2009/10/01/index.html Kamis, 01 Oktober 2009 Gempa Tidak Pengaruhi Munas Golkar Gempa yang menimpa Sumatera Barat tidak akan memengaruhi jadwal pelaksanaan Musyawarah Nasional (Munas) Partai Golkar di Pekanbaru, Riau, pada 4 hingga 8 Oktober mendatang.... Baca Ringkasan http://www.suarapembaruan.com/N ews/2009/10/01/index.html Kamis, 01 Oktober 2009 Gempa Lebih Besar Ancam Sumatra Pakar gempa dari Lembaga Ilmu
62
Di bawah ini akan diberikan beberapa kesimpulan mengenai program yang telah dibuat. 1. Peringkasan berita secara otomatis dengan menggunakan metode Optimal Position Policy menghasilkan sebuah kalimat berdasarkan kalimat aslinya. Relasi antar kalimat tidak diperhatikan. 2. Kategorisasi berita dengan menggunakan metode Naïve Bayes, memudahkan proses peringkasan berita dengan menggunakan metode Optimal Position Policy. Karena pada metode Optimal Position Policy membutuhkan kategori berita untuk pencocokan dengan topik keyword yang tidak mungkin dilakukan secara manual. 3. Pembuatan timeline dengan menggunakan Adobe Flash CS3 memberikan sebuah tampilan yang lebih dinamis, karena dapat dilakukan pergeseran timeline tanpa merefresh halaman web. 4. Penghubung Flash dengan database menggunakan program ASP.NET melalui querystring dapat melakukan transfer data kurang lebih 200 karakter tergantung jenis browser yang digunakan. Sehingga menjadi keterbatasan dalam melakukan pengiriman data dari Flash dan ASP.NET atau sebaliknya.
DINAMIKA TEKNOLOGI Vol. 4, No. 2; April 2012: 56-63
5. Tiap surat kabar online memiliki privasi yang berbeda-beda, beberapa surat kabar tidak memberikan indeks pada URL-nya sehingga berita dari surat kabar tersebut sudah tidak dapat dicrawl lagi. Contoh situs yang tidak memberikan indeks berita pada URL adalah JawaPos dan IndoPos.
DAFTAR PUSTAKA 1. Gulli, A. The Anatomy of a News Search Engine, Dipartimento di Informatica, University of Pisa 2. Hovy, Eduard and Chin-Yew Lin, Automated Text Summarization And The Summarist System , Information Sciences Institute of the University of Southern California, USA, 1998 3. Kusumo, Ario Suryo, ASP.Net 2.0 dengan VB 2005, Elex Media Komputindo, 2005 4. Lin, Chin-Yew and Eduard Hovy, Identifying Topics by Position, Information Sciences Institute of the University of Southern California, USA, 1997 5. Nugroho, Bunafit. 50 Kreasi Efek dan Animasi Teks dengan FLASH CS3, Elex Media Komputindo, 2008 6. Sebastiani, Fabrizio. A Tutorial on Automated Text Categorisation, Instituto di Elaborazione dell’ Informazione, Consiglio Nazionale delle Ricerche, Pisa, Italy 7. Wibisono, Yudi. Klasifikasi Berita Berbahasa Indonesia menggunakan Naive Bayes Classifier. FPMIPA UPI, Bandung , 2005.
63