PENGEMBANGAN WEB AGGREGATOR INSTITUT PERTANIAN BOGOR MENGGUNAKAN SINGLE STREAM AGGREGATION
HANNISSA FITRI ASRY
DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2011
1
ABSTRACT HANNISSA FITRI ASRY. Web Aggregator Development of Bogor Agricultural University using Single Stream Aggregation Method. Supervised by: SONY HARTONO WIJAYA. Information is easily accessible without any geographical and time constraints because of Internet growth. Everyone needs information to keep updated. With the RSS (Really Simple Syndication) technology, a method to encapsulate and distribute news in a solid and informative package, any Internet users can follow updated news without having to always search news of interests. The information system uses a so called Aggregator Technology. In this study, web aggregator development of Bogor Agricultural University is developed using Single Stream Aggregation method. This method puts the latest updated news on top position on each news source. This study also classifies news by topic to facilitate users in getting specific news. The classification is conducted using k-Nearest Neighbor The results show that the Aggregator system can be made to collect all news from available feeds based on sequence time. The system is successful on classifying documents with the percentage accuracy 53% with k=5. Keywords : RSS, Aggregator, Single Stream Aggregation, clasification, KNN
2
PENGEMBANGAN WEB AGGREGATOR INSTITUT PERTANIAN BOGOR MENGGUNAKAN SINGLE STREAM AGGREGATION
HANNISSA FITRI ASRY G64076029
Skripsi Sebagai salah satu syarat untuk memperoleh gelar Sarjana Komputer pada Program Studi Ilmu Komputer
DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2011
3
Judul skripsi Nama NIM Program Studi
: Pengembangan Web Aggregator Institut Pertanian Bogor Menggunakan Single Stream Aggregation : Hannissa Fitri Asry : G64076029 : Ilmu Komputer
Menyetujui, Dosen Pembimbing,
Sony Hartono Wijaya, S.Kom, M.Kom NIP.19810809 200812 1 002
Mengetahui: Ketua Departemen,
Dr. Ir. Sri Nurdiati, M.Sc. NIP. 19601126 198601 2 001
Tanggal Lulus :
ii
RIWAYAT HIDUP Penulis dilahirkan di Medan pada tanggal 5 Mei 1986 dari ayah Nasri Pily dan ibu Hj. Yusni Rudang Br. Tarigan. Penulis merupakan anak kedua dari enam bersaudara. Tahun 2004 penulis lulus dari Sekolah Menengah Umum Swasta Al-Azhar Medan dan pada tahun yang sama penulis diterima di Institut Pertanian Bogor (IPB) melalui jalur Undangan Seleksi Masuk IPB (USMI) sebagai mahasiswa Diploma 3 pada Program Studi Elektronika dan Teknologi Komputer, Fakultas Matematika dan Ilmu Pengetahuan Alam. Tahun 2007 penulis lulus program Diploma 3 dan pada tahun yang sama melanjutkan studi di Program Sarjana Ilmu Komputer Penyelenggaraan Khusus IPB, Fakultas Matematika dan Ilmu Pengetahuan Alam (FMIPA) Institut Pertanian Bogor.
iii
PRAKATA Segala puji bagi Allah SWT atas limpahan rahmat serta karuniaNya dan semoga shalawat serta salam tetap tercurahkan kepada nabi besar Muhammad SAW. Puji dan syukur penulis panjatkan karena akhirnya karya ilmiah dengan judul Pengembangan Web Aggregator Institut Pertanian Bogor menggunakan Single Stream Aggregation ini dapat diselesaikan. Karena karya ilmiah ini dibuat sebagai salah satu syarat untuk memperoleh gelar Sarjana Komputer di Fakultas Matematika dan Ilmu Pengetahuan Alam Insitut Pertanian Bogor. Penulis mengucapkan terima kasih kepada semua pihak yang telah membantu sehingga skripsi ini dapat diselesaikan, diantaranya :
1. Ayah dan Mamak terkasih atas dukungan, doa dan kasih sayangnya kepada penulis. 2.
Bapak Sony Hartono Wijaya, S.Kom, M.Kom. selaku pembimbing atas waktu, saran, dan bimbingan yang telah diberikan.
3.
Bapak Firman Ardiansyah dan Bapak Ahmad Ridha sebagai dosen penguji yang bersedia meluangkan waktu untuk menguji.
4.
Abang serta adik-adikku yang selalu memberikan perhatiannya.
5.
Kak Ihsan yang telah banyak membantu memberikan ilmu dan waktunya.
6.
Kak Deni yang selalu sabar memberikan dukungan.
7. Kibus, Anis, Anggi, Eka, Bobi, Tia dan teman-teman seperjuangan di Ekstensi ILKOM. 8.
Epen yang selalu memberikan hiburan.
9.
Bapak Julio Adisantoso, terima kasih atas kesabaran dan kemurahan hati.
10. Semua pihak yang tidak dapat penulis sebutkan satu persatu yang telah membantu penulis dalam menyelesaikan penelitian ini. Akhirnya penulis berharap semoga skripsi ini dapat bermanfaat bagi semua pihak yang membutuhkan. Amin.
Bogor, Oktober 2011
Hannissa Fitri Asry
iv
DAFTAR ISI Halaman DAFTAR GAMBAR..................................................................................................................................v DAFTAR LAMPIRAN..............................................................................................................................v LAMPIRAN.............................................................................................................................................13
DAFTAR GAMBAR Halaman
Halaman 1 2 3
Tabel Test Case 1 Tabel Test Case 2
Tabel Confusion Matrix
9 10 11
DAFTAR LAMPIRAN Halaman 1
Software Feed Validator 2
Feed Tidak Valid.
14 15
3
Struktur File RSS Feed
16
4
Halaman Utama Sistem
18
5
Form Login Administrator
19
6 7
11
Form Kategori
20
Form Tambah Kategori
21
8
Form Daftar Feed
22
9
Form Edit Akun
23
10
Form Edit Kata Unik 24
Perancangan DatabaseRSS
25
Tabel Categories
25
v
Tabel Feeds 25 Tabel user 12
Struktur Database
25 26
13
Stopwords
27
14
Daftar Berita 28
vi
PENDAHULUAN Latar Belakang Perkembangan internet menjadikan informasi begitu mudah diakses tanpa batasan geografis dan waktu. Untuk selalu mengikuti perkembangan jaman, seseorang tidak boleh terlepas dari informasi. User dengan mudah mendapatkan informasi dengan sekejap saja. Dengan adanya teknologi RSS (Really Simple Syndycation), yaitu sebuah metode untuk merangkum dan mendistribusikan berita dalam suatu kemasan yang padat dan tetap informatif, seorang pengguna internet dapat tetap mengikuti perkembangan suatu berita tanpa harus mengunjungi setiap halaman web untuk memperoleh informasi tersebut. Informasi RSS ditempatkan ke dalam satu file dalam sebuah situs web dengan cara yang mirip dengan halaman web biasa. Informasi yang dikodekan dalam bahasa komputer XML untuk digunakan oleh sebuah program yang disebut dengan RSS aggregator. Aggregator adalah suatu sistem yang menyerap dan mengumpulkan isi beberapa website. Isi dari website aggregator bisa berasal dari web blog, podcast, vlog, dan situs web media utama. RSS Aggregator secara otomatis memeriksa serangkaian item terbaru dari RSS feed secara berkala. Sistem aggregator ini dapat diterapkan pada situs-situs organisasi, bisnis, dan institusi atau kelembagaan. Institut Pertanian Bogor (IPB) merupakan sebuah institusi pendidikan yang masingmasing fakultas dan departemen memiliki situs resmi yang di-update secara berkala. IPB belum mempunyai sistem pengumpul berita (aggregator). Sistem aggregator untuk situs IPB dibuat sebagai sarana untuk memudahkan pengunjung situs tersebut untuk mendapatkan update berita dari tiap fakultas dan departemen yang ada sehingga dapat disajikan dalam bentuk yang layak untuk dibaca hanya pada satu halaman web saja, dan diharapkan dengan adanya aggregator tidak ada lagi informasi yang luput dari pantauan para akademisi secara umum dan civitas IPB secara khusus.
Ruang Lingkup Aggregator yang dikembangkan pada penelitian ini hanya mengambil feed-feed dari situs Fakultas dan Departemen di IPB yang menyediakan fitur RSS feed saja, yaitu: Fakultas Peternakan (FAPET), Departemen Ilmu Keluarga dan Konsumen (IKK) FEMA, dan Fakultas Kehutanan (FAHUTAN) dan terdapat tiga kategori berita yaitu Beasiswa, Riset dan Kegiatan Kampus. Manfaat Manfaat yang dapat diperoleh dari sistem yang dikembangkan adalah mempermudah seorang pengguna atau pengunjung web untuk memperoleh berita dari tiap fakultas atau departemen yang telah terklasifikasi tanpa harus mengunjungi situs dari masing-masing fakultas atau departemen tersebut. TINJAUAN PUSTAKA Website Website ialah sistem penyebaran informasi melalui internet. Banyak hal yang terdapat pada suatu web, dan yang menarik adalah banyak halaman web yang menggabungkan data teks, data gambar diam atau bergerak, data animasi, suara, video dan atau gabungan dari semuanya. Halaman-halaman web yang terkait yang membentuk suatu rangkaian yang mana masingmasing dihubungkan dengan jaringan-jaringan halaman yang disebut hyperlink (Wittenbrink 2005 ). Halaman web dibangun dengan menggunakan markup language yang disebut HTML (HyperText Markup Language) merupakan bahasa yang mengandung perintah kepada browser (Internet Explorer , Mozilla Firefox, Opera, Safari dan lainnya) untuk menampilkan teks, gambar dan file multimedia lainnya (Gralla 2007). Contoh dari salah satu website disajikan pada Gambar 1.
Tujuan Penelitian ini bertujuan mengembangkan RSS aggregator pada web IPB dengan menggunakan metode Single Stream Aggregation sebagai sarana untuk memudahkan pengguna mendapatkan update berita di lingkungan Institut Pertanian Bogor. Gambar 1 Website IPB
Jenis web berdasarkan sifatnya adalah :
- Website dinamis, web yang isi atau informasinya selalu berubah-ubah setiap saat.
- Website
statis, web yang isi informasinya sangat jarang diubah.
atau
Web Server Web server adalah sebuah bentuk server yang khusus digunakan untuk menyimpan situs web. Komputer dapat dikatakan sebagai web server jika komputer tersebut memiliki suatu program server yang disebut Personal Web Server (PWS). PWS ini difungsikan agar halaman web yang ada dalam sebuah komputer server dapat dipanggil oleh komputer client. Macam-macam web server antara lain Apache, IIS, Xitami, dan PWS. Apache yang dikembangkan oleh komunitas open source merupakan web server yang paling populer dan paling banyak digunakan (Nugroho 2005).
news feed. Teknologi RSS berhubungan erat dengan update informasi. Istilahnya dikembangkan dari singkatan yang dapat diintepretasikan dalam beberapa cara yang berbeda yaitu :
- RDF Site Summary - Rich Site Summary - Really Simple Syndication (Wittenbrink 2005). RSS menggunakan bahasa XML sebagai formatnya. Sebuah file RSS menerangkan isi dari sebuah saluran informasi (channel) yang berisi logo/image, site link,input box dan items. Items pada file RSS sering disebut sebagai “news item”. Website tertentu dapat menyalin dan menggunakan RSS yang dimiliki website lain untuk menginformasikan berita atau artikel. Hal ini disebut dengan RSS feed. Gambar 2 mengilustrasikan alur pembuatan feed (RSS) di web server dan pengambilan feed oleh user.
MySQL MySQL merupakan salah satu database yang berkembang di lingkungan open source dan didistribusikan secara gratis di bawah lisensi GPL (General public License). MySQL adalah sistem manajemen database yang free tetapi memiliki banyak keunggulan dibandingkan dengan sistem manajemen database lainnya, yaitu performance, support, dan fitur-fitur yang lengkap. Fitur yang ditawarkan MySQL (Dubois 2003) antara lain : -
Kecepatan.
-
Mudah digunakan.
- Capability. Banyak client yang dapat terhubung ke server secara bersamaan.
- Connectivity dan security. - Portability. MySQL dapat berjalan pada
web pag e
use r
Aggregator checks every hour
RSS vers io of W n e Pag b e
Gambar 2 RSS Feed
Sebuah program komputer yang dikenal sebagai pembaca umpan (feed reader) bertindak sebagai pengumpul. Tenggang waktu dan siklus pengumpulan RSS biasanya dapat diatur oleh penggunanya. Program pengumpul dapat berupa program komputer atau sebuah layanan web yang tersedia secara on line. Gambar 3 adalah diagram yang menunjukkan bagaimana website, file XML RSS feed, dan komputer terhubung.
banyak sistem operasi.
- Availability dan harga. MySQL tersedia secara gratis di bawah GPL. Really Simple Syndication (RSS) RSS adalah singkatan dari Really Simple Syndication, yakni suatu metode terbuka untuk pengumpulan (syndicating) dan penyatuan (aggregating) isi dari sebuah web. Sebuah file RSS memberikan data informasi ringkas (summary) tentang headlines, links, dan article dari website. RSS adalah istilah kolektif untuk format
Gambar 3 Diagram website, XML, RSS feed dan komputer terhubung
Aggregator Aggregator adalah suatu sistem yang menyerap dan mengumpulkan isi gabungan beberapa website. Isi dari website aggregator bisa berasal dari web blog, podcast, vlog, dan situs web media utama. RSS aggregator secara otomatis memeriksa serangkaian item terbaru dari RSS feed secara berkala. Sebuah entitas yang secara transparan mengumpulkan informasi dari sumber data web yang banyak. Pada prosesnya, aggregator memisahkan perbedaan-perbedaan informasi yang semantik atau kontekstual (Stuart 2001).
Berita-berita yang telah masuk ke dalam feed akan disajikan dalam satu halaman web. Metode ini menempatkan update berita yang terbaru pada posisi yang teratas dari tiap sumber berita. Single Stream Aggregation adalah salah satu metode yang baik untuk tetap dapat menarik lebih dari satu umpan (feed) (Catone 2007). Gambar 5 merupakan arsitektur diagram Single Stream.
Menurut definisi yang disarankan, ada tiga karakteristik spesifik yang penting untuk sebuah web aggregator.
- Access Transparency, pada sumber-sumber datanya, sebuah aggregator terlihat seperti seorang pengguna yang normal yang mengakses informasi.
- Contextual
Transparency, aggregator memisahkan perbedaan-perbedaan yang kontekstual untuk mendapatkan perbandingan-perbandingan yang efektif.
- Analysis, sebagai pengganti dari penyajian yang sederhana, aggregator menyatukan penambahan nilai informasi yang berdasar pada analisis post-aggregation. Salah satu contoh sistem aggregator pada situs Institut Teknologi Bandung dapat dilihat pada Gambar 4.
Gambar 5 Arsitektur Single Stream Pada Gambar 5 di atas menjelaskan cara kerja metode Single Stream Aggregation yaitu mengambil artikel dari beberapa situs kemudian dari artikel-artikel berita yang ada disaring dan ditampilkan berdasarkan kategori. Sebagai contoh pada gambar web aggregator di atas yaitu web tentang kesehatan, maka berita yang ditampilkan adalah artikel tentang kesehatan. Oleh karena itu web tersebut hanya mengambil berita mengenai artikel kesehatan saja, dan berita-beritanya ditampilkan berdasarkan urutan waktu terbaru. k-Nearest Neighbor (KNN)
Gambar 4 Web Aggregator ITB Single Stream Aggregation Ada beberapa metode dalam pengumpulan berita. Salah satunya ialah dengan metode Single Stream Aggregation. Cara kerja metode ini ialah dengan cara mengambil berita dari berbagai sumber mengenai satu topik berita yang sama dan menggabungkannya ke dalam sebuah Single Stream. Single Stream dalam hal ini ialah halaman web tunggal.
k-Nearest Neighbor merepresentasikan setiap data sebagai titik dalam k-ruang dimensi. Jika ada sebuah data uji, maka akan dihitung kedekatan titik data tersebut dengan titik data lainnya pada data latih untuk diklasifikasikan berdasarkan kedekatannya yang didefinisikan dengan ukuran jarak (Han & Kamber 2006). Prinsip kerja KNN adalah mencari jarak terdekat antara data uji dan K tetanggaan (neighbor) terdekatnya dalam data pelatihan. Fungsi jarak yang umum digunakan adalah jarak Euclidean.
di =
∑(x −y ) p
i
i
…(1)
i
dengan: xi = data latih yi = data uji i = variabel data d = jarak p = dimensi data Algoritme KNN Proses KNN akan mengolah data dari hasil pra proses untuk dicari kategorinya. Proses perhitungan dilakukan dengan cara menghitung jarak terpendek data masukan terhadap data yang ada dengan langkah-langkah sebagai berikut:
pada informasi itu sendiri. Kelebihan lain yang dimiliki XML adalah bahwa informasi bisa dipertukarkan dari satu sistem ke sistem yang berbeda platform. Misalnya dari Windows ke Unix. Seperti halnya HTML, XML juga menggunakan elemen yang ditandai dengan tag pembuka (diawali dengan ‘<’ dan diakhiri dengan ‘>’), tag penutup (diawali dengan ‘’) dan attribut elemen (parameter yang digunakan dalam tag pembuka misal