BAB 1 PENDAHULUAN
1.1. Latar Belakang Perkembangan internet yang semakin pesat membuat masyarakat dapat memperoleh informasi dengan cepat. Informasi yang disajikan pun beragam jenis, seperti kesehatan, keuangan, teknologi dan lain sebagainya. Pemanfaatan informasi dari internet sangat tepat di terapkan di Indonesia, karena masyarakat indonesia yang sudah terbiasa dengan internet. Dimana menurut siaran pers yang dikemukakan oleh Asosiasi Penyelenggara Jasa Internet Indonesia (APJII), di Tahun 2014 pengguna internet di Indonesia mencapai 88,1 juta atau setara dengan 34,9% dari jumlah penduduk Indonesia (APJII, 2015). Salah satu pemanfaatan informasi dari internet yang dapat diterapkan di Indonesia adalah sebagai salah satu sumber informasi kesehatan. Dengan jumlah artikel kesehatan di internet yang terus meningkat, maka internet dapat menjadi sumber informasi kesehatan yang cost effective atau berbiaya murah. Mengingat beragamnya jenis informasi yang terdapat di situs-situs di internet, maka dibutuhkan suatu mekanisme mengumpulkan informasi kesehatan yang akurat dan efisien. Pengumpulan artikel dari internet dapat dilakukan dengan menggunakan metode mesin crawler. Mesin crawler atau disebut juga dengan spider web adalah sebuah program yang melintasi struktur HTML dari web, dimulai dari sebuah alamat awal (seed) dan secara rekursif mengunjungi alamat web di dalam halaman web. Penelitian terkait dengan algoritma mesin crawler terus dilakukan oleh banyak peneliti. Pada tahun 2014, Rashmi Janbandhu, Prashant Dahiwale dan M. M. Raghuwanshi mereka mengungkapkan bahwa Focused Crawling Algorithm mempunyai kelebihan daripada algoritma yang lainnya, dimana algoritma ini mempunyai response time yang paling
Universitas Sumatera Utara
2
kecil daripada yang lain. Focused Crawling algorithm adalah algoritma Crawler yang akan mengambil data dengan spesifikasi tertentu, misalkan dengan topik ‘kesehatan’, maka crawler hanya akan mengambil halaman web yang hanya berhubungan dengan topik kesehatan. Algoritma ini akan mencari kesamaan dari halaman yang sedang dicrawl dengan query yang diberikan (Chakrabarti, et al., 1999). Pemilihan urutan alamat situs atau page ordering juga mempengaruhi performa dari suatu web crawler. Dimana pada penelitian yang dilakukan oleh Ricardo Baeza-Yates, Mauricio Marin, Carlos Castillo, Andrea Rodriguez pada tahun 2005 mengungkapkan metode Larger-SitesFirst terbukti mempunyai performa yang lebih baik dari algoritma lainnya. Algoritma ini mengurutkan website yang akan di-crawl berdasarkan halaman yang dimiliki dari terbanyak sampai yang terkecil. Berdasarkan hal ini, penerapan algoritma focused crawling dengan metode Larger Sites First untuk page ordering dapat diterapkan untuk pengumpulan artikel kesehatan dari internet dengan response time lebih baik. Tahapan pengumpulan artikel kesehatan dengan algoritma focused crawler juga
meliputi algoritma ekstraksi dan
pengklasifikasian artikel. Ekstraksi artikel dilakukan untuk dapat mengetahui isi kandungan artikel sehingga artikel dapat di klasifikasikan apakah termasuk artikel kesehatan atau bukan. Algoritma klasifikasi yang digunakan yaitu algoritma Naive Bayes Classifier. Peningkatan performa mesin crawler juga dapat dilakukan dengan cara perancangan mesin crawler terdistribusi dan juga memanfaatkan penggunaan multithread. Beberapa penelitian terdahulu telah membuktikan bahwa sistem terdistribusi dapat meningkatkan performa dari suatu mesin crawler dan penggunaan thread dengan jumlah tertentu juga dapat meningkatkan efisiensi waktu pengumpulan. Berdasarkan latar belakang tersebut, pada skripsi ini penulis merancang sebuah “Focused Web Crawler dengan Sistem Terdistribusi”. Penelitian ini dilakukan untuk mendapatkan focused crawler dengan sistem terdistribusi yang memiliki performa yang tinggi dengan menggunakan Naive Bayes Classifier (NBC), algoritma Larger-SitesFirst dalam page ordering dan penggunaan multithread yang optimal.
Universitas Sumatera Utara
3
1.2. Rumusan Masalah Adapun rumusan masalah pada penelitian ini adalah:
Bagaimana cara mesin crawler mengumpulkan artikel khusus di bidang kesehatan?
Bagaimana cara meningkatkan kecepatan pengambilan data dari web crawler dengan sistem terdistribusi?
1.3. Tujuan Penelitian Tujuan utama yang ingin dicapai pada penelitian ini adalah menghasilkan focused web crawler terdistribusi untuk mengumpulkan artikel kesehatan.
1.4. Batasan Masalah Dalam melakukan penelitian ini, peneliti membatasi ruang masalah yang akan diteliti. Batasan-batasan masalah yang digunakan adalah : 1. Seeds awal yang digunakan sebanyak 32 URL yang merupakan situs berbahasa Indonesia 2. Topik yang digunakan adalah kesehatan. 3. Konten yang diambil merupakan artikel. 4. Dataset kesehatan untuk klasifikasi diacu dari www.idai.or.id, www.depkes.go.id dan www.kateglo.com. 5. Crawler tidak akan meng-crawl external link dari URL seeds. 6. Jumlah node yang digunakan untuk sistem terdistribusi adalah satu master dan 4 slaves.
1.5. Manfaat Penelitian Manfaat yang diperoleh dari penelitian ini adalah: 1. Menghasilkan suatu metode untuk pengumpulan artikel kesehatan berbahasa indonesia. 2. Mampu mengintegrasikan hasil penelitian peneliti lain untuk membangun sebuah focused web crawler yang efisien.
Universitas Sumatera Utara
4
1.6. Metodologi Penelitian Tahapan-tahapan yang akan dilakukan dalam pelaksanaan penelitian ini adalah sebagai berikut : 1. Studi Literatur Tahap ini dilaksanakan untuk mengumpulkan dan mempelajari informasiinformasi yang diperoleh dari buku, jurnal dan berbagai sumber referensi lain yang berkaitan dengan penelitian seperti focused web crawler, Naive Bayyes Classifier, Sistem Terditribusi, Multi Thread, Larger Sites First. 2. Analisis Permasalahan Pada tahap ini dilakukan analisis terhadap berbagai informasi yang telah diperoleh dari berbagai sumber yang terkait dengan penelitian agar didapatkan metode yang tepat untuk menyelesaikan masalah dalam penelitian ini. 3. Perancangan Sistem Tahap ini dilakukan perancangan sistem untuk menyelesaikan permasalahan yang terdapat di dalam tahap analisis. Kemudian dilanjutkan dengan mengimplementasikan hasil analisis dan perancangan ke dalam sistem. 4. Implementasi dan Pengujian Pada tahap ini dilakukan implementasi ke dalam kode sesuai dengan analisis dan perancangan yang telah dilakukan pada tahap sebelumnya. Dan dilakukan pengujian terhadap hasil yang didapatkan melalui implementasi algoritma Larger Sites First dan Naive Bayes Classifier dalam Focused Crawler terdistribusi.
5. Analisis dan Pengambilan Kesimpulan Pada tahap ini dilakukan analisis data yang didapatkan dari implementasi algoritma Larger Sites First dan Naive Bayes Classifier dalam Focused Crawler terdistribusi dan menyipulkan hasil analisis tersebut.
1.7. Sistematika Penulisan Sistematika penulisan dari skripsi ini terdiri atas lima bagian utama sebagai berikut: Bab 1: Pendahuluan
Universitas Sumatera Utara
5
Bab ini berisi latar belakang dari penelitian yang dilaksanakan, rumusan masalah, tujuan penelitian, batasan masalah, manfaat penelitian, metodologi penelitian, serta sistematika penulisan.
Bab 2: Landasan Teori Bab ini berisi teori-teori yang diperlukan untuk memahami permasalahan yang dibahas pada penelitian ini. Teori-teori yang berhubungan dengan Web Crawler, Focused Crawling Algorithm, Larger Site-First, Multithreading, Naive Bayes Classifierdan sistem terdistribusi akan dibahas pada bab ini.
Bab 3: Analisis dan Perancangan Bab ini menjelaskan tentang analisis dan perancangan sistem yang bangun untuk focused crawler dengan sistem terdistribusi. Adapun dua tahapan yang dibahas pada bab ini yaitu tahap analisis dan tahap perancangan sistem. Pada analisis sistem meliputi kebutuhan perangkat lunak dan perangkat kerasdan pada perancangan sistem meliputi tahapan untuk perancangan sistem terdistribusi dan juga tahapan percobaan yang dilakukan.
Bab 4: Implementasi dan Pengujian Bab ini berisi pembahasan tentang implementasi dari perancangan yang telah dijabarkan pada bab 3. Selain itu, hasil yang didapatkan selama proses yang terjadi pada penelitian juga dijabarkan pada bab ini.
Bab 5: Kesimpulan dan Saran Bab ini berisi ringkasan serta kesimpulan dari rancangan yang telah dibahas pada bab 3, serta hasil penelitian yang dijabarkan pada bab 4, serta pada bagian akhir bab ini akan berisi saran-saran yang diajukan untuk pengembangan penelitian selanjutnya.
Universitas Sumatera Utara