[JOUTICA-PRESS ISSN 2503-07103] April 1, 2016
PEMANFAATAN ROBOT CRAWLER PADA PEMBUATAN TOKO BUKU ONLINE Nur Nafi’iyah, Eko Sulistiono Program Studi Teknik Informatika Fakultas Teknik Universitas Islam Lamongan Email:
[email protected],
[email protected] Abstract: Robot crawler atau web crawler merupakan sebuah teknik penelusuran ke dalam sebuah halaman web atau lebih, kemudian mengambil data-data yang dibutuhkan. Program ini dapat melakukan penulusuran ke dalam halaman web. Penulis ingin menggunakan teknik tersebut untuk mengambil data buku dari website toko buku online yang nantinya akan dimasukkan ke dalam database penulis dan digunakan sebagai data buku yang akan dijadikan sebagai konten dari website toko buku yang akan dibuat oleh penulis. Tujuan adalah untuk meminimalisir kerja seorang admin, sehingga admin tidak perlu membuat konten untuk website yang akan penulis buat. Sehingga administrator hanya bertugas sebagai pengawas data yang dimasukkan oleh robot crawler sehingga jika ada data yang salah atau terjadi kesalahan (error) administrator dapat memperbaikinya. Keywords: robot crawler, web crawler, toko buku online.
Pendahuluan Kebutuhan akan ilmu tidak pernah ada habisnya, hampir semua orang membutuhkan ilmu untuk hidup di dunia. Pepatah mengatakan “buku adalah jendela dunia”, memang tidak bisa dipungkiri bahwa buku adalah jendela dunia, jendela untuk membuka wawasan dunia, bahkan untuk hidup di akhirat pun kita harus mempunyai ilmunya lewat buku, jadi buku adalah kebutuhan yang cukup penting. Namun di zaman yang serba modern ini, buku tak lagi jadi pilihan utama untuk mencari ilmu, karena orang-orang bisa mencari wawasan melalui internet, melalui website website yang tersebar di dunia. Selain lebih murah, artikel di internet juga lebih mudah didapatkan, berbeda dengan buku yang mahal dan sulit didapatkan. Selain itu kini para pelajar dan mahasiswa semakin malas mencari referensi dari buku, mereka lebih suka mencari ilmu dan referensi dari internet, karena lebih mudah, lebih cepat dan yang paling penting bisa copy-paste. Sungguh pembodohan yang menyenangkan. Satu-satunya kelemahan ilmu dari internet adalah kurangnya kontrol artikel yang menjadikan konten kurang berkualitas sehingga kurang pantas untuk dijadikan referensi. Kalau hanya untuk menambah wawasan mungkin tidak masalah kita mengambil referensi dari internet, namun untuk penelitian, dan mencari ilmu-ilmu yang membutuhkan sumber yang jelas, relevan dan dapat dipertanggung jawabkan tentu buku masih menjadi pilihan utama, oleh karena itu buku masih belum tersisihkan dalam dunia kita.
Namun, informasi dan akses masih sangat susah, walaupun toko buku sudah bertebaran di kota-kota besar, namun bagi orang yang jauh dari kota mungkin menjadi masalah tersendiri untuk mendapatkan akses yang mudah untuk mendapatkan buku. Dan toko online adalah jawabannya. Selain mudah diakses, kita juga bisa memilih buku dengan hanya duduk di rumah saja. Tinggal pesan, bayar dan buku akan dating kurang dari 2 hari kerja. Sudah cukup banyak toko buku online bermunculan di internet yang mempunyai kelebihan dan kekurangan masing-masing. Seperti harus mempunyai karyawan banyak untuk posting dan melayani pelanggan, dan lain sebagainya, untuk mengatasi semua masalah tersebut. Dalam penulisan jurnal penelitian ini penulis bertujuan agar dapat membuat robot crawler untuk mendapatkan data buku dari website target dan mengetahui berapa persen tingkat keberhasilan crawling data buku dari website target. Penelitian ini diharapkan dapat berguna untuk pengunjung website agar pengunjung website dapat membaca ulasan serta informasi buku sebelum membelinya serta dapat menemukan banyak buku dari berbagai penerbit.
Tinjauan Pustaka Robot crawler, atau yang sering disebut web spider, web bot atau web crawler, web robot. Web crawler adalah sebuah teknik penelusuran ke dalam sebuah halaman web atau lebih, kemudian mengambil data-data
12
[JOUTICA-PRESS ISSN 2503-07103] April 1, 2016
yang dibutuhkan. Program yang dapat melakukan crawling ke dalam halaman web disebut web crawler[1]. Selain bisa digunakan sebagai mesin pencari, web crawling bisa juga digunakan sebagai program bot atau robot. Program akan dijadwalkan akan mengambil data dari halaman web yang telah ditentukan pada waktu yang telah dijadwal. Gambar 1 adalah contoh alur program bot untuk mengambil data dari halaman web pada umumnya. Pada Gambar tersebut, program akan menjadwal waktu pengambilan data, kemudian program akan memulai proses crawling pada halaman web target melalui internet, dan menyimpan data tersebut ke dalam database. Proses ini diulang secara terus menerus sesuai dengan jadwal yang telah ditentukan. Tentu saja dengan tehnik web crawling akan mempermudah pengambilan data dari internet, apa lagi data yang kita ambil bisa diambil secara spesifik sesuai yang kita inginkan.
Pembatasan-pembatasan ini umumnya dilakukan karena alasan keamanan, menghormati privasi, atau karena tujuan komersil tertentu. Simple HTML DOM Parser adalah sebuah kumpulan format atau sintax (kode) yang dibuat untuk mempermudah penggunaannya, di mana yang mempunyai tujuan untuk menguraikan elemen-elemen HTML untuk diambil dan dirubah atau dihapus pada elemenelemen HTML tertentu menjadi sesuatu tampilan yang diinginkan[3]. HTML DOM (Document Object Model) adalah kumpulan obyek-obyek pada elemen HTML. HTML (HyperText Markup Language) sendiri bisa berarti sebuah bahasa untuk membuat situs web, dan menampikan informasi pada suatu situs penjelajah web internet dalam format hypertext ASCII agar dapat menghasilkan tampilan yang terintegrasi. Dengan library ini programmer akan memanggil fungsi-fungsi yang ada di dalamnya sehingga koding akan jauh lebih mudah dan singkat.
Metode Penelitian
Gambar 1 Alur Program Robot Crawler Situs web adalah suatu halaman web yang saling berhubungan yang umumnya berada pada peladen yang sama berisikan kumpulan informasi yang disediakan secara perorangan, kelompok, atau organisasi[2]. Sebuah situs web bisanya ditempatkan setidaknya pada sebuah server web yang dapat diakses melalui jaringan seperti Internet, ataupun jaringan wilayah lokal (LAN) melalui alamat Internet yang dikenali sebagai URL. Gabungan atas semua situs yang dapat diakses publik di Internet disebut pula sebagai World Wide Web atau lebih dikenal dengan singkatan WWW. Meskipun setidaknya halaman beranda situs Internet umumnya dapat diakses publik secara bebas, pada prakteknya tidak semua situs memberikan kebebasan bagi publik untuk mengaksesnya, beberapa situs web mewajibkan pengunjung untuk melakukan pendaftaran sebagai anggota, atau bahkan meminta pembayaran untuk dapat menjadi aggota untuk dapat mengakses isi yang terdapat dalam situs web tersebut, misalnya situs-situs yang menampilkan pornografi, situs-situs berita, layanan surel (e-mail), dan lain-lain.
Dalam penelitian ini ada beberapa batasan masalah yang bertujuan agar lebih terfokus pada tujuan yang akan dicapai dalam pembuatan pemanfaatan robot crawler pada pembuatan toko buku online. Batasan masalah dalam pembuatan skripsi ini adalah: 1. Situs yang dibuat menggunakan bahasa pemrograman utama dengan HTML, PHP, dan bahasa pemrograman pendukung lainnya. 2. robot crawler dibuat menggunakan bahasa pemrograman PHP. 3. Database yang digunakan sebagai penyimpanan data hasil crawling menggunakan database MySql. 4. robot crawler mengambil data buku dari website toko buku online, yaitu dari website dengan alamat http://www.bukukita.com. 5. Website target tidak menggunakan java script pada data target yang akan diambil datanya. Dalam sistem ini dibutuhkan satu atau beberapa website target di mana website target ini adalah website tempat robot crawler menjalankan tugasnya. Robot crawler akan mengambil data buku dari website target yang nantinya akan dijadikan data master untuk pembuatan toko buku online yang akan dibuat oleh penulis. Website target ini harus memenuhi beberapa kriteria berdasarkan batasan Sistem yang dijelaskan pada sub bab di atas yang
13
[JOUTICA-PRESS ISSN 2503-07103] April 1, 2016
nantinya akan menunjukkan website tersebut layak atau tidak untuk dijadikan target. Saat ini penulis menggunakan sebuah situs untuk dijadikan target, yaitu toko buku online dengan alamat www.bukukita.com yang benarbenar memenuhi kriteria sebagai target. Ada beberapa hal yang menghambat pembuatan sistem ini, beberapa diantaranya adalah hal yang bisa diselesaikan, dan ada pula masalah yang menjadi sebuah kelemahan sistem yang akan dibuat. Permasalahan yang pertama kali diselesaikan yaitu pencarian pola crawler yang akan dibuat yang nantinya akan dijadikan sebagai dasar algoritma program. Permasalahan kedua adalah pencarian di mana link dan letak data yang akan diambil, hal tersebut membutuhkan waktu yang cukup lama untuk mempelajarinya, karena hanya karena kesalahan kecil program bisa gagal. Permasalahan terakhir dan juga permasalahan yang akan menjadikan kelemahan dalam sistem adalah perubahan struktur web target di mana jika struktur web target berubah maka seharusnya program tidak akan berjalan. Dalam merancang robot crawler pada pembuatan toko buku online, agar lebih mudah dimengerti penulis membuat beberapa diagram. Gambar 2 adalah Diagram Konteks “Robot Crawler Pada Toko Buku” yang mengGambarkan aliran proses secara umum.
Gambar 2 Diagram Konteks
Gambar 3 Proses Crawling Pada Gambar 3 menunjukkan proses crawling yang dilakukan oleh robot crawler untuk mendapatkan data, mulai dari perintah admin pada jadwal cron jobs, lalu robot crawler
akan mengambil data dari web target dan memasukkan ke dalam database.
Gambar 4 Proses Checking Pada Gambar 4 menunjukkan proses checking yang dilakukan admin untuk menjaga kualitas konten yang diambil oleh robot crawler.
Gambar 5 Proses Crawling Pada Gambar 5 menunjukkan proses posting di mana pengunjung yang datang mencari informasi buku akan diberikan informasi buku yang diambil dari database hasil crawling
Hasil dan Pembahasan Dalam merancang robot crawler pada pembuatan toko buku online, ada beberapa pengujian untuk mendapatkan hasil yang diinginkan. Black box testing adalah metode pengujian perangkat lunak yang tes fungsionalitas dari aplikasi yang bertentangan dengan struktur internal atau kerja. pengetahuan khusus dari kode aplikasi/struktur internal dan pengetahuan pemrograman pada umumnya tidak diperlukan. Tabel 1 Uji Coba Crawling Website Prose Masu Output Kriteria Goal dur kan yang dirancang jalan jalan Menampil Jika Berhasil kan kan kan data berhasil menampi robot robot hasil menampi lkan data crawl crawl crawling lkan data hasil er er hasil crawling crawling, jika gagal maka data tidak tampil
14
[JOUTICA-PRESS ISSN 2503-07103] April 1, 2016
Tabel 2 Uji Coba Memasukkan Data Prose Masu Output Kriteri Goal dur kan yang a dirancan g jalank jalank Memasu Jika Data an an kkan data berhasi berha robot robot hasil l, data sil crawl crawle crawler akan masu er r ke dalam masuk k ke database ke dalam dalam datab databas ase e, jika gagal maka akan ada peringa tan gagal Pengujian dilakukan dengan menjalankan robot crawler dan membandingkan data asli dari website target dengan data yang masuk ke dalam database apakah data dapat benar-benar masuk, dan berapa persen tingkat keberhasilan data masuk ke dalam database. Pengujian dilakukan pada tanggal 06 Juni 2015 pada pukul 21.10 WIB berikut Gambar 6 adalah hasil pengujian yang didapat:
Gambar 7 Hasil Uji Crawling Data Dari data tersebut terlihat bahwa dari 100 data yang diambil, penulis mendapatkan 100 data yang masuk ke dalam database. Dari data tersebut dapat disimpulkan bahwa data yang diperoleh dari proses crawling dapat diambil dengan tingkat keberhasilan 100% dengan robot crawler yang dibuat penulis, sebelumnya tingkat keberhasilan jauh lebih rendah dikarenakan beberapa faktor, diantaranya beberapa karakter yang menghambat masuknya data ke dalam database seperti tanda petik satu atau karakter lainnya yang menyulitkan masuknya data ke dalam database, namun dengan penyempurnaan oleh penulis dan dukungan oleh dosen pembimbing, penulis dapat menyelesaikan permasalahan yang ada hingga penulis dapat mengingkatkan tingkat keberhasilan hingga 100%.
Kesimpulan
Gambar 6 Hasil Uji Crawling Data Dari Gambar 6, kita dapat melihat bahwa proses crawler telah berhasil dimasukkan ke dalam database, yang nantinya akan ditampilkan sebagai konten, dengan sistem seperti ini, database akan terus ditambah tanpa harus membuatnya, tentu saja hal ini akan sangat memudahkan admin web dalam mengembangkan website. Pengujian Tingkat Keberhasilan Pengujian dilakukan pada tanggal 19 Juni 2015 pada pukul 22.20 WIB, yang dilakukan dengan mengambil data dengan dibatasi 100 data buku dari website target yaitu bukukita.com untuk dijadikan objek penelitian.
Kesimpulan yang dapat diambil dari hasil pengujian bahwa robot crawler pada toko buku dapat bekerja dengan sangat baik, data dari website target berhasil dimasukkan ke dalam database dan selanjutnya dapat ditampilkan di website toko buku dan setelah dilakukan pengujian dengan pembatasan pengambilan 100 data dari website target, tingkat keberhasilan robot crawler adalah 100 data sukses masuk ke dalam database dan 0 data gagal masuk ke dalam database, jadi tingkat keberhasilan robot crawler adalah 100%. Beberapa saran yang dapat diberikan untuk penelitian selanjutnya agar aplikasi dapat menjadi lebih baik dengan mengembangkan robot crawler agar dapat berjalan universal di target website manapun juga mengembangkan robot crawler agar mampu berjalan pada jaringan internet yang menggunakan proxy dan agar dapat dikembangkan dengan sistem yang lebih kuat agar dapat mengambil data dari java script.
15
[JOUTICA-PRESS ISSN 2503-07103] April 1, 2016
.
Daftar Pustaka [1] A. Kausar, “Web Crawler : A Review,” vol. 63, no. 2, pp. 31–36, 2013. [2] Farlex, “The Free Dictionary” http://www.thefreedictionary.com/Websit e, diakses pada 2 Juni 2015. [3] Arianto Gendon, "PHP Simple DOM HTML Parser", http://hieppies.blogspot.com/2014/05/php -simple-html-dom-parser.html, diakses pada 7 Juni 2015.
16