BAB I Pendahuluan Perkembangan teknologi komputer akhir-akhir semakin maju, terutama perkembangan dibidang teknologi informasi, karena didukung oleh perkembangan perangkat keras, perangkat lunak dan jaringan telekomunikasi. Komputer kini bukan hanya sebagai sebuah alat pengolah kata dan angka saja, namun berkembang menjadi alat multimedia yang semakin lengkap. Semakin lama, komputer diharapkan untuk lebih mirip dengan manusia atau dapat berpikir seperti layaknya manusia. Komputer diharapkan untuk dapat mengerti dan memahami bahasa alami manusia. Sebuah komputer yang memiliki lebih banyak perbendaharaan kata, maka komputer tersebut akan lebih mirip dengan manusia, dan akan dikatakan lebih cerdas. Komputer memiliki perbendaharaan kata dalam bentuk daftar kata. Daftar kata ini dapat dimanfaatkan untuk proses analisis teks untuk menemukan informasi baru (unknown information) dari sekumpulan teks berbahasa alami yang tidak terstruktur yang disebut Text mining. Contoh penggunaan Text mining antara lain untuk spam filtering agent yang dapat menentukan apakah sebuah e-mail yang masuk merupakan spam atau tidak, untuk Search Engine atau mesin pencari yang merupakan sebuah fasilitas yang berguna karena memudahkan pengguna internet untuk mencari informasi yang dibutuhkan, atau untuk pemilihan kata pada permainan scrabble. Daftar kata dapat dibentuk dari berbagai sumber. Dari berbagai sumber tersebut, salah satunya adalah internet. Pada halaman web yang ada, tersedia berbagai macam kata yang siap untuk diambil menjadi sebuah daftar kata. Internet adalah kumpulan besar jaringan komputer yang saling berhubungan yang menggunakan protokol TCP/IP. Teknologi internet pada awalnya belumlah sekompleks dan serumit seperti sekarang ini. Internet dimulai dari suatu eksperimen jaringan yang dilakukan oleh pemerintah Amerika Serikat, oleh suatu lembaga riset komputer yang bernama Departement of Defense’s Advance Research Project Agency (ARPA). 1
1
Launching Business on the Web, David Cook and Deborah Sellers, QUE, 1995, hal 12.
1
Internet didesain untuk menghubungkan banyak komputer yang berbeda pada tempat yang berbeda untuk saling berbagi data. Jaringan ini pada awalnya hanya menghubungkan komputer-komputer di lingkungan militer, perusahaan, dan universitas yang memiliki keterikatan kontrak dengan Departemen Pertahanan Amerika Serikat. Saat ini internet telah digunakan secara luas dalam banyak aspek kehidupan dengan berbagai layanan yang disediakan. Pertumbuhan internet ditandai dengan bertambahnya arus pertukaran data yang terjadi didunia, jumlah situs-situs yang bermunculanpun semakin banyak. Hal ini menyebabkan sulitnya mencari informasi yang dibutuhkan oleh user.
1.1Latar Belakang Masalah Search Engine atau mesin pencari merupakan sebuah fasilitas yang berguna karena memudahkan pengguna internet untuk mencari informasi yang dibutuhkan. Search Engine memudahkan pencarian suatu situs karena pencarian dilakukan berdasarkan kata kunci yang diinputkan, kemudian sebuah Search Engine akan menampilkan semua URL
(Uniform Resource Locator) dari situs-situs yang
berhubungan dengan kata kunci tersebut. Pada dasarnya, sistem pencarian berdasarkan kata kunci yang dilakukan oleh Search Engine adalah berdasarkan pada meta tags dari suatu situs yang berhasil disimpan dalam search engine data file. Dengan kebutuhan akan informasi yang makin meningkat, membuat penyimpanan pada data file berdasarkan pada meta tags tidak akan mencukupi. Untuk membentuk suatu daftar kata, kata-kata dalam body tag akan diambil dan dimasukkan dalam data file. Search engine data file perlu dibangun untuk melakukan pendataan dari setiap URL yang ada di Internet. Search engine data file harus dapat malakukan penambahan data-data atau informasi mengenai suatu URL secara otomatis tanpa pemilik site harus mendaftarkan sitenya. Oleh karena itu, diperlukan sebuah sistem penambah dan pengupdate data file yang lengkap dan selalu memperbaharui informasi, sehingga informasi yang dibutuhkan para pengguna internet dengan mudah dapat dicari. Program robot yang berjalan di Internet yang berguna untuk menambah ataupun mengupdate search engine data file selanjutnya akan disebut dengan “crawler”.
2
Dengan kemungkinan begitu banyaknya kata yang kembar atau sama dalam sebuah halaman web, pemeriksaan setiap kata yang kembar dengan memanfaatkan pemeriksaan dalam data file secara teori akan membuat kinerja web crawling menjadi kurang efektif. Oleh karenanya, kata-kata yang terdapat dalam sebuah halaman web perlu untuk diperiksa dan dipilah dalam memori utama sebelum masuk pada database sebagai daftar kata. Penggunaan trie untuk pemilahan kata dalam sebuah memori utama sangat disarankan. Akan tetapi dengan semakin banyaknya informasi pada suatu halaman web yang ditandai dengan semakin banyaknya kata yang ada di dalam suatu situs,membuat penggunaan trie dalam pemilahan kata menjadi kurang efektif dari segi ukuran data. Oleh karenanya diperlukan suatu algoritma yang dapat mengkompres data pada trie.
1.2 Perumusan Masalah Metode yang akan diimplementasikan adalah metode dengan algoritma Directed Acyclic Word Graph (DAWG). DAWG adalah sebuah struktur data dengan pencarian kata yang sangat cepat. Setiap entry point yang direpresentasikan dalam graf melambangkan huruf pertama di dalam proses pencarian. Tiap node merepresentasikan sebuah huruf, dan satu node dapat terhubung oleh lebih dari satu node berikutnya, tergantung apakah huruf tersebut merupakan huruf yang dicari. Struktur data DAWG mirip dengan struktur data trie, namun jauh lebih effisien untuk ukuran datanya. DAWG menggabungkan huruf-huruf yang sama pada node yang sama jika ada huruf yang identik. Disebut identik bila mempunyai huruf dan kedalaman yang sama, node tersebut juga mempunyai tanda stop yang sama, serta mempunyai anak yang juga identik. Hal ini membuat ukuran DAWG menjadi lebih kecil. Metode DAWG ini akan diimplementasikan pada web crawler. Metode ini memerlukan sebuah URL utama (portal) sebagai inputan, kemudian meta tags beserta URL akan disimpan ke dalam sebuah search engine data file. Proses yang dilakukan oleh program crawler adalah pencarian URL dalam suatu portal kemudian menyimpan meta tags pada database untuk setiap URL yang ditemui dan akan secara otomatis meng-update database agar selalu mencari situs-situs terbaru serta mencegah terjadinya broken link. Setelah itu, program crawler akan memilih kata-
3
kata dalam body tag dan memilahnya dengan menggunakan DAWG untuk menghindari kata-kata yang kembar. Output yang dihasilkan adalah sebuah daftar kata yang terdapat di dalam situs tersebut. Daftar kata tersebut dapat digunakan sebagai Search Engine data file yang memungkinkan pengguna untuk mencari data-data yang diperlukan seputar situs-situs berdasarkan meta tags (Generator, Author, Keywords, Description) dan kata-kata yang ada dalam body tags. Melalui penelitian ini, akan dianalisa seberapa efektif web crawler yang memanfaatkan metode DAWG ini dapat mengambil dan memilah kata dengan kondisi software, hardware dan koneksi internet yang telah ditentukan. Apakah hasil prosesnya linear dengan banyaknya kata yang harus diproses, dengan kata lain apabila semisal web crawler dengan metode DAWG dapat mengubah 1000 kata dalam kedalam 200 node, apakah ia akan mengubah 2000 kata kedalam 400 node? Dan dengan melihat juga pembatasan masalah, berapa banyak kata yang harus dia proses sehingga pemakaian web crawler dengan menggunakan metode DAWG mencapai kinerja yang optimal ?
1.3 Pembatasan Masalah Pembatasan masalah perlu dilakukan dalam penulisan ini mengingat luasnya ruang lingkup yang dapat dijangkau (seluruh dunia) dan keterbatasan waktu yang dimiliki untuk menjalankan program. Sistem yang akan dibuat mencakup beberapa hal diantaranya adalah: a) Protokol internet yang digunakan untuk crawling adalah protokol HTTP. Protokol internet yang lainnya, seperti misalnya HTTPS atau FTP, tidak akan diakses. b) URL yang diakses adalah URL yang terdapat pada satu domain yang sama berdasarkan input yang dimasukkan oleh user. Apabila nama domain berbeda, maka URL tersebut tidak akan diakses. c) Pengaksesan URL (Uniform Resource Locator) dibatasi hingga maksimum 1 kedalaman ke bawah berdasarkan nama URL dimasukkan oleh user.
4
d) Sistem yang akan dibuat hanya akan menyimpan kata-kata yang terdapat diantara meta tag, body tag ,dan
title serta URL dari setiap web yang
dikunjungi. e) Karakter-karakter yang disimpan pada node DAWG hanyalah karakter yang berupa karakter huruf latin. Karakter lainnya, misalnya angka, huruf arab atau tanda baca apapun, akan dianggap sebagai pemisah antar kata dan tidak akan disimpan pada node DAWG. f) Kata yang disimpan pada node DAWG hanyalah kata yang terdiri dari 3 (tiga) sampai dengan 45 (empat puluh lima) karakter huruf latin. g) Pembuatan program lebih difokuskan pada implementasi DAWG, bukan pada pembangunan Web Crawler ataupun pada searching. h) Sistem yang akan dibuat tidak termasuk perancangan atau pembuatan sebuah Search Engine.
1.4 Tujuan Penulisan •
Tujuan Umum Mengimplementasikan metode DAWG pada web crawler pada suatu halaman web dan menerapkan metode pencarian (searching) yang diperoleh selama masa perkuliahan ke dalam suatu permasalahan nyata.
•
Tujuan Khusus Merancang program yang dapat secara otomatis membentuk suatu daftar kata pada search engine data file yang ada pada suatu alamat web (URL).
1.5 Metodologi Penelitian Metode penelitian yang digunakan adalah studi pustaka dengan mencari, mengumpulkan, dan selanjutnya mempelajari pustaka referensi yang berhubungan dengan search engine, crawler, algoritma pencarian, Directed Acyclic Word Graph (DAWG), Trie Tree serta pemrograman Perl.
5
1.6 Sistematika Penulisan a. Bab I Pendahuluan berisi tentang latar belakang, perumusan masalah, batasan masalah, tujuan serta metodelogi penelitian. b. Bab II Landasan Teori membahas mengenai Dasar Teori tentang apa itu Search Engine, HTML, Meta Tags, Body Tags, Crawler, Metoda Pencarian, Algoritma Crawler, Trie Tree, DAWG, Perl dan proses kerja kesemuanya dalam web crawler program. c. Bab III Perancangan Sistem berisi analisis, perancangan sistem dan database yang akan digunakan. d. Bab IV Implementasi dan Pengujian merupakan inti dari permasalahan dimana dalam bab ini akan dijelaskan bagaimana implementasi web crawler program bererta pengujian secara nyata. e. Bab V Penutup adalah penutup yang berisi kesimpulan, saran-saran, serta kemungkinan pengembangan penelitian. Untuk melengkapi uraian, setelah daftar pustaka akan disertakan lampiranlampiran tentang kode program yang digunakan beserta modul-modul open source yang digunakan.
6