OPTIMASI STRUKTUR WEBSITE DINAMIS BERBASIS WEB INTELLIGENCE
Oleh : Rades Wandri G64101012
DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR 2006
OPTIMASI STRUKTUR WEBSITE DINAMIS BERBASIS WEB INTELLIGENCE
Skripsi Sebagai salah satu syarat untuk memperoleh gelar Sarjana Komputer pada Fakultas Matematika dan Ilmu Pengetahuan Alam Institut Pertanian Bogor
Oleh : Rades Wandri G64101012
DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR 2006
ABSTRAK RADES WANDRI. Optimasi Struktur Website Dinamis Berbasis Web Intelligence. Dibimbing oleh MARIMIN dan PANJI WASMANA. Optimasi Struktur Website Dinamis Berbasis Web Intelligence merupakan penelitian proses evaluasi dan perbaikan struktur link suatu website dalam area penelitian Web Intelligence (WI). Tujuan optimasi struktur link untuk meningkatkan kemampuan navigasi website sehingga lebih optimal baik dari segi kepentingan pengunjung maupun pemilik web (administrator, manajer, web developer). WI merupakan revolusi baru dalam pemberdayaan sumber daya website yang menggabungkan kecerdasan buatan (artificial intelligence) dengan teknologi informasi untuk pemberdayaan produk, sistem, layanan dan aktivitas berbasis website. Pendekatan ini baru ditemukan pada awal milenium kedua (1995) dan berkembang pesat mulai awal abad ke-21 ini sehingga menjadi harapan perkembangan web di masa datang. Penelitian ini berbasiskan pada penelitian sebelumnya oleh Baoyao Zhou (Tsinghua University, Cina) dan Jinlin Chen (University of Pittsburgh, USA) pada tahun 2002. Tetapi penelitian tersebut hanya dilakukan pada website yang relatif statis. Di lain pihak, trend website saat ini menuju ke arah website dinamis yang memiliki basis data (database) serta dibangun dengan platform dynamic scripting languange seperti PHP, ASP (.Net), JSP, dan sebagainya. Untuk itu pada penelitian ini dicoba pengembangan optimasi struktur link pada website dinamis berbasis website perdagangan online (e-Commerce) dan website pendidikan sekaligus dianalisis kelebihan serta kekurangan sistem. Proses evaluasi dan perbaikan struktur link website dibagi menjadi tiga level yaitu hyperlink, halaman, dan website keseluruhan sehingga kerumitan dalam analisis evaluasi dan perbaikan struktur link bisa diatasi secara efektif. Evaluasi struktur link diolah berdasarkan pola perilaku pengunjung. Pola perilaku pengunjung diekstraksi dari data log web menggunakan teknik web mining sehingga perbaikan struktur link website sesuai dengan karakteristik pengunjung. Hasil akhir penelitian ini menghasilkan rekomendasi perbaikan struktur link yang dibagi dalam tiga kategori yaitu menambahkan, memodifikasi dan menghapus link. Laporan rekomendasi perbaikan struktur link akan dikirim secara otomatis dan berkala kepada pemilik web melalui aplikasi email. Hasil penelitian menunjukkan proses optimasi (evaluasi dan perbaikan) struktur link website berlangsung secara sistematis dan memuaskan. Kata kunci : web intelligence, web mining, struktur website, optimasi link, evaluasi, perbaikan, adaptif, hyperlink, halaman web, data log, perilaku pengunjung (user behavior).
Karya ilmiah ini aku persembahkan untuk... .. Ayah dan Ibu tercinta, Bang Sandi, Kak Rika dan Adek ku Yopita. (Bogor – Juli 2006)
Kasihan bangsa, yang mengenakan pakaian yang tidak ditenunnya, memakan roti dari gandum yang tidak mereka panen, dan meminum anggur yang mereka tidak memerasnya. Kasihan bangsa, yang menjadikan orang dungu sebagai pahlawan, dan menganggap penindasan penjajah sebagai hadiah.... (Kahlil Gibran, 1883-1931)
Judul Nama NRP
: Optimasi Struktur Website Dinamis Berbasis Web Intelligence : Rades Wandri : G64101012
Menyetujui: Pembimbing I,
Pembimbing II,
Prof. Dr. Ir. Marimin, M.Sc NIP.131645110
Panji Wasmana, S.Kom, M.Si NIP. 132311917
Mengetahui: Dekan Fakultas Matematika dan Ilmu Pengetahuan Alam Institut Pertanian Bogor
Prof. Dr. Ir. Yonny Koesmaryono, M.S NIP. 131473999
Tanggal Lulus:
RIWAYAT HIDUP Rades Wandri lahir pada 1 November 1982 di Nagari Sialang, Payakumbuh, Sumatra Barat memiliki nama lengkap Rades Wandri Datuk Tumanggung. Datuk Tumanggung adalah gelar keturunan berdasarkan silsilah keluarga dan adat istiadat kebudayaan Minangkabau. Penulis merupakan anak ketiga dari empat bersaudara adalah putra pasangan H. Suharsah dan Hj. Syamsiwarni. Penulis menyelesaikan pendidikan dasar hingga tingkat menengah di Ranah Minang. Pada tahun 2001 penulis melanjutkan studi pada Departemen Ilmu Komputer, Institut Pertanian Bogor (IPB) yang diterima melalui jalur undangan prestasi atau USMI (Undangan Seleksi Masuk IPB). Selama kuliah penulis aktif pada kegiatan intra dan ekstrakurikuler baik yang berhubungan dengan keilmuwan, keprofesian maupun sosial kemasyarakatan. Organisasi kemahasiswaan yang pernah diikuti antara lain Himpunan Mahasiswa Ilmu Komputer IPB (HIMALKOM), Badan Eksekutif Mahasiswa, Dewan Perwakilan Mahasiswa FMIPA IPB, pendiri UKM ASPECT (Association for Agricultural Studies for Community Empowerment), Lembaga Pers Mahasiswa Islam (LAPMI), dan Himpunan Mahasiswa Islam (HMI) Cabang Bogor. Pada tahun 2005 penulis bersama-sama dengan mahasiswa dari UI, STAN dan UIN Syarif Hidayatullah Jakarta mendirikan komunitas telematika untuk kaum muda yang diberi nama KOMTI (Komunitas Muda Telematika Indonesia) dan KMMT (Komunitas Muda Muslim Telematika). Komunitas ini bertujuan mendorong implementasi teknologi informasi bagi pemuda Indonesia dengan pusat kegiatan di e-Center masjid Istiqlal Jakarta. Penulis juga pernah meraih penghargaan sebagai Juara III Web Design tingkat nasional pada Pekan Ilmiah Mahasiswa Nasional (PIMNAS) XVII di Bandung, 21-25 Juli 2004. Selanjutnya tahun 2005 penulis kembali menjadi utusan IPB pada PIMNAS XVIII di Padang. Sejak saat itu penulis sering menjadi trainer pada pelatihan desain web, web technology, animasi dan multimedia digital yang diadakan oleh organisasi mahasiswa, perguruan tinggi, maupun event organizer. Penulis juga pernah menjadi asisten praktikum pada pelatihan E-Campus dan Teknologi Informasi yang diselenggarakan oleh Departemen Ilmu Komputer IPB. Selama menempuh pendidikan di IPB penulis juga memperoleh beasiswa PPA dari IPB dan SPP+ dari Yayasan Damandiri. Pengalaman kerja penulis dalam pengembangan teknologi informasi dimulai dengan menjadi tim IT data entry pada Pemilihan Umum (Pemilu) 2004. Kemudian tahun 2005 mengembangkan website pendidikan untuk Fakultas Ekologi Manusia IPB, website Departemen Ekonomi dan Sumberdaya Lingkungan IPB, website e-Commerce perusahaan Carravelle Jakarta, website Program Studi Ilmu Komputer Universitas Pakuan Bogor, serta membangun sistem pemutakhiran data pemilih Komisi Pemilihan Umum pada KPU Bogor dan KPU Kota Padang. Pada tahun 2006 penulis menjadi developer pada pengembangan sistem direktori website Kementerian Pendayagunaan Aparatur Negara (MENPAN) Republik Indonesia. Penulis tertarik untuk terus mendalami keahlian di bidang teknologi informasi terutama web technology, web services, server dan data security. Penulis yakin dengan kerja keras dan semangat terus berkarya seluruh anak bangsa maka Indonesia bisa menjadi sentral pengembangan teknologi informasi di Asia Pasifik.
PRAKATA Alhamdulillah wa syukrulillah penulis persembahkan ke hadirat Allah SWT atas segala hidayah, lindungan dan cinta-Nya sehingga penelitian ini berhasil diselesaikan. Shalawat beriring salam tercurah untuk Nabi Muhammad SAW bersama sahabat, keluarga dan umatnya hingga akhir zaman. Penelitian ini memiliki topik Optimasi Struktur Website Dinamis Berbasis Web Intelligence. Penulis sampaikan terima kasih kepada semua pihak yang telah membantu dan memberikan pengalaman yang menyenangkan selama penelitian ini. Khususnya kepada Bapak Prof. Dr. Ir. Marimin, M.Sc dan Bapak Panji Wasmana, S.Kom, M.Si yang dengan kesabaran dan kasih sayang seorang pendidik telah memberikan banyak masukan, motivasi dan pelajaran berharga dalam membimbing penelitian ini. Penulis juga ingin mengucapkan terima kasih kepada Bapak Ir. Agus Buono, M.Si, M.Kom atas kesediaannya menjadi penguji pada sidang skripsi. Selanjutnya penulis juga ingin mengucapkan terima kasih kepada: 1. Ayah dan Ibunda tercinta atas semua do’a, nasehat, ketabahan, kesabaran dan kasih sayang yang tak luntur sepanjang hayat. 2. Abang ku Sandi yang telah bekerja keras membiayai kuliah ini sampai selesai. Terima kasih atas kesabaran dan dukungan mu. Kak Rika dan keluarga yang selalu mengiringi perjalanan ku dengan do’anya. Juga Adik ku Yopita yang selalu memberi semangat dan motivasi terutama saat ‘hari-hari melelahkan’ selama penelitian ini. 3. Bu Farida Hanum dari Departemen Matematika IPB yang menyediakan waktunya untuk diskusi teori Graf. 4. Bu Dr. Krisnani dan tim HKI-IPB atas dukungan moril dan pencerahannya. 5. Mas Hasan, Pak Julio Adisantoso, Pak Heru Sukoco, Pak Asep, komeng, Mba Julia dan semua staf KPSI IPB yang telah memberi fasilitas penelitian pada pusat server IPB. 6. Khamam, Didik, Acid, Asep, Toto, Soepri, Roni, Mardial, Mas Dewis, Kang Arum dan semua yang lainnya yang membantu pengembangan prototipe sistem dan memberi masukan berharga selama penelitian. 7. Niar, Anan, Lee dan Dora atas bantuan dan kebaikannya. 8. Neng Fitria dan Bintang atas do’a dan dukungannya yang tak kan terlupakan. 9. Teman-teman satu kost ku, Isal, Usep, Robi, Riski, Bogel dan Moel yang telah menjadikan hari-hari ku lebih ‘hidup’. 10. Sahabat-sahabat semua, Ilkom angkatan 38 yang telah menjadi keluarga dan memberikan pengalaman serta kenangan yang tak terlupakan. 11. Semua dosen dan staf Departemen Ilmu Komputer IPB yang telah banyak membantu baik selama pelaksanaan penelitian ini maupun sebelumnya. 12. Semua pihak lainnya yang telah memberikan kontribusi selama penelitian ini yang tidak dapat disebutkan satu-persatu, terima kasih. Semoga penelitian ini memberikan manfaat untuk pengembangan ilmu pengetahuan di masa datang. Amin. Bogor, Juli 2006 Rades Wandri
DAFTAR ISI Halaman DAFTAR TABEL ............................................................................................................................. ix DAFTAR GAMBAR ........................................................................................................................ ix DAFTAR LAMPIRAN .......................................................................................................................x PENDAHULUAN Latar Belakang ...............................................................................................................................1 Tujuan ............................................................................................................................................1 Ruang Lingkup ..............................................................................................................................1 Manfaat ..........................................................................................................................................1 TINJAUAN PUSTAKA Internet ...........................................................................................................................................2 Web Intelligence (WI) ...................................................................................................................2 Website ...........................................................................................................................................2 URL ...............................................................................................................................................2 Server Web .....................................................................................................................................2 Data Log Web .................................................................................................................................2 User Access Session ......................................................................................................................3 Web Mining ....................................................................................................................................3 Graf Berarah Berbobot ..................................................................................................................3 METODE PENELITIAN Kerangka Pemikiran ......................................................................................................................3 Parameter Penelitian ......................................................................................................................4 Tata Laksana Penelitian .................................................................................................................6 Pengembangan Sistem ...................................................................................................................7 HASIL DAN PEMBAHASAN Pembersihan Data Log Web .........................................................................................................8 Transformasi Data Log Web ..........................................................................................................9 User Access Session (UAS) ...........................................................................................................9 Model User Navigation Tree .........................................................................................................9 Evaluasi dan Perbaikan Struktur Link ...........................................................................................9 Kompleksitas Sistem .................................................................................................................. 15 Keunggulan Sistem...................................................................................................................... 15 Keterbatasan Sistem .................................................................................................................... 15 KESIMPULAN DAN SARAN Kesimpulan .................................................................................................................................. 15 Saran ............................................................................................................................................ 16 DAFTAR PUSTAKA ....................................................................................................................... 16 LAMPIRAN ...................................................................................................................................... 18
DAFTAR TABEL Halaman 1 Data log yang digunakan pada penelitian.........................................................................................8 2 Perbandingan data log setelah preprocessing...................................................................................9 3 Evaluasi struktur hyperlink website Carravelle ..............................................................................10 4 Perbaikan struktur hyperlink website Carravelle............................................................................11 5 Hasil evaluasi terhadap halaman website Carravelle......................................................................13 6 Perbaikan halaman web...................................................................................................................13 7 Hasil evaluasi website Carravelle ...................................................................................................14 8 Hasil evaluasi website FEMA IPB..................................................................................................14
DAFTAR GAMBAR Halaman 1 Perkembangan e-Commerce dunia (UNCTAD 2004).....................................................................1 2 Model User Navigation Tree. ..........................................................................................................3 3 Diagram Model Penelitian. ..............................................................................................................4 4 Alur pengembangan sistem (System Lifecycle) menurut Sommerville (2001)..............................7
DAFTAR LAMPIRAN Halaman 1 Bidang-bidang penelitian pada Web Intelligence (WIC 2001) ......................................................19 2 Format data log web tipe Extended Log Format (ELF) .................................................................20 3 Halaman utama prototipe Sistem Optimasi Struktur Link Website ...............................................21 4 Tampilan halaman utama (a) dan struktur utama (b) website Carravelle ......................................22 5 Tampilan halaman utama (a) dan struktur utama (b) website FEMA IPB ....................................23 6 Proses input dan konversi data log ke dalam database sistem ......................................................24 7 Contoh data hasil input dan konversi data log pada web Carravelle .............................................25 8 Contoh data hasil filtering data log pada web Carravelle ..............................................................26 9 Contoh data hasil transformasi (prepocessing) data log pada web Carravelle ..............................27 10 Contoh data UAS dan EUAS untuk web Carravelle ....................................................................28 11 Contoh data User Navigation Tree pada web Carravelle.............................................................29 12 Algoritma Depth-First Search (DFS) menurut Cormen et al. (2003) .........................................30 13 Contoh data rekomendasi perbaikan link pada web Carravelle ...................................................31
1
PENDAHULUAN Latar Belakang Teknologi informasi berbasis Internet mengalami perkembangan pesat di seluruh dunia. Pada Juni 2006 terdapat lebih dari 85 juta website, sementara pada tahun 1993 hanya 600 website (Netcraft 2006). Pengguna Internet tumbuh dari 100 juta orang pada tahun 2000 menjadi lebih 1 miliar pengguna pada 2005 (Etforecast 2006). Berdasarkan laporan tahunan Konferensi Perserikatan Bangsa-Bangsa untuk Perdagangan dan Pembangunan (UNCTAD) tercatat transaksi dagang melalui Internet, e-Commerce, pada awal dekade ini sebesar 354 miliar dollar AS (UNCTAD 2004). Dengan pertumbuhan ratarata 53,8 % per tahun, jumlah ini diperkirakan meningkat drastis menjadi 12,8 triliun dollar AS pada enam tahun mendatang (Gambar 1).
Gambar 1 Perkembangan e-Commerce dunia (UNCTAD 2004). Gelembung ekspansi Internet ini akan terus meningkat terutama pada negara-negara dengan populasi besar seperti China, India, Brasil, Rusia dan Indonesia sehingga membuat dunia World Wide Web sebagai lahan industri potensial dan menguntungkan di masa datang (Etforecast 2006). Hal ini memicu kompetisi setiap pemilik web (administrator, manager, web developer) untuk meningkatkan kualitas website baik dari segi struktur, konten, maupun teknologi. Saat ini, evaluasi dan perbaikan struktur website menjadi persoalan krusial dalam mendesain dan mengembangkan sebuah website (Zhou & Chen 2002). Menanggapi fenomena di atas, perkembangan teknologi web global melahirkan Web Intelligence (WI) sebagai arah baru dalam pemberdayaan sumberdaya website. Web Intelligence memadukan teknologi informasi dengan kecerdasan buatan (artificial intelligence). Selama ini, proses
evaluasi dan perbaikan struktur website secara konvensional sulit dilakukan karena terbatasnya informasi tentang pola akses pengunjung terhadap struktur link website. Dengan terobosan berbasis pengetahuan Web Intelligence maka informasi pola akses pengunjung, hubungan antar link dan keterkaitan antar halaman bisa digali secara optimal sehingga proses evaluasi dan perbaikan struktur link menjadi lebih sistematis dan efisien. Penelitian ini difokuskan pada optimasi struktur link website dinamis berbasis Web Intelligence meliputi evaluasi dan perbaikan struktur link berdasarkan pola akses pengunjung. Diharapkan penelitian ini dapat membantu pemilik web dalam mendesain, restrukturisasi dan manajemen website untuk mencapai organisasi web yang lebih optimal dan berorientasi kepuasan akses pengunjung. Tujuan Tujuan penelitian ini adalah : 1. Ekstraksi informasi perilaku pengunjung yang mengakses website (user behavior). 2. Ekstraksi informasi struktur link dan analisis tingkat keterkaitan, peluang (probabilitas), serta kemudahan akses antar halaman web. 3. Evaluasi struktur link website dinamis berdasarkan perilaku akses pengunjung. 4. Analisis perbaikan struktur link berdasarkan nilai evaluasi struktur link untuk mencapai struktur link yang optimal baik dari sisi pengunjung maupun pemilik web. 5. Analisis kompleksitas, keunggulan, dan keterbatasan sistem pada proses evaluasi dan perbaikan struktur website dinamis. Ruang Lingkup Penelitian difokuskan pada evaluasi dan perbaikan struktur link website meliputi tiga level analisis yaitu hyperlink, halaman web, dan website keseluruhan. Penelitian dilakukan pada Pusat Server Institut Pertanian Bogor (IPB). Prototipe sistem dikembangkan dengan piranti lunak Microsoft Visual Basic® versi 6 dan basis data Microsoft Access®. Output sistem pada penelitian ini menghasilkan laporan hasil evaluasi dan rekomendasi perbaikan struktur link suatu website. Manfaat Sistem ini dapat digunakan oleh pengembang atau pemilik website
2
(administrator, manager, web developer) untuk membantu proses restrukturisasi, desain dan manajemen suatu website.
TINJAUAN PUSTAKA Internet Menurut McLeod dan Schell (2004) Internet adalah jaringan komunikasi global yang menghubungkan komputer di dunia melalui suatu protokol. Di lain pihak, World Wide Web (WWW atau Web) merupakan ruang informasi di Internet yang menyimpan materi hypermedia (teks, grafik, audio, dan video) dan dapat diakses melalui suatu skema alamat yang unik (URL). Sistem ini dirintis sejak 1989 oleh Tim Barners-Lee, ilmuwan komputer di Laboratorium Fisika Partikel Eropa, dan baru terwujud pada pertengahan 1992 yang dikenal sebagai World Wide Web. Web Intelligence (WI) Web Intelligence merupakan arah baru pengembangan ilmiah yang menyelidiki peran pokok maupun dampak praktis kecerdasan buatan dan teknologi informasi untuk pemberdayaan produk, sistem, layanan dan aktivitas berbasis website dan Internet pada masa datang (WIC 2004). Perkembangan data, informasi dan konten pada website menjadikan website semakin kompleks sehingga memerlukan teknik-teknik kecerdasan buatan dalam mengolah sumberdaya yang ada pada website agar lebih berdayaguna. Kecerdasan buatan atau Artificial Intelligence (AI) merupakan cabang dari ilmu komputer yang mengembangkan perangkat dan teknik komputerisasi berdasarkan kecerdasan buatan manusia. Kecerdasan buatan diperlukan untuk menangani persoalan ketidakpastian (uncertainty), kemungkinan (possibility), probabilitas (probability) dan kekuranglengkapan (incompleteness) dari fakta dan atau informasi (marimin 2002). Konferensi para ilmuwan dunia yang tergabung dalam bidang WI, Web Intelligence Consortium (WIC), diadakan pertama kali pada bulan Oktober 2001 di Maebeshi City, Jepang. Cakupan bidang riset pada WI dapat dilihat pada Lampiran 1. Website Menurut McLeod dan Schell (2004) website mengacu pada suatu sistem komputer yang terhubung ke Internet dan berisi materi
atau dokumen yang dapat diakses dari komputer lain dalam jaringan melalui suatu hyperlink. Sementara hyperlink merupakan teks atau grafik yang terhubung ke dokumen lain. Web dinamis didefinisikan sebagai sistem website yang terkoneksi ke suatu basis data sehingga bisa membangun halaman secara otomatis sesuai dengan permintaan (query) pengunjung web (Sundaraperruma 2003). Di lain pihak, web statis biasanya langsung menyimpan data (informasi) pada file halaman web tersebut. URL Uniform Resource Locators (URLs) digunakan untuk identifikasi lokasi suatu sumberdaya pada Internet (McLeod & Schell 2004). Format URL terdiri atas : Protokol, yaitu satu set standar yang mengatur komunikasi data. Misalnya protokol HTTP untuk akses Internet. Domain, yaitu alamat website tempat halaman web disimpan. Path, yaitu lokasi suatu file yang terdapat pada direktori website. Server Web Server web merupakan sistem perangkat keras dan piranti lunak yang terhubung pada World Wide Web. Server web memiliki fungsi menerima permintaan dari pengunjung web melalui browser dan mengirimkan hasilnya kembali dalam bentuk halaman web (W3C 1999). Server web yang terkenal di antaranya Apache, Microsoft-IIS, Netscape-Enterprise, SunONE dan Zeus. Data Log Web Aktivitas pengunjung web dicatat secara otomatis oleh server pada suatu file yang disebut data log. Satu baris record file log memuat satu aktivitas yang dilakukan pengunjung. Data log pada file log memiliki dua format yaitu CLF (Common Log Format) dan ELF (Extended Log Format). Format CLF terdiri atas variabel IP, Waktu akses, Tipe permintaan, Alamat konten (URL), Protokol, Status, dan Ukuran file. Format ELF sama dengan CLF tetapi ada tambahan variabel Referrer dan Agent (Lampiran 2). Penelitian ini menggunakan data log dengan format ELF. Berikut contoh dua record data log dengan format ELF : 222.124.11.126 - - [01/Mar/2006:11:16:51 +0700] "GET /produk.php HTTP/1.0" 200 12152 "http://www.carravelle.com/home.php" "Mozilla/5.0 (Windows; U; Windows NT
3
5.1; en-US; rv:1.7.8) Gecko/20050511 Firefox/1.0.4" 66.249.65.42 - - [18/May/2006:13:34:34 +0700] "GET /robots.txt HTTP/1.1" 404 291 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
Data log bisa diperoleh dari direktori log pada server web atau download dari log manager pada panel kontrol layanan hosting web komersial. User Access Session Session merupakan urutan halaman web yang diakses pengunjung pada sebuah kunjungan. User Access Session (UAS) didefinisikan sebagai satu pola akses pengunjung web dalam periode waktu tertentu (Zhou & Chen 2002). Periode waktu pada session disebut Session Interval Time (SIT) yaitu waktu maksimal perpindahan pengunjung web dari satu halaman ke halaman lain dalam satu session. Web Mining Etzioni (1996) yang dipercaya sebagai penggagas web mining menjelaskan : ”web mining adalah proses menggali dan menemukan suatu informasi (knowledge) menggunakan teknik data mining terhadap dokumen, layanan, dan data pada World Wide Web”. Web mining merupakan bagian dari proses data mining yang khusus dilakukan pada sistem website. Klasifikasi web mining dapat dibagi dalam tiga kategori (Huysmans et al. 2004), yaitu: Web content mining merupakan penggalian informasi dari konten dan dokumen web untuk membantu pengunjung menemukan informasi yang diinginkannya. Web structure mining merupakan ekstraksi informasi struktur link website untuk mengelompokkan interkoneksi dokumen web sehingga memudahkan pencarian informasi dari website lain. Web usage mining merupakan aplikasi teknik data mining untuk mengetahui pola akses pengunjung terhadap suatu website. Pola akses ini diolah dari data sekunder yang menyimpan aktivitas pengunjung seperti data log server, log proxy, log browser, session, cookies, dan sebagainya. Graf Berarah Berbobot Graf, dinotasikan G = (V, E), adalah pasangan himpunan (V, E) dengan V adalah
himpunan berhingga dan tidak kosong dari simpul-simpul (sering disebut node atau vertek), sedangkan E adalah himpunan sisi (edge) yang menghubungkan sepasang simpul (Munir 2001). Graf Berarah Berbobot (Weighted Directed Graph) adalah graf yang setiap sisinya diberi sebuah nilai (bobot) dan memiliki orientasi arah. Tree adalah graf terhubung yang tidak mengandung cycle. Cycle adalah lintasan dengan node pertama sama dengan node terakhir (Munir 2001). Struktur link website bisa direpresentasikan dalam bentuk Graf Berarah Berbobot dimana node mewakili halamanhalaman web sedangkan edge menggambarkan link atau hyperlink antar halaman web (Cakrabarti & Kleinberg 1999). Pola akses pengunjung bisa dimodelkan dalam bentuk Tree yang disebut User Navigasi Tree, lihat Gambar 2. Nilai bobot pada edge menunjukkan urutan halaman yang diakses pengunjung.
Gambar 2 Model User Navigation Tree.
METODE PENELITIAN Kerangka Pemikiran Pada website, struktur link akan berpengaruh besar terhadap kualitas layanan yang diberikannya (Zhou & Chen 2002). Untuk itu pemilik web perlu melakukan optimasi struktur link agar struktur link website memberikan kemudahan dan kenyamanan navigasi pada pengunjung. Penelitian untuk evaluasi dan perbaikan struktur link website telah banyak dilakukan sebelumnya. Tetapi masalah terbesar dari penelitian sebelumnya adalah dibutuhkannya analisis semantik yang saat ini masih sulit terpecahkan di samping memiliki keterbatasan aplikasi. Selain itu, sampai saat ini, tidak ada standar evaluasi yang dikemukakan karena rumitnya sistem website, sehingga membuat
4
hasil perbaikan tidak bisa diprediksi (Zhou & Chen 2002). Pada tahun 2002, Baoyao Zhou (Tsinghua University, Cina) dan Jinlin Chen (University of Pittsburgh, USA) mengembangkan formulasi untuk evaluasi dan perbaikan terhadap struktur link. Tetapi penelitian tersebut dilakukan pada website yang relatif statis. Oleh karena itu pada penelitian ini dicoba pengembangan dengan melakukan penelitian pada website yang dinamis, serta menganalisis kelebihan dan kekurangan dari pendekatan tersebut. Untuk mencapai tujuan penelitian di atas maka dirancang model penelitian yang terlihat pada Gambar 3. Rekomendasi Perbaikan
Data Log Website
Analisis Perbaikan Struktur Link
Web mining Filtering
Hasil Evaluasi
Transformasi Ekstraksi Informasi
Evaluasi Struktur Link Perilaku Pengunjung (user) Model Struktur Link
Gambar 3 Diagram Model Penelitian. Model penelitian seperti Gambar 3 menjelaskan bahwa proses optimasi struktur link website dimulai dengan mengolah data log website menggunakan teknik web mining (filtering, transformasi, dan ekstraksi informasi) sehingga dihasilkan dua data yaitu perilaku pengunjung web (pola akses) dan model struktur link website. Berdasarkan kedua data tersebut dilakukan proses evaluasi terhadap struktur link untuk mengetahui tingkat kemampuan navigasi link. Selanjutnya hasil evaluasi ini menjadi dasar dalam menyusun strategi dan analisis perbaikan struktur link. Keluaran penelitian menghasilkan rekomendasi perbaikan struktur link yang berguna bagi pemilik web dalam meningkatkan kemampuan navigasi website. Parameter Penelitian Menurut penelitian Zhou dan Chen (2002), proses perbaikan struktur link bisa dilakukan
dengan menghitung nilai evaluasi setiap pasangan hyperlink yang ada pada struktur link website. Untuk mendapatkan nilai evaluasi tersebut ditetapkan beberapa formulasi yang disebut sebagai definisi. Definisi yang menjadi dasar analisis penelitian, yaitu: 1. Definisi 1 : Struktur link website bisa direpresentasikan ke dalam model Graf Berarah Berbobot G = ( N , L,W ) .
N = {N i i ∈ [1, n]}
adalah
himpunan
semua simpul (node) G, yaitu semua halaman dalam website. N i adalah halaman i.
L = {L(i, j ) | i ≠ j, i, j ∈ [1, n] , ∃ adalah N i ke N j } yaitu
hyperlink dari
himpunan dari semua edge pada G, misalnya semua hyperlink yang saling terhubung pada website.
W = {Wij | i ≠ j , i, j ∈ [1, n] , ∃
adalah
sebuah hyperlink dari N i ke N j } yaitu himpunan dari bobot edge pada G. 2. Definisi 2 : User Access Session (UAS) N tk ∈ N , S = {N t1 , N t2 ,..., N t Si } ,
tk ∈ [1, n] ,
k ∈ {1, S i ] ,
dengan
Si adalah jumlah halaman yang diakses pada satu UAS. Halaman diakses secara N t1 , N t2 ,..., N t Si berurutan. 3. Definisi 3 : S = {S1 , S 2 ,..., S m } adalah himpunan dari UAS, dengan m merupakan jumlah total UAS. 4. Definisi 4 : Enhanced User Access Session (EUAS), S’, merupakan UAS yang memiliki data Halaman Sumber (Refer Page). S ' = {( N t1 , N f1 ), ( N t 2 , N f 2 ),..., ( N t Si , N f Si )} ,
N tk ∈ N , N f k ∈ {N 0 } ∪ N , t k ∈ [1, n] , dengan f k ∈ [0, si ] , k ∈ [1, si ] , ( N tk , N f k ) adalah sebuah record data yang diakses pengunjung web.
Nt k
adalah Halaman Akses (Access Page), N f k adalah Halaman Sumber (Refer Page), N 0 menandakan suatu halaman eksternal atau tidak ada halaman.
5
5. Definisi 5 : Pada User Navigation Tree, jika N i merupakan node Parent dari N j yang memiliki Navigation Path N i → ... → N j dari N i ke N j maka total hyperlink pada Navigation Path adalah panjang N i → ... → N j Navigation Path N i → ... → N j . 6. Definisi 6 : Access Session Number adalah jumlah total EUAS mengakses halaman N i .
vi
yang
7. Definisi 7 : Common Access Session Number v(i, j ) adalah jumlah EUAS yang mengakses N i dan N j dimana N j diakses setelah N i . 8. Definisi 8 : Association
Degree
⎧v(i, j ) / vi Rij = ⎨ 0 ⎩
vi > 0 , (i ≠ j ) vi = 0
adalah peluang (probabilitas) diaksesnya halaman N j oleh pengunjung yang mengakses N i . Selanjutnya, R0 merupakan nilai batas
mengakses halaman N j dari halaman dengan Ni sebenarnya.
mengikuti
hyperlink
11. Definisi 11 : Access Session Number
vij
adalah jumlah EUAS yang memiliki User Navigation Tree dengan Navigation dan Path N i → ... → N j
N i → ... → N j = 1 . 12. Definisi 12 : Bobot L(i, j ) adalah
⎧v / v Wij = ⎨ ij i ⎩ 0
vi > 0 , vi = 0
merupakan
peluang diaksesnya link L(i, j ) oleh pengunjung yang mengakses halaman Ni . 13. Definisi 13 : Nilai Evaluasi untuk kemampuan navigasi dari link L(i, j )
Rij > 0 , selainnya
⎧Wij / Rij ⎩ 0
adalah E ij = ⎨
merupakan peluang diaksesnya link L(i, j ) oleh pengunjung yang sedang mengakses halaman N i dan kemudian mengunjungi halaman N j .
yang mengindikasikan tingkat keterkaitan antara dua halaman. R0
Evaluasi : Kemampuan navigasi dari
sesuai dengan nilai α% ( R0 adalah nilai
link dengan E0 =
minimum pada α% tertinggi dari Rij ). Besar α% bisa memiliki nilai yang berbeda pada website tertentu, tetapi nilai umumnya adalah 50% (Zhou et el, 2002) 9. Definisi 9 : Access Session Number v p (i, j ) adalah jumlah EUAS yang memiliki User Navigation Trees dengan Navigation Path N i → ... → N j . 10. Definisi 10 Convenience
Degree
1 ⎧ v p (i, j ) > 0 ⎪ v p (i , j ) ⎪ ( ∑ N → ... → N ) i j k Cij = ⎨ k =1 ⎪ v p (i, j) ⎪ 0 v p (i, j ) = 0 ⎩
, i ≠ j , Cij kemudahan
menggambarkan tingkat pengunjung
web
untuk
∑E i≠ j
ij
adalah rata-
L
rata nilai evaluasi dari semua hyperlink. 1. Eij ≥ E0 dan Rij ≥ R0 menunjukkan bahwa pengunjung yang mengakses halaman N i juga sangat tertarik mengunjungi halaman N j ( Rij ≥ R0 ) dimana akses ke
umumnya
Nj
melalui hyperlink L(i, j ) . Artinya kemampuan navigasi dari hyperlink L(i, j ) adalah BAIK. 2. Eij < E0
menunjukkan
pengunjung halaman N i halaman
Nj
yang jarang melalui
bahwa
mengakses mengakses hyperlink
Artinya kemampuan L(i, j ) . navigasi dari hyperlink L(i, j ) adalah BURUK.
6
3. Rij < R0
menunjukkan
bahwa
pengunjung yang mengakses tidak tertarik halaman Ni mengunjungi halaman N j . Artinya kemampuan navigasi dari hyperlink L(i, j ) adalah BURUK. Perbaikan : Berdasarkan pada hasil evaluasi di atas, disusun strategi perbaikan sebagai berikut : 1. Jika Eij ≥ E0 dan Rij ≥ R0 maka pemilik website tidak memperbaiki link L(i, j ) .
harus
2. Jika Eij < E0 maka pemilik website harus memodifikasi tampilan atau lokasi link L(i, j ) agar lebih atraktif dan menarik bagi pengunjung. 3. Jika Rij < R0 maka pemilik website harus menghapus link L(i, j ) . 14. Definisi 14 : Nilai evaluasi kemampuan adalah navigasi halaman Ni
E (i ) =
∑C
i ≠ j , Rij ≥ R0
ij
/ µ , merupakan rata-
rata Convenience Degree dari pengunjung yang mengakses dari halaman N i ke halaman terkait. Halaman N i dikatakan terkait dengan halaman N j jika Rij ≥ R0 . Evaluasi : Hasil kemampuan navigasi adalah halaman Ni
⎧ Baik, E(i) ≥ E0 = 1/ smax , dengan Ni = ⎨ selainnya ⎩Buruk,
smax panjang maksimum Navigation Path yang dicapai oleh pengunjung. 1. E (i ) ≥ E0 = 1 / smax menunjukkan bahwa pengunjung bisa dengan mudah mengakses dari halaman N i ke halaman terkait lainnya ( Rij ≥ R0 ). Artinya kemampuan navigasi halaman N i adalah BAIK. menunjukkan 2. E (i ) < E0 = 1 / smax bahwa pengunjung kesulitan mengakses dari halaman N i ke halaman terkait ( Rij ≥ R0 ). Artinya
kemampuan navigasi halaman N i adalah BURUK. 15. Definisi 15 : Nilai evaluasi kemampuan navigasi struktur link dari website keseluruhan adalah
E=
∑
i ≠ j , Rij ≥ R0
n
Cij / t = ∑ E (i ) / n , i =1
merupakan rata-rata Convenience Degree dari pengunjung yang mengakses bagian halaman yang saling berkaitan pada website. Evaluasi : Kemampuan navigasi dari website keseluruhan adalah
⎧ Baik, E ≥ E0 = 1/ smax , E=⎨ selainnya ⎩Buruk,
smax
sama
dengan
pada
dengan evaluasi
halaman merupakan panjang maksimum Navigation Path yang dicapai oleh pengunjung. menunjukkan 1. E ≥ E0 = 1 / s max bahwa pengunjung bisa dengan mudah mengakses dari halaman mana saja pada website menuju ke halaman terkait ( Rij ≥ R0 ). Artinya kemampuan navigasi website adalah BAIK. 2. E < E0 = 1 / s max menunjukkan bahwa pengunjung tidak mudah mengakses dari semua halaman di website menuju halaman terkait ( Rij ≥ R0 ). Artinya kemampuan navigasi website adalah BURUK. Tata Laksana Penelitian Sesuai dengan model penelitian yang telah dirancang sebelumnya maka pelaksanaan penelitian dapat dibagi dalam tujuh tahapan kerja, yaitu : 1. Analisis Kebutuhan Pada tahap pertama ini dilakukan identifikasi dan pengumpulan bahan penelitian. Data log yang digunakan sebagai input penelitian ini memiliki format Extended Log Format (ELF). 2. Akuisisi Pengetahuan Menetapkan batasan, skenario, asumsi dan formulasi penelitian sesuai dengan basis pengetahuan Web Intelligence untuk
7
melakukan proses optimasi struktur link website. 3. Rancang Bangun Prototipe Sistem Formulasi, batasan, skenario dan asumsi pengetahuan diimplementasikan menjadi sebuah piranti lunak (prototipe sistem). Modul-modul program dikembangkan sesuai dengan pembagian prosedur kerja sistem. Tahapan pengembangan sistem ini dapat dilihat pada Gambar 4. 4. Ekstraksi Informasi Perilaku Akses Pengunjung (User Behavior) Data log memuat semua aktivitas pengunjung web ketika mengakses suatu website. Data log diolah untuk mendapatkan pola akses pengunjung dan gambaran abstrak struktur link website. Proses pengolahan data log (web mining) ini meliputi : Filtering data, yaitu melakukan seleksi terhadap data yang memenuhi persyaratan. Transformasi data, yaitu melakukan normalisasi pada data log sehingga data menjadi teratur dan siap untuk diolah. Ekstraksi informasi, yaitu mengolah data log untuk mendapatkan informasi tertentu. Hasil pengolahan data log akan menghasilkan informasi pola perilaku pengunjung dalam bentuk User Access Session (UAS) dan Enhanced User Access Session (EUAS). Selanjutnya data ini digunakan untuk menyusun suatu model User Navigation Tree yang merepresentasikan struktur link yang diakses pengunjung dari website tersebut. 5. Evaluasi Struktur Link Website Proses evaluasi struktur link website meliputi tiga level yaitu hyperlink, halaman web, dan website keseluruhan (Zhou & Chen 2001). Pada level hyperlink, ukuran evaluasi suatu link harus berdasarkan pada nilai Association Degree (R) dan Convenience Degree (C) yang diperoleh dari pengolahan data log. Pada level halaman web, ukuran evaluasi link ke suatu halaman merupakan rata-rata Convenience Degree dari hyperlink yang berkaitan pada halaman tersebut ( Rij ≥ R0 ). Pada level website keseluruhan, ukuran evaluasi navigasi sistem website berdasarkan
rata-rata nilai evaluasi dari pasangan halaman web yang berkaitan. Ukuran evaluasi ini direpresentasikan dengan nilai evaluasi website (E). 6. Perbaikan Struktur Link Website Berdasarkan nilai evaluasi yang diperoleh maka disusun suatu rekomendasi perbaikan struktur link. Pada penelitian ini ditetapkan rekomendasi perbaikan meliputi penambahan link, modifikasi link, dan penghapusan suatu link. 7. Verifikasi dan Validasi Sistem Pada tahap akhir ini dilakukan verifikasi dan validasi terhadap sistem. Verifikasi untuk memastikan bahwa sistem telah mengimplementasikan fungsi-fungsi yang ditetapkan secara benar. Di lain pihak, validasi untuk memastikan semua kebutuhan telah terpenuhi dengan baik. Dengan demikian akan diketahui kelebihan, kelemahan, dan kompleksitas suatu sistem. Pengembangan Sistem Proses pengembangan prototipe sistem menggunakan pendekatan System Lifecycle (Sommerville 2001). Gambar 4 berikut memperlihatkan alur pengembangan sistem. Analisis Kebutuhan Desain Sistem Implementasi Sistem Integrasi dan Pengujian Sistem
Penggunaan dan Pemeliharaan Gambar 4 Alur pengembangan sistem (System Lifecycle) menurut Sommerville (2001).
HASIL DAN PEMBAHASAN Suatu data mentah tidak bisa langsung digunakan pada proses data mining karena data masih mengandung nilai yang ganda (redundant), nilai melebihi batas (outlier), nilai tidak konsisten, tidak ada nilai, atau data
8
tidak sesuai dengan model data mining yang diinginkan (Larose 2005). Oleh karena itu data perlu melalui tahapan prepocessing yang meliputi pembersihan dan transformasi data. Pada penelitian ini dikembangkan suatu piranti lunak (prototipe sistem) untuk membantu setiap proses penelitian mulai dari prepocessing data, evaluasi dan perbaikan struktur link website, hingga pencetakan hasil analisis sistem. Prototipe sistem ini diberi nama OpLiNK (Optimasi Struktur Link Website) dengan antar muka utama terlihat pada Lampiran 3. Website yang dijadikan studi kasus pada penelitian ini terdiri atas dua website yaitu : • Website Carravelle merupakan (http://www.carravelle.com) web dinamis untuk perdagangan online (eCommerce) sebuah industri manufaktur di Jakarta dan telah online sejak tahun 2004. Tampilan halaman utama dan struktur website ini dapat dilihat pada Lampiran 4. • Website FEMA IPB, http://fema.ipb.ac.id, merupakan website resmi Fakultas Ekologi Manusia (FEMA), Institut Pertanian Bogor. Website FEMA IPB memiliki konten dan struktur link yang dinamis. Tampilan halaman utama dan struktur website ini dapat dilihat pada Lampiran 5. Data masukan yang digunakan pada penelitian ini adalah data log server dari web Carravel dan FEMA IPB (Tabel 1). Pemilihan data log server dibanding data sekunder lain seperti log proxy dan log browser karena data log server lebih mudah diolah serta memiliki informasi yang lengkap untuk bahan evaluasi dan perbaikan struktur link. Tabel 1. Data log yang digunakan pada penelitian Data Log Waktu akses # Record Ukuran file (Kilobyte)
Carravelle
FEMA IPB
13 Feb – 3 Juni 2006
5 Mei – 6 Juni 2006
13017
4667
2359
992
Proses input dan konversi data log menjadi basis data sistem dapat dilihat pada Lampiran 6. Data hasil konversi ini disimpan pada tabel data LogMentah yang terdiri atas 8 field yaitu ID, IP, Tanggal, Metode, Link Akses, Status, Ukuran, dan Link Sumber (Lampiran 7). Pembersihan Data Log Web Penelitian ini dilakukan pada website dinamis maka data yang disimpan adalah
record yang memuat akses pengunjung ke semua halaman web baik halaman statis maupun halaman dinamis yang dibuat secara otomatis dari basis data. Subjek penelitian adalah link yang menghubungkan halaman-halaman pada web dinamis. Namun demikian tidak semua halaman bisa dijadikan subjek penelitian tergantung dari kepentingan pemilik web. Pada penelitian ini seleksi halaman web dilakukan secara manual dengan memperhatikan isi informasi atau konten utama dari halaman web tersebut. Parameter yang diperhatikan dalam proses seleksi halaman web adalah konten atau informasi utama yang terdapat pada suatu halaman, ketersediaan link menuju halaman web yang bisa diakses pengunjung secara langsung, dan karakteristik halaman. Umumnya satu halaman web memiliki satu konten utama, namun bisa saja satu halaman web memiliki beberapa konten utama sehingga subjek penelitian bisa lebih banyak. Halaman yang diteliti hanya halaman-halaman yang diakses oleh pengunjung umum, sedangkan halaman untuk administrator dan koneksi basis data tidak disertakan karena berada di luar konteks penelitian. Kegiatan yang dilakukan pada proses pembersihan data log (filtering) meliputi : 1. Menetapkan halaman-halaman yang akan diteliti. 2. Menghapus record yang mengakses file gambar. 3. Menghapus record yang mengakses dokumen atau file selain halaman web. 4. Menghapus record yang dilakukan oleh robot mesin pencari (crawler). 5. Menghapus record yang memuat permintaan yang gagal (error) dieksekusi. 6. Menghapus record dengan tipe permintaan selain GET. Karena hanya tipe GET yang merepresentasikan halaman diakses atau diterima pengunjung. 7. Menghapus record yang mengakses halaman atau direktori yang tidak diizinkan pada pengunjung (publik) seperti halaman admin, webmail dan panel kontrol. 8. Menghapus record yang memuat alamat IP yang tidak diinginkan. Hasil proses pembersihan data (filtering) ini disimpan dalam tabel data LogFilter (Lampiran 8).
9
Transformasi Data Log Web Tranformasi data merupakan data yang ditransformasi atau diubah menjadi bentuk yang tepat untuk proses lebih lanjut. Kegiatan yang dilakukan pada transformasi data log meliputi : 1. Menyeragamkan alamat path (URL) untuk halaman yang sama dengan cara menghapus karakter yang tidak relevan. 2. Mengelompokkan record berdasarkan alamat IP yang sama dan diurutkan menurut waktu akses. 3. Menghapus data IP yang hanya memiliki satu record. 4. Melakukan validasi terhadap record yang nilainya hilang atau rusak. Tahap preprocessing data bisa mereduksi data log mentah hingga tersisa 45 % (web Carravelle) dan 12% (web FEMA IPB) sebagaimana terlihat pada Tabel 2. Hal ini disebabkan sebagian besar data log mencatat record yang tidak dibutuhkan untuk evaluasi struktur link seperti record gambar, animasi, serta banyak record yang gagal (error). Hasil proses transformasi data log disimpan pada tabel data LogTransformasi (Lampiran 9). Tabel 2. Perbandingan data log setelah preprocessing Data Log # Record awal # Record setelah preprocessing # Halaman # Pengunjung (user)
Carravelle
FEMA IPB
13017
4667
5905
537
21
41
667
172
User Access Session (UAS) User Access Session (UAS) diperoleh dengan mengolah data log hasil transformasi. Data UAS ini menggambarkan urutan halaman-halaman yang diakses oleh pengunjung dalam satu periode. Periode ini disebut Session Interval Time (SIT) dengan waktu standar 30 menit (Huysmans et al. 2004). Untuk mengelompokkan record data log pada satu User Access Session harus dipenuhi dua kondisi berikut (Zhou & Chen 2002), yaitu: 1. Semua record memiliki pengunjung yang sama. 2. Semua record diurutkan berdasarkan waktu, dimana perbedaan waktu antara record bertetangga kurang dari waktu SIT.
Model User Navigation Tree Data UAS yang telah diurutkan berdasarkan periode waktu, belum bisa menggambarkan akses hyperlink sebenarnya yang dilakukan pengunjung karena pencatatan record data log bersifat linear sedangkan pola akses pengunjung sebenarnya bersifat hirarki. Untuk mengatasi masalah ini maka digunakan Model User Navigation Tree yang bisa menggambarkan hyperlink sebenarnya yang diikuti pengunjung pada suatu UAS. Pada User Navigation Tree, halaman yang diakses (Halaman Akses) direpresentasikan oleh simpul atau node. Panah edge menggambarkan arah hyperlink yang diikuti pengunjung. Untuk menghasilkan User Navigation Tree dari data UAS perlu ditambahkan Halaman Sumber (Refer Page). UAS yang telah memiliki Halaman Sumber disebut Enhanced User Access Session (EUAS). Halaman Sumber merupakan halaman asal dimana pengunjung langsung mengakses Halaman Akses melalui hyperlink yang menghubungkan keduanya. Informasi tentang Halaman Sumber diperoleh dari data log web yang memiliki format Extended Log Format (ELF). Data UAS dan EUAS yang telah selesai diolah kemudian disimpan pada tabel data dengan nama EUAS (Lampiran 10). Selanjutnya data User Navigation Tree disimpan dalam tabel data NavigationTree (Lampiran 11). Untuk menghasilkan suatu model User Navigation Tree diperlukan algoritma pencarian Tree memanfaatkan data EUAS. Algoritma pencarian Tree yang digunakan pada penelitian ini adalah DFS (Depth-First Search). Pemilihan DFS karena algoritma ini memfokuskan pada kedalaman Tree sehingga bisa menghitung panjang maksimum dari Navigation Path yang diakses pengunjung (Smax). Algoritma DFS digunakan untuk menggambarkan pola akses navigasi yang dilakukan pengunjung (user navigation tree) dan tidak dipengaruhi tipe struktur web sehingga algoritma DFS bisa dipakai pada semua tipe struktur website. Algoritma DFS (Cormen et al. 2003) dapat dilihat pada Lampiran 12. Evaluasi dan Perbaikan Struktur Link Struktur link website dibagi dalam tiga level struktur untuk mengurangi kerumitan pada proses evaluasi dan perbaikan struktur link keseluruhan. Pembagian struktur link
10
tersebut yaitu hyperlink, halaman web, dan website keseluruhan. 1. Evaluasi dan Perbaikan pada Level Hyperlink Evaluasi struktur link pada level hyperlink merupakan level paling penting karena menjadi dasar untuk evaluasi dan perbaikan struktur link pada level selanjutnya. Untuk menghitung nilai evaluasi kemampuan navigasi dari suatu hyperlink ( E ij ) digunakan formulasi Definisi 13, yaitu :
⎧W / R E ij = ⎨ ij ij ⎩ 0
Rij > 0 , dengan selainnya
Eij adalah peluang diaksesnya hyperlink L(i, j ) oleh pengunjung yang sedang mengakses halaman N i dan kemudian
Pada proses ini pertama kali dilakukan perhitungan nilai Rij dan Wij untuk setiap halaman akses (Nj) yang terhubung pada halaman sumber (Ni). Selanjutnya nilai evaluasi hyperlink Eij untuk Rij > 0 diperoleh dari perbandingan Wij dengan Rij. Hasil evaluasi hyperlink ini dikategorikan BAIK jika Rij >= R0 dan Eij >= E0. Selainnya, hasil evaluasi hyperlink dikategorikan BURUK. 1. 2. Nilai Evaluasi Sebagai contoh dilakukan evaluasi hyperlink terhadap website Carravelle (Tabel 3) dengan Halaman Sumber (i), index.php, terhadap Halaman Tujuan (j) lainnya. Tabel 3. Evaluasi struktur hyperlink website Carravelle [Halaman Sumber(i): index.php R0=0.208 α%=50% E0=0.104 ]
mengunjungi halaman N j .
Wij merupakan bobot dari hyperlink L(i, j ) yang menggambarkan peluang diaksesnya hyperlink L(i, j ) oleh pengunjung yang sedang mengakses halaman N i , tetapi belum tentu kemudian mengunjungi halaman N j (Definisi 12).
Rij merupakan Association Degree, yaitu peluang
diaksesnya
halaman
Nj
oleh
pengunjung yang mengakses N i (Definisi 8).
Rij
juga
menggambarkan
keterkaitan
(relationship) antara halaman N i dan N j dari sudut pandang pengunjung. 1. 1. Implementasi Kode Formula proses evaluasi struktur link level hyperlink diimplementasikan dalam prototipe sistem dengan algoritma sebagai berikut: EvalHyperlink (Eij) for setiap Ni, Nj ∈ Node[G] do hitung Rij, Wij if Rij > 0 then Eij = Wij/Rij else Eij = 0 Hasil(EvalHyperlink) for setiap Rij, Eij if (Rij >= R0) & (Eij >= E0) then Hasil Å BAIK else Hasil Å BURUK
Halaman Akses (j)
Nilai Evaluasi (Eij)
Rij
Wij
0.13
0.065
/account.php
0.043
0.022
0.5 BURUK
/berita.php
0.174
0.065
0.375 BURUK
/beritadetail.php
0.109
0.043
0.4 BURUK
/about.php
/contact.php
0.174
0.043
/daftar.php
0.239
0.109
Hasil
0.5 BURUK
0.25 BURUK 0.455 BAIK
/faq.php
0.152
0.043
0.286 BURUK
/guestbook.php
0.326
0.174
0.533 BAIK
/home.php
0.043
0
/katalog.php
0.457
0.348
/lihatkeranjang.php
0.022
0
/mail.php /partner.php
0 BURUK 0.762 BAIK 0 BURUK
0
0
0 BURUK
0.196
0.065
0.333 BURUK
/preview.php
0.326
0.065
0.2 BAIK
/produk.php
0.522
0.283
0.542 BAIK
/profile.php
0.13
0.043
0.333 BURUK
/search.php
0.13
0.065
0.5 BURUK
/support.php
0.087
0.043
0.5 BURUK
/warning.php
0.196
0.065
0.333 BURUK
0
0
0 BURUK
/keranjang.php
Dari Tabel 3 terlihat ada 5 hyperlink dengan nilai evaluasi yang BAIK dan 15 hyperlink yang BURUK dari halaman sumber index.php. Selanjutnya hyperlink dengan nilai evaluasi BURUK akan dianalisis dan disusun strategi perbaikan. Nilai evaluasi level hyperlink (Eij) berkisar dari 0 hingga 1. Jika nilai Eij mendekati 1
11
berarti kemampuan navigasi hyperlink L(i,j) tersebut makin baik. Hasil evaluasi Eij bernilai BAIK jika E ij ≥ E 0 dan Rij ≥ R0 . Artinya presentasi dan penempatan lokasi hyperlink cukup baik ( E ij ≥ E 0 ), serta banyak
Tabel 4. Perbaikan struktur hyperlink website Carravelle [Halaman sumber (i): index.php] Halaman Akses (j)
Evaluasi Rij
Eij
Perbaikan Hasil
Modifikasi Hapus Link Link
pengunjung yang mengakses hyperlink tersebut ( Rij ≥ R0 ). Sebaliknya jika nilai Eij
/about.php
0.13
0.5 BURUK
X
/account.php
0.043
0.5 BURUK
X
lebih kecil dari E0 dan mendekati 0 maka kemampuan navigasi hyperlink L(i,j) tersebut makin buruk sehingga harus dilakukan langkah perbaikan.
/berita.php
0.174 0.375 BURUK
X
/beritadetail.php
0.109
0.4 BURUK
X
/contact.php
0.174
0.25 BURUK
X
/daftar.php
0.239 0.455 BAIK
/faq.php
0.152 0.286 BURUK
/guestbook.php
0.326 0.533 BAIK
/home.php
0.043
/katalog.php
0.457 0.762 BAIK
1. 3. Strategi Perbaikan Perbaikan dilakukan terhadap hyperlink dengan nilai evaluasi BURUK. Strategi perbaikan dianalisis berdasarkan nilai evaluasi (Eij ) dan pola ketertarikan pengunjung (Rij). Secara umum, mengetahui ketertarikan pengunjung bisa dilakukan secara eksplisit dengan cara menanyakan langsung pada pengunjung (survei), atau secara implisit melalui pengamatan pola akses pengunjung (Kim 2005). Indikator implisit diperoleh melalui proses web mining meliputi durasi atau lama waktu pengunjung berada pada suatu halaman (Granka et al. 2004), waktu dan frekuensi suatu halaman dikunjungi (Gunduz & Ozsu 2003). Indikator lain adalah frekuensi halaman disimpan atau dicetak (print), frekuensi download, frekuensi halaman/topik dikomentari, panjang pergerakan scroll pada browser, atau frekuensi produk yang dibeli pada ecommerce, atau pengembangan indikator lain berdasarkan kebutuhan pemilik web seperti tidak melanggar norma/aturan, spesifik dan sesuai dengan konteks website tersebut (Kim 2005). Pada penelitian ini, indikator untuk mengukur ketertarikan pengunjung difokuskan pada waktu kunjungan dan frekuensi kunjungan pada suatu halaman sesuai formulasi evaluasi hyperlink yang dikembangkan Zhou dan Chen (2002). Indikator ini dianggap lebih efisien dibanding indikator lain karena menghasilkan memori dan waktu komputasi yang relatif kecil. Hasil percobaan juga menunjukkan prediksi yang akurat (Gunduz & Ozsu 2003). Pada level hyperlink ada dua pilihan perbaikan struktur link yaitu memodifikasi hyperlink atau menghapus hyperlink tersebut. Contoh hasil rekomendasi perbaikan hyperlink terhadap Halaman Sumber (i) index.php dapat dilihat pada Tabel 4.
0 BURUK
X
X
X
/lihatkeranjang.php 0.022
0 BURUK
X
X
/mail.php
0 BURUK
X
X
0
/partner.php
0.196 0.333 BURUK
/preview.php
0.326
/produk.php
0.522 0.542 BAIK
X
0.2 BAIK
/profile.php
0.13 0.333 BURUK
X
/search.php
0.13
0.5 BURUK
X
/support.php
0.087
0.5 BURUK
X
/warning.php
0.196 0.333 BURUK
X
/keranjang.php
0
0 BURUK
X
X
Catt: x menandakan perbaikan yang direkomendasikan. Hasil perbaikan hyperlink pada Tabel 4 memperlihatkan terdapat 11 hyperlink yang direkomendasikan untuk dihapus dan 4 hyperlink lainnya direkomendasikan untuk dihapus atau dimodifikasi. Modifikasi hyperlink dilakukan terhadap hyperlink dengan nilai E ij < E 0 , artinya pengunjung yang mengakses halaman N i jarang menuju halaman N j melalui hyperlink
L(i, j ) karena hyperlink tersebut tidak cukup menarik bagi pengunjung. Hal yang mempengaruhi ketertarikan pengunjung pada kasus ini adalah desain dan visualisasi dari hyperlink. Kriteria visualisasi hyperlink yang baik di antaranya memiliki pewarnaan dan komposisi huruf standar menurut W3C, memiliki ikon, gambar atau efek animasi yang relevan, serta ditempatkan pada posisi yang mudah terlihat oleh pengunjung seperti pada bagian kiri dan atas suatu website. Modifikasi hyperlink dilakukan dengan mengubah visualisasi hyperlink dengan cara memberi efek animasi atau memindahkan lokasi hyperlink ke tempat yang lebih strategis sehingga hyperlink menjadi lebih atraktif dan
12
bisa memotivasi pengunjung untuk mengakses hyperlink tersebut. Sedangkan perbaikan dengan menghapus hyperlink, dilakukan terhadap hyperlink yang memiliki nilai Rij < R0 , artinya pengunjung yang mengakses halaman N i tidak tertarik mengakses hyperlink L(i, j ) yang menuju halaman N j . Ini menunjukkan kedua halaman tidak memiliki relevansi menurut pengunjung. Untuk itu pemilik web bisa menghapus hyperlink tersebut. Hal yang mempengaruhi relevansi antar halaman dari sudut pandang pengunjung pada kasus ini adalah pilihan kata-kata pada hyperlink yang terhubung ke suatu halaman. Pilihan kata pada hyperlink sebaiknya ringkas, umum, jelas dan memberikan informasi dasar tentang isi halaman yang dituju. Rekomendasi di atas menjadi pertimbangan dalam memperbaiki struktur link pada level hyperlink. Untuk kondisi tertentu keputusan untuk menghapus suatu hyperlink harus mempertimbangkan ketergantungan hyperlink tersebut dengan halaman yang lain. Hyperlink yang memiliki ketergantungan link dengan halaman lain tidak bisa langsung dihapus karena bisa mengakibatkan terputusnya navigasi ke halaman-halaman yang terhubung dengan hyperlink tersebut (Lampiran 13). Pemilik web juga bisa mempertahankan suatu hyperlink walau pun hasil evaluasi merekomendasikan untuk menghapus hyperlink tersebut. Hal ini terutama untuk hyperlink yang mengakses ke halaman atau layanan penting dan mutlak ada pada suatu website. 2. Evaluasi dan Perbaikan pada Level Halaman Web Untuk menghitung nilai evaluasi ( E i ) kemampuan navigasi suatu halaman web N i ke halaman N j digunakan formulasi Definisi 14, yaitu :
E (i) =
∑C
j ≠1, Rij ≥ R0
ij
/ µ , dengan Cij adalah
Convenience Degree yaitu tingkat kemudahan pengunjung mengakses halaman N j dari halaman
Ni .
Cij
menggambarkan
keterhubungan antar halaman dari sisi arsitektur link website (lihat Definisi 10). Sedangkan µ (mu) adalah jumlah link dari ke halaman N j yang halaman web N i
memiliki
nilai
Rij ≥ R0 ,
halaman memiliki pengunjung.
artinya
keterkaitan
dari
kedua sisi
2. 1. Implementasi Kode Formula proses evaluasi struktur link level halaman web diimplementasikan dalam prototipe sistem dengan algoritma sebagai berikut: WebPageEval(Ei) for setiap halaman Ni ∈ Node[G] read semua Cij if (Rij >= Ro) Ei = AVG (Cij) else Ei = 0 Hasil(WebPageEval) for setiap Ei if (Ei < E0) then Hasil Å BURUK else Hasil Å BAIK Pada proses ini nilai Cij dibaca dari setiap halaman web (Ni). Nilai evaluasi halaman (Ei) diperoleh dari rata-rata Cij yang memiliki nilai Rij ≥ R0. Fungsi untuk mencari nilai ratarata Cij pada pemrograman Microsoft Visual Basic ® versi 6 dinyatakan dengan AVG (Cij). Hasil evaluasi halaman web dikategorikan BAIK jika E i ≥ E 0 . Selainnya, hasil evaluasi halaman web dikategorikan BURUK. E0 diperoleh dari 1/Smax, dengan Smax adalah panjang path navigasi maksimum yang diikuti pengunjung pada satu kunjungan. 2. 2. Nilai Evaluasi Hasil evaluasi setiap halaman pada website Carravelle dapat dilihat pada Tabel 5 dimana web Carravelle memiliki 16 halaman dengan navigasi link yang BAIK dan 5 halaman memiliki navigasi link yang BURUK. Halaman dalam kategori BAIK berarti sebagian besar hyperlink pada halaman tersebut telah memenuhi kriteria hyperlink yang baik sebagaimana dijelaskan pada evaluasi struktur link untuk level hyperlink. Sebaliknya halaman-halaman dengan navigasi link yang BURUK mesti dilakukan langkah perbaikan pada hyperlink di halaman tersebut. Nilai evaluasi level halaman ( E i ) berkisar dari 0 hingga 1. Jika nilai Ei mendekati 1 berarti kemampuan navigasi setiap link yang ada pada halaman tersebut makin baik. Artinya berdasarkan struktur link yang ada
13
pada halaman tersebut, pengunjung mudah mengakses ke halaman lain dari halaman bersangkutan. Sebaliknya jika nilai Ei lebih kecil dari E 0 dan mendekati 0 maka kemampuan navigasi link pada halaman tersebut makin buruk, dimana pengunjung kesulitan mengakses ke halaman lain dari halaman tersebut sehingga struktur link pada halaman bersangkutan harus diperbaiki.
Tabel 6. Perbaikan halaman web [R0=0.208 Halaman Sumber(i): C0=0.091 home.php] Halaman Akses (j)
Halaman Web (i) /about.php /account.php /berita.php /beritadetail.php /contact.php /daftar.php /faq.php /guestbook.php /home.php /index.php /katalog.php /lihatkeranjang.php /mail.php /partner.php /preview.php /produk.php /profile.php /search.php /support.php /warning.php /keranjang.php
Nilai Evaluasi (Ei) 0.584 0 0.499 0 0.875 0.36 0.611 0.688 0.274 0.562 0.395 0 0.375 0.504 0 0.644 0.429 1 0.514 0.167 0
Hasil BAIK BURUK BAIK BURUK BAIK BAIK BAIK BAIK BAIK BAIK BAIK BURUK BAIK BAIK BURUK BAIK BAIK BAIK BAIK BAIK BURUK
2. 3. Strategi Perbaikan Karena nilai evaluasi halaman website merupakan rata-rata Convenience Degree, maka proses perbaikan halaman-halaman web harus mengkaji nilai Association Degree dan Convenience Degree untuk setiap pasangan link L(i, j ) halamannya. Jika Rij ≥ R0 , C ij < C 0 = 1 / s max atau link L(i, j ) belum ada, ini berarti pengunjung tidak mudah melakukan navigasi dari halaman N i ke halaman N j , maka perbaikan struktur link dilakukan dengan menambahkan sebuah link dari halaman N i ke N j . Hasil rekomendasi perbaikan struktur link untuk level halaman web dengan Halaman Sumber(i): home.php pada website Carravelle bisa dilihat pada Tabel 6.
Rij
Cij
Perbaikan Hasil
/about.php
0.667 0.333 BURUK
/account.php
0.333
1 BAIK
/berita.php
0.333
0 BURUK
0
0 BURUK
/beritadetail.php
Tabel 5. Hasil evaluasi terhadap halaman website Carravelle (E0 = 0.091)
Evaluasi
/contact.php
Tambahkan Link
X
0.667 0.111 BURUK
/daftar.php
0
/faq.php
0 BURUK
0.667 0.143 BURUK
/guestbook.php
0.667 0.125 BURUK
/home.php
0.333
0.5 BURUK
/katalog.php
0.333
0 BURUK
X
/lihatkeranjang.php
0.333
0 BURUK
X
0
0 BURUK
/mail.php /partner.php
0.333 0.167 BURUK
/preview.php
0.333
0 BURUK
/produk.php
0.667
1 BAIK
/profile.php
0.333
0.25 BURUK
/search.php
0
0 BURUK
/support.php
0.333
0.2 BURUK
/warning.php
0
0 BURUK
/keranjang.php
0
0 BURUK
X
Catt: x menandakan perbaikan yang direkomendasikan. Dari data di Tabel 6 tergambar bahwa pengunjung dari halaman home.php tertarik ( Rij ≥ R0 ) untuk mengunjungi halaman berita.php, katalog.php, lihatkeranjang.php dan preview.php. Tetapi struktur link yang ada menyulitkan pengunjung mengakses halaman bersangkutan secara langsung. Untuk itu strategi perbaikan navigasi link pada halaman home.php adalah menambahkan link langsung dari home.php ke halaman berita.php, katalog.php, lihatkeranjang.php dan preview.php. 3. Evaluasi dan Perbaikan pada Level Website Keseluruhan Untuk menghitung nilai evaluasi kemampuan navigasi website keseluruhan ( E ) digunakan formulasi pada Definisi 15, yaitu :
E=
∑
i ≠ j , Rij ≥ R0
n
Cij / t = ∑ E (i ) / n , i =1
merupakan rata-rata nilai evaluasi dari setiap halaman web.
14
Nilai E dengan
ini dibandingkan dengan E 0 ,
E 0 = 1 / s max ,
dan
s max adalah
panjang maksimum Navigation Path yang dicapai oleh pengunjung : 1. Jika
E ≥ E 0 = 1 / s max
maka
kemampuan navigasi website adalah BAIK. Artinya pengunjung bisa dengan mudah mengakses dari halaman mana saja pada website menuju ke halaman terkait ( Rij ≥ R0 ). 2. Jika
E < E0 = 1 / smax
maka
kemampuan navigasi website adalah BURUK. Artinya pengunjung tidak mudah mengakses dari semua halaman di website menuju halaman terkait ( Rij ≥ R0 ). 3. 1. Implementasi Kode Formula proses evaluasi struktur link level website keseluruhan diimplementasikan dalam prototipe sistem dengan algoritma sebagai berikut: WebsiteEval(E) for setiap halaman Node[G] read semua Ei E = AVG (Ei)
Ni
∈
Hasil(WebsiteEval) if (E >= E0) then Hasil Å BAIK else Hasil Å BURUK Pada proses evaluasi struktur link level website keseluruhan, sistem membaca nilai evaluasi (Ei) setiap halaman. Nilai evaluasi website keseluruhan (E) diperoleh dari ratarata nilai evaluasi setiap halaman, E = Ei/n, dengan n adalah jumlah halaman website. Fungsi untuk mencari nilai rata-rata pada pemrograman Microsoft Visual Basic ® versi 6 dinyatakan dengan AVG (Ei). Hasil evaluasi struktur link website adalah BAIK jika E >= E0. Sebaliknya jika E >= E0 maka hasil evaluasi struktur link website adalah BURUK. 3. 2. Nilai Evaluasi Hasil akhir evaluasi website Carravelle menunjukkan kemampuan navigasi website tersebut secara keseluruhan tergolong BAIK (nilai E =0.470 > E 0 =0.091). Begitu juga dengan website FEMA IPB menunjukkan
hasil evaluasi struktur link tergolong BAIK. Nilai evaluasi yang BAIK menunjukkan bahwa struktur link pada website tersebut secara keseluruhan telah memadai dan memudahkan pengunjung dalam menjelajahi isi website. Rangkuman hasil evaluasi struktur link website Carravelle dan FEMA IPB terlihat pada Tabel 7 dan Tabel 8. Tabel 7. Hasil evaluasi website Carravelle (α%=50% R0=0.208 E0=0.091 E=0.404 Struktur link BAIK) Variabel
Hasil
Jumlah halaman Link halaman yang BAIK Link halaman yang BURUK Tidak ada link Jumlah hyperlink Hyperlink yang BAIK Hyperlink yang BURUK
21 16 (76.2%) 5 (23.8%) 0 420 32 (7.6%) 388 (92.4%)
Tabel 8. Hasil evaluasi website FEMA IPB E0=0.083 (α%=50% R0=0.167 E=0.245 Struktur link BAIK) Variabel
Hasil
Jumlah halaman Link halaman yang BAIK Link halaman yang BURUK Tidak ada link Jumlah hyperlink Hyperlink yang BAIK Hyperlink yang BURUK
41 21 (51.2%) 20 (48.8%) 0 1640 58 (3.5%) 1582 (96.5%)
Website Carravelle dan FEMA IPB menunjukkan hasil evaluasi struktur link yang BAIK ( E ≥ E 0 = 1 / s max ) pada level website. Artinya pengunjung bisa mengakses dari halaman mana saja pada website menuju halaman yang diinginkan pengunjung ( Rij ≥ R0 ). 3. 3. Strategi Perbaikan Strategi perbaikan struktur link pada level website dilakukan dengan perbaikan link pada level hyperlink dan halaman web sebagaimana yang telah dibahas sebelumnya. Jika struktur link pada level hyperlink dan level halaman telah baik, maka otomatis struktur link keseluruhan website akan optimal. Proses evaluasi dan analisis perbaikan struktur link website dilakukan secara otomatis oleh sistem. Selanjutnya sistem mengirim laporan rekomendasi perbaikan struktur link kepada pemilik web melalui aplikasi email secara berkala sesuai dengan periode waktu yang dipilih seperti harian, bulanan, triwulan, semester dan tahunan.
15
Proses evaluasi dan perbaikan juga bisa dilakukan secara manual sesuai dengan kebutuhan pemilik web. Hal ini dikembangkan untuk menjaga proses evaluasi dan perbaikan struktur link dapat berlangsung lebih adaptif dan berkesinambungan.
5. Dapat mengetahui halaman yang sering diakses dan halaman yang jarang diakses pengunjung. Ini terlihat dari nilai vi
Kompleksitas Sistem Kompleksitas sistem bisa dilihat bagian program dan proses utama sistem. Pada proses preprocessing dan web mining (input data, filtering, transformsi data dan ekstraksi informasi) sistem mengolah setiap record data log web menjadi basis data sistem. Lama waktu pengolahan data ini bergantung pada banyak n data masukan (record) sehingga kompleksitasnya pada proses ini adalah O(n). Selanjutnya pada proses evaluasi hyperlink, evaluasi halaman dan perbaikan link, sistem melakukan dua kegiatan sekaligus yaitu menghitung nilai Rij dan E ij kemudian
6. Dapat menghitung peluang (probabilitas) diaksesnya suatu link pada halaman tertentu sehingga pendekatan ini bisa dikembangkan untuk membangun Sistem Rekomendasi Cerdas (Intelligent Recommender System).
membandingkan kedua nilai tersebut untuk setiap halaman web. Oleh karena itu kompleksitas pada proses ini adalah O(m2) dengan m adalah jumlah halaman web yang diolah. Proses evaluasi pada level website melakukan penjumlahan nilai evaluasi dari data yang telah ada sehingga proses sistem berlangsung konstan. Untuk proses ini kompleksitasnya adalah O(1). Jadi, kompleksitas total keseluruhan sistem adalah O(m2 + n). Kenggulan Sistem Setelah menganalisis semua proses dan output yang dihasilkan sistem maka proses evaluasi dan perbaikan struktur link website dengan pendekatan pada penelitian memiliki keunggulan sebagai berikut : 1. Mengatasi kerumitan dalam proses evaluasi dan perbaikan struktur link suatu website dengan membagi struktur link menjadi beberapa level struktur. 2. Hasil evaluasi dan perbaikan struktur link bisa diukur secara kuantitas dan sistematis. 3. Dapat memprediksi ketertarikan pengunjung terhadap suatu halaman berdasarkan nilai keterkaitan antar halaman web ( Rij ). Ini bermanfaat untuk memprediksi link favorit pada suatu halaman. 4. Dapat mengetahui tingkat kemudahan mengakses suatu halaman dari halaman lain ( Cij ).
(Access Session Number) menandakan jumlah EUAS mengakses halaman N i .
yang yang
Keterbatasan Sistem Beberapa keterbatasan yang dimiliki sistem dengan pendekatan pada penelitian ini, di antaranya : 1. Evaluasi dan perbaikan hanya bisa dilakukan terhadap link atau halaman yang telah dikunjungi pengunjung web. Sedangkan link yang belum diakses pengunjung tidak bisa diidentifikasi. 2. Tidak bisa membedakan aktivitas pengunjung pada suatu halaman. Misalnya apakah pengunjung benar-benar membaca informasi, memanfaatkan layanan pada halaman tersebut, atau pengunjung hanya melewati saja halaman tersebut. 3. Hasil evaluasi dan perbaikan struktur link bersifat periodik dan akan berubah sejalan dengan pola akses pengunjung pada data log yang baru. 4. Prototipe sistem belum terintegrasi dengan sistem website pada server sehingga proses perbaikan struktur link dilakukan secara manual oleh pemilik web.
KESIMPULAN DAN SARAN Kesimpulan Optimasi struktur link pada website dinamis dapat dilakukan melalui proses evaluasi dan perbaikan struktur link berbasis pendekatan web intelligence dengan memperhatikan pola perilaku akses pengunjung (user behavior). Struktur link dibagi menjadi tiga level yaitu hyperlink, halaman web dan website untuk mengurangi kerumitan dalam proses evaluasi dan perbaikan struktur link website secara keseluruhan. Pola perilaku akses pengunjung diekstraksi dari data log web melalui teknik web mining meliputi filtering, transformasi data dan
16
ekstraksi informasi. Hasil pengolahan web mining digunakan untuk mencari nilai evaluasi pada setiap level struktur link. Berdasarkan hasil evaluasi disusun strategi perbaikan pada struktur link. Pilihan strategi perbaikan struktur link meliputi modifikasi link, penghapusan link, dan penambahan link. Hasil penelitian menunjukkan bahwa sistem bisa melakukan proses evaluasi dan perbaikan struktur link pada website dinamis secara sistematis dan berkesinambungan. Sistem juga mengirimkan rekomendasi perbaikan struktur link kepada pemilik web secara otomatis dan periodik.
Granka LA, Joachims T, Gay G. 2004. Eyetracking Analysis of User Behavior in WWW Search. http:// www.cs.cornell.edu/People/tj/publications/ granka_etal_04a.pdf [30 Juni 2006].
Saran Prototipe sistem pada penelitian ini terpisah dengan sistem website yang menjadi objek penelitian sehingga keluaran penelitian terbatas pada rekomendasi perbaikan struktur link. Untuk itu penelitian selanjutnya dapat mengembangankan suatu sistem dengan pemrograman web agar bisa mengeksekusi rekomendasi perbaikan struktur link langsung pada struktur website sehingga proses perbaikan berjalan lebih cepat dan efektif. Pengembangan berikutnya adalah menciptakan suatu formulasi untuk mengetahui aktivitas pengunjung ketika mengakses suatu halaman. Hal ini bermanfaat dalam klasifikasi jenis pengunjung untuk membedakan pengunjung tertentu dengan pengunjung umum.
Larose D. 2005. Discovering Knowledge in Data. USA: Wiley-Interscience Publication.
DAFTAR PUSTAKA Cakrabarti S, Kleinberg J. 1999 . Mining the Link Structure of the World Wide Web. http://www.cs.cornell.edu/home/kleinber [2 Februari 2006]. Cormen T, Leiserson C, Rivest R. 2003. Introduction to Algorithms. Edisi Ke-2. USA: MIT Press. Etforecast. 2006. Worldwide Internet Users Top 1 Billion in 2005. http://www.etforecasts.com [30 Juni 2006]. Etzioni. 1996. The World Wide Web: Quagmire or Gold Mine? http://www.cs.washington.edu/homes/etzi oni/papers/cacm96.pdf [5 April 2006]. Gunduz S, Ozsu MT. 2003. A User Interest Model for Web Page Navigation. http://darwell.uwaterloo.ca/~ddbms/public ations/web/dmak03.pdf [30 Juni 2006].
Huysmans J, Beesens B, Vanthienen J. 2004. Web Usage Mining : A Practical Study. http://www.econ.kuleuven.ac.be/public/nd bae87/publications.htm [9 Februari 2006]. Kim HY. 2005. Learning Implicit User Interest Hierarchy for Web Personalization. http://www.cs.fit.edu/~tr/cs-2005-12.pdf [30 Juni 2006].
Marimin. 2002. Teori dan Aplikasi Sistem Pakar dalam Teknologi Manajerial. Bogor: IPB Press. McLeod R, Schell G. 2004. Sistem Informasi Manajemen. Edisi Bahasa Indonesia. Jakarta: PT INDEKS. Munir R. 2001. Matematika Diskrit. Bandung: Penerbit Informatika. Netcraft. 2006. June 2006 Web Server Survey. http://news.netcraft.com/archives/2006/06/ 06/june_2006_web_server_survey.html [30 Juni 2006]. Sommerville I. 2001. Software Engineering. Edisi Ke-2. USA: Addison Wesley Publisher Ltd. Sundarapperuma N. 2003. Creating Dynamic Web Pages Using JSP. http://www.cs.umd.edu/users/walid/fall20 03/cmsc4240101/proj_resources/CreatingJSP.pdf [12 Juni 2006]. [UNCTAD] United Nations Conference on Trade and Development. 2004. Development and Globalization: Fact and Figures. http://www.unctad.org/ecommerce [5 Juni 2006]. [UNCTAD] United Nations Conference on Trade and Development. 2004. ECommerce and Development Report 2004. http://www.unctad.org/ecommerce [5 Desember 2004]. [UNCTAD] United Nations Conference on Trade and Development. 2005. Information Economy Report 2005.
17
http://www.unctad.org/ecommerce Maret 2006].
[20
[W3C] World Wide Web Consortium. 1999. Web Characterization Terminology & Definitions Sheet. http://www.w3.org/1999/05/WCA-terms [12 Juni 2006]. [W3C] World Wide Web Consortium. 2004. Hypertext Transfer Protocol - HTTP/1.1. http://www.w3.org/Protocols/rfc2616/rfc2 616.html [12 Juni 2006]. [WIC] Web Intelligence Consortium. 2004. WIC Introduction. http://wiconsortium.org [10 Desember 2004]. Zhou B, Chen J. 2002. User Behavior Based Website Link Structure Evaluation and Improvement.. Proceedings of The IADIS WWW/Internet 2002 Conference; Lisabon, 13-15 Nov 2002. http://www.ntu.edu.sg/home5/ZHOU0016/ docs/WWW-Internet2002_zhouby.pdf [9 Februari 2006].
18
LAMPIRAN
19
Lampiran 1 Bidang-bidang penelitian pada Web Intelligence (WIC 2001)
Bidang Penelitian
Web Human Media Engineering:
Keterangan Seni desain halaman web, representasi informasi multimedia, proses informasi multimedia, visualisasi informasi web, dan Web berbasis Human Computer Interface.
Web Information Management:
Manajemen kualitas data, transformasi informasi, Internet dan web berbasis manajemen data, multidimensional basis data web dan OLAP (OnLine Analytical Processing), manajemen informasi multimedia, model data baru untuk web, manajemen informasi web berorientasi objek, personalisasi manajemen informasi, manajemen data semi terstruktur, penggunaan dan manajemen metadata, manajemen Web knowledge, automatisasi pembentukan dan update halaman web, keamanan web, integritas, privasi dan kepercayaan (trust).
Web Information Retrieval:
Approximate retrieval, ekstraksi informasi secara konseptual, temu kembali gambar, temu kembali informasi multi bahasa, temu kembali multimedia, model baru temu kembali, ontologi berbasis temu kembali informasi, automisasi katalog web dan pengindeksan.
Web Agents:
Web Mining and Farming:
Web Information System Environment and Foundations:
Web Based Applications:
Dinamisasi sumber informasi, proteksi email, email reply semi automatis, pengumpulan informasi global, proteksi informasi, pemandu navigasi (navigation guides), sistem rekomendasi (recommender), agen pengingat, mekanisme terbaik, mekanisme koordinasi sumber daya, Web berbasis pemecahan masalah koorperatif. Data mining dan knowledge discovery, analisis hypertext dan transformasi, pembelajaran profil user, data mining untuk multimedia, keteraturan akses web dan Internet, text mining, Web berbasis teknik ontologi, Web berbasis reverse engineering, Web farming, Web log mining, dan Web warehousing. Web dinamis dan kompetitif, teknologi web terkini, format dan dukungan komunitas jaringan, deskripsi informasi Web terbaru dan query languages, teori small world web, alat bantu pengembangan sistem informasi web, dan protokol web. Bisnis cerdas (Business intelligence), komputasional masyarakat dan pasar, sistem percakapan, customer relationship management (CRM), pengarahan pemasaran, e-commerce dan e-bisnis, perpustakaan digital, informasi perdagangan, information markets, dinamisasi harga dan algoritma penetapan harga, mengukur dan meneliti transaksi web, web berbasis sistem pendukung keputusan.
20
Lampiran 2 Format data log web tipe Extended Log Format (ELF) Format ELF terdiri atas : IP, Waktu akses, Tipe permintaan, Alamat konten (URL), Protokol, Status, Ukuran file, Referrer, Agent. Keterangan : 1. IP merupakan alamat IP pengunjung yang mengakses website. 2. Waktu akses, memuat data tanggal dan jam permintaan dilakukan pengunjung. 3. Tipe permintaan terbagi atas tiga kategori yaitu GET, POST, HEAD dan TRACE. 4. Alamat konten (URL) merupakan file atau dokumen yang sedang diakses oleh pengunjung. 5. Protokol memuat protokol yang digunakan oleh pengunjung. 6. Status merupakan kode respon oleh server terhadap permintaan pengunjung. Keterangan kode status data log (W3C, 2004) bisa dilihat sebagai berikut : Kode 2xx 3xx
Keterangan Permintaan sukses Terjadi pengalihan (redirection) 4xx Error pada pengunjung 5xx Error pada server Catt: x = 0,1,2,3, ..., 9 7. Ukuran file menandakan ukuran kapasitas konten yang diakses dalam satuan byte. 8. Referrer, merupakan halaman asal menuju konten yang sedang diakses. 9. Agent, berisi informasi browser yang digunakan pengunjung.
21
Lampiran 3 Halaman utama prototipe Sistem Optimasi Struktur Link Website
22
Lampiran 4 Tampilan halaman utama (a) dan struktur utama (b) website Carravelle
a). Halaman utama website Carravelle (http://www.carravelle.com) Halaman utama (index.php) contact.php
about.php
search.php
profile.php
katalog.php
support.php
partner.php
email.php
faq.php
daftar.php
guestbook.php
login.php
warning.php
berita.php home.php
produk.php beritadetail.php preview.php
account.php
lihatkeranjang.php
konfirmasi.php
b). Struktur utama website Carravelle
logout.php
23
Lampiran 5 Tampilan halaman utama (a) dan struktur utama (b) website FEMA IPB
a). Halaman utama website FEMA IPB versi Bahasa Inggris (http://fema.ipb.ac.id)
Halaman welcome (index.php)
Direktori utama (home.php)
index.php artikel.php berita.php forum.php galeri.php guestbook.php
bahasa.php
hasil_poll.php detail_artikel.php detail_berita.php forumdetail.php detail_galeri.php detail_pengumuman.php
donatur.php
dgm.php
kontak.php
ikk.php
search.php
b). Struktur utama website FEMA IPB
dkpm.php
24
Lampiran 6 Proses input dan konversi data log ke dalam database sistem
25
Lampiran 7 Contoh data hasil input dan konversi data log pada web Carravelle
ID
IP
132556
216.236.100.77
132577
216.236.100.77
132578
216.236.100.77
132580
216.236.100.77
132581
216.236.100.77
132582
216.236.100.77
132584
216.236.100.77
132585
216.236.100.77
132586
216.236.100.77
132587
216.236.100.77
132588
66.249.72.211
132589
66.249.72.211
132590
66.249.72.211
Tanggal
LogMentah Metode Link Akses
2/16/2006 12:35:27 PM 2/16/2006 12:40:58 PM 2/16/2006 12:41:20 PM 2/16/2006 12:41:48 PM 2/16/2006 12:41:55 PM
GET
2/16/2006 12:42:26 PM 2/16/2006 12:44:02 PM 2/16/2006 12:44:21 PM 2/16/2006 12:45:41 PM 2/16/2006 12:46:20 PM 2/16/2006 2:18:19 PM 2/16/2006 2:18:19 PM 2/16/2006 2:18:19 PM
GET
Status
Ukuran
Link Sumber
200
GET
/desain/depan.jp g /home.php
GET
/account.php
200
GET
/produk.php
200
GET
/preview.php?im g=CRV110.jpg&kode= CRV-110 /berita.php
200
200
GET
/lihatkeranjang.p hp /guestbook.php
GET
/contact.php
200
GET
/about.php
200
GET
/robots.txt
404
GET
/mail.php
200
8109
-
GET
/
200
12165
-
GET
200
200
200
6391 http://www.carravelle.com / 7696 http://www.carravelle.com /daftar.php? 9021 http://www.carravelle.com /home.php 13135 http://www.carravelle.com /home.php 2761 -
9256 http://www.carravelle.com /produk.php 7582 http://www.carravelle.com /faq.php 10443 http://www.carravelle.com /faq.php 8590 http://www.carravelle.com /guestbook.php 8528 http://www.carravelle.com /contact.php 0 -
26
Lampiran 8 Contoh data hasil filtering data log pada web Carravelle
LogFilter ID
IP
112839 61.94.79.6 112840 61.94.79.6 112842 61.94.79.6
Tanggal Metode Link Akses Status 2/22/2006 GET 7:57:14 AM 2/22/2006 GET 7:57:32 AM 2/22/2006 GET 7:58:03 AM
112843 61.94.79.6
2/22/2006 GET 7:58:09 AM
112844 61.94.79.6
2/22/2006 GET 8:00:11 AM
112845 61.94.79.6
2/22/2006 GET 8:00:43 AM
112848 61.94.79.6
2/22/2006 GET 8:02:55 AM
112851 61.94.79.6
2/22/2006 GET 8:04:38 AM
/warning.php
200
/daftar.php
200
/index.php?stat us=userfail&us er=username /produk.php
200
/produk.php?P HPSESSID=79 5119c4e23fcfcf 51bc9b7fe270f b4d /preview.php?i mg=CRV110.jpg&kode= CRV-110 /preview.php?i mg=CRV292.jpg&kode= CRV-292 /produk.php?Je nis=Tas
200
200
Ukuran
0 http://www.carravelle.com/i ndex.php?PHPSESSID=79 5119c4e23fcfcf51bc9b7fe2 70fb4d 13309 http://cc.msnscache.com/ca che.aspx?q=284782416858 2 =en-US&mkt=enUS&FORM=CVRE3
200
2773 -
200
2767 -
200
Link Sumber
1082 http://www.carravelle.com/ produk.php 9408 http://www.carravelle.com/ warning.php 11215 http://www.carravelle.com/ daftar.php
14889 http://www.carravelle.com/ produk.php?PHPSESSID=7 95119c4e23fcfcf51bc9b7fe 270fb4d
27
Lampiran 9 Contoh data hasil transformasi (prepocessing) data log pada web Carravelle
LogTransformasi ID
IP
37272 216.236.100.77 37273 216.236.100.77 37274 216.236.100.77 37275 216.236.100.77 37276 216.236.100.77 37277 216.236.100.77 37278 216.236.100.77 37279 216.236.100.77 37280 216.236.100.77 37281 216.236.100.77 37282 216.236.100.77 37283 66.249.72.211 37284 66.249.72.211 37285 207.46.98.146 37286 207.46.98.146 37287 207.46.98.146 37288 202.138.112.252 37289 198.54.202.226 37290 24.239.153.192 37291 24.239.153.192 37292 24.239.153.192
Tanggal 2/16/2006 12:40:58 PM 2/16/2006 12:41:20 PM 2/16/2006 12:41:28 PM 2/16/2006 12:41:48 PM 2/16/2006 12:41:55 PM 2/16/2006 12:42:26 PM 2/16/2006 12:42:40 PM 2/16/2006 12:44:02 PM 2/16/2006 12:44:21 PM 2/16/2006 12:45:41 PM 2/16/2006 12:46:20 PM 2/16/2006 2:18:19 PM 2/16/2006 2:18:19 PM 2/17/2006 9:06:04 AM 2/17/2006 9:06:05 AM 2/17/2006 9:19:32 AM 2/17/2006 5:10:25 PM 2/18/2006 12:26:17 PM 2/18/2006 2:33:18 PM 2/18/2006 2:33:21 PM 2/18/2006 2:34:50 PM
Metode Link Akses (i) Status Ukuran Link Sumber (j) GET GET GET GET GET GET GET GET GET GET GET GET GET GET GET GET GET GET GET GET GET
/home.php /account.php /katalog.php /produk.php /preview.php /berita.php /faq.php /lihatkeranjang.php /guestbook.php /contact.php /about.php /mail.php /index.php /katalog.php /search.php /warning.php /index.php /index.php /guestbook.php /guestbook.php /guestbook.php
200 200 200 200 200 200 200 200 200 200 200 200 200 200 200 200 200 200 200 200 200
7696 /daftar.php 9021 /home.php 6450 /account.php 13135 /home.php 2761 9256 /produk.php 12719 /berita.php 7582 /faq.php 10443 /faq.php 8590 /guestbook.php 8528 /contact.php 8109 12165 7308 8276 1070 12165 12165 11666 11685 /guestbook.php 12621 -
28
Lampiran 10 Contoh data User Access Session (UAS) dan Enhanced User Access Session (EUAS) untuk web Carravelle
EUAS ID
IP
102265 212.165.175.27 102266 212.165.175.27 106698 216.236.100.77 106699 216.236.100.77 106700 216.236.100.77 106702 216.236.100.77 106703 216.236.100.77 106704 216.236.100.77 106705 216.236.100.77 106706 216.236.100.77 106707 216.236.100.77 106708 216.236.100.77 106709 216.236.100.77 106710 216.236.100.77 106711 216.236.100.77 106712 216.236.100.77 106713 216.236.100.77 106714 216.236.100.77 106715 216.236.98.196 106716 216.236.98.196 106717 216.236.98.196 106718 216.236.98.196 106723 216.236.98.196 106741 218.85.177.231
Tanggal 2/21/2006 12:10:38 PM 2/21/2006 12:11:52 PM 2/16/2006 12:35:04 PM 2/16/2006 12:35:48 PM 2/16/2006 12:37:21 PM 2/16/2006 12:38:05 PM 2/16/2006 12:38:11 PM 2/16/2006 12:40:58 PM 2/16/2006 12:41:20 PM 2/16/2006 12:41:28 PM 2/16/2006 12:41:48 PM 2/16/2006 12:41:55 PM 2/16/2006 12:42:26 PM 2/16/2006 12:42:40 PM 2/16/2006 12:44:02 PM 2/16/2006 12:44:21 PM 2/16/2006 12:45:41 PM 2/16/2006 12:46:20 PM 3/19/2006 9:48:42 AM 3/19/2006 9:49:46 AM 3/19/2006 9:50:32 AM 3/19/2006 9:51:11 AM 3/19/2006 10:01:07 AM 3/22/2006 10:40:05 AM
UAS/EUAS Halaman Akses (i) Halaman Sumber (j) 226 226 256 256 256 256 256 256 256 256 256 256 256 256 256 256 256 256 257 257 257 257 257 264
/berita.php /katalog.php /index.php /katalog.php /produk.php /warning.php /daftar.php /home.php /account.php /katalog.php /produk.php /preview.php /berita.php /faq.php /lihatkeranjang.php /guestbook.php /contact.php /about.php /berita.php /about.php /berita.php /produk.php /produk.php /index.php
/daftar.php /berita.php /index.php /index.php /produk.php /warning.php /daftar.php /home.php /account.php /home.php /produk.php /berita.php /faq.php /faq.php /guestbook.php /contact.php /berita.php /about.php /berita.php /guestbook.php
29
Lampiran 11 Contoh data User Navigation Tree pada web Carravelle
NavigationTree ID EUAS 4995 221 4996 221 4997 221 4998 221 4999 221 5000 221 5001 221 5002 221 5003 221 5004 221 5005 221 5006 221 5015 221 5016 221 5017 221 5018 226 5019 226 5020 226 5021 226 5022 226 5023 226 5029 226 5030 226 5031 226 5032 226 5033 226 5034 226 5037 256 5038 256 5039 256 5040 256 5041 256 5042 256 5043 256 5044 256 5045 256 5046 256 5053 256 5054 256 5055 256 5056 256 5057 256
Path 1 1 1 1 2 2 2 2 3 3 3 3 4 4 4 1 1 1 1 1 1 2 2 2 2 2 2 1 1 1 2 2 2 2 2 2 2 3 3 3 3 3
Node /contact.php /index.php /search.php /contact.php /index.php /support.php /contact.php /index.php /partner.php /contact.php /guestbook.php /index.php /katalog.php /partner.php /berita.php /beritadetail.php /index.php /katalog.php /produk.php /warning.php /daftar.php /index.php /katalog.php /index.php /produk.php /warning.php /daftar.php /home.php /account.php /index.php /produk.php /berita.php /faq.php
Panjang Path 3 3 3 3 3 3 3 3 3 3 3 3 2 2 2 5 5 5 5 5 5 5 5 5 5 5 5 2 2 2 6 6 6 6 6 6 6 5 5 5 5 5
30
Lampiran 12 Algoritma Depth-First Search (DFS) menurut Cormen et al. (2003) DFS 1 2 3 4 5 6 7
(G) for setiap vertex u ∈ V[G] do color[u] ← WHITE π [u] Å NIL time Å 0 for setiap vertex u ∈ V[G] do if color[u] = WHITE then DFS-Visit(u)
DFS-Visit(u) 1 color[u] ← GRAY 2 time Å time + 1 3 d[u] Å time 4 for setiap ν ∈ Adj[u] 5 do if color[ν] = WHITE 6 then π [ν] Å u 7 DFS-Visit(ν) 8 color[u] ← BLACK 9 f[u] Å time Å time + 1
31
Lampiran 13 Contoh data rekomendasi perbaikan link pada web Carravelle
Perbaikan Halaman Halaman Akses Sumber (i) (j) /katalog.php /about.php /katalog.php /account.php /katalog.php /berita.php
0.125 0 0.083
0.25 0 0.5
/katalog.php /beritadetail.php /katalog.php /contact.php /katalog.php /daftar.php /katalog.php /faq.php /katalog.php /guestbook.php /katalog.php /home.php
0.083 0.167 0.125 0.083 0.125 0.083
0.333 0.158 0.4 0.167 0.143 0.5
/katalog.php /index.php /katalog.php /lihatkeranjang.php /katalog.php /mail.php /katalog.php /partner.php /katalog.php /preview.php /katalog.php /produk.php /katalog.php /profile.php /katalog.php /search.php /katalog.php /support.php /katalog.php /warning.php /katalog.php /keranjang.php
0.333 0 0.042 0.167 0.208 0.583 0.125 0.083 0.042 0.083 0
0.4 0 1 0.273 0 0.786 0.286 0.5 0.167 0.5 0
Rij
Cij
Evaluasi Modifikasi Hapus Tambahkan Wij Hasil Keterangan (Eij) Link Link Link 0 0 BURUK X X 0 0 BURUK X X 0 0 BURUK X X* *Link ini tidak bisa dihapus karena ada node yang tergantung padanya yaitu: /beritadetail.php 0 0 BURUK X X 0 0 BURUK X X 0 0 BURUK X X 0 0 BURUK X X 0 0 BURUK X X 0.042 0.5 BURUK X* *Link ini tidak bisa dihapus karena ada node yang tergantung padanya yaitu: /account.php, /lihatkeranjang.php 0 0 BURUK X 0 0 BURUK X X 0.042 1 BURUK X 0.042 0.25 BURUK X 0 0 BURUK X X 0.375 0.643 BAIK 0 0 BURUK X X 0 0 BURUK X X 0 0 BURUK X X 0 0 BURUK X X 0 0 BURUK X X
Keterangan: X* menandakan link tidak bisa langsung dihapus karena terdapat node (halaman web) yang memiliki ketergantungan navigasi dengan link tersebut.