UNIVERSITAS INDONESIA
PENGEMBANGAN PROGRAM PENYARINGAN DATA WEBLOG UNTUK ANALISIS POLA AKSES PENGUNJUNG WEBSERVER
TESIS
BENNY NIXON 0806424245
FAKULTAS TEKNIK PROGRAM STUDI TEKNIK ELEKTRO DEPOK JULI 2010
Pengembangan program..., Benny Nixon, FT UI, 2010.
UNIVERSITAS INDONESIA
PENGEMBANGAN PROGRAM PENYARINGAN DATA WEBLOG UNTUK ANALISIS POLA AKSES PENGUNJUNG WEBSERVER
TESIS Diajukan sebagai salah satu syarat untuk memperoleh gelar Magister Teknik
BENNY NIXON 0806424245
FAKULTAS TEKNIK PROGRAM STUDI TEKNIK ELEKTRO KEKHUSUSAN JARINGAN INFORMASI DAN MULTIMEDIA DEPOK JULI 2010
Pengembangan program..., Benny Nixon, FT UI, 2010.
Pengembangan program..., Benny Nixon, FT UI, 2010.
Pengembangan program..., Benny Nixon, FT UI, 2010.
Pengembangan program..., Benny Nixon, FT UI, 2010.
UCAPAN TERIMA KASIH Puji syukur saya panjatkan kepada Tuhan Yang Maha Esa, karena atas berkat dan rahmat-Nya, saya dapat menyelesaikan tesis ini. Penulisan tesis ini dilakukan dalam rangka memenuhi salah satu syarat untuk mencapai gelar Magister Teknik Jurusan Teknik Elektro pada Fakultas Teknik Universitas Indonesia. Saya menyadari bahwa, tanpa bantuan dan bimbingan dari berbagai pihak, dari masa perkuliahan sampai pada penyusunan tesis ini, sangatlah sulit bagi saya untuk menyelesaikan tesis ini. Oleh karena itu, saya mengucapkan terima kasih kepada : (1) Prof. Dr. Ir. Bagio Budiardjo, MSc., selaku dosen pembimbing yang telah menyediakan waktu, tenaga, dan pikiran untuk mengarahkan saya dalam penyusunan tesis ini; (2) Muhammad Salman S.T., MIT, yang telah menyediakan waktu, tenaga, dan pikiran untuk membantu mengarahkan saya dalam penyusunan tesis ini; (3) Segenap dosen pada Program Studi Teknik Elektro Kekhususan Multimedia dan Jaringan Informasi Program Pasca Sarjana Universitas Indonesia; (4) Segenap Pimpinan Politeknik Negeri Jakarta yang telah yang telah memberikan kesempatan dan ijin menempuh pendidikan pasca sarjana di Universitas Indonesia; (5) Orang tua, Kakak, Adik, istri dan anakku tercinta yang telah memberikan dukungan dan semangat; (6) Segenap rekan-rekan di Jurusan Teknik Elektro – Politeknik Negeri Jakarta yang telah memberikan dukungan dan motivasi; dan (7) Rekan-rekan mahasiswa Program Studi Teknik Elektro Kekhususan Multimedia dan Jaringan Informasi Program Pasca Sarjana Universitas Indonesia.
Akhir kata, saya berharap Tuhan Yang Maha Esa berkenan membalas segala kebaikan semua pihak yang telah membantu. Semoga tesis ini membawa manfaat bagi pengembangan ilmu di masa mendatang.
Depok,
Juli 2010
Penulis
v Pengembangan program..., Benny Nixon, FT UI, 2010.
ABSTRAK
Nama : Program Studi : Judul :
Benny Nixon Teknik Elektro Pengembangan Program Penyaringan Data Web Log untuk Analisis Pola Akses Pengunjung Web Server
Pengunjung website dapat berinteraksi dengan web server melalui serangkaian permintaan yang disediakan oleh website. Semua aktifitas pengunjung web server akan tercatat di dalam web log. Web log dan webalizer pada webserver www.pnj.ac.id merupakan sumber data yang dipergunakan untuk proses analisis pola akses pengunjung website. Makalah ini membahas tentang perancangan program penyaringan data menggunakan bahasa pemrograman berbasis web (PHP) dan analisis data weblog. Hasil perancangan program antara lain : User access pattern pada tiap halaman website sebagian besar dilakukan dengan cara direct request yaitu sebesar 305.379 hit (69,81%), Browser yang banyak dipergunakan adalah browser Mozilla, dan Behaviour user pattern berdasarkan waktu akses, halaman favorit dan kapasitas file (Kbytes) terjadi pada jam 10.00, 14.00 dan 19.00. Hasil ini dipergunakan oleh administrator website untuk perbaikan kinerja website. Kata kunci : Web Server, Web log, Pola Akses
ABSTRACT
Name : Study Program : Title :
Benny Nixon Teknik Elektro Development Screening Program Web Log Data for the analysis of Web Server Visitor Access Patterns.
Visitors can interact with the web server through a series of requests provided by the website. All of the visitors' activities will be listed on a web server in the web log. Web logs and Webalizer on www.pnj.ac.id webserver is a source of data used for the analysis of website visitor access patterns. This thesis discusses the planning of screening programs using data program web-based language (PHP) and data analysis of weblogs.The results of the program design include: User access patterns on each page of the website are mostly done by way of direct request is equal to 305.379 hits (69.81%), it used for many Mozilla browsers, and Behavior patterns based on time of access, favorite pages and capacity of the file (Kbytes) occured 10:00 hours, 14:00 and 19:00. These results are Used by the administrators of the website for improved performance. Keywords: Web Server, Web logs, Pattern Access
vi
Universitas Indonesia
Pengembangan program..., Benny Nixon, FT UI, 2010.
DAFTAR ISI
HALAMAN JUDUL ……………………………………………........................ HALAMAN PERNYATAAN ORISINALITAS .................................................. HALAMAN PENGESAHAN ............................................................................... UCAPAN TERIMA KASIH ............................................................................... HALAMAN PERSETUJUAN PUBLIKASI KARYA ILMIAH ......................... ABSTRAK ............................................................................................................ ABSTRACT .......................................................................................................... DAFTAR ISI ........................................................................................................ DAFTAR TABEL .................................................................................................. DAFTAR GAMBAR ........................................................................................... DAFTAR LAMPIRAN ........................................................................................ I
i ii iii iv v vi vi vii ix x xii
PENDAHULUAN .......................................................................................... 1.1. Latar Belakang ....................................................................................... 1.2. Perumusan Masalah................................................................................ 1.3. Tujuan Penelitian.................................................................................... 1.4. Manfaat Penelitian ................................................................................. 1.5. Metodologi Penyelesaian Masalah ........................................................ 1.6. Sistematika Penulisan.............................................................................
1 1 2 2 3 3 4
II TINJAUAN PUSTAKA ................................................................................. 2.1. Sejarah Internet ...................................................................................... 2.2. Web Server ............................................................................................. 2.3. Memonitor Aktifitas Web Server ........................................................... 2.4. Web log .................................................................................................. 2.5. Common Log Format (CLF) ................................................................. 2.6. Combined Log Format .......................................................................... 2.7. IP Address ............................................................................................. 2.8. Authuser ................................................................................................ 2.9. Request Method .................................................................................... 2.10. Definisi Kode Status (Status Code) ...................................................... 2.10.1. Informational .......................................................................... 2.10.2. Successful ............................................................................... 2.10.3. Redirection ............................................................................. 2.10.4. Client Error ............................................................................ 2.10.5. Server Error ........................................................................... 2.11. Web Browser ....................................................................................... 2.12. Pola Akses Pengunjung Website ..........................................................
5 5 7 9 10 10 11 11 12 12 13 13 13 14 15 17 18 18
III IDENTIFIKASI DAN KLASIFIKASI WEB LOG …………………….. 3.1. Struktur Web log …………………………………………………….. 3.2. Tahapan Persiapan Analisis Data Akses Web Server .......................... 3.2.1. Raw Web Log Data ................................................................ 3.2.2. Data Cleaning ........................................................................ 3.2.3. Identifikasi User ....................................................................
19 19 20 20 21 21
vii
Universitas Indonesia
Pengembangan program..., Benny Nixon, FT UI, 2010.
3.2.4. Identifikasi Session ................................................................ 3.2.5. Database of clean log ............................................................ 3.3. Perancangan Program Aplikasi untuk Data Cleaning ......................... 3.3.1. Tampilan Awal Program Aplikasi untuk Data Cleaning ...... 3.3.2. Data Cleaning ........................................................................ 3.3.3. Jumlah Pengunjung Berdasarkan IP Address ........................ 3.3.4. Frekuensi Akses berdasarkan Halaman yang dikunjungi ...... 3.3.5. Kode Status yang terjadi pada saat Mengakses Halaman Website .................................................................................. 3.3.6. Kapasitas File yang dikunjungi ............................................. 3.3.7. Frekuensi Akses Berdasarkan Rujukan (Referrer) ............... 3.3.8. Frekuensi Akses Berdasarkan Penggunaan User Agent (Browser) .............................................................................. 3.4. Tahapan Proses Analisis Pola Akses Pengunjung Web Server ........... 3.5. Mengamati Web log menggunakan Software Webalizer ...................
21 22 22 23 24 26 27
IV ANALISIS WEBLOG DAN DATA WEBALIZER ……………………. 4.1. Data pada web server www.pnj.ac.id ................................................. 4.2. Analisis Data Web Log Politeknik Negeri Jakarta ............................. 4.2.1. Jumlah Pengunjung ............................................................. 4.2.2. Jumlah Halaman yang dikunjungi ....................................... 4.2.3. Kode Status yang terjadi pada saat mengakses halaman website .................................................................................. 4.2.4. Kapasitas File yang diakses .................................................. 4.2.5. Halaman Rujukan (Referrer) ................................................ 4.2.6. Browser yang banyak dipergunakan oleh user ..................... 4.3. Data akses website www.pnj.ac.id pada webalizer .............................. 4.3.1. Jumlah hit Pengunjung .......................................................... 4.3.2. Jumlah Halaman yang dikunjungi ........................................ 4.3.3. Kapasitas File yang diakses .................................................. 4.3.4. Kode Status yang terjadi pada saat mengakses web page ..... 4.3.5. Browser yang banyak dipergunakan oleh user ...................... 4.3.6. Pola Akses User pada tiap Halaman Website ........................ 4.3.7. Pola Tingkah Laku User dalam Mengakses Halaman Website ..................................................................................
37 37 39 40 41
V PENUTUP …................................………………………………………….
29 30 31 33 35 36
42 43 44 45 46 46 48 49 50 51 52 54 59
DAFTAR REFERENSI ……………………………………………………….. 61 LAMPIRAN .....................………………………………………………………. 63
viii
Universitas Indonesia
Pengembangan program..., Benny Nixon, FT UI, 2010.
DAFTAR TABEL
Tabel 4.1. Statistik Harian pada Bulan Maret 2010 ...........................................
38
Tabel 4.2. Jumlah Pengunjung berdasarkan IP Address ....................................
40
Tabel 4.3. Frekuensi Akses Halaman yang dikunjungi ......................................
41
Tabel 4.4. Kode Status yang terjadi pada saat mengakses website ....................
42
Tabel 4.5. Kapasitas File yang diakses ..............................................................
44
Tabel 4.6. Frekuensi Akses berdasarkan Rujukan (referrer) .............................
45
Tabel 4.7. Browser (User Agent) yang digunakan Pengunjung .........................
46
Tabel 4.8. Jumlah Hit Pengunjung .....................................................................
47
Tabel 4.9. Jumlah Pengunjung ...........................................................................
47
Tabel 4.10. Jumlah Halaman yang dikunjungi ..................................................... 48 Tabel 4.11. Jumlah File yang diakses Pengunjung ..............................................
49
Tabel 4.12. Kapasitas File yang diakses Pengunjung ..........................................
50
Tabel 4.13. Kode Status yang terjadi saat mengakses halaman web page ...........
50
Tabel 4.14. Total Unique User Agents .................................................................
51
Tabel 4.15. Frekuensi Akses berdasarkan Penggunaan User Agent ....................
52
Tabel 4.16. Total Unique Referrer .......................................................................
53
Tabel 4.17. Frekuensi Akses berdasarkan Rujukan (referrer) .............................
54
Tabel 4.18. Frekuensi Akses berdasarkan Search String .....................................
54
Tabel 4.19. Frekuensi Akses berdasarkan Waktu ................................................
55
Tabel 4.20. Frekuensi Akses berdasarkan Halaman Website ...............................
56
Tabel 4.21. Frekuensi Akses berdasarkan Kapasitas File (Kbytes) ...................... 58
ix
Universitas Indonesia
Pengembangan program..., Benny Nixon, FT UI, 2010.
DAFTAR GAMBAR
Gambar 2.1. Proses client mengakses halaman website ....................................
8
Gambar 2.2. Format IP Address versi 4 ............................................................. 12 Gambar 2.3. Format IP Address versi 6 ............................................................. 12 Gambar 3.1. Proses penyiapan data web log .....................................................
20
Gambar 3.2. Nilai default untuk lama waktu session pada webserver Apache .. 22 Gambar 3.3. Memasukkan data web log ke dalam Database MySQL ............... 22 Gambar 3.4. Tampilan Awal Program Aplikasi untuk Data Cleaning ............... 23 Gambar 3.5. Menyimpan Data dalam Format .csv ............................................. 23 Gambar 3.6. Tabel Weblog pada Database MySQL ........................................... 24 Gambar 3.7. Flowchart Data Cleaning ............................................................... 25 Gambar 3.8. Tampilan Program Hasil Proses Data Cleaning ............................. 25 Gambar 3.9. Flowchart Jumlah Pengunjung Berdasarkan IP Address ............... 26 Gambar 3.10. Tampilan Program Jumlah Pengunjung Berdasarkan IP Address.. 27 Gambar 3.11. Flowchart Frekuensi Akses berdasarkan Halaman yang Dikunjungi ..................................................................................... 28 Gambar 3.12. Tampilan Program Frekuensi Akses berdasarkan Halaman yang Dikunjungi .................................. .................................................. 28 Gambar 3.13. Flowchart Frekuensi Kode Status yang terjadi .............................. 29 Gambar 3.14. Tampilan Program Kode Status yang terjadi ................................. 30 Gambar 3.15. Flowchart Kapasitas File yang Dikunjungi ................................... 32 Gambar 3.16. Tampilan Program Kapasitas File yang Dikunjungi ...................... 32 Gambar 3.17. Flowchart Frekuensi Akses berdasarkan Rujukan (Referrer) ........ 32 Gambar 3.18. Tampilan Program Frekuensi Akses berdasarkan Rujukan (Referrer) ........................................................................................ 33 Gambar 3.19. Flowchart Frekuensi Akses berdasarkan Penggunaan User Agent (Browser) ....................................................................................... 34 Gambar 3.20. Tampilan Program Frekuensi Frekuensi Akses berdasarkan Penggunaan User Agent (Browser) ............................................... 34 Gambar 3.21. Webalizer logs ............................................................................... 36 Gambar 4.1. Data Web log pada tanggal 22 Maret 2010 ................................... 37 Gambar 4.2. Statistik Harian pada Bulan Maret 2010 ....................................... 39 Gambar 4.3. Hasil Proses Penyaringan Data Web Log ...................................... 40 Gambar 4.4. Statistik Jumlah Pengunjung Berdasarkan IP Address ................. 41
x
Universitas Indonesia
Pengembangan program..., Benny Nixon, FT UI, 2010.
Gambar 4.5. Statistik Halaman yang dikunjungi ............................................... 42 Gambar 4.6. Statistik Kode Status yang terjadi pada saat mengakses website .. 43 Gambar 4.7. Statistik Kapasitas File yang diakses ............................................. 44 Gambar 4.8. Statistik Frekuensi Akses berdasarkan Rujukan (referrer) ............ 45 Gambar 4.9. Statistik Jumlah Hit Pengunjung ................................................... 47 Gambar 4.10. Statistik Jumlah Pengunjung ......................................................... 48 Gambar 4.11. Statistik Jumlah halaman yang dikunjungi .................................... 48 Gambar 4.12. Statistik Jumlah File yang diakses Pengunjung ............................ 49 Gambar 4.13. Statistik Kapasitas File yang diakses pengunjung ........................ 50 Gambar 4.14. Statistik Frekuensi Akses berdasarkan Penggunaan User Agent .. 51 Gambar 4.15. Statistik Total Unique Referrer ..................................................... 53 Gambar 4.16. Statistik Frekuensi Akses Rata-Rata berdasarkan Waktu ............. 56 Gambar 4.17. Statistik Frekuensi Akses berdasarkan Halaman Website ............. 57 Gambar 4.18. Statistik Frekuensi Akses berdasarkan Kapasitas File (Kbyte) ..... 58
xi Pengembangan program..., Benny Nixon, FT UI, 2010.
DAFTAR LAMPIRAN
Lampiran 1.
Statistik Bulan Januari 2010 .........................................................
63
Lampiran 2.
Statistik Bulan Februari 2010 .......................................................
64
Lampiran 3.
Statistik Bulan Maret 2010 ...........................................................
65
Lampiran 4.
Statistik Bulan April 2010 ............................................................
66
Lampiran 5.
Statistik Bulan Mei 2010 ..............................................................
67
Lampiran 6.
Statistik Bulan Juni 2010 ..............................................................
68
xii
Universitas Indonesia
Pengembangan program..., Benny Nixon, FT UI, 2010.