KATA PENGANTAR
Alhamdulillah, puji dan syukur penulis panjatkan kehadirat Allah SWT karena dengan rahmat-Nya tugas akhir yang berjudul “Kombinasi Algoritma Agglomeratice Clustering dan K-Means Untuk Segmentasi Pengunjung Website”
dapat diselesaikan. Penyusunan tugas akhir ini merupakan salah satu syarat untuk menyelesaikan program studi pendidikan sarjana dan memperoleh gelar Sarjana Komputasi (S.Kom.) di Fakultas Informatika Telkom University. Penulis menyadari bahwa dalam penulisan tugas akhir ini masih terdapat kekurangan yang disebabkan oleh keterbatasan yang dimiliki. Oleh karena itu, kritik dan saran yang bersifat membangun sangat diharapkan untuk memperbaiki tugas akhir ini. Kritik maupun
saran
dapat
dikirimkan
ke
email
penulis
yaitu
[email protected] Akhir kata, dengan segenap kerendahan hati memohon maaf apabila terjadi kesalahan baik disengaja atau yang tidak disengaja dan semoga tugas akhir ini dapat dikembangkan lebih lanjut. Penulis juga berharap tugas akhir
ini
bermanfaat bagi penulis sendiri dan bagi pembaca, khususnya bagi dunia pendidikan pada umumnya.
vi
UCAPAN TERIMAKASIH Pada kesempatan ini penulis ingin menyampaikan terima kasih yang sebesar-besarnya kepada semua pihak yang telah memberikan bantuan, dukungan, dan doa dalam menyelesaikan tugas akhir ini, diantaranya : 1. Allah SWT atas rahmat dan karunia-Nya sehingga penulis dapat menyelesaikan tugas akhir ini. 2. Rasulullah SAW atas perjuangan beliau untuk umatnya. 3. Kedua Orangtuaku, Serda Tumiran dan Dra. Yuni Untorowati yang selalu memberikan yang selalu memberi motivasi, nasehat, dorongan, semangat, dan doa. Adek saya, Diah Anggarini Kartika Putri, serta saya kekasih Risda Monitawati yang selalu memberi semangat, sehingga tugas akhir ini dapat diselesaikan,. 4. Ibu Indwiarti M.Si, selaku pembimbing I yang selalu memberikan waktu dan masukan-masukan kepada penulis dalam menyelesaikan tugas akhir ini. 5. Bapak Yuliant Sibaroni, S.Si., M.T, selaku pembimbing II yang selalu memberikan
waktu
dan
masukan-masukan
kepada
penulis
dalam
menyelesaikan tugas akhir ini. 6. Ibu Fhira Nhita dan Bapak Mahmud Imrona, selaku penguji yang telah memberikan koreksi serta masukkan yang membangun penulis agar lebih baik lagi. 7. Ibu Sri Suryani P, S.Si, M.Si, selaku dosen wali yang telah membimbing dan memberikan masukkan kepada penulis selama masa kuliah. 8. Seluruh dosen Prodi Ilmu Komputasi Telkom University yang tidak dapat disebutkan satu persatu. Terima kasih atas ilmu yang sangat luar biasa yang telah diberikan kepada penulis. 9. Rekan rekan mahasiswa Ilmu Komputasi 2011 yang tergabung dalam pejuang 3,5 tahun,terima kasih atas doa dan semangat yang diberikan. 10. Keluarga besar IK-35 khususnya IK-35-01 yang tidak dapat disebutkan satu persatu. Terimakasih atas kebersamaan yang telah kita jalin selama ini dan semoga tidak berhenti sampai disini.
vii
11. Keluarga Besar PaMTKla (Paseduluran Mahasiswa Trah Klaten) yang tidak dapat disebutkan satu persatu. Terima kasih atas kebersamaan selama ini. 12. Keluarga Besar UKM Djawa Tj@p Parabola yang tidak dapat disebutkan satu persatu. Terima kasih atas kebersamaan selama ini. 13. Keluarga Besar Asisten Laboratorium Dasar Komputer yang tidak dapat disebutkan satu persatu. Terima kasih atas kebersamaan dan menjadi rekan kerja yang baik. 14. Keluarga Besar Asisten Laboratorium Sistem Terdistribusi yang tidak dapat disebutkan satu persatu. Terima kasih atas kebersamaan dan menjadi rekan kerja yang baik. 15. Pihak-pihak yang belum disebutkan namanya. Semoga Allah membalas kebaikan kalian semua. Aamiin.
viii
DAFTAR ISI LEMBAR PENGESAHAN ................................................................................................ ii LEMBAR PERNYATAAN KEASLIAN .......................................................................... iii ABSTRAK ......................................................................................................................... iv ABSTRACT........................................................................................................................ v KATA PENGANTAR ....................................................................................................... vi UCAPAN TERIMAKASIH.............................................................................................. vii DAFTAR ISI .................................................................................................................. ix DAFTAR TABEL.............................................................................................................. xi DAFTAR GAMBAR ................................................................................................... xii DAFTAR LAMPIRAN .................................................................................................... xiii DAFTAR ISTILAH ......................................................................................................... xiv BAB 1 PENDAHULUAN ........................................................................................................ 1 1.1
Latar Belakang. ................................................................................................... 1
1.2
Rumusan Masalah. .............................................................................................. 2
1.3
Batasan Masalah. ................................................................................................ 2
1.4
Tujuan dan Manfaat. ........................................................................................... 3
1.4.1 Tujuan Penelitian ............................................................................................... 3 1.4.2 Manfaat Penelitian ............................................................................................ 3 1.5
Hipotesa. ............................................................................................................. 3
1.6
Metodologi Penelitian. ........................................................................................ 3
1.7
Sistematika Penulisan ......................................................................................... 5
BAB 2 LANDASAN TEORI.............................................................................................. 6 2.1
Data Mining ........................................................................................................ 6
2.2
Web Mining ......................................................................................................... 6
2.2.1
Web content mining..................................................................................... 6
2.2.2
Web structure mining .................................................................................. 7
2.2.3
Web usage mining ....................................................................................... 7
2.3
Web Usage Mining .............................................................................................. 7
2.4
Proses Web Usage Mining .................................................................................. 8
2.4.1
Tahap Preprocessing................................................................................... 8
2.4.2
Pattern Discovery ....................................................................................... 9
2.4.3
Pattern Analysis ........................................................................................ 10
2.5
Clustering.......................................................................................................... 10
2.5.1
Macam-macam metode clustering ............................................................ 10
2.5.2
Hierarchical Agglomerative Clustering .................................................... 11
ix
2.5.3.
K-Means Clustering. ................................................................................. 15
2.5.4.
Implementasi Heirarchical Agglomerative Clustering dan K-Means....... 18
2.6.
Analisis Faktor .................................................................................................. 19
2.7.
Data Web Server Log ........................................................................................ 19
BAB 3 PERANCANGAN SISTEM ................................................................................. 21 3.1
Deskripsi Sistem Secara Umum. ....................................................................... 21
3.2
Pencarian Data Historis Yang Optimal. ............................................................ 21
3.3.
Desain Sistem.................................................................................................... 22
3.4.
Deskripsi Tahapan Proses. ................................................................................ 23
3.4.1.
Web Logs Data Collection. ....................................................................... 23
3.4.2.
Pre-Processing. ......................................................................................... 24
3.4.3.
Factor Analysis ......................................................................................... 27
3.4.4.
Hierarchical Clustering ............................................................................ 27
3.4.5.
Non Hierarchical Clustering. ................................................................... 28
3.4.6.
Analisis dan Hasil ..................................................................................... 28
BAB 4 PENGUJIAN DAN ANALISIS............................................................................ 29 4.1.1.
Pencarian Data Historis Yang Optimal ..................................................... 29
4.1.2.
Hasil Preprocessing Data.......................................................................... 30
4.1.3.
Hasil Analisis Faktor................................................................................. 40
4.1.4.
Hasil Uji Coba Agglomerative Clustering ................................................ 41
4.1.5.
Hasil Uji Coba K-Means Clustering ......................................................... 43
4.1.6.
Hasil Dan Analisis .................................................................................... 44
BAB 5 KESIMPULAN DAN SARAN ............................................................................ 46 5.1.
Kesimpulan ....................................................................................................... 46
5.2.
Saran...... ........................................................................................................... 47
DAFTAR PUSTAKA ....................................................................................................... 48
x
DAFTAR TABEL
Tabel 2.1 Contoh Matriks Jarak Agglomerative Methods ................................................ 12 Tabel 2.2 Contoh Matriks Jarak cluster AB Single linkage .......................................... 13 Tabel 2.3 Contoh Data HAC. .......................................................................................... 13 Tabel 2.4 Hasil Matriks Jarak .......................................................................................... 13 Tabel 3.1 Contoh Access log web server ......................................................................... 24 Tabel 3.2 Access Log Web Server Setelah Preprocessing. ............................................. 25 Tabel 3.3 Matriks Vektor. ................................................................................................ 26 Tabel 3.4 Agglomeration Schedule. ................................................................................. 27 Tabel 4.1 Parsing Data 24 Agustus 2014 ........................................................................ 31 Tabel 4.2 Parsing Data 1 September 2014 ...................................................................... 32 Tabel 4.3 Parsing Data 8 September 2014 ....................................................................... 32 Tabel 4.4 Parsing Data 15 September 2014 .................................................................... 33 Tabel 4.5 Cleaning Data 24 Agustus 2014. ...................................................................... 34 Tabel 4.6 Cleaning Data 1 September 2014 ..................................................................... 35 Tabel 4.7 Cleaning Data 8 September 2014 ..................................................................... 35 Tabel 4.8 Cleaning Data 15 September 2014 ................................................................... 36 Tabel 4.9 Page User identification 24 Agustus 2014 ....................................................... 36 Tabel 4.10 Page User identification 1 September 2014 ................................................... 37 Tabel 4.11 Page User identification 8 September 2014 ................................................... 37 Tabel 4.12 Page User identification 15 September 2014 ................................................. 37 Tabel 4.13 Page Access Identification Data 24 Agustus 2014 ......................................... 38 Tabel 4.14 Page Access Identification Data 4 September 2014 ....................................... 38 Tabel 4.15 Page Access Identification Data 8 September 2014 ....................................... 39 Tabel 4.16 Page Access Identification Data 15 September 2014 ..................................... 40 Tabel 4.17 Faktor Analisis tanggal 24 Agustus 2014 .................................................... 40 Tabel 4.18 Hasil Agglomerative Clustering ..................................................................... 42 Tabel 4.19 Agglomeration Schedule ................................................................................ 42 Tabel 4.20 Jumlah Anggota Cluster ................................................................................ 43
xi
DAFTAR GAMBAR
Gambar 2.1 Web Mining Taxonomy................................................................................6 Gambar 2.2 Rumus Manhattan Distance.......................................................................14 Gambar 2.3 Alur Penelitian............................................................................................18 Gambar 3.1 Desain Sistem.............................................................................................22 Gambar 3.2 Bentuk Matriks Vektor...............................................................................26 Gambar 4.1 Data Historis i-gracias...............................................................................30
xii
DAFTAR LAMPIRAN
Lampiran 1 Tabel Final Cluster 24 Agustus 2014 ............................................................ 50 Lampiran 2 Tabel Final Cluster 01 September 2014 ........................................................ 51 Lampiran 3 Tabel Final Cluster 08 September 2014 ........................................................ 52 Lampiran 4 Tabel Final Cluster 15 September 2014 ........................................................ 53 Lampiran 5 Tabel Faktor yang sering dikunjungi pada setiap clusternya ........................ 54 Lampiran 6 Tabel Variabel-variabel web i-gracias .......................................................... 55 Lampiran 7 Tabel Hasil Akhir Percobaan......................................................................... 56 Lampiran 8 Tabel Hasil Akhir Percobaan Harian Dalam Menu ....................................... 59 Lampiran 9 Tabel Hasil Akhir Percobaan Mingguan Dalam Menu..................................62
xiii
DAFTAR ISTILAH
User
: Ip Address Pengunjung Website.
I-gracias
: Website akademik Telkom University.
Clustering : Pengelompokan Data Berdasarkan Ukuran Kedekatan atau (kemiripan). HAC
: Hierarchical Agglomerative Clustering.
cluster
: Kelompok yang ukuran kedekatan atau (kemiripan) tinggi.
xiv