Indonesia Symposium On Computing 2015
ISSN :2460-3295
ANALISIS DAN IMPLEMENTASI WEB USAGE MINING MENGGUNAKAN METODE SELF ORGANIZING MAP DAN K-MEANS (STUDI KASUS : AKTIFITAS INTERNET TELKOM UNIVERSITY) Tanri Hedresta1, Eko Darwiyanto2, Veronikha Effendy3 1,2,3
1
Prodi S1 Teknik Informatika, Fakultas Teknik Informatika, Universitas Telkom
[email protected], 2
[email protected], 3
[email protected]
Abstrak Pertumbuhan internet yang melesat dengan cepat selama satu dekade terakhir membuat meledaknya populasi pengguna internet dan tentunya situs dimana para pengguna beraktifitas. Informasi bertebaran di berbagai penjuru dunia internet. Pencarian informasi dengan memanfaatkan teknologi internet telah memberikan manfaat yang sangat besar bagi berbagai bidang. Aktivitas pengguna internet dalam mengakses pages pada suatu website dapat menjadi informasi yang dapat digunakan untuk menjadi feedback untuk membantu pengguna internet lainnya melakukan pencarian informasi dengan lebih luas. Penelitian ini menggunakan ilmu web usage mining untuk membuat cluster url berdasarkan aktifitas pencarian user dalam mengakses situs baa.ittelkom.ac.id, website informasi kampus Telkom University. Aktivitas user pada suatu web yang direkam pada data log server diolah menggunakan metode Self Organizing Map (SOM). Sebelumnya dilakukan proses dimension reduction oleh metode K-Means pada data transaksi hasil dari preprocess data log, untuk memaksimalkan kinerja metode SOM. Data log diolah dengan mengambil beberapa bagian data yang diperlukan seperti IP address, url, dan waktu akses user pada proses preprocessing. Kemudian cluster yang dibentuk akan dianalisis. Kata kunci : web usage mining, Self Organizing Map(SOM), K-Means. 1.
Pendahuluan
Meledaknya pertumbuhan pengguna internet selama satu dekade terakhir ini membuktikan makin tingginya kebutuhan akan informasi bagi setiap orang. Pertumbuhan populasi pengguna internet semakin meluap seiring dengan pertumbuhan zaman. Segala informasi, mulai dari yang remeh sampai yang paling rumit sekalipun dapat ditemukan pada sebuah website didalam internet. Salah satu fungsi utama dari internet adalah information retrieval. Tetapi karena jumlah populasi informasi di dunia internet yang semakin membesar, dibutuhkan usaha lebih dalam pencarian informasi. Penelitian telah dilakukan untuk mengaplikasikan teknik data mining membantu melakukan information retrieval. Analisis ini dapat dilakukan dengan pemanfaatan ilmu Web Mining. Web mining adalah ilmu yang mempelajari penggalian data yang berhubungan dengan World Wide Web (WWW). Web Mining sendiri dapat dibedakan atas tiga kategori yang berbeda, yaitu web content mining, web structure mining dan web usage mining. Ketiga kategori ini memiliki kelebihan masing-masing dalam pengolahan data. Web usage mining merupakan proses analisis terhadap pola akses user dan segala aktivitasnya pada suatu website. Sangat banyak metode yang dapat digunakan untuk melakukan penerapan web usage mining ini, salah satunya adalah metode clustering yang telah digunakan untuk menganalisa pengelompokan user. Berbeda dengan web content mining yang mengcluster page berdasarkan kesamaan kontennya. Web usage mining menggunakan feedback dari user untuk melakukan clustering. Hal ini dimaksudkan untuk membantu user melakukan pencarian informasi dapat berpedoman pada cara user-user sebelumnya saat melakukan pencarian informasi, dengan begitu pencarian informasi tidak akan terbatas pada konsep konten yang sama. Tapi dapat merambah ke bidang lainnya mengikuti aktivitas pencarian informasi yang dilakukan user-user sebelumnya, sehingga informasi yang didapat lebih luas. Feedback dari pengguna berupa rekaman aktivitas user pada suatu
181
Indonesia Symposium On Computing 2015
ISSN :2460-3295
website. Web server akan menyimpan semua data rekaman tentang interaksi user dengan website pada sebuah log file. Algoritma K-Means selain digunakan untuk mereduksi ukuran inputan SOM juga digunakan untuk meningkatkan akurasi cluster yang dihasilkan oleh algoritma SOM [12], dimana perhitungan akurasi diukur menggunakan parameter Mapping precision dan Topographic error. Inputan SOM adalah matriks-matriks url yang masing-masing nilainya berisi seluruh transaksi, hal ini dinilai terlalu besar karena diperkirakan data log sebuah web dapat menjadi ratusan transaksi bahkan lebih dalam satu bulan. Sehingga akan membutuhkan waktu processing dalam jumlah besar. SOM dipilih karena dapat mengcluster dan menvisualisasikan cluster yang terbentuk pada peta dua dimensi agar penggunanya dapat me-retrieve dan menganalisis informasi secara lebih dari hubungan antar cluster yang muncul [2]. Selain itu jarak antara masing neuron yang berisi input(url) pada peta nantinya, dapat menunjukan hubungan kemiripan antar isi neuron. Ada dua pertanyaan yang diajukan di penelitian ini : Bagaimana parameter terbaik metoda SOM dan Kmeans untuk mengklasifikasikan pola akses Web mahasiswa terhadap website baa.ittelkom.ac.id? b. Benarkah penggunaan KMeans mempengaruhi terhadap kinerja SOM? a.
Penelitian ini pada awalnya menggunakan data usage user yang diambil dari log ICaring kampus Telkom University pada periode akhir Januari – Juni 2013. Tetapi karena sistem ICaring yang pada dasarnya hanya mengijinkan akses konten bergantung pada mata kuliah yang diambil oleh masing-masing mahasiswa, yang berarti konten tidak dapat diakses secara bebas maka menyebabkan pemetaan SOM terkurung pada user yang mengambil mata kuliah sejenis, akibatnya hasil tidak optimal. Sehingga digunakan data log situs baa.ittelkom.ac.id pada periode Desember 2013. Situs tersebut mengijinkan pengunjung dapat melakukan akses ke setiap konten yang tersedia. Data log akan melalui proses preprocessing sehingga menghasilkan data transaksi untuk selanjutnya diolah menggunakan algoritma utama yaitu Self Organizing Map(SOM) yang dioptimalkan dengan K-Means. 2. Landasan Teori 2.1 Web Uasge Mining Menurut Etzioni Oren, web mining diartikan sebagai suatu usaha mengaplikasikan teknik data mining untuk menggali dan mengekstrak informasi yang berguna dari dokumen-dokumen yang tersimpan dalam halaman web secara otomatis. Meskipun memiliki akar terminologi yang sama dengan data mining, namun web mining memiliki perbedaan dari data mining, diantaranya berhubungan dengan sifat datanya yang tidak terstruktur dan sumber datanya yang tidak disimpan di sebuah data warehouse namun tersebar di berbagai sumber. Web mining terbagi menjadi 3 (tiga) kategori yaitu web content mining, web structure mining dan web usage mining (Madria, et al., 1999). Web content mining berfokus pada usaha untuk menggali informasi dari isi atau content yang disajikan di web. Teknik web content mining lebih banyak berhubungan dengan disiplin ilmu information retrieval (IR). Sedangkan web structure mining, membahas mengenai penggalian informasi web dilihat dari struktur halaman web itu sendiri. Web structure mining banyak digunakan untuk menggali keterkaitan antara suatu halaman web dengan halaman web lainnya. Sementara web usage mining, berusaha melihat pola atau pattern dari user dalam mengakses web. Pada web usage mining, untuk mengatasi masalah dokumen web yang terus berubah, data mentah yang digunakan umumnya akan dibekukan untuk sementara waktu. Kemudian perilaku pengunjung pun dianalisis dalam jangka waktu tertentu [5]. Dari data mentah tersebut akan dimodelkan pola perilaku dan profil dari pengunjung web. Dari pola-pola tersebut digali informasi yang dapat dimanfaatkan, beberapa contohnya selain yang dilakukan pada penelitian ini yaitu untuk kegiatan komersial, digunakan untuk menyimpulkan demographic facts pengguna, yang berguna untuk meningkatkan efektivitas iklan internet. Pada penelitian sebelumnya pun [2, 6] telah menyajikan strategi untuk membantu web servers mengurangi waktu loading web. Hal ini dilakukan dengan melakukan mining web logs untuk menemukan aturan bentuk “document 1 – document 2” sehingga web server dapat mempersiapkan “document 2” ketika “document 1” direquest. Disimpulkan usage pattern web dari user sebelumnya, dapat memainkan peran dalam membantu pengguna lain selanjutnya.
182
Indonesia Symposium On Computing 2015
ISSN :2460-3295
2.2 K-Means Algoritma K-Means yang digunakan pada penelitian menggunakan perhitungan Hamming distance untuk mengukur jarak antar data. Hamming dipilih karena data sesi yang berbentuk binary. Algoritma K-Means bekerja dengan langkah-langkah sebagai berikut: 1. Inisiasi centroid awal menggunakan inisiasi K-Means KKZ [10, 13]. 2. Ulangi proses 3-4 sampai tidak ada centroid yang berubah 3. Tetapkan semua data point (yang merepresentasikan transaksi) ke cluster terdekat (diukur dari centroid cluster). Dengan cara menyajikan data point x dan hitung kemiripan (jarak) d dari input ke setiap pusat cluster j (centroid). Masukan data ke dalam cluster yang pusat cluster-nya berjarak minimum ke data point x. 𝐶 ← arg min 𝐴𝑠𝑦𝑚𝑚𝑒𝑡𝑟𝑖𝑐𝐷𝑖𝑠𝑡𝑎𝑛𝑐𝑒(𝑐, 𝑥)
𝑐∈𝐶 4.
Hitung kembali pusat dari setiap cluster sebagai centroid dari semua data point di setiap cluster. Centroid baru dihitung dengan menggunakan pendekatan yang diproposed oleh Grana [8] : (2-1) Jika tiap bit vektor data transaksi adalah 𝑣 = 〈𝑣 , 𝑣 , 𝑣 , … . . 𝑣 〉 Penentuan dilakukan untuk tiap bit transaksi, jika mayoritas bit vi pada vektor didalam Cd adalah “1” maka bit vi untuk c baru di-assign “1”, begitu juga sebaliknya untuk “0”.
2.3 Self Organizing Map Self Organizing Map (SOM) merupakan jaringan syaraf yang diperkenalkan oleh Teuvo Kohonen seorang ilmuwan Finlandia pada tahun 1982. Metode ini merupakan salah satu jenis metode jaringan syaraf tiruan yang unsupervised. SOM merupakan metode berdasarkan model dari pendekatan jaringan syaraf tiruan (Han & Kamber 2001). SOM tak hanya melakukan pengelompokan data poin ke dalam grup tapi juga menampilkan hubungan antar cluster pada ruang dua dimensi [2, 9]. Dalam pemodelannya tiap jaringan SOM akan diasosiasikan dengan vektor bobot Wi = (w1i, w2i, .., wni), yang merepresentasikan masukan pemetaan pemesanan urutan inputannya X=(x 1, x2, ..., xn). Proses pelatihan terdiri dari pengorganisasian diri dari vektor bobot dalam jaringan dan memilih unit terbaik (best match unit) yang berat bobotnya terbesar dengan input sample. Best match unit merupakan neuron yang memiliki jarak terdekat dengan input yang diukur menggunakan euclidean distance. Proses mapping pada SOM dilakukan secara terurut dan data yang dipetakan memiliki kemiripan karakteristik dengan sampel masukan. Algoritma SOM adalah sebagai berikut : 1. Inisialisasi : a. Bobot wij dengan nilai-nilai random kecil b. Inisiasi Neighbourhood Nm(0) menjadi besar (maksimal kurang dari jumlah nodes pada dimensi peta) c. Set parameter fungsi α(t) dan σ(t) menjadi antara 0 sampai 1. 2.
Sajikan input pattern x melalui input layer dan hitung jarak kesamaan d dari input ke weight W dari setiap node j.
𝑑 = 𝑥 − 𝑤 3. 4.
=
(𝑥 − 𝑤 )
Pilih node dengan jarak paling minimum sebagai winner m. Untuk semua node dalam lingkup jarak, perbaharui bobot yang menghubungkan input layer ke node winner dan node neighbourhood-nya, dengan aturan learning :
𝑊(𝑡 + 1) = 𝑊(𝑡) + 𝐶 ∗ (𝑉(𝑡) − 𝑊(𝑡)) Dimana dist = Ri – Rm, jarak antara node i dengan node winner m
183
Indonesia Symposium On Computing 2015 𝐶 = 𝐿( ) ∗ exp − 5.
ISSN :2460-3295
𝑑𝑖𝑠𝑡 2𝜎 (𝑡)
Lanjutkan dengan mulai dari langkah 2, untuk Ω epoch; naikan t sebanyak 1, lalu turunkan ukuran neighbourhood, α(t) dan σ(t)
𝐿(𝑡) = 𝐿 exp −
𝑡 𝑗𝑢𝑚𝑙𝑎ℎ 𝑖𝑡𝑒𝑟𝑎𝑠𝑖
Dengan t = iterasi saat ini
𝜎(𝑡) = 𝜎 exp − 𝑚𝑎𝑝𝑅𝑎𝑑𝑖𝑢𝑠 = 𝑚𝑎𝑥 Dengan λ =
(
𝑡 𝜆
/2.;
)
t = iterasi saat ini; Ulangi sampai weightnya stabil.(coba dengan Ω yang beragam, contoh : Ω = 10, 20, 40) 2.4 Evaluasi Performansi Parameter performansi yang digunakan pada penelitian ini adalah parameter evaluasi internal. Parameter evaluasi internal bertujuan untuk mengukur performansi dan kualitas klaster yang dihasilkan. Untuk mengukur nilai parameter internal pada algoritmaK-Means menggunakan SSE sedangkan pada Self Organizing Map (SOM) dapat menggunakan Mapping precisiondan Topographic error. 2.4.1 Sum Squared Error Adalah jarak antara setiap data dengan tiap mean cluster tempat data tersebut menjadi anggota. Digunakan untuk menghitung kerapatan ditiap cluster. jika tiap anggota dalam suatu cluster semakin mirip maka SSE akan semakin mendekati 0.
𝑆𝑆𝐸 =
(𝑥 − 𝑐)
2.4.2 Silhoutte Cofficient Metode ini merupakan metode validasi cluster yang menggabungkan metode cohesion dan separation, cara menghitungnya adalah : 1. Untuk ai setiap objek i, hitung rata-rata jarak dari objek i dengan seluruh objek yang berada dalam satu cluster. 2. Untuk bi setiap objek i, hitung nilai minimum rata-rata jarak dari objek i dengan objek yang berada di cluster lainnnya. Untuk seluruh data
𝑆 = ∑
(
)
2.4.3 Mapping Precision Setelah seluruh data telah dilatih, maka langkah selanjutnya adalah melakukan evaluasi kualitas cluster yang dihasilkan. Kualitas SOM yang disebut dengan Map Quality Measure merupakan kemampuan SOM untuk mengadaptasi keumpulan data masukan. Biasanya, pengukuran kualitas SOM ini dievaluasi menggunakan mapping precision dan topology preservation (James, S.K. and Jacek, M.Z, 1999).
184
Indonesia Symposium On Computing 2015
ISSN :2460-3295
Mapping precision merupakan ukuran seberapa akuratnya neuron merespon kumpulan data input atau dataset yang diberikan. Sebagai contoh jika klaster pemenang (BMU) memiliki posisi yang sama dengan data input, maka error dalam presisinya adalah 0. Biasanya jumlah data vector lebih besar dari jumlah vector masukan, sehingga mapping precision-nya tidak selalu sama dengan 0. Semakin kecil nilai mapping precision, maka posisi klaster pemenang (BMU) terhadap data input semakin dekat. Untuk mengukur mapping precision ini menggunakan ratarata error quantization dari semua data yaitu dengan rumus:
𝐸 = ∑
‖𝑥 + 𝑚 ‖
Dimana : N = jumlah data xi = vector input mc = vector klaster pemenang (BMU) 2.4.4 Topographic Error Evaluasi selanjutnya digunakan untuk mengukur akurasi dari proses pemetaan dalam hubungannya dengan topology peta (topology preservation), hal ini menilai kualitas pemetaan data pada peta. Nilai topographic error yang rendah mencerminkan pemetaan yang baik dimana data-data yang mirip berada pada region yang sama. Topographic error adalah salah satu dari topology preseravation, pengukuran dilakukan dengan melihat apakah BMU 2 berada tepat disebelah BMU 1. Pada penelitian ini metode ini digunakan untuk mendukung parameter mapping precision saat proses analisis dan hanya digunakan pada beberapa percobaan.
1 𝑁
𝑢(𝑋𝑘)
N = Banyaknya sampel input
U(Xk)
1, 𝑗𝑖𝑘𝑎 𝐵𝑀𝑈 𝑝𝑒𝑟𝑡𝑎𝑚𝑎 𝑑𝑎𝑛 𝐵𝑀𝑈 𝑘𝑒𝑑𝑢𝑎 𝑡𝑖𝑑𝑎𝑘 𝑏𝑒𝑟𝑠𝑒𝑏𝑒𝑙𝑎ℎ𝑎𝑛 𝑒𝑙𝑠𝑒, 0
3. Perancangan Sistem Sistem dibangun menggunakan metode Self Organizing Map yang sebelumnya terlebih dahulu di lakukan proses pengurangan dimensi inputan sistem, menggunakan metode K Means clustering. Data yang digunakan berupa web log dari web server Sisfo Telkom University. Hal yang pertama kali dilakukan adalah melakukan pre processing pada raw data log server. Setelah melewati proses preprocessing, pada data yang berupa list transaksi dilakukan proses clustering menggunakan K means clustering sehingga menghasilkan beberapa grup transaksi. Nilai yang tertera pada grup transaksi untuk setiap url akan digunakan sebagai bobot inputan SOM. Setelah array inputan SOM telah siap, dilakukan proses SOM untuk memetakan url menjadi bentuk peta dua dimensi. Hubungan antar url ditunjukan dengan data yang tertampung pada node dan jarak antar node dalam peta. Langkah-langkah tersebut selengkapnya dapat dilihat di Gambar 3.1.
185
Indonesia Symposium On Computing 2015
ISSN :2460-3295
Gambar 0.5 Diagram Blok 3.1 Preprocessing 1. Data formatting dan cleansing proses ini bertujuan untuk mendapatkan bagian-bagian data yang diinginkan. Proses ini menggunakan fungsi substring yang ada dengan mengelompokan baris-baris data menjadi beberapa bagian sebelumnya 10.14.211.226-[31/Jan/2013:08:19:26+0700]"GET/theme/styles_debug.php?theme=afterburner&type=plugin&subtype=bl ock_navigation HTTP/1.1" 200 825 Data diatas adalah contoh baris log sistem disini akan membagi baris tersebut menjadi [10.14.211.226]-[31/Jan/2013:08:19:26]+0700]"[GET][/theme/styles_debug.php?theme=afterburner&type=plugin&subtype =block_navigation HTTP/1.1"] [200] [825] Setelah itu dilakukan pembersihkan baris log yang sebelumnya telah terbagi-bagi, dari bagian yang tidak perlu seperti data berekstensi .jpg, .gif, ukuran byte, dan status.Setelah itu menghapus log yang tidak berhubungan dengan penelitian. Yang pertama adalah menghapus transaksi dengan IP address yang mengacu ke server. Kedua, menghapus log yang menghasilkan error, biasanya log yang mengakses halaman kosong kemudian log yang memiliki nilai response kurang dari 200 dan lebih dari 299. Ketiga menghapus log yang mengakses robots.txt. Lalu mengubah tiap karakter menjadi lowercase untuk kepentingan saat membandingkan data. 2. Transaction Identification Transaksi didefinisikan sebuah urutan web pages yang direquest seorang user pada sebuah session tertentu a. User Identification adalah proses mengidentifikasi unique user, IP address dipilh untuk menjadi identitas seorang user b. User session identification adalah proses mengidentifikasi aktivitias pada sebuah transaksi berdasarkan selang waktu. Yang dimana jika selang waktu diantara request melebihi suatu tenggat waktu, maka akan dianggap sebagai session lain yang berarti transaksi selanjutnya. Jangka waktu 30 menit dipilih karena angka tersebut dirasa cukup untuk memastikan bahwa transaksi tersebut dikaitkan dengan user yang benar dan dirasa mampu memberikan sederetan web pages yang jumlahnya cukup banyak untuk sebuah transaksi [17]. Jangka waktu tersebut pada umumnya juga digunakan oleh aturan analisa commercial product [23].
186
Indonesia Symposium On Computing 2015
ISSN :2460-3295
3.2 Dimension Reduction Setelah melalui tahap pre processing data masih belum siap untuk di proses lebih lanjut menggunakan metode self organizing map, karena jumlah transaksi masih terlalu besar. Pada SOM list transaksi akan digunakan sebagai atribut dari data url. atribut tersebut adalah bobot vektor input sebuah url. Jumlah yang terlalu besar akan mengkonsumsi waktu proses yang besar untuk saat proses SOM dijalankan. Pada tahap ini dilakukan pembentukan grup cluster terhadap list transaksi yang dihasilkan oleh proses transaction identification pada tahap pre processing. K adalah variabel jumlah cluster yang akan dibentuk, k ditentukan berdasarkan akurasi hasil clustering yang terkecil. Algoritma K means bekerja dengan cara mengelompokan transaksi berdasarkan pertimbangan jarak antara setiap transaksi terhadap setiap centroid. Jarak antara transaksi dengan centroid dihitung menggunakan Symmetric distance. Metode perhitungan jarak tersebut digunakan untuk menentukan ke kelompok cluster mana suatu transaksi akan bergabung. Tahap-tahap reduksi dimensi ditunjukkan selengkapnyadi Gambar 3.2.
Gambar 3.2 Dimension Reduction 3.3 Pemetaan SOM Pada proses ini list transaksi yang telah diubah menjadi list grup cluster transaksi pada tahap dimension reduction, diubah (invers) menjadi matriks url. Bobot setiap url adalah sisi atribut pada jumlah akses suatu url pada tiap tiap grup cluster transaksi. Selanjutnya tahap SOM yang akan dilakukan adalah inilisiasi dan learning. Tahap inisiliasi terdiri dari menge-set ukuran map node, memberi bobot random pada tiap node dan mengatur paramater SOM. Proses learning adalah tahap utama dalam pemrosesan SOM, terdiri dari mengupdate vektor node BMU map
187
Indonesia Symposium On Computing 2015
ISSN :2460-3295
dan node sekelilingnya yang masih didalam jangkauan radius ketetanggaan. BMU diperoleh dengan menghitung jarak tiap node dengan data input. Node dengan jarak terdekat dengan data input dipilih sebagai BMU. Bobot node diupdate sesuai pengaruh besaran learning rate dan radius rate. Hasil pemetaan SOM akan di evaluasi untuk melihat performansi sistem dan pengaruh paramater dengan mengukur keakuratan pemetaan data berdasarkan perhitungan Mapping precision. Dengan aturan bahwa semakin kecil nilai Mapping precision maka pemetaan semakin baik. Karena bobot node dianggap semikin mirip dengan bobot input. Tahap-tahap SOM ditunjukkan dalam Gambar 3.3.
Gambar 0.3 Self Organizing Map
4.
Pengujian dan Analisis Sistem
4.1 Percobaan pada metode K-Means K-Means digunakan pada tahapan proses dimension reduction, tujuan dari metode ini pada sistem adalah pengurangan dimensi atribut url. Session yang sebelumnya berjumlah banyak di cluster sehingga berbentuk grup session. Jumlah cluster yang dipilih bebas asalkan sekecil mungkin untuk digunakan sebagai panjang atribut input SOM dan cukup besar untuk mewakili informasi yang ada pada setiap cluster. Tabel 4.x Pemilihan jumlah cluster pada KMeans
188
Indonesia Symposium On Computing 2015
ISSN :2460-3295
Tabel 4.1 menunjukkan nilai SSE dari jumlah cluster KMeans yang berbeda-beda. Untuk memudahkan dan memperjelas pengamatan digunakan perhitungan rata-rata dari nilai SSE dan Silhoutte Cofficient yang telah dinormalisasi dan terlihat hasilnya cenderung bertambah dengan relatif stabil. Hal ini disebabkan oleh penentuan centroid yang cenderung tetap untuk setiap percobaan disebabkan oleh hasil perhitungan metode inisiasi centroid awal, sehingga meminimalisir adanya anggota yang dimasukan secara random jika ada suatu data yang memiliki kesamaan jarak ke seluruh titik pusat cluster. Sehingga mengurangi kemungkinan terjadinya anggota suatu cluster tidak tetap yang menyebabkan nilai SSE dan Silhoutte Cofficient menjadi tidak menentu. Nilai tertinggi didapat pada K=30, jumlah tersebut dipilih berdasarkan dengan mempertimbangkan parameter tambahan yaitu waktu. Untuk lebih memastikan dilakukan perbandingan perhitungan average nilai normalisasi SSE dan silhoutte Cofficient dengan normalisasi waktu dimana dihasilkan nilai yang lebih optimal pada K= 30. Nilai 30 telah dipilih dan selanjutnya akan digunakan sebagai salah satu paramater inputan sistem yang dianggap akan membantu mengeluarkan performa terbaik sistem. 4.2 Percobaan pada metode SOM Pada percobaan ini dilakukan rangkaian training SOM dengan menggunakan rangkaian paramater yang berbeda untuk menemukan nilai yang terbaik untuk masing-masing cluster. Paramater K-Means yang sebelumnya sudah didapatkan akan digunakan pada proses dimension reduction di sistem. Peta yang digunakan berukuran 17x17. Ukuran tersebut dipilih atas dasar panjang data yang berkisar 268 data. Hal tersebut dimaksudkan untuk mencegah kemungkinan jika satu data tepat dipetakan ke dalam satu node [2] sehingga minimal node yang ada cukup untuk menampung seluruh data. 4.2.1
Pengaruh parameter Iterasi
Tabel 4.2 menunjukkan pengaruh perubahan parameter iterasi terhadap mapping precision. Dapat dilihat bahwa semakin besar nilai iterasi maka nilai Mapping precision yang didapatkan semakin kecil. Hal ini disebabkan oleh update yang terjadi pada tiap bobot node menjadi semakin bertambah seiring bertambahnya jumlah iterasi. Sesuai dengan karakteristik SOM dimana semakin bobot node diperbaharui maka semakin mirip dengan data input. Akan tetapi dengan memperhatikan waktu proses dimana semakin banyaknya jumlah iterasi maka waktu proses yang dibutuhkan pun akan semakin besar. Maka dari itu digunakan perhitungan average normalisasi dari parameter Mapping precision dan waktu. Pada percobaan kali ini epoch = 40 dipilih sebagai parameter epoch terbaik karena memiliki nilai average norm terendah. Jumlah epoch juga mempengaruhi proses pemetaan data, dengan semakin bertambahnya jumlah iterasi maka data semakin tersebar. BMU untuk setiap data semakin tersebar di berbagai node yang berbeda, karena setiap bobot node semakin spesifik dalam merepresentasikan data input.
189
Indonesia Symposium On Computing 2015
ISSN :2460-3295
Tabel 4.2 Pengaruh parameter Iterasi
4.2.2 Pengaruh Parameter Learning Rate Tabel 4.3 menunjukkan pengaruh perubahan parameter Learning Rate terhadap mapping precision. Pada dasarnya nilai learning rate yang besar dapat mempercepat laju pembelajaran sehingga mengakibatkan perubahan nilai bobot yang besar. Nilai yang tinggi memudahkan langkah vektor bobot BMU untuk menambahkan nilai pada bobotnya agar menjadi semakin mirip dengan input. Karena semakin besar learning rate dimana semakin jauh dari batas bawah nilai yaitu 0, nilai-nilai yang muncul pada rentang penurunan nilai yang terjadi di tiap iterasi besar. Pada tabel nilai Mapping precision yang paling rendah jatuh pada nilai 0,9. Angka tersebut cukup tinggi efeknya pada sistem, berdasarkan pengamatan pada penurunannya disetiap iterasi, perubahan nilai yang terjadi dinilai besar. Jika kita amati lagi pada tabel, rentang 0,1 sampai 0,4 menghasilkan nilai Mapping precision yang tinggi. Hal itu menandakan jarak antar bobot BMU dan inputnya jauh, dikarenakan efek dari learning rate untuk penambahan nilai pada bobot kecil dapat dikatakan lompatan nilai yang terjadi rendah. Dapat disimpulkan bahwa pemetaan yang baik membutuhkan laju pembelajaran yang besar. Tabel 4.3 Pengaruh paramater Learning Rate
4.2.3 Pengaruh Parameter Jarak Tabel 4.4 menunjukkan pengaruh perubahan parameter Radius terhadap mapping precision. Dapat dilihat pada tabel diatas nilai Mapping precision yang dihasilkan tidak menentu. Nilai 16 diambil karena menghasilkan nilai Mapping precision yang paling rendah. Pengaruh jangkauan sepanjang 8 node pada peta yang memiliki panjang dan lebar masing-masing 17 node dinilai paling sesuai. Pada percobaan ini ditambahkan parameter tambahan yaitu Topographic error untuk membantu menganalisis hasil. Karena Topographic error mengukur seberapa dekat BMU 1 dan BMU 2 berada. BMU 1 dan BMU 2 yang berdekatan menandakan bahwa bobot suatu region akan memiliki karakteristik yang dapat dibedakan jelas jika dibandingkan dengan node di region lainnya. Setelah diamati pada tabel, 8 bahkan cukup dapat memberikan nilai Topographic error yang relatif baik. Hal ini menandakan update bobot didalam satu region pada peta berjalan dengan baik. Tabel 4.4 Pengaruh parameter jarak
190
Indonesia Symposium On Computing 2015
ISSN :2460-3295
4.2.4 Pengaruh parameter Radius Tabel 4.5 menunjukkan pengaruh perubahan parameter Radius terhadap mapping precision. Dapat dilihat bahwa nilai yang dihasilkan oleh paramater Mapping precision tidak menentu. Pemetaan yang dihasilkan pun tidak terlalu berbeda penyebarannya seiring dengan bertambahnya nilai radius. Sama halnya dengan jarak pada percobaan ini ditambahkan parameter tambahan yaitu Topographic error untuk membantu menganalisis hasil. Berdasarkan pengamatan pada tabel dipilih 0,8 yang memiliki nilai Mapping precision dan Topographic error terbaik. Topographic error terbaik menunjukan bahwa tiap region pada peta memiliki karakteristik yang cukup berbeda satu sama lain dan Mapping precision menunjukan kemiripan antara data input dan bobot node yang paling kuat dibanding nilai radius yang lain. Sehingga dianggap proses pemetaan berjalan maksimal. Tabel 4.5 Pengaruh parameter Radius
4.3 Analisa Pengaruh Proses Dimension Reduction(K-Means) pada SOM Tabel 4.6 menunjukkan pengaruh penggunaan KMeans setelah SOM. Terbukti SOM dengan menggunakan proses dimension reduction menghasilkan mapping precision yang lebih baik. Hal ini dikarenakan nilai pada vektor inputan sistem yang berupa bilangan real. Sedangkan nilai vektor inputan sistem SOM tanpa dimension reduction berupa bilangan biner. Dimana bobot node adalah bilangan real, sehingga hasil perhitungan real dengan real dianggap lebih baik dibanding real dengan biner. Hal ini berpengaruh pada pemilihan node BMU dan update bobot node baik BMU maupun tetangga. Untuk perbandingan waktu proses, SOM dengan dimension reduction memakan waktu yang lebih sedikit dibanding SOM tanpa proses tersebut. Hal ini disebabkan proses perhitungan antara vektor input dan vektor bobot node yang berbeda. Pada SOM dengan proses dimension reduction vektor inputan jauh lebih pendek. Tabel 4.6 Pengaruh Kmeans setelah SOM
191
Indonesia Symposium On Computing 2015
ISSN :2460-3295
5. Kesimpulan Berdasarkan hasil penelitian dan pengujian yang telah dilakukan maka dapat disimpulkan beberapa hal sebagai berikut : 1. Parameter terbaik yang dapat mengoptimalkan hasil cluster, untuk K-means sebesar 30 cluster, Epoch untuk proses pemetaan pada SOM berjumlah 40 iterasi dimana dapat membuat bobot peta stabil dengan waktu yang relatif singkat. Learning rate untuk update bobot SOM sebesar 0,9 memberi nilai penambahan bobot terbaik untuk mencapai kondisi stabil. Radius ketetanggan sebagai penentu besar update pemenang dan tetangga sebesar 0,8, lalu ukuran jarak ketetanggaan yang menentukan sejauh apa jari-jari tetangga yang akan ikut terupdate sebesar 8 node, keduanya memberi hasil pemetaan relatif baik di setiap regionnya. 2. Hasil dari proses dimension reduction dengan K-Means memberi manfaat signifikan. Mapping precision lebih kecil dan waktu proses lebih singkat dibandingkan tanpa menggunakan proses dimension reduction. Proses dimension reduction mengubah bentuk data biner menjadi real sehingga dapat mengurangi error dan mengurangi panjang vektor inputan sehingga waktu yang dibutuhkan untuk memproses data input menjadi lebih kecil. Saran yang dapat disampaikan pada penelitian ini adalah 1. membuat sistem yang melakukan proses pengelompokan secara otomatis pada node-node per region yang dianggap memiliki bobot yang mirip. Sistem dapat memberikan boundary pada tiap region di peta 2 dimensi. Agar dapat dilihat secara otomatis tanpa perlu diperiksa lagi oleh user. 2. Pada penelitian selanjutnya gunakan data yang lebih bervariasi seperti ISP. 6. Daftar Pustaka [1] Amit K. M., Mahendra K. M., Vivek Chaturvedi, Santosh K. G., Jaiveer Singh., Web Usage Mining Using Self Organized Map, Department of Computer Science & Engineering Krishna Institute Of Engineering & Technology. [2] A. Kate Smith and Alan Ng, Web page clustering using a self-organizing map of user navigation pattern, School of Business Systems, Monash University, Australia 2003. [3] Ananda Riyandwyana, Erma Suryani, Ahmad Mukhlason, Pengembangan Sistem Rekomendasi Peminjaman Buku Berbasis Web Menggunakan Metode Self Organizing Map Clustering Pada Badan Perpustakaan Dan Kearsipan (BAPERSIP) Provinsi Jawa Timur. Jurusan Sistem Informasi, Fakultas Teknologi Informasi, ITS. JURNAL TEKNIK ITS Vol. 1(Sept. 2012) ISSN : 2301-9271. [4] Asmawati, Diah., Analisa Kepribadian Melalui Tulisan Tangan Menggunakan Kohonen-Self Organizing Map(SOM). Institut Teknologi Telkom Bandung, 2010. [5] Bab II Dasar Teori. digilib.itb.ac.id/file/disk1/580/jbptitbpp-gdl-miridhanir-28971-3-2007ta2.pdf&h=kAQHVG4O8 . Diakses : April 2014 [6] B. Lan, S. Bressan, B.C. Ooi, Making web servers pushier, Lecture Notes in Artificial Intelligence, vol. 1836, SpringerVerlag, Berlin, 2000, pp. 112 – 125. [7] Error Sum Of Squared. Hlab.standford.edu/~brian/error_sum_of_squared.html, Diakses : Mei 2014. [8] Grana, Constantino, Daniele B, Rita C, A Fast Approach For Integrating ORB Descriptor in the Bag Of Words Model, Dipartimento di Ingegneria “Enzo Ferrari”- Universita degli Studi di Modena e Reggio Emilia. [9] Guthikond, M Shyam., “Kohonen Self Organizing Map”, Wittenberg University, Springfield, Desember 2005. [10] He Ji, Man Lan, Chew-Lim Tan, Sham-Yuan Shung, dan Hwe Boon Low, Initialization of Cluster Refinement Algorithm : A Review and Comparative Study, School of Computing, National University of Singapore. [11] Hidayat, Rachmad, Suprapro, Meminimalisasi Nilai Error Peramalan dengan Algoritma Extreme Learning, Fakultas Teknik, Universitas Trunojoyo Madura, Februari 2012. [12] Ketki Muzumdar, Ravi Mante, Prashant Catur. Neural Network Approach for Web Usage Mining, International Journal of Recent Technology And Engineering (IJRTE). ISSN : 2277-3878, Vol-2, Issue-2,
192
Indonesia Symposium On Computing 2015
[13] [14] [15] [16] [17]
[18] [19] [20] [21] [22] [23]
ISSN :2460-3295
May 2013. Mohammed Al-Daoud & Stuart Roberts. New Methods for the Insitialisation of Cluster Division of Operational Research and Information System. University Leeds. Desember 1994. Polzlbauer, Georg, Survey and Comparison Of Quality Measures for Self Organizing Map, Department of Software Technology Vienna University of Technology. Prasetyo, Eko.2012. Data Mining Konsep Dan Aplikasi menggunakan Matlab. Penerbit Andi.Yogyakarta. Purwaningsih, Esty, Opinion Mining pada Twitter Menggunakan Metode Self Organizing Map, Institut Teknologi Telkom Bandung, 2013. R. Cooley, B. Mobasher, J. Srivastava, Data preparation for mining World Wide Web browsing patterns, Journal of Knowledge and Information Systems 1 (1) (1999) 5 – 32. “Self Organizing Map”. http://www.saedsayad.com/clustering_som.html. Diakses: Desember 2013. Silhoutte Coeffcient. Scikit-learn-org/stable/modules/clustering.html. Diakses : Mei 2014. “SOM Tutorial”. http://www.ai-junkie.com/ann/som/som1.html. Diakses : Desember 2013. Sushmita Mitra, Tinku Acharya.2003. Data Mining : Multimedia, Soft Computing, And Bioinformatics. Wiley-Interscience Published. V. Chitraa, Dr.Antony Selvadoss Davamani. A Survey on Preprocessing Methods for Web Usage Data. International Journal of Computirer Science and information Security, Vol. 7, No. 3, 2010. V. Chitraa, Dr.Antony Selvadoss Davamani. An Efficient Path Completion Technique for Web Log Mining,IEEE International Conference on Computational Intellegence and Computing Research, 2010.
193