Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer Vol. 1, No. 8, Juni 2017, hlm. 635-640
e-ISSN: 2548-964X http://j-ptiik.ub.ac.id
Clustering Data Kejadian Tsunami Yang Disebabkan Oleh Gempa Bumi Dengan Menggunakan Algoritma K-Medoids Daniel Alex Saroha Simamora1, M. Tanzil Furqon2, Bayu Priyambadha3 Program Studi Teknik Informatika, Fakultas Ilmu Komputer, Universitas Brawijaya E-mail :
[email protected],
[email protected],
[email protected] Abstrak Tsunami adalah sebuah kejadian alam yang disebabkan oleh perubahan permukaan laut secara vertikal dengan tiba – tiba sehingga menyebabkan perpindahan volume air yang besar. Letusan gunung berapi bawah laut, gempa bumi yang berpusat dibawah laut, dan longsor bawah laut merupakan beberapa penyebab perubahan permukaan laut secara tiba – tiba. Tsunami telah sering terjadi dan menyebabkan banyak kerusakan dan korban jiwa. Tsunami yang sering terjadi secara tiba – tiba dan tidak dapat diprediksi menjadi penyebab utama banyaknya korban jiwa dan kerusakan yang terjadi dan juga kecilnya pengetahuan dan kesadaran tentang tsunami memperparah efek yang dapat ditimbulkan oleh tsunami. K-Medoids merupakan salah satu metode clustering data yang telah banyak diaplikasikan terhadap dataset yang memiliki outlier. Subjek yang terdapat pada penelitian ini adalah aplikasi pengelompokan data dengan menggunakan K-Medoids untuk mengelompokan data kejadian tsunami yang disebabkan oleh gempa bumi. Dataset yang digunakan pada penelitian ini bersumber dari database kejadian tsunami yang terdapat di situs resmi National Oceanic and Atmospheric Administration (NOAA). Hasil dari penelitian ini adalah sebuah sistem yang mampu melakukan pengelompokan dataset tsunami dengan menggunakan metode K-Medoids. Dari pengujian yang dilakukan didapatkan hasil bahwa jumlah cluster terbaik untuk mengelompokan dataset tsunami adalah 2 cluster. Kata Kunci: tsunami, K-Medoids
Abstract Tsunami is a natural events caused by sudden alteration in sea surface vertically, causing displacement of a large volume of water. Underwater volcano eruption, earthquake that is centered under the sea, and submarine landslide are some of the causes of sudden sea level change. Tsunami have occurred many times and causing many damages and fatalities. Tsunami often occurred so suddenly and cannot be predicted is the main reason for so many damages and fatalities, and the lack of knowledge and awareness are also worsen the effect of tsunami. K-Medoids is one of many clustering method which is applied to the dataset which have outlier. Subject in this research is a clustering application using KMedoids to cluster the tsunami event which caused by earthquake dataset. Dataset used in this research come from the tsunami events database from the official site of National Oceanic and Atmospheric Administration (NOAA). The outcome from this research is a system that able to do clustering process on the tsunami events dataset using K-Medoids method. From the test, it is showed that the best number of clusters for tsunami events dataset is 2 clusters. Keywords : tsunami, K-Medoids
Samudra Hindia. Dampak dari tsunami tersebut dirasakan oleh 14 negara termasuk negara kita dengan korban jiwa lebih dari 170.000 orang dan kerugian material diperkirakan mencapai US$ 4.000.000.000 – 4.500.000.000. Besarnya kerugian yang dialami Indonesia diantara lain disebabkan oleh dekatnya pusat gempa dengan pesisir pantai, kurangnya akses informasi dan pendidikan mengenai tanda - tanda tsunami.
1. PENDAHULUAN Pada hari Minggu, 26 Desember 2004 terjadi gempa hebat berkekuatan Mw (moment magnitude) 9,1–9,3 dan berpusat di lepas pesisir barat Sumatera yang menyebabkan terjadinya serangkaian bencana tsunami yang menyerang sebagian besar daratan yang berbatasan dengan Fakultas Ilmu Komputer Universitas Brawijaya
635
Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer
Selama ini tsunami masih menjadi bahasan di lembaga – lembaga penelitian dan level perguruan tinggi dan belum merakyat. Dengan teknologi yang berkembang pada saat ini tidak sulit untuk bisa mengumpulkan data – data statistik dari kejadian tsunami yang telah terjadi di masa lalu, mempelajari karakteristik dari setiap kejadian tersebut, dan melakukan pengelompokan data. Dengan bantuan teknologi maka pengelompokan data, atau yang disebut juga dengan Clustering, bisa dilakukan secara cepat, efektif dan efisien. Clustering adalah suatu unsupervised learning, dimana sekelompok data langsung dikelompokan berdasarkan tingkat kemiripannya tanpa dilakukan supervisi. Prinsip dasar dari clusteringadalah memaksimalkan kesamaan antar anggota satu klaster dan meminimumkan kesamaan antar anggota cluster yang berbeda. Clusteringjuga dapat mengelompokan data yang berdasarkan tingkat kemiripannya dan juga berdasarkan tingkat akurasinya (Han&Kamber,2006). Terdapat beberapa algoritma pengelompokan data, diantaranya adalah KMedoids, K-Means, dll. Algoritma K-Medoids merupakan metode yang diciptakan untuk mengatasi kelemahan algoritma K-Means yang sensitif terhadap outlier, karena nilai yang sangat besar dapat secara substansial mendistorsi distribusi data. Untuk mengatasi hal tersebut algoritma K-Medoids tidak mengambil nilai rata – rata dari objek dalam sebuah cluster sebagai titik acuan melainkan menggunakan objek yang sebenarnya untuk mewakili cluster, menggunakan satu objek perwakilan per cluster. Setiap objek yang tersisa berkumpul dengan objek perwakilan yang paling mirip dengan dirinya. Lalu metode partisi dilakukan berdasarkan prinsip meminimalkan jumlah ketidaksamaan antara tiap objek dengan titik referensinya (Han&Kamber,2006). Pada skripsi ini dengan memanfaatkan metode untuk K-Medoids, dapat dikembangkan untuk membangun aplikasi pada pengelompokan data kejadian tsunami yang disebabkan oleh gempa bumi. Pentingnya melakukan pengelompokan data dari kejadian tsunami karena data yang dihasilkan nantinya bisa berguna untuk mengetahui karakteristik tsunami dan bisa digunakan untuk peringatan awal dan penanggulangan bencana tsunami (National Academy of Science,2011). Melihat pada penelitian sebelumnya yang dilakukan oleh Gandhi Gopi (Gandhi,2014) Fakultas Ilmu Komputer, Universitas Brawijaya
636
menunjukan bahwa K-Medoids memiliki kinerja yang lebih baik daripada K-Means dalam melakukan pengelompokan pada dataset yang berukuran besar dan hasil dari penelitian yang dilakukan oleh T. Velmurugan dan T. Santhanam (Velmurugan,2010) menunjukan bahwa K-Medoids menunjukkan kinerja yang lebih bagus dari K-Means dalam melakukan pengelompokan terhadap dataset dengan jumlah objek yang besar 2. DATA PENELITIAN Data yang digunakan dalam penelitian ini adalah dataset tsunami yang disebabkan oleh gempa bumi yang diambil dari website NOAA (National Oceanic and Atmospheric Administration), dengan alamat website www.ngdc.noaa.gov. Parameter kejadian tsunami yang digunakan berjumlah 4 parameter yaitu kekuatan gempa, kedalaman pusat gempa (focal depth), latitude, longitude. Data yang terdapat pada website NOAA memiliki beberapa kelompok parameter seperti date, tsunami cause, tsunami source location, tsunami parameter, tsunami effect, tetapi hanya tsunami cause yang digunakan dalam penelitian ini dikarenakan parameter yang ada didalamnya merupakan parameter penyebab tsunami. Data kejadian tsunami yang diperoleh untuk penelitian ini berjumlah total 197 data. Data yang digunakan merupakan data kejadian tsunami yang terjadi pada tahun 1990 – 2015 dikarenakan banyak data kejadian tsunami yang terjadi pada tahun – tahun sebelum tahun 1990 memiliki data yang kurang lengkap. 3. TSUNAMI Kata Tsunami berasal dari 2 kata dalam bahasa jepang yaitu tsu yang berarti pelabuhan dan nami yang berarti gelombang, secara bahasa tsunami dapat diartikan sebagai ombak besar di pelabuhan. Tsunami disebabkan oleh perubahan permukaan laut secara vertikal dengan tiba – tiba sehingga menyebabkan perpindahan volume air yang besar. Letusan gunung berapi bawah laut, gempa bumi yang berpusat dibawah laut, dan longsor bawah laut merupakan beberapa penyebab perubahan permukaan laut secara tiba – tiba. Gelombang tsunami dapat merambat kesegala arah dengan kecepatan dan ketinggian tsunami didalam laut tetap tidak berubah. Di
Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer
637
lautan dalam, gelombang tsunami dapat melaju dengan kecepatan kecepatan 500-1000 km per jam tetapi ketinggiannya hanya sekitar 1 meter. Namun saat tiba dibibir pantai kecepatan gelombang tsunami turun hingga sekitar 30 km per jam dan ketinggiannya meningkat sampai puluhan meter dan gelombang tsunami dapat menjalar sampai puluhan kilometer dari tepi pantai. 4. K-MEDOIDS Algoritma k-medoids adalah salah satu algoritma clustering yang terkait dengan algoritma k-means. K-medoids dan k-means bersifat partisional (memecah dataset kedalam beberapa kelompok) dan keduanya bertujuan untuk meminimalkan jarak antara titik yang ada di dalam kluster dengan titik yang menjadi titik tengah dari kluster. Berikut langkah-langkah dari metode Kmedoid menurut Han & Kamber: 1. Menentukan jumlah kluster yang diinginkan. 2. Memilih secara acak data untuk digunakan sebagai medoid awal sebanyak jumlah kluster yang ditentukan. 3. Melakukan perhitungan jarak data terhadap medoid awal. 4. Mengelompokan data dengan medoid yang berjarak paling dekat dengan data tersebut lalu menghitung jumlah cost. 5. Mengganti salah satu medoid dengan data dari kelompoknya dan melakukan proses perhitungan jarak dan pengelompokan seperti pada proses nomor 3 dan 4. Jika jumlah cost yang dihasilkan lebih kecil dari cost sebelumnya maka medoid akan diganti dengan medoid yang baru dan jika tidak maka tidak terjadi perubahan dan diganti dengan data yang lainnya. Ulangi proses 3 – 5 sampai semua data telah menjadi medoid.
Gambar 1. Diagram Alir K-Medoids
5.
SILHOUTTE COEFFICIENT
Silhoutte Coefficient adalah suatu metode evaluasi cluster untuk melihat kualitas penempatan suatu objek kedalam suatu cluster. Tahapan perhitungan silhoutte coefficient adalah sebagai berikut (Rousseeuw,1986). 1. Hitung rata – rata jarak objek ke-i terhadap semua objek yang terdapat di kelompoknya. Rata – rata jarak tersebut kita sebut dengan a(i). 2. Hitung rata – rata jarak objek ke-i terhadap semua objek pada cluster lain kita sebut dengan b(i), dan ambil nilai terkecilnya. 3. Nilai silhoutte coefficient didapatkan dengan menggunakan rumus : 𝑏(𝑖)−𝑎(𝑖) 𝑆(𝑖) = max(𝑏(𝑖),𝑎(𝑖)) (1) dan dapat di tulis dengan : 1− 𝑆(𝑖) =
𝑎(𝑖) 𝑏(𝑖)
,
0, 𝑏(𝑖)
{ 𝑎(𝑖)
𝑖𝑓 𝑎(𝑖) < 𝑏(𝑖) 𝑖𝑓 𝑎(𝑖) = 𝑏(𝑖)
− 1,
(2)
𝑖𝑓 𝑎(𝑖) > 𝑏(𝑖)
S(i) = Nilai Silhouette a(i) = rata – rata jarak antara data i dengan semua objek pada cluster-nya. b(i) = rata – rata jarak antara data i terhadap semua objek pada cluster lain. Fakultas Ilmu Komputer, Universitas Brawijaya
Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer
638
Nilai dari silhoutte coefficient berada berkisar antara -1 sampai dengan 1. Jika nilai silhoutte coefficient hampir 1 maka objek tersebut berada di cluster yang tepat, jika berada disekitar 0 maka objek tersebut bisa berada diantar 2 cluster, dan jika hasilnya negatif maka objek tersebut kemungkinan berada di cluster yang salah. 6. IMPLEMENTASI SISTEM Pada bagian ini akan dijelaskan tentang bagaimana alur kerja dari sistem clustering dengan metode K-Medoids ini nantinya. Diagram alir dari sistem dalam melakukan proses pengelompokan dengan menggunakan KMedoids digambarkan pada gambar 2. Pada gambar 2, terlihat sistem clustering ini memiliki 3 proses utama, yaitu : 1. Jumlah Cluster Merupakan proses masukan dari pengguna yang berupa berapa banyak jumlah cluster yang diinginkan. Proses ini penting karena merupakan proses awal yang diperlukan untuk menjalankan sistem. Proses ini juga akan menentukan berapa banyak jumlah data yang akan diambil secara acak untuk menjadi medoid awal. 2. K-medoids Pada proses ini dataset dikelompokan berdasarkan jumlah kluster yang diinputkan pada awal program dengan menggunkan metode K-medoid. sistem yang telah menentukan secara acak sejumlah medoid akan mengelompokan data yang tersisa berdasarkan jarak terdekat dengan medoid yang ada. 3. Hasil Clustering Hasil dari clustering adalah data yang telah terkelompok sesuai dengan clusternya masing – masing.
Gambar 2. Diagram Alir Sistem
7. PENGUJIAN Pengujian sistem yang dilakukan pada pengujian ini adalah pengujian jumlah cluster dan pengujian clustering terhadap sampel data acak. 1. Pengujian jumlah cluster. Pengujian ini bertujuan untuk mengetahui apakah sistem yang dibangun telah berjalan sesuai dengan perancangan dan berapa jumlah cluster yang menghasil kan nilai silhouette terbaik. 2. Pengujian clustering terhadap sampel data acak. Pengujian ini bertujuan untuk mengetahui presentase data minimal yang dapat digunakan untuk rekomendasi pengambilan sampel data dari dataset dengan jumlah data yang besar. 8. ANALISIS Berikut ini merupakan hasil dari pengujian jumlah cluster dan pengujian clustering terhadap sampel data acak. Tabel 1 dan gambar 3 merupakan hasil pengujian petama. Tabel 2 dan gambar 4 merupakan hasil pengujian kedua.
Fakultas Ilmu Komputer, Universitas Brawijaya
Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer
639
Tabel 1. Hasil Pengujian Pertama
Tabel 2. Hasil Pengujian Kedua
Nilai silhouette score
No
Jumlah Cluster
Silhouette Score
Data Acak
50%
60%
70%
80%
90%
1
2
0,400668137270
1
0,351
0,410
0,463
0,415
0,451
2
3
0,322900508932
2
0,401
0,442
0,446
0,461
0,466
3
4
0,303301079203
3
0,342
0,406
0,417
0,441
0,443
4
5
0,160571099
4
0,373
0,432
0,439
0,457
0,452
5
6
0,217537051717
5
0,442
0,422
0,445
0,441
0,457
6
7
0,153083184634
Rata
0,382
0,423
0,442
0,443
0,454
7
8
0,213233297630
8
9
0,149280034071
9
10
0,177143217497
0,6
Hasil Pengujian Terhadap Jumlah Cluster
0,6
Hasil Pengujian Clustering Terhadap Sampel Data Acak
0,5 0,4 0,3
Silhouette Score
0,4
Silhouette Score
0,2 0,1
0,2
50%
60%
70%
80%
90%
Gambar 4. Hasil Pengujian Kedua
0,0 2
3
4
5 6 7 8 Jumlah Cluster
9 10
Gambar 3. Hasil Pengujian Pertama
Dari hasil pengujian perubahan jumlah cluster yang ditampilkan pada tabel 1 terlihat bahwa sistem telah berhasil menjalankan metode K-Medoids seperti yang telah dirancang sebelumnya. Sistem mampu menerima masukan dari user dan menampilkan hasilnya. Analisa hasil clustering dengan pengujian jumlah cluster sebanyak 2 sampai dengan 10 cluster menunjukan bahwa kualitas clustering dengan jumlah cluster sama dengan 2 memiliki kualitas yang paling bagus dengan nilai silhouette score sebesar 0,400668137270. Selain itu, semakin banyak jumlah cluster yang dimasukan maka semakin rendah nilai silhouette score yang dihasilkan. Hal ini disebabkan karena ketika jumlah cluster yang digunakan semakin sedikit maka rata – rata jarak antara data di dalam suatu cluster semakin kecil dan rata – rata jarak antar cluster semakin besar sehingga menghasilkan nilai silhouette score yang lebih baik dan hal yang sebaliknya akan terjadi ketika jumlah cluster semakin besar. Fakultas Ilmu Komputer, Universitas Brawijaya
Gambar 4 menggambarkan hasil pengujian terhadap 25 dataset yang diambil secara acak dari dataset tsunami dapat dilihat bahwa kelompok dataset dengan jumlah data sebesar 90% dari total dataset kejadian tsunami menghasilakan rata – rata nilai silhouette score paling baik dengan nilai silhouette score sebesar 0,45363334, dan dapat dilihat juga bahwa semakin kecil presentase pengambilan data acak maka nilai silhouette score yang dihasilkan akan semakin kecil. Hal ini dapat terjadi karena semakin kecil presentase data acak yang diambil maka kesamaan karakteristik antar data didalam dataset akan berkurang yang akan menyebabkan rata – rata jarak antar data dalam suatu cluster akan semakin besar dan rata – rata jarak antar cluster akan semakin kecil. 9. KESIMPULAN Berdasarkan pada hasil perancangan, implementasi dan pengujian sistem yang telah dilakukan maka kesimpulan yang didapat sebagai berikut : 1. Metode K-Medoids dapat diaplikasikan untuk pengelompokkan dataset kejadian tsunami. Pengimplementasian metode K-
Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer
Medoids pada penelitian ini dimulai dengan pengambilan dataset dari situs NOAA yaitu http://www.ngdc.noaa. gov. Dataset yang telah diambil akan dimasukkan kedalam proses clustering dengan dengan menggunakan metode KMedoids. Metode silhouette juga digunakan didalam sistem untuk mengetahui kualitas dari hasil clustering yang telah dihasilkan. Metode silhouette menghitung tingkat kesamaan karakteristik data di dalam suatu cluster dan data antar cluster. Setelah proses KMedoids dan perhitungan kualitas selesai maka sistem akan menampilkan hasil clustering beserta nilai silhouette score. 2. Pada penelitian ini terdapat 2 pengujian yang dilakukan berdasarkan perancangan pengujian pada bab perancangan. a. Pengujian Terhadap Jumlah Cluster Dari hasil pengujian jumlah cluster yang telah dilakukan didapatkan bahwa jumlah cluster terbaik yang didapatkan adalah 2 cluster dengan nilai silhouette score sebesar 0,400668137270. Nilai tersebut dapat dapat diartikan bahwa kesamaan karakteristik data yang terdapat dalam kluster tidak terlalu bagus sehingga jarak antar data dalam suatu kluster berjauhan. Hal ini dapat terjadi karena perbedaan data yang sangat besar antara data satu dengan data lainnya dan juga bisa disebabkan karena belum ditemukan kombinasi medoid awal yang terbaik. b. Pengujian Clustering Terhadap Sampel Data Acak Hasil pengujian clustering terhadap sampel data acak menunjukkan bahwa 90% data merupakan presentase minimal untuk pengambilan sampel data. 10. SARAN Saran yang diberikan untuk pengembangan sistem dalam penelitian selanjutnya adalah: 1. Dapat dilakukan penelitian lebih lanjut tentang metode K-Medoids dalam pemilihan medoid agar medoid yang terpilih merupakan medoid terbaik sehingga mendapatkan hasil clustering yang terbaik. Fakultas Ilmu Komputer, Universitas Brawijaya
640
2. Dapat dilakukan penelitian lebih lanjut tentang clustering dataset tsunami dengan menggunakan metode clustering lainnya sebagai perbandingan. 3. Penelitian ini dapat dikembangkan dengan menambahkan beberapa fitur lain untuk mengetahui pengaruh fitur terhadap hasil clustering. DAFTAR PUSTAKA Bauckhage, C. (2015) NumPy / SciPy Recipes for Data Science: K-Medoids Clustering. University of Bonn. Gandhi, G. & Srivastava, R. (2014) Analysis And Implementation Of Modified KMedoids Algorithm To Increase Scalability And Efficiency For Large Dataset. International Journal of Research in Engineering and Technology. 3(6), 150 – 153. Han, J. & Kamber, M. (2006) Data Mining : Concepts and Technique, 2nd edn. San Francisco, Elsevier Inc. Hinga, B. D. R. (2015) An Encyclopedia of the Pacific Rim’s Earthquakes, Tsunamis, and Volcanoes. Santa Barbara, ABCCLIO. Richter, C. F. (1935) Bulletin of the Seismological Society of America. Pasadena, Carnegie Institution of Washington. Rousseeuw, P. J. (1986) Silhouettes : A Graphical Aid to the Interpretation and Validation of Cluster Analysis. Fribourg, University of Fribourg. Velmurugan, T. & Santhanam, T. (2010) Computational Complexity between KMeans and K-Medoids Clustering Algorithms for Normal and Uniform Distributions of Data Points. Journal of Computer Science. 6(3), 363 – 368.