CLUSTERING DATASET TITIK PANAS DENGAN ALGORITME DBSCAN MENGGUNAKAN WEB FRAMEWORK SHINY PADA BAHASA PEMROGRAMAN R
RAHMAH MARDHIYYAH
DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2014
PERNYATAAN MENGENAI SKRIPSI DAN SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA Dengan ini saya menyatakan bahwa skripsi berjudul Clustering Dataset Titik Panas dengan Algoritme DBSCAN Menggunakan Web Framework Shiny pada Bahasa Pemrograman R adalah benar karya saya dengan arahan dari komisi pembimbing dan belum diajukan dalam bentuk apa pun kepada perguruan tinggi mana pun. Sumber informasi yang berasal atau dikutip dari karya yang diterbitkan maupun tidak diterbitkan dari penulis lain telah disebutkan dalam teks dan dicantumkan dalam Daftar Pustaka di bagian akhir skripsi ini. Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut Pertanian Bogor. Bogor, Agustus 2014
Rahmah Mardhiyyah NIM G64080037
ABSTRAK RAHMAH MARDHIYYAH. Clustering Dataset Titik Panas dengan Algoritme DBSCAN Menggunakan Web Framework Shiny pada Bahasa Pemrograman R. Dibimbing oleh KARLINA KHIYARIN NISA. Kebakaran hutan merupakan permasalahan serius yang terjadi berulang kali di Indonesia. Salah satu bentuk penanggulangan bencana kebakaran hutan adalah dengan melakukan pemantauan terhadap titik panas melalui satelit penginderaan jauh. Setiap titik panas yang berpotensi sebagai lokasi kebakaran akan dicatat pada suatu dataset. Penelitian ini bertujuan membangun sebuah aplikasi web yang melakukan clustering pada data titik panas. Aplikasi ini dibangun menggunakan framework Shiny dan algoritme DBSCAN pada bahasa pemrograman R. Clustering dilakukan pada dataset titik panas di pulau Kalimantan dan provinsi Sumatera Selatan pada tahun 2002-2003. Clustering menggunakan DBSCAN menghasilkan pola-pola penyebaran hotspot kebakaran hutan. Wilayah yang memiliki cluster hotspot terluas adalah provinsi Kalimantan Barat yang memiliki 3528 hotspot.
Kata kunci: clustering, DBSCAN, kebakaran hutan, R, Shiny, titik panas
ABSTRACT RAHMAH MARDHIYYAH. Clustering on Hotspot Dataset with DBSCAN Algorithm using Shiny Web Framework on R Programming Language. Supervised by KARLINA KHIYARIN NISA Forest fire is a very serious and critical problem which occurs repeatedly in Indonesia. One prevention and solution for the forest fire disaster is by monitoring the hotspots through remote sensing satellite. Every hotspot which is likely to be fire location is recorded in a dataset. The purpose of this research is to build a web application that performs clustering on the hotspot dataset. This application implements the DBSCAN algorithm using Shiny web framework on R programming language. Clustering is performed on a dataset of hotspots in Borneo island and South Sumatra province in 2002-2003. Clustering using DBSCAN produces patterns of distributing hotspot forest fire. The widest cluster hotspot is located at West Kalimantan province which has 3528 hotspots. Keywords: clustering, DBSCAN, forest fire, hotspot, R, Shiny
CLUSTERING DATASET TITIK PANAS DENGAN ALGORITME DBSCAN MENGGUNAKAN WEB FRAMEWORK SHINY PADA BAHASA PEMROGRAMAN R
RAHMAH MARDHIYYAH
Skripsi sebagai salah satu syarat untuk memperoleh gelar Sarjana Komputer pada Departemen Ilmu Komputer
DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2014
Penguji: 1 2
Hari Agung Adrianto, SKom, MSi Dr Imas Sukaesih Sitanggang, SSi, MKom
Judul Skripsi : Clustering Dataset Titik Panas dengan Algoritme DBSCAN Menggunakan Web Framework Shiny pada Bahasa Pemrograman R Nama : Rahmah Mardhiyyah NIM : G64080037
Disetujui oleh
Karlina Khiyarin Nisa, SKom, MT Pembimbing
Diketahui oleh
Dr Ir Agus Buono, MSi, MKom Ketua Departemen
Tanggal Lulus:
PRAKATA Puji dan syukur penulis panjatkan kepada Allah subhanahu wa ta’ala atas segala karunia-Nya sehingga penulis dapat menyelesaikan tugas akhir dengan judul Clustering Dataset Titik Panas Dengan Algoritme DBSCAN Menggunakan Web Framework Shiny pada Bahasa Pemrograman R. Penelitian ini dilaksanakan di Departemen Ilmu Komputer Institut Pertanian Bogor. Terima kasih penulis ucapkan kepada Ibu Karlina Khiyarin Nisa, SKom, MT selaku pembimbing, serta Bapak Hari Agung SKom, MKom dan Ibu Dr. Imas Sukaesih Sitanggang, SSi MKom selaku penguji yang telah banyak memberi bantuan dalam penyelesaian skripsi ini. Penulis juga menyampaikan terima kasih untuk suami tercinta, Roy Septian Sugiharto dan ananda tersayang, Muhammad Aufa Ghaisan atas semua doa dan kasih sayang yang diberikan. Ungkapan terima kasih juga disampaikan kepada ayah, ibu, seluruh keluarga, dan teman-teman atas segala doa dan dukungannya. Semoga karya ilmiah ini bermanfaat.
Bogor, Agustus 2014 Rahmah Mardhiyyah
DAFTAR ISI DAFTAR TABEL
vi
DAFTAR GAMBAR
vi
DAFTAR LAMPIRAN
vi
PENDAHULUAN Latar Belakang
1 1
Perumusan Masalah
1
Tujuan Penelitian
2
Manfaat Penelitian
2
Ruang Lingkup Penelitian
2
TINJAUAN PUSTAKA Titik Panas (Hotspot)
2 2
Algoritme DBSCAN
3
Package Shiny
3
METODE Data Penelitian
3 3
Tahapan Penelitian
4
Lingkupan Pengembangan
5
HASIL DAN PEMBAHASAN Praproses Data
5 5
Implementasi Aplikasi Web Clustering pada Bahasa R
5
Penentuan Epsilon dan MinPts
8
Hasil Clustering dengan Algoritme DBSCAN SIMPULAN DAN SARAN Simpulan Saran DAFTAR PUSTAKA LAMPIRAN RIWAYAT HIDUP
10 12 12 12 12 14 16
DAFTAR TABEL 1 2 3 4
Atribut pada dataset hotspot Spesifikasi perangkat pembuatan aplikasi web clustering Perhitungan untuk menentukan ambang batas Jumlah titik pada hasil clustering dataset hotspot pulau Kalimantan
4 5 9 11
DAFTAR GAMBAR 1 2 3 4 5 6 7 8 9 10
Tahapan penelitian Fail server.r Fail ui.r Aplikasi clustering berbasis internet Grafik penentuan nilai Eps Grafik K-dist pada dataset hotspot pulau Kalimantan Pengaruh Epsilon terhadap jumlah cluster Jumlah cluster pada beberapa nilai Epsilon dan MinPts Jumlah noise pada beberapa nilai Epsilon dan MinPts Hasil clustering pada dataset hotspot pulau Kalimantan
4 6 7 7 8 8 9 10 10 11
LAMPIRAN 1
Contoh dataset titik panas pulau Kalimantan
14
PENDAHULUAN Latar Belakang Kebakaran hutan merupakan salah satu bencana alam yang sering terjadi di Indonesia. Dampak yang ditimbulkan kebakaran hutan sangat kompleks, tidak hanya pada kerusakan ekosistem lingkungan namun juga mencakup bidang lain seperti perekonomian, budaya, hubungan antar negara dan lainnya. Pada bidang lingkungan, kebakaran hutan menyebabkan pencemaran kabut asap, peningkatan emisi karbon, juga hilangnya tempat tinggal bagi sejumlah satwa liar yang mengakibatkan ketidakseimbangan ekosistem. Salah satu bentuk penanggulangan dan pencegahan bencana kebakaran hutan adalah dengan melakukan pemantauan terhadap hotspot melalui satelit penginderaan jauh. Hotspot merupakan titik-titik panas di permukaan bumi yang dapat digunakan sebagai indikasi terjadinya kebakaran hutan. Setiap titik panas akan dicatat pada suatu dataset yang meliputi data spasial (latitude, longitude), data temporal (waktu dan tanggal pemantauan) dan data nonspasial (suhu udara, curah hujan, dsb). Persebaran titik panas biasanya menggerombol secara alami, sehingga apabila penggerombolan lokasi hotspot diketahui maka dapat digunakan dalam analisis terjadinya kebakaran hutan. Penggerombolan ini dilakukan dengan algoritme DBSCAN yang mampu menemukan cluster dari data spasial yang besar (Gaonkar dan Sawant 2013). DBSCAN adalah sebuah algoritme yang mengelompokkan objek berdasarkan kepadatan. Algoritme ini memastikan wilayah yang cukup padat menjadi sebuah cluster apabila memenuhi jumlah titik ketetanggaan (MinPts) dalam jarak tertentu (epsilon). Kepadatan suatu objek didapatkan dari jumlah titik yang memenuhi nilai epsilon tersebut sehingga DBSCAN menghasilkan cluster yang memiliki beragam kepadatan dengan bentuk cluster yang tidak beraturan. R merupakan salah satu bahasa pemrograman yang melakukan pengolahan data. R sangat efektif dalam pengelolaan data, fasilitas penyimpanan dan memvisualisasikan cluster. Selain itu R dapat dikembangkan sesuai kebutuhan dengan menambah fitur-fitur tambahan dalam bentuk paket ke dalam software R yang sifatnya gratis (Venables dan Smith 2009). Purwanto (2012) telah melakukan clustering data titik panas dengan algoritme DBSCAN dan ST-DBSCAN menggunakan MATLAB. Penelitian tersebut berbasis desktop dengan running time selama 6 jam. Aplikasi berbasis desktop ini memiliki beberapa kekurangan diantaranya perlu instalasi pada komputer untuk menjalankan aplikasi tersebut sehingga tidak bisa diakses oleh banyak orang. Pada penelitian ini, clustering dilakukan menggunakan algoritme DBSCAN dengan bahasa pemrograman R dan aplikasi clustering dibuat berbasis web agar hasil clustering dapat diakses dengan mudah oleh siapapun. Perumusan Masalah Rumusan permasalahan pada penelitian ini adalah bagaimana membangun aplikasi berbasis web yang melakukan clustering dengan algoritme DBSCAN pada dataset titik panas menggunakan bahasa R.
2
Tujuan Penelitian Penelitian ini bertujuan untuk membuat aplikasi clustering berbasis web pada data spasial titik panas menggunakan bahasa pemrograman R. Manfaat Penelitian Penelitian ini membangun aplikasi web clustering yang dapat menghasilkan pola penyebaran titik panas yang mudah diakses oleh peneliti bidang kehutanan, pemerintah, maupun masyarakat. Dengan demikian tindakan pencegahan dan evakuasi dapat dilakukan lebih awal. Ruang Lingkup Penelitian 1 2 3
Lingkup dari penelitian ini antara lain yaitu: Penelitian ini dibatasi pada data titik panas Pulau Kalimantan dan Provinsi Sumatera Selatan. Algoritme clustering yang digunakan untuk pengolahan dataset titik panas adalah algoritme DBSCAN. Aplikasi ini dijalankan pada server lokal.
TINJAUAN PUSTAKA Titik Panas (Hotspot) Titik panas (hotspot) menurut Peraturan Menteri Kehutanan Nomor: P.12/Menhut/II/2009 adalah indikator kebakaran hutan yang mendeteksi suatu lokasi yang memiliki suhu relatif lebih tinggi dibandingkan dengan suhu di sekitarnya. Pemantauan hotspot dapat dilakukan dengan menggunakan satelit penginderaan jauh (remote sensing). Salah satu sensor satelit yang digunakan untuk memantau permukaan bumi adalah Moderate Resolution Imaging Spectroradiometer (MODIS). MODIS merupakan sensor yang terdapat pada satelit Terra (EOS AM-1), yang diluncurkan pada 18 Desember 1999 dan Aqua (EOS PM-1) yang diluncurkan pada 4 Mei 2002. Pendeteksian titik api yang aktif menggunakan MODIS mewakili titik tengah dari piksel berukuran 1 kilometer yang bisa terdiri dari satu titik api atau lebih. Titik api dapat diketahui menggunakan data dari instrumen MODIS yang terdapat pada badan satelit Aqua atau Terra milik NASA (National Aeronautics and Space Administration.) Titik api yang terdeteksi dapat diartikan bahwa kebakaran terjadi di dalam lingkup piksel berukuran 1 km2. Piksel merupakan unit terkecil dari citra satelit/foto. Satu piksel pada citra satelit TERRA dan AQUA setara dengan + 1 km2. Namun 1 piksel tidak selalu setara dengan 1 km2 ketika berada di pinggiran lintasan. Ketika terjadi kebakaran pada koordinat tertentu maka koordinat tersebut akan ditampilkan di tengah piksel meskipun kebakaran berada di pinggir piksel, sehingga untuk mengetahui lokasi terjadinya kebakaran harus menelusuri kurang lebih 1 km2 dari lokasi koordinat hotspot tersebut (NASA 2014).
3
Algoritme DBSCAN DBSCAN (Density-Based Clustering of Application with Noise) merupakan algoritme clustering yang mengelompokkan titik berdasarkan kepadatan data di suatu wilayah. Algoritme DBSCAN memerlukan masukan parameter jarak epsilon (Eps) dan jumlah titik minimum (MinPts). Epsilon merupakan jarak antar titik yang menandakan kepadatan objek. Ketetanggaan antar titik yang memenuhi jarak epsilon disebut e-neighborhood dan titik yang memiliki e-nighborhood minimal sebanyak jumlah MinPts disebut sebagai titik pusat (core point). Langkah-langkah membangun cluster menggunakan DBSCAN adalah sebagai berikut (Han et al. 2001): 1 Pilih titik p secara acak 2 Dapatkan titik yang e-neighborhood dari titik p. 3 Jika jumlah titik dari langkah 2 memenuhi nilai MinPts, maka p merupakan titik pusat dan sebuah cluster telah terbentuk 4 Jika jumlah titik dari langkah 2 tidak memenuhi nilai MinPts maka titik p merupakan titik batas (border point) dan pilih titik berikutnya. 5 Lanjutkan hingga semua titik telah diproses dan tidak ada titik yang dapat ditambahkan pada cluster.
Package Shiny Shiny merupakan sebuah package yang mempermudah pembangunan aplikasi web dari bahasa pemrograman R. Shiny mampu menampilkan query dan ringkasan data secara interaktif kepada end user melalui web browser dengan mudah. Shiny menyediakan berbagai macam widget untuk membangun antarmuka pengguna yang interaktif. Selain itu, aplikasi Shiny juga dapat diperluas dan diintegrasikan dengan aplikasi web lain menggunakan HTML dan CSS. Bahkan JavaScript dan jQuery juga dapat digunakan untuk memperluas bidang aplikasi Shiny (Beeley 2013). Shiny termasuk dalam pemrograman reaktif yang mampu menampilkan output data sesuai dengan inputnya. Perubahan pada nilai input akan menghasilkan nilai output baru tanpa perlu memuat ulang halaman. Aplikasi Shiny tersusun dari dua komponen yaitu bagian antarmuka dan bagian server yang tergabung dalam satu folder. Bagian antarmuka mengatur tampilan dan layout dari aplikasi yang dikembangkan sedangkan bagian server akan berisi instruksi bagi komputer untuk membangun aplikasi tersebut.
METODE Data Penelitian Data yang digunakan pada penelitian ini adalah data titik panas di Pulau Kalimantan dan provinsi Sumatera Selatan pada tahun 2002-2003. Data ini diperoleh dari Fire Information for Resource Management System (FIRMS) yang disediakan oleh National Aeronautics and Space Administration (NASA). Pada
4 dataset pulau Kalimantan terdapat 4999 titik panas, sedangkan pada dataset provinsi Sumatera Selatan terdapat 4821 titik panas. Atribut pada dataset hotspot yang diperoleh dari FIRMS dapat dilihat pada Tabel 1. Tabel 1 Atribut pada dataset hotspot No. 1 2 3 4 5 6 7 8 9 10 11 12
Nama Atribut Latitude Longitude Brightness temperature Scan Track Acq_date Acq_time Satellite Confidence Bright_t31 Frp Versi
Keterangan Koordinat lintang lokasi hotspot (o) Koordinat bujur lokasi hotspot (o) temperatur (K) Ukuran lebar piksel citra satelit Ukuran panjang piksel citra satelit tanggal kejadian titik panas waktu kejadian titik panas satelit yang digunakan (Aqua, Terra) kualitas titik panas (0-100%) temperatur channel-31 (K) fire radiative power (MegaWatts) 5.0 = MODIS NASA-LANCE, 5.1 = MODIS MODAPS-FIRMS
Tahapan Penelitian Tahapan yang dilakukan pada penelitian ini ditunjukkan pada Gambar 1. Praproses Data Dataset titik panas yang diperoleh dari FIRMS berupa fail CSV yang diolah menggunakan perangkat lunak Microsoft Excel 2007. Terdapat 12 atribut pada setiap data titik panas. Untuk proses clustering, atribut yang digunakan berupa data spasial yaitu koordinat lintang dan bujur dari lokasi titik panas tersebut sehingga atribut lain direduksi.
Gambar 1 Tahapan penelitian Implementasi Aplikasi Web Clustering Pada tahapan ini aplikasi web clustering dibangun menggunakan perangkat lunak RStudio. Aplikasi ini memanfaatkan framework Shiny untuk membangun aplikasi web clustering dari bahasa pemrograman R. Untuk penggunaan algoritme
5 DBSCAN menggunakan bahasa pemograman R dilakukan dengan pemanggilan fungsi DBSCAN yang terdapat pada package FPC. Lingkupan Pengembangan Pembuatan aplikasi web clustering algoritme DBSCAN ini menggunakan beberapa perangkat keras dan perangkat lunak dengan spesifikasi yang terdapat pada Tabel 2. Tabel 2 Spesifikasi perangkat pembuatan aplikasi web clustering Perangkat Keras Processor Intel Core 2 Duo 2.10 GHz, RAM 2 GB Harddisk berkapasitas 160 GB.
Perangkat Lunak Sistem operasi Windows 8 Bahasa pemrograman R versi 3.1.0 RStudio versi 0.98.501 dengan package Shiny dan fpc Microsoft Excel 2007 Browser Google Chrome
HASIL DAN PEMBAHASAN Praproses Data Dataset titik panas pulau Kalimantan dan provinsi Sumatera Selatan yang diperoleh dari FIRMS berupa fail CSV. Contoh dataset titik panas dapat dilihat pada Lampiran 1. Untuk clustering titik panas dilakukan pada data tersebut akan dilakukan pemilihan field data yang diperlukan untuk perhitungan clustering. Dari dataset titik panas yang memiliki 12 field direduksi dengan memilih 2 field saja yaitu koordinat lintang dan bujur. Implementasi Aplikasi Web Clustering pada Bahasa R Aplikasi Shiny tersusun atas komponen server dan antarmuka yang terdapat dalam satu folder. Bagian server berisi instruksi yang digunakan pada aplikasi yang disimpan dalam fail server.r. Baris pertama pada fail server.r adalah library yang dibutuhkan untuk membangun aplikasi. Pada aplikasi ini, diperlukan library fpc untuk mengimplementasikan algoritme DBSCAN pada bahasa R. Input dataset pada aplikasi ini adalah fail csv yang berisi koordinat lintang dan bujur dari titik panas. Dataset ini dijadikan sebuah objek sebagai global environment. Objek ini digabungkan untuk membentuk data frame baru yang akan digunakan sebagai input fungsi DBSCAN. Pengguna dapat memilih data mana yang akan digunakan untuk proses clustering. Objek data ini dibuat reaktif untuk menanggapi setiap perubahan permintaan pengguna. Potongan program pada fail server.r dapat dilihat pada Gambar 2. Fungsi dbscan pada aplikasi ini bersifat reaktif, sehingga setiap perubahan nilai input akan menyebabkan pemanggilan ulang fungsi dbscan dan menghasilkan cluster baru tanpa perlu memuat ulang halaman browser. Parameter
6 nilai Epsilon dan jumlah titik minimum (MinPts) dari algoritme DBSCAN didapatkan dari nilai yang dimasukkan oleh pengguna. library("fpc") shinyServer(function(input, output, session) { #mengambil data koordinat titik panas selectedData <- reactive({ switch(input$daerah, klm = myobj <-as.data.frame(read.csv("kalimantan.csv", header=TRUE, sep =";")), smt = myobj <- as.data.frame(read.csv("sumatera.csv", header=TRUE, sep =";")) ) #Menggabungkan variable terpilih menjadi sebuah data frame baru assign("data", myobj, envir = .GlobalEnv) return(data[, c(input$ycol, input$xcol)]) #memanggil fungsi dbscan clusters <- reactive({ dbscan(selectedData(), input$eps,input$minPts)}) #mengatur visualisasi hasil clustering output$plot1 <- renderPlot({ par(mar = c(5.1, 4.1, 0, 1)) plot(selectedData(), col = clusters()$cluster, pch = 20, cex = 2) points(clusters()$centers, pch = 4, cex = 4, lwd = 4) })
Gambar 2 Fail server.r Instruksi untuk menampilkan hasil clustering dataset titik panas menggunakan fungsi renderPlot. Fungsi ini berisi argument par yang mengatur letak gambar hasil clustering, plot yang mengambil data hasil clustering dan points yang menentukan jenis titik plotting pada gambar hasil clustering. Bagian antarmuka berisi atribut-atribut yang ditampilkan pada halaman web browser. Antarmuka ini terdiri dari headerPanel, sidebarPanel dan mainPanel. HeaderPanel merupakan judul halaman aplikasi. SidebarPanel berisi berbagai input yang bisa dipilih pengguna. Terdapat 3 pilihan input yaitu : input untuk pilihan dataset, input untuk memasukkan nilai Epsilon dan input untuk nilai MinPts. MainPanel merupakan area untuk menampilkan hasil clustering yang sesuai dengan input . Potongan program yang terdapat pada fail ui.r dapat dilihat pada Gambar 3.
7
#memilih jenis halaman yang akan ditampilkan shinyUI(pageWithSidebar( headerPanel('Hotspot Clustering Menggunakan Algoritme DBSCAN'), sidebarPanel( #mengambil pilihan dataset selectInput("daerah", "Data Hotspot", choices = c("Sumatera" = "smt", "Kalimantan" = "klm"), selected="smt") #masukan nilai epsilon dan minimum points numericInput('eps', 'EPS', 0.2, min = 0.1, max = 1), numericInput('minPts', 'MinPts', 4, min = 1, max= 7)), #menampilkan judul dan plot data hasil clustering mainPanel( h3(textOutput('caption')), plotOutput('plot1')
Gambar 3 Fail ui.r Implementasi aplikasi web clustering pada bahasa R menghasilkan cluster tanpa noise. Pengguna dapat memilih dataset yang tersedia untuk dilakukan proses clustering. Dataset ini terdiri dari dataset hotspot pulau Kalimantan dan dataset hotspot provinsi Sumatera Selatan. Tampilan aplikasi ini dapat dilihat pada Gambar 2.
Gambar 4 Aplikasi clustering berbasis internet
8 Penentuan Epsilon dan MinPts Clustering menggunakan algoritme DBSCAN membutuhkan parameter nilai epsilon (Eps) dan jumlah titik minimum (MinPts). Penentuan nilai Eps dan MinPts sangat berpengaruh terhadap cluster yang akan dihasilkan. Untuk memilih nilai Eps, diperlukan observasi pada grafik k-dist pada semua dataset (Purwanto, 2012). K-dist merupakan jarak k tetangga terdekat dari sebuah titik dalam suatu dataset. Pada algoritme DBSCAN, antar titik tetangga dalam satu cluster memiliki jarak yang sama, sedangkan titik noise memiliki jarak terjauh dari k-tetangga terdekat. Untuk mengetahui pada epsilon berapa titik noise mulai terdeteksi, yaitu saat jarak titik-titik pada cluster mulai menjauh, dilakukan plot jarak secara terurut pada setiap titik pada k-tetangga terdekat. Plot jarak ini digunakan untuk melihat lekukan sebagai ambang batas pada grafik yang menandakan titik mulai menjauh. Ilustrasi plot k-dist dapat dilihat pada Gambar 5.
Gambar 5 Grafik penentuan nilai Eps Pada dataset hotspot pulau Kalimantan dilakukan perhitungan k-dist pada seluruh titik kemudian diurutkan dalam urutan menurun. Hasil k-dist yang telah diurutkan ini di-plot dalam sebuah grafik k-dist yang dapat dilihat pada Gambar 4. Perhitungan k-dist dilakukan dengan beberapa nilai k. Epsilon dipilih dari nilai yang menjadi ambang batas grafik k-dist. Ambang batas yang terlihat pada grafik dimulai saat nilai Eps= 0.5 sehingga clustering mulai dilakukan dengan nilai Epsilon tersebut. 4 3.5 3 k-dist
2.5 k=4
2
k=6
1.5
Ambang batas
1
k=8
0.5 0 1
101
201
301
401
501
601
701
801
Point
Gambar 6 Grafik K-dist pada dataset hotspot pulau Kalimantan
9 160
jumlah cluster
140 120 100 80
MinPts=4
60
MinPts=6
40
MinPts=8
20 0 0
0.1
0.2
0.3 Epsilon
0.4
0.5
Gambar 7 Pengaruh Epsilon terhadap jumlah cluster Gambar 5 merupakan grafik yang memperlihatkan pengaruh nilai Epsilon pada jumlah cluster. Nilai Epsilon dipilih dari garis yang mendekati garis melandai kemudian dipotong secara vertikal. Grafik yang semakin melandai menandakan jumlah cluster yang semakin konsisten dimulai pada nilai epsilon 0.2. Dengan demikian, nilai Eps=0.2 merupakan nilai yang optimal. Selain menentukan nilai Eps dari ambang batas yang terlihat secara visual dari grafik k-dist, penentuan ambang batas dapat juga dilakukan secara komputasi yaitu dengan menghitung selisih kemiringan garis. Setiap perbedaan kemiringan sebesar 10% sampai 20% akan menjadi kandidat nilai Eps yang diambil. (Gaonkar&Sawat, 2012). Tabel 1 memperlihatkan contoh perhitungan untuk menentukan ambang batas pada plot k-dist. Selisih gradien yang pertama mencapai nilai antara 10-20% dijadikan sebagai kandidat nilai Epsilon yang optimal. Tabel 3 Perhitungan untuk menentukan ambang batas Jarak titik 0.4524622 0.4465423 0.43040098 0.41520718 0.33726251 0.33644167 0.31075714 0.30019327 0.29904013 0.29150986 0.2889429
Perbandingan selisih gradien 0.013083745 0.036147357 0.035301498 0.187724758 0.002433831 0.076341703 0.033993974 0.003841325 0.02518147 0.00880574 0.048097392
Selisih gradien(%) 1 4 4 19 0 8 3 0 3 1 5
10
Jumlah cluster
Penentuan nilai jumlah titik minimum (MinPts) akan mempengaruhi jumlah noise pada hasil clustering. Semakin besar nilai MinPts menghasilkan lebih sedikit noise dengan komputasi yang lebih kompleks. Sedangkan apabila nilai MinPts yang dipilih terlalu kecil memungkinkan banyak titik noise yang akan menjadi cluster. Pada data 2-dimensi, clustering dengan nilai MinPts lebih besar dari 4 hasilnya tidak jauh berbeda dari MinPts= 4 (Ester 1996). Hal ini dapat dilihat pada Gambar 8 dan Gambar 9. Gambar 8 menampilkan jumlah cluster yang dihasilkan dengan nilai Epsilon dan MinPts yang beragam pada dataset hotspot pulau Kalimantan sedangkan Gambar 9 menampilkan hasil noise pada variasi nilai MinPts pada dataset hotspot pulau Kalimantan. 160 140 120 100 80 60 40 20 0
MinPts=4 MinPts=6 MinPts=8
0
0.1
0.2 0.3 Epsilon
0.4
0.5
Gambar 8 Jumlah cluster pada beberapa nilai Epsilon dan MinPts 1200
Jumlah noise
1000 800 MinPts=4
600
MinPts=6
400
MinPts=8
200 0 0
0.1
0.2
0.3
0.4
0.5
Epsilon
Gambar 9 Jumlah noise pada beberapa nilai Epsilon dan MinPts Hasil Clustering dengan Algoritme DBSCAN Clustering pada dataset hotspot menggunakan algoritme DBSCAN dilakukan untuk menemukan pola kebakaran hutan. Konsentrasi hotspot akan mengindikasikasikan wilayah yang rawan terjadi kebakaran hutan. Gambar 10 merupakan hasil clustering dengan algoritme DBSCAN pada dataset hotspot pulau Kalimantan, dengan nilai Epsilon= 0.2 dan MinPts= 4. Clustering ini menghasilkan 35 cluster dengan 46 noise.
11
Gambar 10 Hasil clustering pada dataset hotspot pulau Kalimantan Tabel 4 memperlihatkan jumlah titik pada setiap cluster yang dihasilkan menggunakan algrotime DBSCAN pada dataset hotspot pulau Kalimantan. Cluster ke-0 merupakan jumlah titik noise. Cluster terbesar memiliki 3528 hotspot yang terletak pada wilayah provinsi Kalimantan Barat. Cluster terbesar kedua memiliki 528 hotspot yang terletak pada provinsi Kalimantan Selatan dan cluster terbesar ketiga memiliki 346 hotspot yang terletak pada provinsi Kalimantan Timur. Tabel 4 Jumlah titik pada hasil clustering dataset hotspot pulau Kalimantan Cluster ke0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17
Jumlah titik batas 46 7 5 4 0 1 1 0 1 0 0 0 1 0 0 0 2 1
Jumlah titik pusat 0 3521 341 524 8 25 79 35 5 16 10 6 51 92 4 4 10 83
Total 46 3528 346 528 8 26 80 35 6 16 10 6 52 92 4 4 12 84
Cluster ke18 19 20 21 22 23 24 25 26 27 28 29 30
31 32 33 34 35
Jumlah titik batas 0 1 0 0 2 0 0 1 0 0 0 1 0 3 2 0 1 0
Jumlah titik pusat 7 5 4 5 3 7 6 4 6 5 6 7 22 1 4 5 4 4
Total 7 6 4 5 5 7 6 5 6 5 6 8 22 4 6 5 5 4
12
SIMPULAN DAN SARAN Simpulan Penelitian ini berhasil membuat sebuah aplikasi clustering dengan algoritme DBSCAN berbasis web menggunakan bahasa R dan framework Shiny pada dataset hotspot kebakaran hutan. Clustering menggunakan DBSCAN menghasilkan pola-pola cluster hotspot kebakaran hutan. Pola ini merupakan persebaran lokasi yang memiliki kemunculan yang sering terjadi. Wilayah yang memiliki cluster hotspot terluas adalah provinsi Kalimantan Barat yang memiliki 3528 hotspot. Saran Berikut ini adalah saran-saran yang dapat dilakukan untuk penelitian selanjutnya agar menghasilkan pengembangan yang lebih baik: 1 Data yang dipakai dibuat terintegrasi dalam suatu database server yang mampu menyimpan data dalam kapasitas besar. 2 Pengembangan sistem dapat dilakukan dalam skala luas meliputi 3 layer yaitu database server, web server dan client. 3 Clustering DBSCAN juga disarankan untuk dilakukan secara multidimensi tidak hanya pada dimensi spasial latitude dan longitude saja.
DAFTAR PUSTAKA Adinugroho WC, Suryadiputra INN, Saharjo BH, Siboro L. 2005. Panduan Pengendalian Kebakaran Hutan dan Lahan Gambut. Proyek Climate Change, Forests and Peatlands in Indonesia. Bogor (ID): Wetlands International-Indonesia Programme dan Wildlife Habitat Canada. Beeley C. 2013. Web Application Development with R Using Shiny. Birmingham (UK): Packt Publishing Ltd. Ester M, Kriegel HP, Sander J, Xu X. 1996. A density-based algorithm for discovering clusters in large spatial databases with noise. Di dalam: Simoudis E, editor. Proceedings of 2nd International Conference on Knowledge Discovery and Data Mining (KDD-96); 1996 Agustus 4-6; hlm 226-231. Gaonkar MN, Sawant K. 2013. AutoEPs DBSCAN: DBSCAN with Eps Automatic for Large Dataset. International Journal on Advanced Computer Theory and Engineering Volume-2, Issue-2 hlm 11-16. Han J, Kamber M, Tung AKH. 2001. Spatial clustering methods in data mining: a survey. Di dalam: Geographic Data Mining and Knowledge Discovery. New York (USA): CRC Press. Purwanto UY, Barus B, Adrianto HA. 2013. Penggerombolan spasial hotspot kebakaran hutan dan lahan menggunakan DBSCAN dan ST-DBSCAN [tesis]. Bogor (ID): Institut Pertanian Bogor. Venables WN, Smith DM. 2009. An Introduction to R. Berlin Heidelberg (NY) : Springer.
13 NASA. 2014. Near real time data. Terdapat pada: https://earthdata.nasa.gov/data/near-real-time-data/faq/firms. Diakses 14 Juni 2014
14
LAMPIRAN Lampiran 1 Contoh dataset titik panas pulau Kalimantan latitude
longitude
brightness
scan
track
acq_date
acq_ time
-0.501
117.157
316.5
1.7
1.3
6/1/2002
222
T
48
-2.329
111.568
314.7
2
1.4
6/1/2002
1443
T
-2.331
111.55
305.7
2
1.4
6/1/2002
1443
-2.055
112.878
305.9
1.6
1.2
6/1/2002
-1.969
112.673
305.1
1.6
1.3
-1.969
112.666
306.2
1.6
0.085
117.479
311.8
1
0.111
117.469
305.1
1.187
110.705
-2.24
sate llite
confid ence
versi
bright _t31
frp
5.1
297.3
21.8
86
5.1
292.9
43.1
T
35
5.1
292.6
19.6
1443
T
39
5.1
293.6
14.6
6/1/2002
1443
T
21
5.1
293.1
14.3
1.3
6/1/2002
1443
T
42
5.1
293.1
15.3
1
6/1/2002
1443
T
52
5.1
295.9
9.3
1
1
6/1/2002
1443
T
11
5.1
293.9
5.7
318.7
1
1
6/2/2002
305
T
54
5.1
300.5
12.2
114.522
315.9
1.4
1.2
6/2/2002
305
T
63
5.1
300.3
16.7
-2.111
112.52
315.1
1.1
1
6/2/2002
305
T
50
5.1
296.6
13.4
-2.2
112.559
317.4
1.1
1
6/2/2002
305
T
68
5.1
296.5
13.7
-2.201
112.568
333.7
1.1
1
6/2/2002
305
T
86
5.1
296.5
37.9
-2.321
111.565
322.5
1
1
6/2/2002
305
T
46
5.1
298.6
17.4
-2.388
112.018
317.3
1
1
6/2/2002
305
T
64
5.1
300.9
11.4
-3.276
114.548
313.9
1.4
1.2
6/2/2002
306
T
55
5.1
298
12.3
-3.407
115.126
311.4
1.6
1.2
6/2/2002
306
T
44
5.1
297.3
12.1
-2.584
114.337
305.5
2.1
1.4
6/3/2002
1430
T
31
5.1
291.2
23.6
-0.585
117.384
305.5
1.2
1.1
6/3/2002
1431
T
31
5.1
292.8
9.3
4.193
117.218
305.7
1.1
1
6/3/2002
1432
T
36
5.1
290.9
8.2
5.431
118.28
315.1
1.2
1.1
6/4/2002
251
T
63
5.1
297.5
12.1
-0.483
117.474
312.4
1.3
1.1
6/4/2002
252
T
51
5.1
294.7
11.5
-2.819
110.447
314
1.4
1.2
6/4/2002
253
T
60
5.1
288
17.6
-2.821
110.459
318.9
1.3
1.2
6/4/2002
253
T
70
5.1
288.6
26
-2.513
114.337
332.9
1.6
1.3
6/4/2002
1513
T
100
5.1
289.3
86
15
RIWAYAT HIDUP Rahmah Mardhiyyah dilahirkan di Bogor pada tanggal 14 Oktober 1990 dan merupakan anak kedua dari empat bersaudara dengan ayah bernama Usman Effendi AS dan ibu bernama Heri Kartini. Pada tahun 2008 penulis lulus dari MA Husnul Khotimah Kuningan dan diterima di Program Studi Ilmu Komputer Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor melalui jalur USMI (Undangan Seleksi Masuk IPB). Pada bulan Juli-Agustus 2011 penulis melakukan kegiatan Praktik Kerja Lapang di PT Sucofindo (PERSERO). Selama aktif sebagai mahasiswa, penulis pernah menjadi bendahara Dewan Perwakilan Mahasiswa Fakultas Matematika dan Ilmu Pengetahuan Alam (DPM FMIPA) periode 2009-2010 dan menjadi bendahara Himpunan Mahasiswa Ilmu Komputer (HIMALKOM) periode 20102011. Penulis juga mengikuti kepanitiaan beberapa kegiatan, di antaranya Masa Perkenalan Mahasiswa Baru IPB Angkatan 46 dan Pemilihan Raya Keluarga Mahasiswa IPB tahun 2010.