KLASIFIKASI KEMUNCULAN TITIK PANAS PADA LAHAN GAMBUT DI SUMATERA DAN KALIMANTAN MENGGUNAKAN ALGORITME NAIVE BAYES
YEVILINA AULIA RIZKA
DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2016
PERNYATAAN MENGENAI SKRIPSI DAN SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA Dengan ini saya menyatakan bahwa skripsi berjudul Klasifikasi Kemunculan Titik Panas pada Lahan Gambut di Sumatera dan Kalimantan Menggunakan Algoritme Naive Bayes adalah benar karya saya dengan arahan dari komisi pembimbing dan belum diajukan dalam bentuk apa pun kepada perguruan tinggi mana pun. Sumber informasi yang berasal atau dikutip dari karya yang diterbitkan maupun tidak diterbitkan dari penulis lain telah disebutkan dalam teks dan dicantumkan dalam Daftar Pustaka di bagian akhir skripsi ini. Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut Pertanian Bogor. Bogor, Januari 2016 Yevilina Aulia Rizka NIM G64134006
ABSTRAK YEVILINA AULIA RIZKA. Klasifikasi Kemunculan Titik Panas pada Lahan Gambut di Sumatera dan Kalimantan Menggunakan Algoritme Naive Bayes. Dibimbing oleh IMAS SUKAESIH SITANGGANG. Dampak kebakaran hutan di lahan gambut lebih berbahaya dibandingkan pada lahan kering, karena selain terbakarnya vegetasi di permukaan, lapisan serasah dan meterial gambut ikut terbakar sehingga menghasilkan karbon (CO2) ke atmosfer. Hal ini akan berdampak buruk pada kesehatan manusia, peningkatan gas emisi rumah kaca, dan kegiatan perekonomian masyarakat. Salah satu indikator terjadinya kebakaran hutan adalah titik panas. Penelitian ini menggunakan salah satu teknik data mining yaitu klasifikasi untuk memodelkan kemunculan titik panas pada lahan gambut di Sumatera dan Kalimantan. Permodelan klasifikasi ini dilakukan pada dataset titik panas periode 2001 sampai 2015 dan data lahan gambut menggunakan algoritme Naive Bayes. Karakteristik lahan gambut yang akan dianalisis terdiri dari lahan gambut, kedalaman gambut, dan tutupan lahan. Akurasi tertinggi dari model klasifikasi kemunculan titik panas pada lahan gambut pada dataset tahun 2006 untuk Kalimantan dan dataset tahun 2014 untuk Sumatera adalah sebesar 100%. Model klasifikasi dapat digunakan untuk memprediksi kemunculan titik panas di masa yang akan datang sehingga dapat membantu dalam mencegah kebakaran hutan dan lahan. Kata kunci: kebakaran hutan, klasifikasi, naive bayes, titik panas
ABSTRACT YEVILINA AULIA RIZKA. Classification of Hotspots Occurence on Peatland in Sumatera and Kalimantan Using Naive Bayes Algorithm. Supervised by IMAS SUKAESIH SITANGGANG. The impact of forest fires in peatland is more dangerous than in dryland, because in addition to the burning of vegetation on the surface, layers of peat materials are also burned releasing carbon dioxide (CO2) into the atmosphere. This situation has negative impacts on human health and economic activities, and increases greenhouse gas emissions. One indicator of forest fires occurrence is the hotspot. This research applied a data mining technique to classify hotspots occurrences on peatlands in Sumatra and Kalimantan. Classification models on hotspots datasets in the period 2001 to 2015 were determined using the Naive Bayes algorithm. Peatland characteristics to be analyzed consist of peatland type, peatland depth, and land cover. The highest accuracy of classification model to predict the hotspot on peatland is 100% that was obtained on the 2006 dataset for Kalimantan and on the 2014 dataset for Sumatera. The classification model can be used to predict possibility of hotspots occurrences in the future so that the forest and peatland fires can be prevented. . Keywords: classification, forest fire, hotspots, naive bayes
KLASIFIKASI KEMUNCULAN TITIK PANAS PADA LAHAN GAMBUT DI SUMATERA DAN KALIMANTAN MENGGUNAKAN ALGORITME NAIVE BAYES
YEVILINA AULIA RIZKA
Skripsi sebagai salah satu syarat untuk memperoleh gelar Sarjana Komputer pada Departemen Ilmu Komputer
DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2016
Penguji : 1 Aziz Kustiyo, SSi, MKom 2 Muhammad Asyhar Agmalaro, SSi, MKom
Judul Skripsi : Klasifikasi Kemunculan Titik Panas pada Lahan Gambut di Sumatera dan Kalimantan Menggunakan Algoritme Naive Bayes Nama : Yevilina Aulia Rizka NIM : G64134006
Disetujui oleh
Dr Imas Sukaesih Sitanggang, SSi, MKom Pembimbing
Diketahui oleh
Dr Ir Agus Buono, MSi, MKom Ketua Departemen
Tanggal Lulus:
PRAKATA Puji dan syukur penulis panjatkan kepada Allah Subhana wa ta'ala. Shalawat serta salam semoga senantiasa dilimpahkan kepada Nabi Muhammad, keluarganya, sahabatnya, dan kepada kita yang selau berusaha menggapai ridha Allah. Alhamdulillah atas bimbingan dan petunjuk dari Allah Subhana wa ta'ala serta bimbingan dari semua pihak, penyusunan tugas akhir yang berjudul “Klasifikasi Kemunculan Titik Panas pada Lahan Gambut di Sumatera dan Kalimantan Menggunakan Algoritme Naïve Bayes” dapat diselesaikan. Tugas akhir ini tidak mungkin dapat diselesaikan tanpa adanya bantuan dari berbagai pihak. Oleh karena itu, penulis ingin mengucapkan terimakasih dan penghargaan yang setinggi-tingginya kepada: Papa, Mama, dan keluarga yang selalu mendoakan, memberi nasihat, kasih sayang, semangat, dan dukungan sehingga penelitian ini bisa diselesaikan. Ibu Dr Imas Sukaesih Sitanggang, SSi, MKom selaku pembimbing yang telah memberi saran, masukan, dan ide-ide dalam penelitian ini. Bapak Aziz Kustiyo, SSi, MKom dan Bapak Muhammad Asyhar Agmalaro, SSi, MKom sebagai penguji. Pihak Wetlands yang telah memberikan data lahan gambut untuk wilayah Sumatera dan Kalimantan. Teman seperjuangan Resa, Fitri, dan Dhita yang telah memberikan semangat dan masukan. Departemen Ilmu Komputer IPB, staf, dan dosen yang telah banyak membantu selama masa perkuliahan hingga penelitian. Semoga penelitian ini bermanfaat.
Bogor, Januari 2016 Yevilina Aulia Rizka
DAFTAR ISI DAFTAR TABEL
vi
DAFTAR GAMBAR
vi
DAFTAR LAMPIRAN
i
PENDAHULUAN
1
Latar Belakang
1
Perumusan Masalah
2
Tujuan Penelitian
2
Manfaat Penelitian
2
Ruang Lingkup Penelitian
2
METODE
2
Data Penelitian
3
Praproses Data
6
Pembagian Data
6
Pembuatan Model Klasifikasi Menggunakan Algoritme Naive Bayes
6
Perhitungan Akurasi Model
8
Penerapan pada Model Data Baru
8
Lingkungan Pengembangan
8
HASIL DAN PEMBAHASAN
9
Praproses Data
9
Seleksi Data
9
Pembersihan Data
12
Konversi Format
14
Pembagian Data
14
Pembuatan Model Klasifikasi Menggunakan Algoritme Naive Bayes
14
Perhitungan Akurasi
15
Penerapan Model pada Data Baru
17
SIMPULAN DAN SARAN
18
Simpulan
18
Saran
19
DAFTAR PUSTAKA
19
RIWAYAT HIDUP
24
DAFTAR TABEL Atribut dari titik panas 4 Luas lahan gambut di Pulau Kalimantan 5 Luas lahan gambut di Pulau Sumatera 5 Contoh record dalam dataset 2 12 Jumlah missing value pada dataset Pulau Kalimantan dan Sumatera 13 6 Akurasi model pada dataset Sumatera 16 7 Akurasi model pada dataset Kalimantan 16 8 Akurasi dan Kappa untuk model klasifikasi pada dataset Sumatera 16 9 Akurasi dan Kappa untuk model klasifikasi pada dataset Kalimantan 17 10 Matriks confusion untuk model pada dataset Sumatera 18 11 Matriks confusion untuk model pada dataset Kalimantan 18 1 2 3 4 5
DAFTAR GAMBAR 1 2 3 4 5 6 7 8 9 10 11
Tahapan penelitian Peta data lahan gambut di Sumatera Peta data lahan gambut di Kalimantan Struktur dari Bayes Network Titik panas di Pulau Kalimantan Jumlah titik panas di Sumatera dan Kalimantan tahun 2001-2014 Buffer untuk titik panas Titik non titik panas Titik panas dan non titik panan tahun 2010 Plot data titik panas Kalimantan sebelum dibersihkan Pernyataan R untuk menghitung akurasi algoritme Naive Bayes
3 4 5 7 9 10 10 11 12 13 15
DAFTAR LAMPIRAN 1 2 3
Luas lahan gambut di Pulau Kalimantan berdasarkan kedalaman gambut 21 Luas lahan gambut di Pulau Sumatera berdasarkan tutupan lahan gambut 21 Cara perhitungan Naive Bayes 22
PENDAHULUAN Latar Belakang Indonesia merupakan salah satu negara tropis yang memiliki wilayah hutan terluas ketiga di dunia setelah Republik Demokrasi Kongo dan Brazil. Selain sebagai habitat flora dan fauna, hutan memiliki fungsi lain yaitu sebagai fungsi keseimbangan alam. Kebakaran hutan yang terjadi akhir-akhir ini menjadi masalah global yang yang perlu diperhatikan karena dampaknya tidak hanya dirasakan oleh penduduk Indonesia melainkan hingga penduduk negara tetangga seperti Malaysia dan Singapura. Faktor penyebab terjadinya kebakaran hutan bisa beragam yang dibagi dalam dua kelompok utama, yaitu faktor alam dan campur tangan manusia. Salah satu faktor campur tangan manusia adalah pengeringan lahan gambut yang disengaja. Hal ini dapat memicu terjadinya kebakaran hutan di lahan gambut karena karakteristik lahan gambut yang salah satunya jika lapisan-lapisan organiknya menjadi kering maka akan mudah terbakar. Asap dari bara api kebakaran gambut menandung banyak partikel halus dari pecahan-pecahan bahan organik yang berbahaya bagi kesehatan (Levine 1998). Selain itu ada beberapa dampak dari polusi yang melewati perbatasan dalam segi kesehatan dan perekonomian akibat kebakaran hutan dan lahan (Dieterle dan Heil 1998). Sumatera dan Kalimantan merupakan daerah kawasan persebaran ekosistem lahan gambut di Indonesia dengan luas 7.2 juta ha untuk Pulau Sumatera dan 5.7 juta ha untuk Pulau Kalimantan (Wibowo dan Suyatno 1998). Menurut LAPAN (2014), hotspot (titik panas) di wilayah Sumatera dan Kalimantan mengalami peningkatan tajam sejak akhir Januari 2014 dengan puncaknya terjadi pada Maret 2014. Berdasarkan data MODIS yang diterima oleh stasiun bumi Lapan di Parepare pada 1-28 September 2014, akumulasi titik panas tertinggi terdapat di wilayah Provinsi Kalimantan Tengah, yang diikuti oleh Provinsi Sumatera Selatan, dan Kalimantan Barat (LAPAN 2014). Menurut Adinugroho et al. (2005), data titik panas dapat dijadikan sebagai salah satu indikator mengenai terjadinya kebakaran hutan dan lahan. Salah satu cara untuk mencegah masalah kebakaran hutan ini yaitu dengan cara membuat suatu model. Permodelan ini dapat menerapkan salah satu teknik data mining yaitu klasifikasi. Pada penelitian sebelumnya, Sitanggang et al. (2012) menggunakan Weka untuk klasifikasi titik panas dengan area studi Provinsi Riau dan menggunakan beberapa algoritme yang tersedia pada perangkat lunak untuk dibandingkan tingkat akurasinya. Terdapat 3 algoritme yang dibandingkan tingkat akurasinya yaitu algoritme J48, SimpleCart, dan Naive Bayes. Penelitian selanjutnya oleh Fernando dan Sitanggang (2014) mengklasifikasikan data spasial kemunculan titik panas di Provinsi Riau menggunakan algoritme ID3 dengan akurasi tertinggi yaitu 70.80%. Penelitian yang akan dilakukan ini menggunakan algoritme Naive Bayes untuk mengklasifikasikan kemunculan titik panas di lahan gambut Pulau Sumatera dan Kalimantan. Aplikasi yang digunakan untuk mengolah data dan membuat model klasifikasi adalah R. Penggunaan algoritme Naive Bayes dalam penelitian ini berdasarkan ketergantungan dalam hal akurasi pada model probabilitas, Naive Bayes classifier dapat dilatih dengan sangat efisien pada teknik supervised learning. Meskipun Naive Bayes terlihat sederhana pada desain dan asumsinya, namun Naive Bayes
2 classifier dapat bekerja lebih baik pada masalah yang kompleks. Pada penelitian sebelumnya, analisis pada klasifikasi Naive Bayes menunjukan bahwa ada beberapa alasan secara teoritis yang menunjukan bahwa klasifikasi Naive Bayes efektif (Witten dan Frank 2000). Keuntungan menggunakan klasifikasi Naive Bayes adalah penggunaan jumlah data training yang sedikit dapat mengestimasikan parameter yang dibutuhkan dalam klasifikasi. Penelitian ini diharapkan dapat menghasilkan model yang akurat untuk memprediksi kemungkinan munculnya titik panas dimasa yang akan datang sehingga pihak yang berwenang dapat melakukan tindakan pencegahan terjadinya kebakaran hutan. Perumusan Masalah Rumusan masalah pada penelitian ini adalah bagaimana membuat model klasifikasi menggunakan algoritme Naive Bayes untuk data kebakaran hutan dan lahan di Pulau Sumatera dan Kalimantan tahun 2001-2015. Tujuan Penelitian Tujuan dari penelitian ini adalah: 1 Membangun model klasifikasi kemunculan titik panas di lahan gambut Sumatera dan Kalimantan dengan menggunakan algoritme Naive Bayes. 2 Menganalisis model klasifikasi untuk memprediksi kemunculan titik panas menggunakan algoritme Naive Bayes. Manfaat Penelitian Penelitian ini diharapkan dapat menghasilkan model yang akurat untuk memprediksi kemungkinan munculnya titik panas di masa yang akan datang. Titik panas merupakan salah satu indikator terjadi kebakaran hutan dan lahan. Model prediksi tersebut dapat digunakan oleh pihak yang berwenang dalam mengidentifikasi terjadi kebakaran hutan dan lahan, khususnya di lahan gambut sehingga dapat dilakukan tindakan pencegahan terjadinya kebakaran hutan. Ruang Lingkup Penelitian Ruang lingkup dari penelitian ini adalah: 1 Penelitian ini mengimplementasikan model klasifikasi Naive Bayes dengan menggunakan aplikasi dan package yang terdapat pada R, yaitu caret, gmodels, e1071, dan klaR. Package caret, e1071, dan klaR merupakan package yang digunakan untuk membangun model klasifikasi menggunakan Naive Bayes, sedangkan package gmodels digunakan untuk menghitung matriks confusion. 2 Karakteristik lahan gambut yang dianalisis dalam penelitian ini adalah tipe lahan gambut, kedalaman gambut, dan tutupan lahan.
METODE Penelitian terdiri atas lima tahapan, yaitu: pengumpulan data, praproses data, pembagian data, membuat model klasifikasi, perhitungan akurasi, dan penerapan
3 pada model data baru. Gambar 1 menunjukkan diagram alir penelitian yang dilakukan.
Gambar 1 Tahapan penelitian Data Penelitian Data yang digunakan pada penelitian ini adalah data titik panas Pulau Sumatera dan Kalimantan tahun 2001 sampai 2015. Data tersebut didapatkan dari National Aeronautics and Space Administration (NASA) Fire Information for Resource Management System (FIRMS) dalam format csv. Data titik panas ini terdiri dari 12 atribut. Atribut ini dapat dilihat pada Tabel 1. Selain itu, terdapat data lahan gambut dari tahun 1990-2002 dengan 3 variabel yang akan dianalisis yaitu, tipe lahan gambut, kedalaman gambut, dan tutupan lahan. Pemilihan atribut ini berdasarkan pada penelitian yang sebelumnya (Sitanggang et al. 2012) yaitu, kedalaman gambut, tutupan lahan, dan tipe lahan gambut. Dataset wilayah Kalimantan memiliki atribut tipe lahan gambut dan kedalaman gambut untuk dianalisis, sedangkan dataset wilayah Sumatera memiliki atribut tipe lahan gambut, kedalaman gambut, dan tutupan lahan. Data tersebut didapatkan dari Wetlands Internasional dalam format shp.
4 Tabel 1 Atribut dari titik panas No 1 2 3 4 5
Atribut Latitude Longitude Acq_date Acq_time Confidence
Tipe Numeric Numeric Date Character varying (5) Integer
Peta lahan gambut di Pulau Kalimantan dan Sumatera dapat dilihat pada Gambar 2 dan Gambar 3. Peta tersebut menunjukan tipe lahan gambut yang terdapat di Sumatera dan Kalimantan. Lahan gambut memiliki beberapa tipe yaitu hemists, fibrists, saprists, dan mineral. Wilayah Kalimantan memiliki luas lahan gambut 5.7 juta ha dan untuk wilayah Sumatera 7.2 juta ha. Luas lahan gambut di Sumatera dan Kalimantan dapat dilihat pada Tabel 2 dan Tabel 3, sedangkan luas lahan gambut berdasarkan kedalaman dan tutupan lahan dapat dilihat pada Lampiran 1 dan Lampiran 2. Berikut sintaks SQL untuk mengetahui luas lahan gambut di Kalimantan: SELECT soil AS type, sum(ST_Area(geom))/10000 AS surface FROM all _kalimantan_island_peatland GROUP BY soil HAVING soil=’Hemists/Fibrists’;
Gambar 2 Peta data lahan gambut di Sumatera Pada Gambar 2 terdapat keterangan Fibrists/Saprists (60/40), sedang. Maksud dari keterangan tersebut adalah Fibrists dan Saprists adalah tipe lahan gambut, 60/40 merepresentasikan kombinasi dari Fibrists sebesar 60% dan Saprists sebesar 40%, kemudian "sedang" menunjukkan ketebalan dari lahan gambut tersebut. Pada Tabel 2 dan Tabel 3 dapat dilihat luas area (Ha) dari setiap tipe lahan gambut dari pulau Sumatera dan Kalimantan. Tipe lahan gambut yang berada di Sumatera berjumlah 28 dan tipe lahan gambut di Kalimantan berjumlah 7.
5
Gambar 3 Peta data lahan gambut di Kalimantan Tabel 2 Luas lahan gambut di Pulau Kalimantan No 1 2 3 4 5 6 7
Tipe Gambut Hemists/Fibrists Hemists/Fibrists/Mineral Hemists/Mineral Saprists/Hemists/Mineral Saprists/Hemists/Mineral Hemists/Saprists/Mineral Hemists/Fibrists/Saprists
Luas (ha) 4.070.888.40 388.442.91 922.584.24 108.626.03 132.833.31 133.670.39 3.028.58
Tabel 3 Luas lahan gambut di Pulau Sumatera No 1 2 3 4 5 6 7 8 9 10 11 12 13 14
Tipe Gambut Hemists/Saprists (60/40)sedang Saprists/min (50/50)dangkal Saprists/Hemists (60/40)sedang Saprists/min (30/70)sedang Saprists/min (90/10)sedang Hemists (100)dalam Hemists/Saprists (60/40)dalam Hemists (100)sedang Saprists/min (50/50)dalam Hemists/min(90/10)sangat dalam Hemists/Saprists (60/40)sedang Hemists/min (30/70)dangkal Hemists/Saprists (60/40)sangat dalam Saprists/Hemists (60/40)dalam
Luas (ha) 1.490.145.51 16.859.44 18.698.37 9.911.09 178.408.66 2.200.51 639.263.33 86.697.37 7.748.18 30.179.83 211.082.30 308.112.73 957.561.63 553.762.96
6 No 15 16 17 18 19 20 21 22 23 24 25 26 27 28
Tipe Gambut Saprists/Hemists (60/40)sedang Hemists/min (90/10)dangkal Hemists/Saprists (60/40)dangkal Hemists/min (70/30)sedang Saprists/min (30/70)dalam Hemists/min (90/10)sedang Hemists/min (50/50)dangkal Saprists/min (50/50)sedang Hemists/min (90/10)sedang Fibrists/Saprists (60/40)sedang Saprists/Hemists (60/40)sangat dalam Hemists/min (30/70)sedang Saprists (100)sedang Saprists (100)dalam
Luas (ha) 236.659.27 7.950.20 49.355.05 91.797.22 12.671.89 0.62 2.218.85 118.152.45 578.525.93 10.721.83 1181.264.69 308.958.76 87.885.62 35.182.64
Praproses Data Pada tahap praproses data, dilakukan tahapan seleksi data. Pemilihan data dalam proses seleksi menggunakan 3 atribut yaitu longtitude, latitude, dan acq_date. Latitude dan longitude digunakan untuk menentukan posisi titik panas berdasarkan koordinat garis lintang dan bujur. Acq_date digunakan untuk mengetahui frekuensi kemunculan titik panas berdasarkan tanggal. Dalam tahapan ini dilakukan operasi spasial pada data lahan gambut untuk mendapatkan data titik panas di lahan gambut. Pembagian Data Pada tahapan ini, data dibagi menjadi 2 yaitu data latih dan data uji. Data latih dan data uji menggunakan data titik panas tahun 2001-2014 dan data lahan gambut tahun 2002. Dalam penelitian, metode yang digunakan dalam proses pemisahan data latih dan data uji ini adalah metode K-fold cross validation dengan nilai K=10. Menurut Fu (1994) K-fold cross validation merupakan metode yang membagi himpunan contoh secara acak menjadi K himpunan bagian. Pembuatan Model Klasifikasi Menggunakan Algoritme Naive Bayes Tahapan ini menggunakan model klasifikasi Naive Bayes. Pembentukan model klasifikasi menggunakan package yang tersedia pada R. Package tersebut adalah caret, klaR, e071, dan gmodels. Naive Bayes merupakan classifier yang bersifat statistik yang mana dapat memprediksi probabilitas masing-masing kelas seperti probabilitas suatu kelas tertentu. Keunggulan dari pengelompokan Bayes ini yaitu terdapat pada tingkat akurasinya yang tinggi serta kecepatannya dalam penggunaan basis data yang besar. Pengelompokan Naive Bayes mengasumsikan bahwa nilai atribut pada setiap kelas bersifat independen (tidak ada ketergantungan antar kelas) yang dapat memudahkan dalam perhitungannya (Han et al. 2012). Pengelompokan ini berdasarkan dengan data training dari probabilitas masing-masing atribut A dengan label kelas C. Klasifikasi dilakukan dengan menerapkan aturan Bayes untuk menghitung probabilitas C terhadap masing-masing atribut A1, A2, …, An, kemudian
7 memprediksi kelas berdasarkan probabilitas prior yang tertinggi. Gambar 1 menjelaskan bahwa Naive Bayes classifier memiliki struktur yang sederhana. Gambar 4 mengasumsikan bahwa setiap atribut (setiap daun pada jaringan) independen terhadap atribut lainnya (Friedman et al. 1997). Ilustrasi perhitungan menggunakan Naïve Bayes dapat dilihat pada Lampiran 3.
Gambar 4 Struktur dari Bayes Network Algoritme klasifikasi Naive Bayes sebagai berikut (Han et al. 2012): 1 Asumsikan D adalah training set dengan label kelas yang terkait. Setiap tupel dalam training set diwakili oleh atribut vektor n-dimensi, X = (x1, x2, ..., xn), menggambarkan pengukuran yang dilakukan pada tupel dari n atribut, masingmasing A1, A2,…, An. 2 Misalkan terdapat kelas m, C1, C2,…, Cm. Jika diberikan tupel, X, classifier akan memprediksi bahwa X termasuk ke dalam kelas yang memilik probabilitas posterior yang tinggi. Oleh karena itu, Naïve Bayes classifier memprediksi bahwa tupel X termasuk ke dalam kelas Ci jika dan hanya jika P(Ci | X) ≤ P(Cj | X) untuk 1 ≤ j ≤ m, j ≠ i
(1)
Kemudian, untuk memaksimalkan P(Ci | X), kelas C1 yang mana P(Cj | X) maksimal disebut dengan maximum posteriori hypothesis, dengan teorma Bayes,
P(Ci | X) =
P(X |Ci )P(Ci ) P(X)
(2)
3 Jika P(X) bernilai konstan untuk semua kelas, hanya P(X | Ci)P(Ci) yang harus dimaksimalkan. Kelas probabilitas prior tidak diketahui, maka diasumsikan kelasnya sama, yaitu, P(C1) = P(C2) = … = P(Cm) dan P(X | Ci) harus dimaksimalkan. Kelas probabilitas prior dapat diestimasikan dengan P(C1) = |Ci, D| / | D |, dengan |Ci, D| merupakan training tuples dari kelas Ci di D. 4 Membuat asumsi Naive Bayes yaitu kelas yang independen untuk mengurangi perhitungan dalam mengevaluasi P(C | C1).
8 n
P(X | Ci ) = ∏ P(xk |Ci ) k=1
(3)
= P(x1 | Ci ) × (x2 | Ci )× …×(xn | Ci ) Kita dapat mengestimasikan dengan mudah probabilitas P(x1 | Ci), P(x2 | Ci), …, P(xn | Ci) dari training tuples, Jika xk merupakan nilai dari atribut Ak untuk tuple X. Untuk atribut categorical, maka P(xk | Ci) merupakan tupel dari kelas Ci dan D yang memiliki nilai xk untuk Ak, dibagi dengan |Ci, D|, tupel dari kelas Ci di D. 5 Untuk memprediksi kelas label X, P(X | Ci)P(Ci) dievaluasi pada masing-masing kelas Ci. Classifier memprediksi kelas label dari tupel X merupakan kelas Ci jika dan hanya jika P(X | Ci)P(Ci) > P(X | Cj)P(Cj) untuk 1 ≠ j ≤ m, j ≠ i
(4)
6 Perhitungan akurasi menggunakan rumus sebagai berikut: Akurasi =
∑ data uji yang benar diklasifikasikan ∑ data uji
(5)
Perhitungan Akurasi Model Akurasi diperoleh berdasarkan data pengujian terhadap model klasifikasi. Untuk menghitung akurasi digunakan rumus yang terdapat pada persamaan 5. Setelah nilai akurasi didapatkan dari tahun 2001-2014, maka dataset dengan nilai tertinggi pada masing-masing wilayah akan digunakan sebagai data latih dalam penerapan klasifikasi pada data baru. Penerapan pada Model Data Baru Pada tahapan ini dilakukan penggunaan model pada data baru, yaitu data titik panas tahun 2015. Pada tahap ini akan digunakan beberapa record data contoh untuk menunjukkan bagaimana penggunaan klasifikasi pada data baru yang belum memiliki label kelas. Lingkungan Pengembangan • • • • • •
Perangkat lunak yang digunakan dalam penelitian ini adalah: Sistem operasi Windows 8.1 Bahasa pemrograman R-3.1.6 dengan package caret, klaR, e1071, dan gmodels R Studio versi 0.98.1091 Microsoft Excel 2007 untuk membaca data titik panas Quantum GIS 2.6.0 untuk melihat plot data titik panas dan analisis data spasial PostgreSQL versi 9.1 sebagai sistem manajemen basis data (pengolahan kueri data lahan gambut)
9 Perangkat keras yang digunakan dalam penelitian ini adalah komputer personal dengan spesifikasi: • Prosesor Intel Core i3 @1.8 GHz • RAM 2 GB • Monitor LCD 14.0” HD • Harddisk 500 GB HDD
HASIL DAN PEMBAHASAN Praproses Data Dalam tahapan ini dilakukan beberapa proses dalam praproses data, yaitu: seleksi data, pembersihan data, dan konversi format. Seleksi Data Hal pertama yang dilakukan dalam dalam proses ini adalah melakukan overlay data lahan gambut dengan titik panas menggunakan operasi spasial, yaitu ST_Within di PostgreSQL. Tujuan dilakukan overlay adalah untuk memproyeksikan data titik panas terhadap lahan gambut. Selain itu sistem referensi koordinat harus disesuaikan, untuk wilayah Kalimantan menggunakan UTM Zona 49S (WGS84 / UTM Zone 49S / EPSG:32649) sedangkan wilayah Sumatera WGS84 UTM Zone 47S. Selanjutnya memisahkan data titik panas pertahun. Data titik panas yang digunakan adalah data titik panas tahun 2001-2014. Gambar 5 menunjukkan titik panas Sumatera dan Kalimantan tahun 2001 sampai dengan 2014, sedangkan Gambar 6 menunjukkan grafik jumlah atribut titik panas Sumatera dan Kalimantan tahun 2001-2014.
Gambar 5 Titik panas di Pulau Kalimantan
10
Gambar 6 Jumlah titik panas di Sumatera dan Kalimantan tahun 2001-2014 Langkah selanjutnya adalah pembangkitan titik non titik panas. Ada beberapa hal yang harus dilakukan dalam membangkitkan non titik panas yaitu melakukan beberapa operasi geoprocessing seperti buffer, dissolve, difference, dan random point. Pembuatan buffer menggunakan radius 0.01. Hasil buffer titik panas dapat dilihat pada Gambar 7.
Gambar 7 Buffer untuk titik panas Setelah itu dilakukan operasi dissolve untuk menggabungkan fitur yang memiliki kesamaan atribut, yaitu hasil buffer. Hasil dari buffer dissolve digunakan untuk memotong atau menghapus area lahan gambut yang tidak overlap dengan menggunakan operasi difference. Titik non hotspot dibangkitkan dengan membuat titik acak, jumlah titik disesuaikan dengan titik panas pertahun. Hasil dari pembangkitan titik acak dapat dilihat pada Gambar 8.
11
Gambar 8 Titik non titik panas Tahapan selanjutnya adalah membuat tabel target2010. Proses ini dilakukan menggunakan pernyataan SQL dalam PostgreSQL. Tujuan dibuatnya tabel target2010 untuk menyimpan data titik panas dan bukan titik panas. Berikut adalah kueri untuk menambahkan kelas T (True) dan F (False): ALTER TABLE kal2_false_alarm 2010 ADD COLUMN class char DEFAULT ’F’; ALTER TABLE kal2_false_alarm_2010 DROP COLUMN id; ALTER TABLE kal2_within_2010_rep ADD COLUMN class char DEFAULT ’T’; Tahapan selanjutnya adalah membuat tabel target dengan kueri sebagai berikut: CREATE TABLE target2010 AS SELECT gid, geom, longitude, latitude, acq date, acq time, confidence, class FROM hotspot_kalimantan_island_peatland WHERE confidence >=70; Data titik panas yang diambil pada tabel target adalah titik panas dengan nilai confidence ≥ 70. Proses selanjutnya yaitu menggabungkan data dengan kelas F ke dalam tabel target. INSERT INTO target2010 (gid, geom, class) SELECT gid, geom, class FROM false_alarm_2010_rep; Rename gid pada target2010 menjdi gid0, lalu menambahkan gid autonumber. Hasil dari pembuatan layer target dapat dilihat pada Gambar 9. ALTER TABLE target2010 RENAME COLUMN gid TO gid0; ALTER TABLE target2010 ADD COLUMN gid SERIAL; ALTER TABLE target2010 ADD PRIMARY KEY (gid);
12
Gambar 9 Titik panas dan non titik panan tahun 2010 Setelah tabel target2010 dibuat, tahapan selanjutnya adalah pembuatan dataset 1 dan 2. Dataset 1 merupakan gabungan data dari data target2010 dan data lahan gambut Kalimantan, sedangkan dataset 2 merupakan dataset yang akan digunakan pada proses klasifikasi, contoh record dalam dataset 2 yang digunakan dapat dilihat pada Tabel 4. Berikut pernyataan SQL untuk membuat dataset 1 dan dataset 2: CREATE TABLE dataset1 AS SELECT t.gid, t.gid0, t.geom, t.confidence, t.class, g.DEPTH, g.SOIL FROM target2010 AS t, all_kalimantan_island_peatland AS g WHERE ST_Within(t.geom,g.geom) ORDER BY gid; CREATE TABLE dataset2 AS SELECT t.class, g.DEPTH, g.SOIL FROM target2010 AS t, all_kalimantan_island_peatland as g WHERE ST Within(t.geom,g.geom); Tabel 4 Contoh record dalam dataset 2 Kelas T T T T T
Kedalaman gambut (cm) 50-100 100-200 50-100 100-200 100-200
Tipe gambut Hemists/Fibrists Hemists/Fibrists Hemists/Fibrists/Mineral Hemists/Fibrists Hemists/Fibrists
Pembersihan Data Dalam proses ini dilakukan salah satu operasi spasial yaitu ST_Within untuk membersihkan data titik panas. Setelah dibersihkan, jumlah data tereduksi dari 326.866 menjadi 98.666. Data titik panas sebelum dibersihkan pada wilayah
13 Kalimantan dapat dilihat pada Gambar 10 dan setelah dibersihkan dapat dilihat pada Gambar 5.
Gambar 10 Plot data titik panas Kalimantan sebelum dibersihkan Proses pembersihan data juga dilakukan terhadap data yang tidak memiliki nilai atribut yang lengkap (missing value). Pada tahapan pembersihan ini data dengan atribut yang kosong akan dihapus, karena presentasenya berkisar 0-2%. Jumlah missing value pada wilayah Kalimantan dan Sumatera dapat dilihat pada Tabel 5. Tabel 5 Jumlah missing value pada dataset Pulau Kalimantan dan Sumatera Dataset Sumatera2001 Sumatera2002 Sumatera2003 Sumatera2004 Sumatera2005 Sumatera2006 Sumatera2007 Sumatera2008 Sumatera2009 Sumatera2010 Sumatera2011 Sumatera2012 Sumatera2013 Sumatera2014
Jumlah Missing Value 2 35 8 15 18 33 5 8 21 2 10 13 21 43
Jumlah Data 3509 20212 10331 16030 30172 29471 5517 7535 15572 4897 13506 14556 18548 41254
Presentase 0.06% 0.17% 0.08% 0.09% 0.06% 0.11% 0.09% 0.11% 0.13% 0.04% 0.07% 0.09% 0.11% 0.10%
14 Dataset Kalimantan2001 Kalimantan2002 Kalimantan2003 Kalimantan2004 Kalimantan2005 Kalimantan2006 Kalimantan2007 Kalimantan2008 Kalimantan2009 Kalimantan2010 Kalimantan2011 Kalimantan2012 Kalimantan2013 Kalimantan2014
Jumlah Missing Value 35 332 80 153 79 460 19 21 247 5 111 99 51 232
Jumlah Data 2880 23005 6578 13612 5736 30413 2074 1441 20803 570 7900 8493 3571 18457
Presentase 1.22% 1.44% 1.22% 1.12% 1.36% 1.51% 0.92% 1.46% 1.19% 0.88% 1.41% 1.17% 1.43% 1.26%
Konversi Format Dalam proses ini dilakukan proses konversi format dari csv ke .shp untuk data titik panas dari FIRMS Modis NASA. Kemudian dilakukan konversi format dari dbf ke csv untuk dataset 2 yang akan digunakan untuk klasifikasi. Pembagian Data Proses pembagian data latih dan data uji dilakukan di RStudio dengan menggunakan metode K-fold cross validation dengan nilai K=10. Proses pembagian data dilakukan secara otomatis dengan menggunakan salah satu metode yang terdapat pada package klaR yaitu cv. Package ini membagi data dengan menggunakan K-fold cross validation dengan nilai K yang dapat ditentukan oleh pengguna. Pembuatan Model Klasifikasi Menggunakan Algoritme Naive Bayes Dalam pembuatan model klasifikasi ini, menggunakan beberapa package yaitu klaR dan caret. Model yang telah dibangun dapat memprediksi model berdasarkan kelas dan dapat menunjukkan nilai akurasi terhadap model tersebut. Nilai akurasi terhadap model dapat dilihat pada Gambar 11. Berikut adalah pernyataan R yang digunakan untuk membangun model menggunakan algoritme Naive Bayes: [1]>library(klaR) [2]>library(caret) [3]>x = dataset2_try_edited [4]>y = dataset2_try_edited$V3 [5]>model=train(x,y,’nb’,trControl=trainControl(method= ’cv’,number=10)) [6]>model [7]>predict(model$finalModel,x)
15 [8]>predict(model$finalModel,x)$class Package yang digunakan untuk mengklasifikasikan titik panas adalah package klaR dan caret. Package caret dapat digunkan untuk mengklasifikasikan data menggunakan algoritme Naive Bayes, karena memiliki fitur yang baik sedangkan package klaR memiliki Naive Bayes classifier. Baris kelima dari program merupakan pernyataan untuk melatih model. Baris program ini akan memproses model Naive Bayes menggunakan 10-fold cross validation. X merupakan predictor dan y merupakan label, sedangkan ’nb’ menerangkan bahwa model yang digunakan adalah Naive Bayes. TrainController merupakan bagian bahwa proses pembagian data menggunakan 10-fold cross validation (’cv’). Sintaks model berfungsi untuk mencetak hasil model klasifikasi yang berisi nilai akurasi dan kappa, dapat dilihat pada Gambar 11. Selain itu juga terdapat sintaks predict yang dapat menampilkan beberapa kelas yang dapat diprediksi berdasarkan peluang posterior.
Gambar 11 Pernyataan R untuk menghitung akurasi algoritme Naive Bayes Perhitungan Akurasi Setelah mendapatkan model Naive Bayes, proses selanjutnya adalah melakukan perhitungan akurasi. Perhitungan akurasi dapat dilakukan dengan menggunakan matriks confusion, berdasarkan rumus (5). Akurasi dari model klasifikasi pada data uji adalah sebesar 100%. Berikut sintaks untuk membangun matriks confusion dalam R: >table(predict(model$finalModel,x)$class,y) Pada Tabel 6 dan 7 terlihat bahwa nilai akurasi tertinggi terdapat pada dataset 2006. FP menyatakan data bukan titik panas yang diklasifikasikan sebagai data bukan titik panas, TP menyatakan data titik panas yang diklasifikasikan sebagai data titik panas, FN menyatakan data bukan titik panas yang diklasifikasikan sebagai data titik panas, dan TN menyatakan data titik panas yang diklasifikasikan sebagai data bukan titik panas. Akurasi terbaik untuk wilayah Sumatera dan Kalimantan adalah sebesar 100%. Untuk dataset Sumatera terdapat 19369 FP sedangkan 10075 TP dan tidak ada data yang salah dalam proses klasifkasi (tidak ada FN dan TN). Sementara itu, untuk dataset Kalimantan terdapat 19992 FP dan 9961 TP dan tidak ada data yang salah dalam proses klasifkasi (tidak ada FN dan TN).
16 Tabel 6 Akurasi model pada dataset Sumatera Dataset Sumatera2001 Sumatera2002 Sumatera2003 Sumatera2004 Sumatera2005 Sumatera2006 Sumatera2007 Sumatera2008 Sumatera2009 Sumatera2010 Sumatera2011 Sumatera2012 Sumatera2013 Sumatera2014
TP 587 3838 3300 5268 10456 10075 1607 2449 4711 1347 4244 4614 6188 14245
TN 587 3838 3300 5268 10456 10075 1607 2449 4711 1347 4244 4614 6188 14245
FP 0 0 0 0 0 0 0 0 0 0 0 0 0 0
FN 0 0 0 0 0 0 0 0 0 0 0 0 0 0
Akurasi (%) 100 100 100 100 100 100 100 100 100 100 100 100 100 100
Tabel 7 Akurasi model pada dataset Kalimantan Dataset Kalimantan2001 Kalimantan2002 Kalimantan2003 Kalimantan2004 Kalimantan2005 Kalimantan2006 Kalimantan2007 Kalimantan2008 Kalimantan2009 Kalimantan2010 Kalimantan2011 Kalimantan2012 Kalimantan2013 Kalimantan2014
TP 889 7477 2005 4311 1815 9961 609 405 6505 136 2404 2548 1106 5995
TN 889 7477 2005 4311 1815 9961 609 405 6505 136 2404 2548 1106 5995
FP 0 0 0 0 0 0 0 0 0 0 0 0 0 0
FN 0 0 0 0 0 0 0 0 0 0 0 0 0 0
Akurasi (%) 100 100 100 100 100 100 100 100 100 100 100 100 100 100
Akurasi model dan kappa statistik digunakan untuk menentukan dataset terbaik. Berdasarkan Tabel 8 dan Tabel 9 dapat disimpulkan bahwa model terbaik diperoleh dari dataset tahun 2006 untuk wilayah Kalimantan dan dataset tahun 2014 untuk wilayah Sumatera. Nilai akuasi model dan kappa statistik untuk wilayah Sumatera adalah 99.996% dan 99.993%. Sementara itu, untuk Kalimantan 99.994% dan 99.989%. Nilai akurasi ini menunjukkan hasil yang lebih baik dari penelitian sebelumnya (Sitanggang et al. 2012), yaitu 62.8667% untuk Naive Bayes. Tabel 8 Akurasi dan Kappa untuk model klasifikasi pada dataset Sumatera Dataset Sumatera2001 Sumatera2002
Akurasi (%) 99.915 99.986
Kappa (%) 99.831 99.973
17 Dataset Sumatera2003 Sumatera2004 Sumatera2005 Sumatera2006 Sumatera2007 Sumatera2008 Sumatera2009 Sumatera2010 Sumatera2011 Sumatera2012 Sumatera2013 Sumatera2014
Akurasi (%) 99.984 99.990 99.966 99.995 99.969 99.814 99.989 99.963 99.988 99.989 99.991 99.996
Kappa (%) 99.969 99.981 99.933 99.990 99.938 99.636 99.978 99.926 99.976 99.978 99.983 99.993
Tabel 9 Akurasi dan Kappa untuk model klasifikasi pada dataset Kalimantan Dataset Kalimantan2001 Kalimantan2002 Kalimantan2003 Kalimantan2004 Kalimantan2005 Kalimantan2006 Kalimantan2007 Kalimantan2008 Kalimantan2009 Kalimantan2010 Kalimantan2011 Kalimantan2012 Kalimantan2013 Kalimantan2014
Akurasi (%) 99.944 99.993 99.955 99.988 99.972 99.994 99.918 99.876 99.972 99.655 99.979 99.980 99.955 99.991
Kappa (%) 99.888 99.986 99.910 99.976 99.945 99.989 99.838 99.756 99.945 99.333 99.958 99.960 99.910 99.983
Penerapan Model pada Data Baru Dalam tahapan ini akan dilakukan validasi model terhadap dataset dari tahun 2001-2014. Kemudian akan diterapkan model dengan akurasi tertinggi pada dataset baru 2015. Model dengan akurasi tertinggi terdapat pada tahun 2006 untuk wilayah Kalimantan dan tahun 2014 untuk wilayah Kalimantan. Oleh karena itu data yang digunakan sebagai data latih merupakan dataset tahun 2006 untuk Sumatera dan dataset 2014 untuk Kalimantan, data yang digunakan sebagai data uji adalah dataset tahun 2015 untuk kedua wilayah. Berikut sintaks untuk menerapkan model pada data baru tahun 2015: [1]>library(e1071) [2]>data_train<-sumatera[1:29445, ] [3]>data_test<-sumatera[29445:31298, ] [4]>prop.table(table(data_train$V4)) [5]>prop.table(table(data_test$V4))
18 [6]>data_classifier<-naiveBayes(data_train,cl<-data _train[1:29445,4]) [7]>data_prediction<-predict(data classifier,data test) [8]>library(gmodels) [9]>CrossTable(data prediction,data_test$V4, prop.chisq = FALSE,prop.t = FALSE, dnn = c(’predicted’,’actual’)) Package yang digunakan merupakan e1071 (baris 1). Package ini membangun model menggunakan fungsi naiveBayes yang terdapat pada baris keenam program. Pembagian data dilakukan secara manual. Untuk membangun matriks confusion diperlukan package tambahan yaitu gmodel. Akurasi model pada data titik panas baru untuk wilayah Sumatera adalah 99.02% dan Kalimantan adalah 100%. Pada Tabel 10 dan 11 menunjukkan matriks confusion untuk model klasifikasi wilayah Sumatera dan Kalimantan. Untuk dataset Sumatera terdapat 1307 data bukan titik panas(F) yang diklasifikasikan sebagai data bukan titik panas (F) sedangkan terdapat 528 data titik panas(T) yang diklasifikasikan sebagai data titik panas(T) dan tedapat 18 data titik panas(T) yang diklasifikasikan sebagai data bukan titik panas(F). Sementara itu, untuk dataset Kalimantan terdapat 77 data bukan titik panas(F) yang diklasifikasikan sebagai data bukan titik panas(F) sedangkan terdapat 23 data titik panas(T) yang diklasifikasikan sebagai data titik panas(T) dan tidak ada data yang salah diklasifkasikan. Dari hasil ini dapat disimpulkan bahwa kinerja Naive Bayes terhadap data titik panas dan lahan gambut di Sumatera dan Kalimantan sangat baik. Tabel 10 Matriks confusion untuk model pada dataset Sumatera predictive/actual F (bukan titik panas) T (titik panas)
F (bukan titik panas) 1307 18
T (titik panas) 0 528
Tabel 11 Matriks confusion untuk model pada dataset Kalimantan predictive/actual F (bukan titik panas) T (titik panas)
F (bukan titik panas) 77 0
T (titik panas) 0 23
SIMPULAN DAN SARAN Simpulan Penelitian berhasil mengklasifikasikan kemunculan titik panas di lahan gambut di Sumatera dan Kalimantanmenggunakan algoritme Naive Bayes. Dataset yang digunakan untuk klasifikasi terdiri dari tutupan lahan, tipe lahan gambut, kedalaman gambut, dan kelas. Dataset yang menghasilkan model klasifikasi dengan nilai akurasi tertinggi untuk wilayah Kalimantan dan Sumatera adalah dataset tahun 2006 dengan nilai akurasi adalah 99.996% untuk Kalimantan dan 99.992% untuk Sumatera. Model dengan akurasi tertinggi berhasil diterapkan pada
19 dataset baru tahun 2015 dengan akurasi 100% untuk Kalimantan dan 99.02% untuk Sumatera. Dengan demikian model klasifikasi menggunakan algoritme Naive Bayes dapat digunakan untuk memprediksi kemunculan titik panas di lahan gambut. Saran Saran yang dapat dilakukan untuk penelitian selanjutnya adalah membangun suatu aplikasi berbasis web untuk menampilkan hasil klasifikasi titik panas menggunakan algoritme Naive Bayes.
DAFTAR PUSTAKA Adinugroho WC, Suryadiputra INN, Saharjo BH, Siboro L. 2005. Panduan Pengendalian Kebakaran Hutan dan Lahan Gambut. Proyek Climate Change, Forests and Peatlands in Indonesia. Bogor(ID):Wetlands InternationalIndonesian Programme and Wildlife Habitat Canada. Dieterle G, Heil A. 1998. Impacts of Large Scale Forest and Land Fires in Indonesia 1997 on Regional Air Pollution. Di dalam: Chokkalingam U, Suyanto, Wibowo P, editor. Kebakaran di Lahan Rawa/Gambut di Sumatera : Masalah dan Solusi; 2003 Desember 10-11; Palembang, Indonesia. Bogor(ID): Center For International Forestry Research. Fernando V, Sitanggang IS. 2014. Klasifikasi Data Spasial untuk Kemunculan Hotspot di Provinsi Riau Menggunakan Algoritme ID3. Integrasi Sains MIPA untuk Mengatasi Masalah Pangan, Energi, Kesehatan, Reklamasi, dan Lingkungan; 09-11 Mei 2014; Bogor, Indonesia. Bogor (ID): SEMIRATA. hlm 428-436. ISBN: 978-602-70491-0-9. Friedman, N., Geiger, D., Goldszmidt, M.,1997. Bayesian network classifiers. Kluwer Academic Publishers, Boston, pp. 1-37. Han J, Kamber M, Pei J. 2012. Data Mining: Concepts and Techniques 3rd ed. Massachusetts (US): Morgan Kaufmann Publishers. [LAPAN]. Lembaga Antariksa dan Penerbangan Nasional. 2014. KEKERINGAN TAHUN 2014: NORMAL ATAUKAH EKSTRIM [Internet]. [diunduh 2015 04 23]. Tersedia pada: http://lapan.go.id/index.php/subblog/read/2014/838/KEKERINGANTAHUN2014-NORMAL-ATAUKAH-EKSTRIM/932. Levine. 1998. Gaseous and particulate emissions released to the atmosphere during forest fires: a case study of Kalimantan and Sumatra, Indonesia in 1997. Di dalam: Chokkalingam U, Suyanto, Wibowo P, editor. Kebakaran di Lahan Rawa/Gambut di Sumatera : Masalah dan Solusi; 2003 Desember 10-11; Palembang, Indonesia. Bogor(ID): Center For International Forestry Research. Sitanggang IS, Yaakob R, Mustapha N, Ainuddin AN. 2012. Application of classification algorithms in data mining for hotspots occurance prediction in Riau province Indonesia. JATIT. 43(2): 214-221. ISSN: 1992-8645. Suwanto A, Maas A, Sutaryo D, Wijaya DY, Sartono D, Achsani H, Komarsa, Hastuti S, Soli TI. Profil Ekosistem Gambut di Indonesia. Jakarta (ID).
20 Wetlands Internationa Indonesia Programme (WI-IP). Witten H, Frank E. 2000. Data Mining: Practical Machine Learning Tools and Techniques with Java Implementations. United States of America:Ac ademic Press.
21 Lampiran 1 Luas lahan gambut di Pulau Kalimantan berdasarkan kedalaman gambut No 1 2 3 4 5
Kedalaman gambut 50-100 100-200 200-400 400-800 800-1200
Luas (ha) 1.922.748.40 1.260.926.73 1.146.082.39 1.065.640.91 364.675.44
Lampiran 2 Luas lahan gambut di Pulau Sumatera berdasarkan tutupan lahan gambut No 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31
Tutupan Lahan Gambut Hutan rawa Belukar rawa Kelapa sawit pada bekas hutan rawa < 5 th Kelapa sawit pada bekas hutan rawa > 5 th Kelapa pada bekas hutan rawa > 5 th Sawah intensif (padi-palawija/bera), jeruk Belukar pada bekas sawah Semak, rumput pada bekas sawah Lahan terbuka/persiapan perkebunan Sawah dan kelapa Lahan hutan konsesi penebangan Sawah tadah hujan (padi, palawija/bera) Kelapa pada bekas hutan rawa > 5 Semak dan rumput rawa bekas kebakaran Kebun karet Kelapa pada bekas hutan rawa > 5 th Sawah tadah hujan (padi, palawija, bera) Kelapa sawit pada bekas hutan rawa > 5 th Semak rumput pada bekas sawah Lahan penanaman tanaman industry Kelapa sawit bekas hutan rawa Sawah intensif (padi-padi) Kebun campuran Tambak Sawah pasang surut Semak dan rumput rawa dan beka Semak dan rumput dan bekas kebakaran Sawah tadah hujan (padi-pala) Kelapa sawit pada bekas hutan Kelapa pada bekas huta rawa > 5 th Sawah intensif (padi-palawija)
Luas (ha) 3.489.404.14 718.566.35 250.036.40 407.214.51 761.830.36 307.587.60 1.179.60 19.982.90 29.410.10 332.407.67 137.988.98 130.134.57 373.37 235.355.99 83.640.16 761.830.36 1.105.865.13 407.214.51 5.009.43 43.891.88 1.032.31 18.094.84 10.721.04 9.447.26 15.202.54 11.471.98 2.706.00 3.671.44 14.765.14 7.193.15 3.403.85
22
Lampiran 3 Cara perhitungan Naive Bayes Ide utama dari rumus Bayes yang dapat dilihat pada persamaan (2), yaitu suatu hipotesis atau kejadian (Ci) dapat diprediksi berdasarkan beberapa bukti (X) yang dapat diobservasi. Dari rumus Bayes dapat disimpulkan: 1. Peluang prior dari Ci atau P(Ci) : merupakan dari suatu kejadian sebelum bukti diobservasi. 2. Peluang posterior dari Ci atau P(Ci | X) : merupakan peluang dari suatu kejadian setelah bukti diobservasi. Tabel 3.1 Dataset Tipe Gambut Kedalaman Gambut (cm) Kelas Hemists/Saprists/Mineral 50-100 T Hemists/Saprists/Mineral 50-100 T Hemists/Fibrists/Saprists 100-200 T Saprists/Mineral 50-100 T Hemists/Fibrists 200-400 F Hemists/Mineral 50-100 F Hemists/Fibrists 100-200 F Hemists/Fibrists/Mineral 50-100 F Saprists/Hemists/Mineral 200-400 F Hemists/Fibrists 800-1200 F
No 1 2 3 4 5 6 7 1 2 3 4 5 6 7
Tipe gambut Ket Hemists/Saprists/Mineral Hemists/Fibrists/Saprists Saprists/Mineral Hemists/Fibrists Hemists/Mineral Hemists/Fibrists/Mineral Saprists/Hemists/Mineral Hemists/Saprists/Mineral Hemists/Fibrists/Saprists Saprists/Mineral Hemists/Fibrists Hemists/Mineral Hemists/Fibrists/Mineral Saprists/Hemists/Mineral
T 2 1 1 0 0 0 0 2/4 1/4 1/4 0/4 0/4 0/4 0/4
F 0 0 0 3 1 1 1 0/6 0/6 0/6 3/6 1/6 1/6 1/6
Kedalaman gambut Ket T F 50-100 3 2 100-200 1 1 200-400 0 2 800-1200 0 1
50-100 100-200 200-400 800-1200
3/4 1/4 0/4 0/4
2/6 1/6 2/6 1/6
Kelas T 4
F 6
4/10
6/10
Tabel diatas menunjukkan frekuensi dari masing-masing kejadian. Seperti contohnya, terdapat 2 contoh dari dataset pada Tabel 3.1 (tipe gambut = Hemists/Saprists/Mineral | kelas = T). Setelah menghitung semua frekuensi, tahapan berikutnya adalah membangun model Naive Bayes pada Tabel 13 dengan menghitung P(X|Ci) dan P(Ci), sebagi berikut: P(tipe gambut = Hemists/Saprists/Mineral | kelas = T) = 2/4
23 Lanjutan P(kelas = T) = 4/10 Setelah membangun model Naive Bayes, model tersebut dapat digunakan untuk memprediksi berbagai kejadian, seperti “T” berdasarkan fakta-fakta yang ada. Jika dilakukan observasi terhadap (tipe gambut = Hemists/Saprists/Mineral) dan (kedalaman gambut = 800-1200), maka peluang posterior dapat diestimasikan: P[T|X] = P[tipe gambut = Hemists/Saprists/Mineral|T] × P[kedalaman gambut = 800-1200|T] × P[T] =18/28 × 1/4 × 2/5 Peluang untuk T = 18/28 × 1/4 × 4/10 = 0.0642 Peluang untuk F = 1/7 × 5/12 × 6/10 = 0.0357 Pada model Naive Bayes terdapat nilai peluang 0. Untuk menangani kasus ini dapat digunakan salah satu teknik smoothing yaitu Laplace estimation. Berikut implementasi Laplace estimation untuk atribut “Hemists/Saprists/Mineral” ketika kelas = F dan kelas = T: 0 + μp1 P(tipe gambut=Hemists/Saprists/Mineral|kelas=F) = 6+μ 0 + μp2 P(tipe gambut=Hemists/Fibrists/Saprists|kelas=F) = 6+μ 0 + μp3 P(tipe gambut=Saprists/Mineral|kelas=F) = 6+μ 3 + μp4 P(tipe gambut=Hemists/Fibrists|kelas=F) = 6+μ 1 + μp5 P(tipe gambut=Hemists/Mineral|kelas=F) = 6+μ 1 + μp6 P(tipe gambut=Hemists/Fibrists/Mineral|kelas=F) = 6+μ 1 + μp7 P(tipe gambut=Saprists/Hemists/Mineral|kelas=F) = 6+μ dengan (p1 + p2 + p3 + p4 + p5 + p6 + p7) = 1. Oleh karena itu, p1 = p2 = p3 = p4 = p5 = p6 = p7 = 1/7 6 0 + μ/7 0 + 1/7 = = 42 6+μ 6+7 1 + 1/4 1 + μ/4 5 P(kedalaman gambut=800-1200|kelas=F) = = = 6+4 6+μ 12 18 2 + μ/7 2 + 1/7 P(tipe = = = gambut=Hemists/Saprists/Mineral|kelas=T) 24 4+μ 4+7 1 0 + μ/4 0 + 1/4 P(kedalaman gambut=800-1200|kelas=T) = = = 4 4+μ 4+4 Berdasarkan perhitungan nilai peluang terhadap (tipe gambut=Hemists/Saprists/Mineral) dan (kedalaman gambut=800-1200) dapat disimpulkan bahwa data tersebut masuk ke dalam kelas T. P(tipe gambut=Hemists/Saprists/Mineral|kelas=F)
=
24
RIWAYAT HIDUP Penulis dilahirkan pada tanggal 26 Januari 1993 di Jakarta. Penulis merupakan anak pertama dari tiga bersaudara dari pasangan Cendra Yevil dan Herlina. Pada tahun 2010, penulis lulus dari SMA Negeri 1 Cilegon dan diterima di Diploma Institut Pertanian Bogor melalui jalur SNMPTN Undangan di Program Keahlian Teknik Komputer. Penulis lulus dari Diploma IPB tahun 2013. Pada tahun 2013, penulis lulus seleksi masuk program Sarjana Alih Jenis, Departemen Ilmu Komputer, Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor.