KLASIFIKASI SIFAT CURAH HUJAN BERDASARKAN INDIKATOR ENSO (EL-NINO SOUTHERN OSCILLATION) DI KABUPATEN NGAWI DENGAN MENGGUNAKAN METODE KLASIFIKASI POHON 1
Putri Sea Paramita, 2 Sutikno
1
Mahasiswa Jurusan Statistika FMIPA-ITS (1306 100 012) 2 Dosen Jurusan Statistika FMIPA-ITS 1
[email protected],
[email protected]
Abstrak Stasiun Klimatologi Klas II Karangploso Malang setiap bulannya telah melakukan pengukuran curah hujan dan peramalan sifat hujan di wilayah Jawa Timur. Dalam melakukan peramalan sifat hujan seringkali menggunakan indikator ENSO. Indikator ini merupakan salah satu fenomena global yang mempengaruhi curah hujan di Indonesia, yang dapat mengakibatkan terjadinya banjir, kekeringan, dan gangguan cuaca lainnya. Penelitian ini bertujuan untuk menyusun model klasifikasi sifat curah hujan di Kabupaten Ngawi dengan menggunakan metode klasifikasi pohon. Metode klasifikasi pohon merupakan salah satu metode non parametrik yang tidak terlalu ketat asumsi (soft modelling). Lokasi stasiun (pos hujan) dibagi menjadi 2 Zona Musim (ZOM), yaitu ZOM 1 (Jogorogo, Ngrambe, Kedung Urung, Tretes, dan Mantingan), dan ZOM 2 ( Mardiasri, Paron, Bekoh, Guyung, Sambiroto, Karangjati, Padas, Ngawi,Kedung Galar, Begal, Walikukun, Ngadirejo/Sooko, dan Ngale). Terdapat 8 variabel prediktor yang diduga mempengaruhi curah hujan di Kabupaten Ngawi, yaitu Indeks Osilasi Selatan (IOS), suhu permukaan laut di wilayah Nino 1.2, suhu permukaan laut di wilayah nino 3, suhu permukaan laut di wilayah Nino 4, suhu permukaan laut di wilayah Nino 3.4, tekanan permukaan laut di Tahiti, tekanan permukaan laut di Darwin, dan Dipole Mode Index (DMI). Hasil penelitian menunjukkan bahwa variabel prediktor yang paling berpengaruh terhadap curah hujan bulanan di ZOM 1 dan ZOM 2 adalah variabel DMI. Ketepatan klasifikasi untuk data learning dan testing yang dihasilkan oleh pohon optimal adalah sebesar 49.60% dan 50% untuk ZOM 1 serta 59.60% dan 41.70% untuk ZOM 2. Kata Kunci : ENSO, Klasifikasi Pohon, ZOM, Learning, Testing
1. Pendahuluan Badan Meteorologi Klimatologi dan Geofisika (BMKG) merupakan sebuah lembaga pemerintah yang salah satu tugasnya adalah melakukan pengamatan dan peramalan terhadap unsur cuaca/iklim, diantaranya curah hujan dan sifat hujan. Informasi iklim yang dikeluarkan oleh BMKG berupa besaran curah hujan, sifat hujan (seperti di bawah normal, normal, dan di atas normal). Informasi BMKG mengenai evaluasi dan hasil ramalan curah hujan diberikan setiap bulan. Curah hujan di Indonesia dipengaruhi oleh fenomena global, fenomena regional, dan fenomena lokal. Salah satu fenomena global adalah ENSO (El-Nino Southern Oscillation) yang terdiri atas 2 komponen kelautan yaitu El-Nino dan La-Nina. Pada saat El-Nino umumnya Indonesia akan mengalami kekeringan yang panjang karena terjadi penurunan curah hujan jauh di bawah normal, sebaliknya pada saat La-Nina curah hujan di atas normal, sehingga sering terjadi banjir, tanah longsor, Salah satu upaya untuk mengantisipasi dampak itu adalah dengan meningkatkan ketepatan prediksi/ramalan iklim, sehingga dampak yang ditimbulkan oleh iklim ekstrim tersebut dapat diantisipasi lebih dini. Beberapa metode prediksi curah hujan yang sudah pernah digunakan BMKG yaitu Autoregressive Integrated Moving Average (ARIMA), tranformasi wavelet, dan Adaptive Neuro-Fuzzy Inference Systems (ANFIS) (Indragustari, 2005a; 2005b; Nuryadi, 2005). Dalam proses prediksi sifat hujan, BMKG tidak melakukan langsung pengklasifikasian sifat hujan, namun dilakukan penghitungan (prediksi) besaran (jeluk) curah hujan terlebih dahulu, setelah itu baru dilakukan pengklasifikasian sifat hujan. Dengan demikian jika terjadi kekurang-akuratan prediksi pada besaran curah hujan, maka akan diikuti kesalahan pada pengklasifikasian sifat hujan. Salah satu metode yang dapat digunakan dalam pengklasifikasian sifat hujan adalah metode klasifikasi pohon, yang seringkali disebut metode CART (Classification and Regression Tree). Metode klasifikasi pohon merupakan metode non parametrik yang relatif mudah terhadap penggunaan dan interpretasi (Lewis dan Roger, 2000). Penelitian sifat curah hujan berdasarkan indikator ENSO telah dilakukan sebelumnya oleh Estikaningrum (2003), dengan daerah penelitian di wilayah Tuban, Sandakan, dan Ampenan. Selain itu, Firth et al. (2005) dalam meramalkan curah hujan di Australia juga menggunakan metode klasifikasi pohon. Kesimpulan yang diperoleh pada penelitian tersebut adalah SST (Sea Surface Tempaerature) 1
merupakan variabel yang paling berpengaruh dalam memprediksi terjadinya hujan. Penelitian Freestorm et al. (2002) juga menggunakan metode CART dalam memprediksi intensitas cuaca yang buruk di Amerika. Dalam penelitian tersebut diperoleh kesimpulan bahwa metode CART menghasilkan tren positif antara parameter cuaca yang buruk dengan variabel prediktornya, yaitu SST dan indeks sirkulasi global. Penelitian yang berkaitan dengan peramalan sifat hujan di Indonesia masih terbatas, sehingga pengembangan metode peramalan sifat hujan perlu dikembangkan. Penelitian ini menerapkan metode klasifikasi pohon dalam menduga pengklasifikasian sifat curah hujan berdasarkan indikator ENSO di Kabupaten Ngawi. 2. Tinjauan Pustaka Classification and Regression Trees (CART) CART (Classification and Regression Trees) adalah metode statistik nonparametrik yang dapat menggambarkan hubungan antara variabel respon (variabel dependen atau variabel tak bebas) dengan satu atau lebih variabel prediktor (variabel independen atau bebas). Menurut Breiman et al. (1993), jika variabel respon berbentuk kontinu maka metode yang digunakan adalah metode regresi pohon (regression trees), sedangkan apabila variabel respon memiliki skala kategorik maka metode yang digunakan adalah metode klasifikasi pohon (classification trees). Variabel respon pada penelitian ini berskala kategorik, oleh karena itu metode yang akan digunakan adalah metode klasifikasi pohon. Klasifikasi Pohon (Classification Trees) Klasifikasi pohon merupakan metode alternatif untuk memodelkan dan memprediksi nilai variabel respon berjenis kategorik yang dipengaruhi oleh variabel-variabel bebas berjenis kategorik, kontinu ataupun kombinasi keduanya. Metode ini menggunakan pendekatan nonparametrik yang tidak mensyaratkan suatu asumsi seperti multivariat normal dan varian kovarian yang sama. Pengklasifikasian dengan metode klasifikasi pohon terdiri atas 4 komponen, yaitu variabel respon, variabel prediktor, data learning, dan data testing. Data learning meliputi variabel respon dan prediktor yang digunakan untuk menyusun model klasifikasi, sedangkan data testing digunakan untuk keakuratan hasil prediksi. Pembentukan pohon klasifikasi terdiri atas 3 tahap yang memerlukan learning sample L. Tahap pertama adalah pemilihan pemilah. Menurut Breiman et al. (1993), setiap pemilahan hanya bergantung pada nilai yang berasal dari satu variabel independen. Untuk variabel independen kontinu Xj dengan ruang sampel berukuran n dan terdapat n nilai amatan sampel yang berbeda, maka akan terdapat n − 1 pemilahan yang berbeda. Xj adalah variabel kategori nominal bertaraf L , maka akan diperoleh pemilahan sebanyak 2 L − 1 − 1 . Tetapi jika variabel X adalah kategori ordinal maka akan diperoleh L 1 pemilahan yang
mungkin. Metode pemilahan yang sering digunakan adalah indeks Gini dengan fungsi sebagai berikut. ∑ | | (1) dengan adalah fungsi keheterogenan indeks gini, p(i|t) adalah proporsi kelas i pada simpul t, dan p(j|t) adalah proporsi kelas j pada simpul t h proporsi kelas i pada simpul t dan p( j, t ) / p(t ) adalah proporsi kelas j pada simpul t. Goodness of split merupakan suatu evaluasi pemilahan oleh pemilah s pada simpul t. Goodness of split φ ( s, t ) didefinisikan sebagai penurunan keheterogenan. , ∆, (2) Pengembangan pohon dilakukan dengan mencari semua kemungkinan pemilah pada simpul sehingga ditemukan pemilah s* yang memberikan nilai penurunan keheterogenan tertinggi yaitu, ∆ , max ! ∆, (3) dengan , adalah kriteria goodness of split, adalah proporsi pengamatan dari simpul t menuju simpul kiri, dan adalah proporsi pengamatan dari simpul t menuju simpul kanan.
Tahap kedua adalah penentuan simpul terminal. Simpul t dapat dijadikan simpul terminal jika tidak terdapat penurunan keheterogenan yang berarti pada pemilahan, hanya terdapat satu pengamatan (n=1) pada tiap simpul anak atau adanya batasan minimum n serta adanya batasan jumlah level atau tingkat kedalaman pohon maksimal. 2
Tahap ketiga adalah penandaan label tiap simpul terminal berdasar aturan jumlah anggota kelas terbanyak, yaitu:
" | max | max
#$ % #%
(4)
dengan | adalah proporsi kelas j pada simpul t, & adalah jumlah pengamatan kelas j pada simpul t , dan & adalah jumlah pengamatan pada simpul t . Label kelas simpul terminal t adalah j 0 yang memberi nilai dugaan kesalahan pengklasifikasian simpul t terbesar. Lewis (2000) menyatakan proses pembentukan pohon klasifikasi berhenti saat terdapat hanya satu pengamatan dalam tiap simpul anak atau adanya batasan minimum n, semua pengamatan dalam tiap simpul anak identik, dan adanya batasan jumlah level/kedalaman pohon maksimal. Setelah terbentuk pohon maksimal tahap selanjutnya adalah pemangkasan pohon untuk mencegah terbentuknya pohon klasifikasi yang berukuran sangat besar dan kompleks, sehingga diperoleh ukuran pohon yang layak berdasarkan cost complexity prunning, maka besarnya resubtitution estimate pohon T pada parameter kompleksitas α yaitu : +| '( ) ') * ( |) (5) dengan ,- . adalah resubtitution suatu pohon T pada kompleksitas α , ,. adalah resubstitution estimate, / adalah 3435664 78 785 96:; bagi penambahan satu simpul akhir pada pohon T, dan |.<| adalah banyaknya simpul terminal pohon T. Cost complexity prunning menentukan pohon bagian ./ yang meminimumkan ,- . pada seluruh pohon bagian untuk setiap nilai / . Nilai parameter kompleksitas / akan secara perlahan meningkat selama proses pemangkasan. Selanjutnya pencarian pohon bagian ./ = .>?@ yang dapat meminimumkan ,- . yaitu : '( AB)( CD EFG)H)IJK '( ) (6) Setelah dilakukan pemangkasan diperoleh pohon klasifikasi optimal yang berukuran sederhana namun memberikan nilai pengganti yang cukup kecil. Penduga pengganti yang sering digunakan adalah penduga sampel uji (test sample estimate) dan validasi silang lipat V (Cross Validation V-Fold Estimate). Penelitian Sebelumnya Penelitian Estikaningrum (2003) melakulan pengklasifika-sian sifat curah hujan berdasarkan indikator ENSO dengan menggunakan klasifikasi pohon. Variabel prediktor yang digunakan pada penelitian tersebut adalah tekanan permukaan laut di Tahiti, tekanan permukaan laut di Darwin, suhu permukaan laut di wilayah Nino 1.2, suhu permukaan laut di wilayah Nino 3, suhu permukaan laut di wilayah Nino 4, dan suhu permukaan laut di wilayah Nino 3.4. Variabel respon yang digunakan adalah rata-rata curah hujan bulanan, dengan daerah penelitian di Tuban, Sandakan, dan Ampenan. Kesimpulan penelitian tersebut menunjukkan bahwa ketepatan klasifikasi baik pada data training maupun data testing relatif rendah. Selain itu, Firth et al. (2005) melakukan prediksi curah hujan di Australia dengan menggunakan klasifikasi pohon. Variabel prediktor yang digunakan dalam penelitian tersebut adalah Sea Surface Temperatures (SST), Mean Sea Level Pressure (MSLP), dan Southern Oscillation Index (SOI). Variabel responnya adalah waktu terjadinya cuaca yang buruk saat musim hujan yang terdiri atas 3 kategori yaitu, awal musim hujan, pertengahan musim hujan, dan akhir musim hujan. Kesimpulan yang diperoleh pada penelitian tersebut adalah variabel SST merupakan variabel prediktor yang paling berpengaruh dalam memprediksi terjadinya cuaca yang buruk saat musim hujan. Penelitian Freestorm et al. (2002) juga menggunakan metode CART dalam memprediksi intensitas cuaca yang buruk di Amerika. Menggunakan SST (Sea Surface Temperatures) dan indeks sirkulasi global sebagai variabel prediktornya, serta rata-rata curah hujan (di bawah normal, normal, di atas normal) sebagai variabel responnya, penelitian ini menginformasikan bahwa secara keseluruhan CART menghasil-kan trend positif antara parameter cuaca yang buruk dengan variabel prediktornya, yaitu SST dan indeks sirkulasi global. CART juga mengindikasikan bahwa iklim dan algoritma ramalan cuaca dapat digunakan untuk meramalkan intensitas cuaca yang buruk.
3
3. Metodologi Data yang digunakan dalam penelitian ini adalah data sekunder, yang meliputi indeks ENSO tahun 1989-2008 yang diperoleh dari website www.nws.noaa.gov dan data curah hujan bulanan pada periode tahun 1989-2008 di Kabupaten Ngawi yang bersumber dari BMKG Stasiun Klimatologi Klas II Karangploso Malang. Tabel 1 berikut adalah lokasi stasiun (pos hujan) yang digunakan dalam penelitian ini. Tabel 1. Lokasi Pos Stasiun (Pos Hujan) Penelitian No
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
Nama Pos
Jogorogo Ngrambe Kedung urung Tretes Mantingan Mardiasri Paron Bekoh Guyung Sambiroto Karangjati Padas Ngawi Kedunggalar Begal Walikukun Ngadirejo/Sooko Ngale
Koordinat Lintang 07°29' 27,8" 07° 30' 49,3" 07° 30' 32,9" 07° 27' 13,2" 07° 23' 09,4" 07° 25' 41,2" 07° 26' 14,5" 07° 30' 01,8" 07° 30' 21,2" 07° 26' 43,5" 07° 27' 39,7" 07° 25' 12,5" 07° 24' 29,8" 07° 24' 59,1" 07° 28' 10,9" 07° 23' 06,1" 07° 23' 47,4" 07° 24' 32,2"
DPL (m)* Bujur 111° 15' 38,6" 111° 12' 21,1" 111° 09' 41,1" 111° 10' 18,9" 111° 08' 59,9" 111° 24' 20,1" 111° 23' 44,8" 111° 18' 02,6" 111° 24' 36,8 111° 33' 17,1" 111° 36' 47,8" 111° 30' 15,9" 111° 27' 22,7" 111° 18' 45,1" 111° 16' 15,1" 111° 13' 24,0 111° 21' 57,7" 111° 22' 17,8"
248 444 427 227 88 69 67 160 72 87 78 73 66 71 162 112 79 62
(Sumber : www.staklimkarangploso.net, tanggal akses 13 Januari 2010) *di atas permukaan laut
Kabupaten Ngawi terbagi atas 2 ZOM (Zona Musim), yaitu ZOM 1 (Jogorogo, Ngrambe, Kedung Urung, Tretes, dan Mantingan) dan ZOM 2 (Mardiasri, Paron, Bekoh, Guyung, Sambiroto, Karangjati, Padas, Ngawi, Kedung Galar, Begal, Walikukun, Ngadirejo/Sooko, dan Ngale,). Variabel yang digunakan dalam penelitian ini yaitu terdiri atas : 1. Variabel respon Variabel respon yang digunakan yaitu rata-rata curah hujan bulanan dalam mm (milimeter) yang berjenis kategorik, yaitu : a. Y1 = 1 (dibawah normal). b. Y2 = 2 (normal). c. Y3 = 3 (diatas normal). 2. Variabel prediktor X1 = Indeks Osilasi Selatan (IOS) atau SOI (Southern Oscillation Index), X2 = Suhu permukaan laut Nino 1.2, X3 = Suhu permukaan laut Nino 3, X4 = Suhu permukaan laut Nino 4, X5 = Suhu permukaan laut Nino 3.4, X6 = Tekanan Permukaan Laut di Tahiti, X7 = Tekanan Permukaan Laut di Darwin, X8 = Dipole Mode Index (DMI). Nino 1.2, Nino 3, Nino 4, dan Nino 3.4 merupakan wilayah pengukuran suhu permukaan laut yang berada di Samudera Pasifik, dimana letak lokasi tersebut ditunjukkan pada Gambar 1. Berdasarkan Gambar 1 diperoleh informasi bahwa : 1. Nino 1.2 terletak pada 0 - 10 LS dan 90 – 80 BB. 2. Nino 3 terletak pada 5 LU - 5 LS dan 150 – 90 BB. 4. Nino 4 terletak pada 5 LU – 5 LS dan 160 BT – 150 BB. 5. Nino 3.4 terletak pada 5 LU – 5 LS dan 170 – 120 BB.
4
Gambar 1. Lokasi SST Nino 1.2, Nino 3, Nino 4, dan Nino 3.4
Agar variabel respon tersebut bersifat kategorik, maka langkah awal yang harus dilakukan adalah menentukan klasifikasi awal sifat hujan. Sifat hujan ditetapkan berdasarkan pada perbandingan antara jumlah curah hujan dalam sebulan dengan nilai rata-rata atau normalnya pada bulan yang bersangkutan di suatu tempat. Dalam pengklasifikasiannya sifat hujan dibagi menjadi 3 kategori (BMKG, 2003), yaitu : 1 = Sifat hujan dibawah normal, yaitu jika perbandingannya < 85% 2 = Sifat hujan normal, yaitu jika perbandingannya antara 85%-115% 3 = Sifat hujan diatas normal, yaitu jika perbandingannya > 115% Agar dapat lebih memahami pengkategorian sifat hujan, maka diberikan contoh sebagai berikut : Tabel 2. Contoh Curah Hujan Tahun 1989-1990 1989 1990 Rata-Rata
Januari 306 611 459
Februari 518 409 464
... ... ... ...
Desember 233 444 339
Berdasarkan ketentuan pengkategorian yang telah ditetapkan oleh BMKG, maka 85 %
100 %
115 %
Misalkan umtuk Bulan Januari 390 459 528 Berdasarkan hasil penghitungan di atas maka curah hujan untuk Bulan Januari pada tahun 1989 adalah dibawah normal (kategorik 1), sedangkan untuk Bulan Januari pada tahun 1990 adalah diatas normal (kategorik 3). Begitu seterusnya untuk Bulan Februari-Desember. Metode analisis yang digunakan pada penelitian ini adalah analisis deskriptif mengenai gambaran tentang pola dan kondisi curah hujan serta variabel indeks ENSO yang mempengaruhinya. Selanjutnya akan dicari faktor apa yang berpengaruh terhadap curah hujan di ZOM 1 dan ZOM 2 dengan analisis klasifikasi pohon (Classification Tree) dengan tahapan membagi data menjadi 2, yaitu data learning dan data testing. Kemudian menentukan kemungkinan pemilah pada setiap 8 variabel prediktor, mencari pemilah terbaik berdasarkan kriteria Goodness of Split,dan selanjutnya memilah data learning yang masih heterogen menjadi bagian yang lebih homogen dengan indeks gini. Tahap selanjutnya yaitu penentuan simpul terminal (penghentian pohon), penandaan label kelas, melakukan pemangkasan pada pohon yang telah terbentuk berdasarkan cost complexity minimum, memilih pohon terbaik dengan nilai kesalahan 5
validasi silang yang minimum dan terakhir menguji ketepatan klasifikasi yang berasal dari data learning dengan memasukkan data testing sehingga mendapatkan angka ketepatan klasifikasi. 4. Analisis dan Pembahasan Deskripsi Curah Hujan ZOM 1 dan ZOM 2 Gambar 2 menunjukkan bahwa sifat hujan di ZOM 1, 48% data curah hujan termasuk kategori dibawah normal, 18% kategori normal, normal, dan 34% termasuk kategori diatas normal. Hal tersebut mengindikasikan bahwa pada ZOM 1 seringkali sering terjadi kekurangan air hujan, karena sifat hujannya di bawah normal.
Diatas Normal 34%
Diatas Normal 30%
Normal 18%
Normal 23%
Dibawah Normal 47%
Dibawah Normal 48%
Gambar 2. Prosentase Sifat Curah Hujan di ZOM 1
Gambar 3. Prosentase ntase Sifat Curah Hujan di ZOM 2
Tabel 3 menginformasikan bahwa selama s kurun waktu 20 tahun ( 1989-2008 2008) curah hujan di ZOM 1 adalah sebesar 167.81 mm. Variabel V IOS (Indeks Osilasi Selatan) tan) mempunyai nilai sebesar -0.42, artinya di ZOM 1 tidak terjadi iklim yang ekstrim atau dalam kondisi normal. normal Kejadian La-Nina ditunjukkan oleh leh variabel suhu permukaan laut di wilayah Nino 1.2 yang memiliki emiliki suhu -0.07°C dengan suhu maksimum 4.13°C dan suhu minimum sebesar s -2.16°C. Nilai yang dimiliki oleh variabel suhu permukaan laut di wilayah Nino 3, Nino 4, dan Nino 3.4 mengindikasikan terjadinya El-Nino. El Akan tetapi diantara ketiga wilayah Nino tersebut, wilayah Nino Nino 3.4 merupakan wilayah Nino yang memiliki kejadian El-Nino terkuat dengan suhu 0.95°C (Ramawijaya, 2009). Tekanan permukaan laut la di Tahiti mempunyai nilai sebesar 0.11 mb,, dan untuk tekanan t permukaan laut di Darwin mempunyai yai nilai sebesar 0.53 mb. Dipole Mode Index (DMI) memiliki rata-rata rata 0.03, artinya di ZOM 1 mengalami penurunan curah hujan dari normalnya (terjadi El-Nino). Nino). Tabel 3. Deskripsi Variabel Respon dan Prediktor di ZOM 1 dan ZOM 2 Variabel Curah Hujan ZOM 1 (mm) Curah Hujan ZOM 2 (mm) IOS Nino 1.2 (oC) Nino 3 (oC) Nino 4 (oC) Nino 3.4 (oC) Tekanan Tahiti (mb) Tekanan Darwin (mb) DMI
Rata-Rata 167.81
Std. Deviasi 151.63
Minimum 0.00
Maksimum 626
159.53
133.28
0.00
526
-0.42 -0.07 0.02 0.23 0.95 0.11
1.81 1.16 0.89 0.70 0.88 1.06
-6.70 -2.16 -1.78 -1.60 -1.98 -3.8
4.4 4.13 3.68 1.47 2.80 2.70
0.53
1.11
-2.9
3.90
0.03
1.05
-2.81
3.37
Gambar 3 menunujukkan bahwa sifat hujan di ZOM 2, 47% data curah hujan termasuk kategori dibawah normal, 23% normal, dan 30% termasuk kategori diatas normal. Hal tersebut mengindikasikan bahwa di ZOM 2 seringkali terjadi kekurangan air hujan, karena sifat hujannya dibawah normal. Pada tabel 3 diperoleh informasi bahwa rata-rata rata curah hujan di ZOM 2 adalah sebesar 159.53 mm. Sama halnya dengan ZOM 1, ZOM 2 merupakan daerah Zona Musim yang memiliki kejadian panas atau 6
El-Nino. Nino. Variabel prediktor yang digunakan pada ZOM 2 sama dengan variabel prediktor yang digunakan ZOM 1, dimana variabel prediktor IOS mempunyai rata-rata rata sebesar -0.422 (Tabel 3). 3 Klasifikasi fikasi Pohon Curah Hujan di ZOM 1 Pada penelitian ini data yang digunakan sebanyak 240 pengamatan, yang dibagi menjadi 2 kelompok yaitu data learning dan data testing. Data learning diambil sebanyak 95% atau 228 pengamatan sedangkan data testing diambil sebanyak se 5% atau 12 pengamatan. Tahap pertama pembentukan pohon klasifikasi maksimal adalah pemilah-pemilah. pemilah Perhitungan pemilah pada setiap variabel prediktor diperoleh hasil sebagai berikut : a. Indeks Osilasi Selatan, memiliki 71-1 = 70 pemilahan. b. Suhu permukaan laut dii wilayah Nino 1.2, memiliki 173-1 173 = 172 pemilahan. c. Suhu permukaan laut di wilayah Nino 3, memiliki 153-1 153 = 152 pemilahan. d. Suhu permukaan laut di wilayah Nino 4, memiliki 140-1 140 = 139 pemilahan. e. Suhu permukaan laut di wilayah Nino 3.4, memiliki memil 170-1 = 169 pemilahan. f. Tekanan permukaan laut di Tahiti, memiliki 42-1 4 = 43 pemilahan. g. Tekanan permukaan laut di Darwin, memiliki 53-1 = 52 pemilahan. h. Dipole Mode Index,, memiliki 228-1 228 = 227 pemilahan. Penelitian ini menggunakan metode pemilahan Indeks Gini sesuai persamaan (1). (1) Pemilah terbaik adalah pemilah yang menghasilkan nilai penurunan keheterogenan tertinggi (kriteria riteria pemilahan goodness of split pada persamaan (2) dan persamaan (3)). (3)) Pemilah terbaik pada simpul 1 (pemilah utama) pada penelitian ini adalah variabel DMI (X8) yang menghasilkan nilai penurunan keheterogenan tertinggi. tertinggi Tahap kedua yaitu penentuan simpul terminal. Klasifikasi pohon maksimal (maximal tree) pada ZOM 1 terdiri atas 37 simpul terminal termin dengan 16 kedalaman (Gambar 4). Tahap ap ketiga adalah penandaan label kelas. Pemberian label kelas untuk setiap simpul terminal berdasarkan rumus pada persamaan (4). (4)
Gambar 4. 4 Topologi Klasifikasi Pohon Maksimal ZOM 1
Ketepatan klasifikasi untuk data testing pada klasifikasi pohon maksimal adalah sebesar 37.70% (Tabel 4). Artinya model klasifikasi pohon maksimal yang telah terbentuk memiliki keakuratan hasil prediksi sebesar 37.70%. Tabel 4. Tabulasi Silang antara Klasifikasi Sifat Hujan Aktual dan Prediksi Klasifikasi Sifat Hujan pada Pohon Maksimal untuk Data Testing di ZOM 1 Klasifikasi Sifat Hujan Aktual
1
2
3
% Ketepatan Klasifikasi
1
46
28
33
42.9 42.90
2
11
9
23
20.9 20.90
3
22
25
31
39.7 39.70
Prediksi Klasifikasi Sifat Hujan
Ketepatan Klasifikasi Keseluruhan
37.7 37.70
Selanjutnya dilakukan pemangkasan klasifikasi pohon maksimal. Breiman, et al (1993) menyatakan pemangkasan pohon klasifikasi dilakukan apabila pohon klasifikasi yang terbentuk berukuran sangat 7
besar dan kompleks dalam penggambaran struktur data sehingga pada akhirnya diperoleh ukuran pohon yang layak dan berdasarkan cost complexity complex minimum.
Gambar 5. Plot Antara Relative Cost dan Jumlah Node ZOM 1
Gambar 5 memberikan informasi bahwa nilai relative cost pohon klasifikasi maksimal lebih besar dibandingkan relative cost pohon klasifikasi optimal. Oleh karena itu perlu dilakukan pemangkasan pohon maksimal agar didapatkan nilai relative cost yang paling kecil, kecil untuk nilai test set relative cost dan parameter complexity masing-masing sebeasar 0.893 ± 0.034 dan 0.061. Setelah dilakukan pemangkasan asan terhadap pohon klasifikasi maksimal maka dihasilkan klasifikasi pohon optimal yang memiliki relative costi terkecil dengan 2 kedalaman dan 2 simpul terminal yang disajikan pada Gambar 6. Node 1 Class = 1 DMI <= 0.644 Class Cases 1 107 2 43 3 78 N = 228 Terminal Node 1 Class = 3 Class Cases 1 69 2 34 3 75 N = 178
% 38.8 19.1 42.1
% 46.9 18.9 34.2
Terminal Node 2 Class = 1 Class Cases % 1 38 76.0 2 9 18.0 3 3 6.0 N = 50
. Gambar 6. Model Klasifikasi Pohon Optimal ZOM 1
Variabel prediktor yang menjadi pemilah utama pada pohon klasifikasi optimal adalah DMI (X8). Tabel 5 menunjukkan hasil klasifikasi pohon optimal untuk data learning, learning yaitu sebanyak 38 pengamatan termasuk dalam sifat hujan dibawah normal, dan sebanyak 75 pengamatan termasuk dalam sifat hujan diatas normal. Sedangkan untuk kelas sifat hujan normal tidak ada satupun pengamatan yang benar diklasifikasikan, dimana terdapat 9 pengamatan yang masuk kelas 1 dan 34 pengamatan masuk kelas 3 padahal sebenarnya masuk kelas 2. Klasifikasi pohon optimal yang dibentuk oleh data learning menghasilkan ketepatan patan klasifikasi sebesar 49.60% 49.6 (Tabel 5),, artinya pembentukan model klasifikasi pohon optimal pada ZOM 1 memiliki ketepatan klasifikasi sebesar 49.6%. Tingkat ketepatan klasifikasi sifat curah hujan yang dihasilkan oleh pohon optimal pada data testing yaitu sebesar 50% (Tabel 6). Artinya model klasifikasi pohon yang telah terbentuk pada ZOM 1 memiliki keakuratan hasil prediksi sebesar 50%.
8
Tabel 5. Tabulasi Silang antara Klasifikasi Sifat Hujan Aktual dan Prediksi Klasifikasi Sifat Hujan pada Pohon Optimal untuk Data Leaarning di ZOM 1 Klasifikasi Sifat Hujan Aktual
1
2
3
% Ketepatan Klasifikasi
1
38
0
69
35.50
2
9
0
34
0.00
3
3
0
75
96.20
Prediksi Klasifikasi Sifat Hujan
Ketepatan Klasifikasi Keseluruhan
49.60
Tabel 6. Tabulasi Silang antara Klasifikasi Sifat Hujan Aktual dan Prediksi Klasifikasi Sifat Hujan pada Pohon Optimal untuk Data Testing di ZOM 1 Klasifikasi Sifat Hujan Aktual
1
2
3
% Ketepatan Klasifikasi
1
4
3
0
57.10
2
1
1
0
50.00
3
1
1
1
33.30
Prediksi Klasifikasi Sifat Hujan
Ketepatan Klasifikasi Keseluruhan
50.00
Klasifikasi Pohon Curah Hujan di ZOM 2 Langkah-langkah langkah dalam pembentukan klasifikasi pohon curah hujan di ZOM 2 sama seperti pembentukan klasifikasi pohon curah hujan di ZOM 1. Tahap pertama pembentukan pohon klasifikasi maksimal adalah pemilah-pemilah pemilah. Pemilah terbaik pada simpul 1 (pemilah utama) ama) pada penelitian ini adalah variabel DMI (X8) yang menghasilkan nilai penurunan keheterogenan tertinggi. tertinggi Tahap kedua yaitu penentuan simpul terminal. Klasifikasi pohon p maksimal (maximal tree) pada ZOM 2 terdiri atas 36 simpul terminal al dengan 16 kedalaman kedala (Gambar 7). Tahap ketiga adalah penandaan label kelas. kelas
Gambar 7.. Topologi Klasifikasi Pohon Maksimal ZOM 2
Ketepatan klasifikasi untuk data testing pada pohon klasifikasi ikasi maksimal adalah sebesar 38.60% (Tabel 7). Artinya model klasifikasi pohon maksimal yang telah terbentuk memiliki keakuratan hasil prediksi sebesar 38.60%.
9
Tabel 7. Tabulasi Silang antara Klasifikasi Sifat Hujan Aktual dan Prediksi Klasifikasi Sifat Hujan pada Pohon Maksimal untuk Data Testing ZOM 2 Klasifikasi Sifat Hujan Aktual
Prediksi Klasifikasi Sifat Hujan
% Ketepatan Klasifikasi
1
2
3
1
50
34
20
48.10
2
17
13
23
24.50
3
27
19
25
35.20
Ketepatan Klasifikasi Keseluruhan
38.60
Selanjutnya dilakukan pemangkasan pohon klasifikasi maksimal. Breiman, et al (1993) menyatakan pemangkasan pohon klasifikasi dilakukan apabila pohon klasifikasi yang terbentuk berukuran sangat besar dan kompleks dalam penggambaran struktur data sehingga pada akhirnya diperoleh ukuran pohon yang layak dan berdasarkan cost complexity complexit minimum.
Gambar 8. Plot Antara Relative Cost dan Jumlah Node ZOM 2.
Gambar 8 memberikan informasi bahwa nilai relative cost pohon klasifikasi maksimal lebih besar dibandingkan relative cost pohon klasifikasi optimal. Oleh karena itu perlu dilakukan pemangkasan pohon maksimal agar didapatkan nilai relative cost yang paling kecil, untuk nilai test set relative cost dan parameter complexity masing-masing masing sebeasar 0.850 ± 0.050 dan 0.019. Setelah dilakukan pemangkasan terhadap pohon klasifikasi maksimal maka dihasilkan klasifikasi pohon optimal yang memiliki relative costi terkecil erkecil dengan 9 kedalaman dan 9 simpul terminal yang disajikan pada Gambar 9. 9
10
Node 1 Class = 1 DMI <= 0.749 Class Cases 1 104 2 53 3 71 N = 228
% 45.6 23.2 31.1
Node 2 Class = 2 DARWIN <= -1.350 Class Cases % 1 71 38.0 2 50 26.7 3 66 35.3 N = 187 Terminal Node 1 Class = 2 Class Cases 1 2 2 8 3 2 N = 12
Terminal Node 9 Class = 1 Class Cases % 1 33 80.5 2 3 7.3 3 5 12.2 N = 41 Node 3 Class = 3 DMI <= -1.941 Class Cases 1 69 2 42 3 64 N = 175
% 16.7 66.7 16.7
% 39.4 24.0 36.6
Terminal Node 2 Class = 3 Class Cases % 1 0 0.0 2 0 0.0 3 6 100.0 N=6
Node 4 Class = 3 NINO_12 <= 0.805 Class Cases % 1 69 40.8 2 42 24.9 3 58 34.3 N = 169 Node 5 Class = 3 NINO_3 <= 0.895 Class Cases % 1 65 43.6 2 32 21.5 3 52 34.9 N = 149
Terminal Node 8 Class = 2 Class Cases 1 4 2 10 3 6 N = 20
Node 6 Class = 3 NINO_4 <= -1.040 Class Cases % 1 65 45.1 2 32 22.2 3 47 32.6 N = 144 Terminal Node 3 Class = 2 Class Cases % 1 4 36.4 2 6 54.5 3 1 9.1 N = 11
% 20.0 50.0 30.0
Terminal Node 7 Class = 3 Class Cases % 1 0 0.0 2 0 0.0 3 5 100.0 N=5 Node 7 Class = 3 NINO_4 <= -0.385 Class Cases % 1 61 45.9 2 26 19.5 3 46 34.6 N = 133
Terminal Node 4 Class = 3 Class Cases 1 5 2 2 3 12 N = 19
% 26.3 10.5 63.2
Node 8 Class = 1 DMI <= 0.223 Class Cases 1 56 2 24 3 34 N = 114 Terminal Node 5 Class = 1 Class Cases 1 46 2 14 3 26 N = 86
% 53.5 16.3 30.2
% 49.1 21.1 29.8
Terminal Node 6 Class = 2 Class Cases 1 10 2 10 3 8 N = 28
% 35.7 35.7 28.6
Gambar 9. Model Klasifikasi Pohon Optimal ZOM 2.
Variabel prediktor yang menjadi pemilah utama pada pohon klasifikasi optimal adalah DMI (X8). Tabel 7 menunjukkan hasil klasifikasi pohon optimal untuk data learning, yaitu sebanyak 79 pengamatan termasuk dalam sifat hujan dibawah normal, 34 pengamatan termasuk dalam sifta hujan normal, dan sebanyak 75 pengamatan termasuk dalam sifat hujan diatas normal. Klasifikasi pohon optimal yang dibentuk oleh data learning menghasilkan ketepatan klasifikasi sebesar 59.60% (Tabel 8). Artinya pembentukan model klasifikasi pohon optimal pada ZOM 2 memiliki ketepatan klasifikasi sebesar 59.60%. Tingkat ketepatan klasifikasi sifat curah hujan yang dihasilkan oleh pohon optimal pada data testing yaitu sebesar 41.70% (Tabel 9). Artinya model klasifikasi pohon yang telah terbentuk pada ZOM 2 memiliki keakuratan hasil prediksi sebesar 41.70%.
11
Tabel 8. Tabulasi Silang antara Klasifikasi Sifat Hujan Aktual dan Prediksi Klasifikasi Sifat Hujan pada Pohon Optimal untuk Data Learning di ZOM 2 Klasifikasi Sifat Hujan Aktual
Prediksi Klasifikasi Sifat Hujan
% Ketepatan Klasifikasi
1
2
3
1
79
20
5
76.00
2
17
34
2
64.20
3
31
17
23
32.40
Ketepatan Klasifikasi Keseluruhan
59.60
Tabel 9. Tabulasi Silang antara Klasifikasi Sifat Hujan Aktual dan Prediksi Klasifikasi Sifat Hujan pada Pohon Optimal untuk Data Testing di ZOM 2 Klasifikasi Sifat Hujan Aktual
Prediksi Klasifikasi Sifat Hujan
% Ketepatan Klasifikasi
1
2
3
1
5
2
1
62.50
2
1
0
0
0.00
3
1
2
0
0.00
Ketepatan Klasifikasi Keseluruhan
41.70
5. Kesimpulan dan Saran Berdasarkan analisis dan pembahasan hasil klasifikasi pohon terhadap rata-rata curah hujan bulanan di ZOM 1 dan ZOM 2, diperoleh kesimpulan sebagai berikut : 1. Sifat curah hujan di ZOM 1 adalah 48% data curah hujan termasuk kategori sifat hujan dibawah normal, 34% data curah hujan termasuk kategori sifat hujan diatas normal, dan 18% data curah hujan termasuk kategori sifat hujan normal. Untuk ZOM 2 sifat hujannya adala 47% termasuk kategori sifat hujan dibawah normal, 30% data curah hujan termasuk kategori sifat hujan diatas normal, dan 23% data curah hujan termasuk kategori sifat hujan normal. 2. Model klasifikasi pohon optimal yang diperoleh untuk ZOM 1 adalah terdiri atas 2 simpul terminal dengan memiliki 2 kedalaman. Sedangkan untuk model klasifikasi pohon optimal pad ZOM 2 terdiri atas 9 simpul terminal dengan memiliki 9 kedalaman. Variabel DMI (Dipole Mode Index) merupakan variabel prediktor yang paling berpengaruh terhadap rata-rata curah hujan bulanan di ZOM 1 dan ZOM 2. 3. Metode klasifikasi pohon menghasilkan pohon optimal dengan ketepatan klasifikasi data learning dan testing yaitu sebesar 49.60% dan 50% untuk ZOM 1, serta 59.60% dan 41.70% untuk ZOM 2. Agar diperoleh model klasifikasi pohon yang lebih baik dengan keakuratan prediksi yang lebih baik pula untuk diaplikasikan pada data baru dalam kasus yang serupa, maka disarankan pada penelitian selanjutnya sebaiknya melibatkan faktor global lainnya sebagai variabel prediktor faktor lokal. Daftar Pustaka Anonim (a). 2008. Curah Hujan, Buat Apa?,
. Anonim (b). 2008. Perkiraan Sifat Hujan Sumatra, . Anonim (c). 2009. Klimatologi, . Anonim (d). 2009. National Weather Service Climate Prediction Center, . Anonim (e). 2009. Zona Musim Wilayah Jawa Timur, 12
Breiman L, Friedman J.H, Olshen R.A, dan Stone C.J. 1993. Classification And Regression Trees. Chapman And Hall. New York. Departemen Perhubungan Badan Meteorologi dan Geofisika. 2003. Laporan Meteorologi dan Geofisika. Jakarta. Estikaningrum, L. F. 2003. “Penerapan Metode Klasifikasi Berstruktur Pohon Biner pada Prakiraan Sifat Curah Hujan Berdasarkan Indikator Indeks ENSO (El-Nino Southern Oscillation)”. Tugas Akhir Mahasiswa Jurusan Statistika FMIPA ITS. Surabaya. Firth, L., Martin L. Hazelton, Edward C. Campbell. 2005. Predicting the Onset of Australian Winter Rainfall by the NonLinear Classification. Journal of Climate. Vol. 18. 772-781. Freestorm, H. J., Ronald P. Lowther. 2002. Designing an Algorithm to Predict the Intensity of the Severe Weather Season, . Conference on Applied Climatology. American Meteorogical Society.
Ingragustari. 2005a. Prediksi Curah Hujan dengan Menggunakan Transformasi Wavelet. Prosiding Lokakarya Nasional Forum Prakiraan, Evaluasi dan Validasi. BMG. Hotel Nam Center Kemayoran Jakarta 15-16 Desember 2005. Ingragustari. 2005b. Prediksi Curah hujan dengan menggunakan ANFIS. Prosiding Lokakarya Nasional Forum Prakiraan, Evaluasi dan Validasi. BMG. Hotel Nam Center Kemayoran Jakarta 15-16 Desember 2005. Lakitan, B. 1994. Dasar-Dasar Klimatologi. Raja Grafindo Persada. Jakarta. Lewis dan Roger J. 2000. An Introduction to Classification And Regression Trees (CART) Analysis. Presented at the 2000.
Nuryadi. 2005. Validasi Model Prakiraan Jangka Panjang Menggunakan Model ARIMA. Prosiding Lokakarya Nasional Forum Prakiraan, Evaluasi dan Validasi. BMG. Hotel Nam Center Kemayoran Jakarta 15-16 Desember 2005. Ramawijaya. 2009. Indeks Osilasi Selatan sebagai Indikator El-Nino dan La-Nina, . Seng, C. Y. 2006. Classification and Regression Trees (CART) for SPAM Prediction. Journal of Computational Intelligent : Method and Applications. Assignment. 2 Steinberg, D. dan Phillip C., (2005). CART – Classification and Regression Trees. CA: Salford System, San Diego. Wasti. 2007. El Nino dan Anomali Cuaca, . Walpole, R.E. 1993. Pengantar Statistika-Edisi ke-3. PT. Gramedia Pustaka Utama. Jakarta.
13