1
Post Processing Peramalan Unsur Cuaca dengan Model Output Statistics (MOS): Studi Perbandingan Antara Reduksi Dimensi Independent Component Analysis (ICA) dan Principal Component Analysis (PCA) Arum Anuravega, Heri Kuswanto dan Sutikno Jurusan Statistika, Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Teknologi Sepuluh Nopember (ITS) Jl. Arief Rahman Hakim, Surabaya 60111 Email :
[email protected];
[email protected] Abstrak — Prakiraan cuaca menjadi sangat penting untuk mencegah dampak destruktif dari banjir besar dan menyiapkan early warning system bagi masyarakat. Sebagai lembaga pemerintah, Badan Klimatologi Meteorologi dan Geofisika (BMKG) menggunakan data komponen cuaca Numerical Weather Prediction (NWP) untuk menganalisa dan memberikan informasi kepada masyarakat mengenai keadaan cuaca di seluruh wilayah Indonesia. Namun pada beberapa lokasi tertentu, khususnya lokasi dengan topografi dan vegetasi yang kompleks, hasil ramalan NWP seringkali bias. Model Output Statistics (MOS) sebagai post processing digunakan untuk mengurangi secara optimal bias yang dihasilkan data NWP. Terdapat 3 hal penting dalam penyusunan MOS, yaitu penentuan grid, reduksi dimensi dan penyusunan model. Independent Component Analysis (ICA) merupakan salah satu metode reduksi dimensi yang tengah dikembangkan. Untuk mengetahui kinerja dari metode tersebut, dilakukan studi perbandingan dengan metode yang sering digunakan, yaitu Principal Component Analysis (PCA). Unsur cuaca yang diprediksi yaitu suhu maksimum, suhu minimum dan kelembapan menggunakan 32 variabel NWP. Metode yang digunakan untuk memprediksi adalah stepwise regression. Terbukti bahwa MOS mampu mengurangi bias NWP. Kemampuan MOS ICA dan PCA dalam mengoreksi bias NWP berturut-turut sebesar 90,159% (Suhu Minimum Darmaga) dan 63,346% (Suhu Minimum Tanjung Priok). Secara keseluruhan, MOS ICA menghasilkan presisi rendah dan akurasi tinggi, sedangkan MOS PCA memiliki presisi tinggi dan akurasi rendah. Kata kunci : MOS, reduksi dimensi, ramalan unsur cuaca
I. PENDAHULUAN Banjir di ibukota Indonesia, Jakarta, seringkali menjadi perhatian publik. Bahkan, pada Februari 2007 yang dianggap sebagai banjir terparah, mampu digeserkan oleh bencana banjir akhir-akhir ini pada Januari 2013. Penyebab banjir sangat kompleks, mulai dari tanah yang telah jenuh sehingga tidak mampu lagi menyerap secara optimal, sistem drainase yang buruk, berkurangnya fungsi sungai, dan lainlain. Keadaan ini mencapai klimaksnya ketika memasuki musim hujan dan hujan yang turun terus-menerus sehingga menyebabkan banjir besar. Prakiraan cuaca menjadi sangat penting untuk mencegah dampak destruktif dari banjir besar
dan menyiapkan early warning system untuk banjir di kota Metropolitan Jakarta [1]. Pada mulanya, BMKG (Badan Klimatologi Meteorologi dan Geofisika) melakukan prakiraan cuaca jangka pendek secara subyektif tanpa metode tertentu berdasarkan pergerakan unsur-unsur dinamik cuaca. Pendekatan objektif mulai diupayakan pada tahun 2004 [2] dengan pemodelan Numerical Weather Prediction (NWP). Pendekatan ini diharapkan lebih akurat agar masyarakat memperoleh informasi keadaan cuaca dengan akurasi yang optimal. Namun pada beberapa lokasi tertentu, khususnya lokasi dengan topografi dan vegetasi yang kompleks, hasil ramalan NWP seringkali bias. Maka diperlukan postprocessing data NWP untuk mengoptimalkan hasil ramalannya. Sejak tahun 2005 BMKG telah melakukan penelitian tentang Model Output Statistics (MOS) untuk mengembangkan model prakiraan cuaca harian. Sampai saat ini penelitian tersebut telah menghasilkan model pendugaan suhu maksimum, suhu minimum, kelembaban relatif maksimum, dan kelembaban relatif minimum untuk 10 stasiun pengamatan cuaca [3]. Reduksi dimensi merupakan salah satu hal yang harus diperhatikan dalam penyusunan MOS. Reduksi dimensi yang sering digunakan dalam pemodelan MOS adalah Principal Component Analysis (PCA). Saat ini, terdapat suatu metode reduksi dimensi yang tengah dikembangkan, yaitu Independent Component Analysis (ICA). Oleh karena itu, penelitian ini bertujuan untuk membandingkan kinerja reduksi dimensi ICA dan PCA dalam penyusunan MOS dengan stepwise regression. II. TINJAUAN PUSTAKA A. Distribusi Normal Multivariat Sebelum menentukan analisis yang dianggap tepat, peneliti sebaiknya mengetahui asumsi-asumsi yang harus terpenuhi. Dari semua asumsi terpenuhi, salah satu asumsi yang sering ditemui adalah distribusi normal (gaussianity). Tidak dapat dipungkiri bahwa terdapat banyak keadaan yang menunjukkan non-gaussianity [4].
2 Distribusi normal multivariat adalah suatu perluasan dari distribusi normal univariat sebagai aplikasi pada variabel-variabel yang mempunyai hubungan. Dalam analisis multivariat, asumsi normal multivariat diperlukan karena untuk memastikan data pengamatannya mengikuti distribusi normal agar statistik inferensia dapat digunakan dalam menganalisis data tersebut. Misalkan X T ( X 1 , X 2 ,..., X m ) adalah vektor yang mengikuti distribusi normal multivariat dari pengamatan terhadap p variabel maka didapat fungsi padatan peluang untuk vektor X T dengan bentuk : f x ( X ) ( 2 )
1 p 2
| V0 |
1 2
(1)
1 exp ( X X )'V 1 ( X X ) 0 2
dimana X EX i , untuk i = 1, 2, …, m dan V0 adalah matrik varians kovarians dari X 1 , X 2 ,...,X m dengan
ii
adalah 11 , 22 ,..., mm yang merupakan varians dari X 1 , X 2 ,...,X m dan elemen-elemen elemen-elemen diagonal
ij
nondiagonal
yang
merupakan
kovarians
dari
X 1 , X 2 ,...,X m dan mengikuti persamaan sebagai berikut:
ij ij ( ii jj )1 2
(2)
Untuk mengetahui kenormalan data, maka dilakukan pengujian, salah satunya dengan uji Shapiro-Wilk untuk normal multivariat. Prosedur pengujiannya adalah sebagai berikut. Hipotesis H0 : Data berdistribusi normal multivariat H1 : Data tidak berdistribusi normal multivariat Statistik Uji Misal cT = (c1, c2, …, cm) adalah vektor dari nilai ekspektasi normal standar dan V = (vij) adalah matriks kovarians berukuran m x m. E (xi) = ci dengan i = 1, 2, …, m ; cov (xi, xj) = vij (i, j = 1, …, m) dimana x1 < x2 < … < xm adalah sampel random dari distribusi normal standar N (0,1). Misal y’ = (y1, …, ym) adalah sampel random dimana kenormalan dengan uji MVW menggunakan order y(1) < y(2) < … < y(m). Nilai MW diperoleh sebagai berikut.
2 n bi y( i ) MVW i 1 n 2 ( yi y ) i 1
(3) 1
1
1
1 2
dengan b (b1 ,...,bn ) c V [(c' V )(V c)] Kriteria penolakan H0 adalah apabila nilai signifikansi lebih besar dari taraf signifikansi α [5]. B. Independent Component Analysis Pada beberapa disiplin ilmu, permasalahan utama adalah menemukan representasi yang tepat dari data multivariat. Untuk beberapa alasan komputasi dan kesederhanaan konsep, seringkali representasi diperoleh dari transformasi linear menggunakan data asli. Dengan kata lain, setiap komponen dari representasi adalah sebuah kombinasi linier dari variabel aslinya. Terdapat beberapa metode transformasi linier yang telah diketahui meliputi T
T
principal component analysis (PCA), analisis faktor dan projection pursuit [6]. Jika asumsi normal multivariat terpenuhi, maka PCA atau analisis faktor merupakan solusi yang tepat. Namun jika data tidak memenuhi asumsi normal multivariat, ICA sebagai solusi yang lebih tepat. Menurut Jutten dan Herault (1991); Comon (1994) dalam [6], untuk menetapkan ICA dengan teliti dapat menggunakan model statistika “variabel laten”. Misal sebanyak m dimensi x1, x2, …, xm dari m komponen independen, maka persamaan umumnya sebagai berikut. x j a j1s1 a j 2 s2 ... a jmsm , semua j (4) Dalam notasi matriks, vektor random pengamatan X = [ X1, X2,…, Xm ]T, yang m elemen-elemennya merupakan gabungan dari elemen independen m dari vektor random S = [ S1, S2, …, Sm ]T. Maka diberikan notasi matriks berikut. (5) X = AS dimana vektor X adalah kombinasi linier dari komponen independen non-Gaussian, vektor S mengandung komponen independen dan A mewakili matriks linier gabungan (mixing matrix) m x m. Menurut [7], model ICA adalah model generatif yang menggambarkan bagaimana data pengamatan dihasilkan dengan proses penggabungan (mixing) komponen si. Komponen-komponen independen adalah variabel laten, (2.1) (2.2) artinya komponen tersebut tidak dapat diamati secara langsung. Matriks A diasumsikan tidak diketahui. Semua yang diamati adalah vektor random X, dan peneliti harus mengestimasi A dan S. Penggunaan ICA membutuhkan asumsi yang sangat sederhana, yaitu komponen S adalah independen secara statistik. Komponen independen memiliki asumsi berdistribusi nongaussian. Tujuan ICA adalah menemukan matriks unmixing W (invers dari A) yang akan diberikan oleh Y dengan pendekatan terbaik S sebagai berikut. (6) Y = WX ≈ S C. Principal Component Analysis PCA digunakan untuk mereduksi dimensi data dengan cara mentransformasi variabel-variabel asli yang berkorelasi menjadi satu set variabel baru yang tidak berkorelasi, dengan tetap mempertahankan sebanyak mungkin keragaman yang dapat dijelaskan [8]. Selanjutnya variabel baru ini dinamakan principal component (PC). PC dapat dibentuk dari matriks kovarians maupun matriks korelasi. PC yang dibentuk dari matrik korelasi dilakukan jika variabel-variabel yang diamati tidak mempunyai satuan pengukuran yang sama, maka variabel tersebut perlu distandarisasikan terlebih dahulu. Vektor random x = [x1, x2,…,xp]T mempunyai matriks varians - kovarians dengan akar ciri (eigenvalue) berturutturut yaitu 1 2 … p 0, maka kombinasi linier utama seperti pada persamaan (8). Z1 = e1Tx = e11x1 + e21x2 + . . . + ep1xp Z2 = e2Tx = e12x1 + e22x2 + . . . + ep2xp . . .
Zp = epTx = e1px1 + e2px2 + . . . + eppxp dengan:
(8)
3 Z1 = PC pertama, yang mempunyai varians terbesar Z2 = PC kedua, yang mempunyai varians terbesar kedua Zp = PC ke-p, yang mempunyai varians terbesar ke-p x1 = variabel asal pertama xp = variabel asal ke-p ep = vektor karakteristik (eigenvector) data ke-p Model PC ke-i secara umum dapat ditulis dengan : Zi = eiTx, dimana : i = 1, 2, ..., p Sehingga, Var( Zi ) = eiTei = λi, dimana i 1, 2, ..., p (9) Cov(Zi ,Zk ) = eiTei = 0 i k (10) Jika PCA linier menggunakan matrik korelasi dalam pembentukan PC, maka : Proporsi variansi ke-i = i p
(11)
D. Stepwise Regression Stepwise Regression merupakan gabungan prosedur backward dan forward. Berikut ini adalah langkah-langkah dalam penyusunan model Regresi Stepwise: [9] 1. Meregresikan variabel respon, Y, dengan setiap variabel prediktor, misal X1, X2, ... , Xk. Kemudian dipilih model yang mempunyai nilai R2 tertinggi. Misal model tersebut
2.
3. 4.
5.
ˆ b 0 + b aX a. adalah yang memuat prediktor Xa, yaitu Y Bila pengaruh Xa bermakna, maka Xa dipertahankan. Pemilihan juga dapat dilakukan melalui korelasi antara respon dengan setiap prediktor. Prediktor yang korelasinya tertinggi dimasukkan ke dalam model. Apabila terdapat dua prediktor bernilai korelasi sama, dipilih yang memiliki R2 tertinggi. Menghitung korelasi parsial antara setiap prediktor (kecuali Xa ) dengan respon, didapatkan : r1y.a , r2y.a , ... , rky.a . Prediktor yang korelasi parsial tertinggi dimasukkan kedalam model. Misal yang korelasinya tertinggi adalah rby.a , maka prediktor yang dipilih ialah Xb . Meregresikan Y terhadap Xa dan Xb. Bila kedua prediktor bermakna, keduanya dipertahankan. Menghitung korelasi parsial antara setiap prediktor (kecuali Xa dan Xb) dengan respon (Xa dan Xb sebagai pengoreksi), didapatkan : r1y.ab , r2y.ab , dst. Kemudian dipilih prediktor dengan korelasi parsial tertinggi, misal Xc . Langkah dilanjutkan sampai tidak terdapat prediktor yang bermakna.
E. Numerical Weather Prediction (NWP) NWP adalah sekumpulan kode komputer yang mempresentasikan secara numerik persamaan-persamaan atmosfer berdasarkan sifat-sifat fisika dinamis, digunakan untuk memprediksi kondisi atau status atmosfer yang akan datang dengan menggunakan kemampuan komputer yang tinggi [10]. Model ini dirancang untuk memprediksi perkiraan cuaca secara lebih detail dengan cara membagi wilayah-wilayah dari belahan dunia yang biasa dilakukan oleh lembaga perkiraan cuaca, militer, dan beberapa
perusahaan. Pendekatan ini diharapkan lebih akurat dibandingkan pendekatan subjektif agar masyarakat memperoleh informasi keadaan cuaca dengan akurasi yang optimal. Peramalan NWP bersifat deterministik dan tidak memperhitungkan ketidakpastian yang terbentuk dari inisial prakiraan unsur cuaca yang tidak sempurna [11]. Selain itu hasil peramalan model NWP yang bias juga dikarenakan keadaan atmosfer yang tidak pasti dan terbatasnya penghitungan matematik untuk memodelkan keadaan fisik dan dinamik atmosfer. NWP diukur dalam domain lokasi atau grid yang tinggi, yaitu antara 7 – 60 km, dengan skala sebesar itu, NWP akan memberikan informasi cuaca yang homogen pada daerah grid tersebut. Kondisi cuaca skala kecil atau skala lokal kurang tereprentasikan dengan baik. Pada beberapa lokasi tertentu, khususnya lokasi dengan topografi dan vegetasi yang kompleks, hasil ramalan NWP seringkali bias. F. Model Output Statistics (MOS) MOS merupakan pemodelan hubungan antara hasil observasi cuaca dengan luaran Numerical Weather Prediction (NWP), dengan model berbasis regresi [12]. Menurut [13], secara umum persamaan matematis MOS adalah sebagai berikut : (12) Yˆt f MOS ( xt ) Keterangan : = ramalan cuaca saat t Yˆt = variabel-variabel parameter NWP pada waktu t MOS menggunakan persamaan di atas dalam pengembangan dan implementasi. Dalam proses pengembangan, model MOS didapatkan dari hubungan regresi observasi cuaca dan luaran NWP dengan t yang sama. Sedangkan dalam proses implementasi, ramalan cuaca saat t+1 didapat berdasarkan ramalan NWP saat t+1 (yang diketahui saat t).
xt
G. Validasi Model Validasi model adalah proses untuk mengetahui apakah model menghasilkan nilai prediksi yang akurat. Data dibagi menjadi out-sample dan in-sample. Data in-sample digunakan untuk mendapatkan model, sedangkan data outsample digunakan untuk validasi model. Ukuran kebaikan model dapat menggunakan RMSE (Root Mean Square Error) dan RMSEP (Root Mean Square Error Prediction).
RMSE MSE
RMSEP
n2
i 1
n1
i 1
(Yi Yˆi ) 2 n1
(Yi Yˆi ) 2 n2
RMSE merupakan akar kuadrat dari jumlahan selisih data in-sample dengan taksiran data hasil pemodelan sejumlah sama dengan data in-sample. RMSEP adalah adalah akar kuadrat dari jumlahan selisih data out-sample dengan hasil peramalan sejumlah sama dengan data outsample.
4 H. Ukuran Pengkoreksi Bias Hasil ramalan model MOS memiliki RMSEP yang lebih kecil daripada hasil ramalan NWP. Persentase perbaikan model MOS terhadap NWP ditunjukkan oleh ukuran Percentage Improval atau yang disingkat %IM sebagai berikut [14]. RMSEPNWP RMSEPMOS % IM 100% RMSEPNWP Nilai %IM berkisar antara 0% sampai 100%. Semakin besar %IM maka semakin baik model MOS mengkoreksi bias dari hasil ramalan NWP. III. METODOLOGI A. Data Penelitian Data yang digunakan dalam penelitian ini berupa data sekunder yang diperoleh dari Badan Meteorologi Klimatologi, dan Geofisika (BMKG). Data yang digunakan adalah data unsur cuaca dari output NWP (Numerical Weather Prediction) model CCAM harian periode 1 Januari 2009 sampai 31 Desember 2010 pada stasiun pengamatan Tanjung Priok, Cengkareng, Curug dan Darmaga. No 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
Tabel 1. Output NWP Sebagai Variabel Prediktor Nama Variabel Level Surface Pressure Tendency (dpsdt) Permukaan Water Mixing Ratio (mixr) 1, 2, dan 4 Vertical Velocity (omega) 1, 2, dan 4 PBL depth (pblh) Permukaan Surface Pressure (ps) Permukaan Mean Sea Level Pressure (psl) Permukaan Screen Mixing Ratio (qgscrn) Permukaan Relative Humidity (rh) 1, 2, dan 4 Precipitation (rnd) Permukaan Temperature 1, 2, dan 4 Maximum Screen Temperature (tmaxcr) Permukaan Minimum Screen Temperature (tmincr) Permukaan Pan Temperature (tpan) Permukaan Screen Temperature (tscrn) Permukaan Zonal Wind (u) 1, 2, dan 4 Friction Velocity (ustar) Permukaan Meridional Wind (v) 1, 2, dan 4 Geopotential Height (zg) 1, 2, dan 4
Variabel dependen merupakan unsur cuaca yang terdiri dari suhu maksimum, suhu minimum dan kelembapan. Sedangkan variabel berupa variabel NWP, secara lengkap disajikan pada Tabel 1. B. Langkah Analisis Tahapan Langkah-langkah pengolahan data dan analisis data yang dilakukan dalam penelitian ini adalah sebagai berikut : 1. Proses penyiapan data Melakukan konversi format data NWP (format grid) ke dalam format text. 2. Mengetahui normalitas multivariat data. Pengujian normalitas yang digunakan adalah Shapiro-Wilk untuk normal multivariat. 3. Pre-processing secara statistik. a. Reduksi dimensi variabel independen (grid) dengan menggunakan Independent Component Analysis (ICA) dan Principal Component Analysis (PCA). Algoritma ICA sebagai berikut.
i.
Memilih sebuah inisial vektor w.
ii. Membentuk w+ = E{xg(wTx)} – E{g’(wTx)} w iii. Membentuk w = w+/||w+|| iv. Jika tidak konvergen, kembali ke langkah 2. (2.39) sedangkan langkah PCA adalah : i. Misalkan sekumpulan observasi xj, dimana j = 1, 2, ..., m. ii. Membentuk matriks variansi - kovariansi Σ iii. Menentukan nilai akar karakteristik (eigenvalue) dengan menghitung dengan persamaan
Σ λΙ 0 dan eigenvector
ΣΧ λi Χ
iv. Menentukan jumlah komponen utama yang dibangkitkan. Keragaman yang lebih dari 85% menunjukkan banyaknya komponen utama yang terbentuk. v. Menghitung nilai komponen utama dari model komponen utama Zi = eiTx, dimana ei adalah eigenvector. b. Membagi data menjadi data in-sample dan outsample. Data in-sample adalah data mulai 1 Januari 2009 hingga 31 Oktober 2010, sedangkan data out-sample untuk validasi menggunakan data periode 1 November 2010 sampai dengan 31 Desember 2010 4. Post-processing secara statistik a. Melakukan pemodelan MOS menggunakan Regresi Stepwise dengan data in-sample. b. Validasi model NWP dengan data out-sample menggunakan nilai RMSEP. c. Membandingkan keakuratan model MOS dengan model NWP dengan kriteria RMSEP. d. Mengukur pengkoreksian bias model MOS terhadap model NWP dengan ukuran %IM. IV. ANALISIS DAN PEMBAHASAN A. Pengujian Normal Multivariat Sebelum menentukan analisis yang dianggap tepat, perlu diketahui asumsi-asumsi yang harus dipenuhi terlebih dahulu seperti asumsi tentang kenormalan data. Uji normal multivariat untuk variabel maximum screen temperature (tmaxcr) di stasiun pengamatan Darmaga dilakukan dengan hipotesa sebagai berikut. H0 : Data variabel tmaxcr dengan 9 grid di stamet Darmaga berdistribusi normal multivariat H1 : Data variabel tmaxcr dengan 9 grid di stamet Darmaga tidak berdistribusi normal multivariat Hasil pengujian ditampilkan dalam tabel 2 berikut: Dengan taraf signifikansi 5%, maka tolak H0 karena Pvalue <2,2 x 10-16. Artinya, data variabel maximum screen temperature (tmaxcr) dengan 9 grid di stasiun pengamatan Darmaga tidak berdistribusi normal multivariat. Setelah melakukan pengujian yang sama untuk semua variabel di empat stasiun pengamatan diperoleh bahwa tiap variabel tersebut tidak berdistribusi normal multivariat.
5 B. Reduksi Dimensi PCA Penentuan banyaknya komponen utama (PC) diperoleh melalui nilai eigen dan prosentase varians kumulatif. Sebagai contoh, variabel (tmaxcr) dan (temp_2) dan di stasiun pengamatan Darmaga diperoleh hasil sebagai berikut. Pada Tabel 2 diketahui bahwa dengan satu komponen diperoleh varians kumulatif untuk variabel tmaxcr dan temp_2 masing-masing sebesar 96.059 % dan 92.902 %. Prosentase tersebut telah memenuhi syarat untuk menentukan jumlah komponen yang akan digunakan sebanyak 1 Tabel 2. Nilai Eigen dan Varians Kumulatif tmaxcr dan temp_2 di Stamet Darmaga Menggunakan PCA Nilai Eigen Var. Kum (%) Jml Komponen tmaxcr temp_2 Tmaxcr temp_2 1 8,645 8,361 96,059 92,902 2 0,182 0,343 98,079 96,718 3 0,100 0,134 99,186 98,212 4 0,036 0,070 99,583 98.986 5 0,025 0,052 99,859 99.558 6 0,008 0,023 99,944 99.816 7 0,003 0,008 99,972 99.901 8 0,002 0,007 99,991 99.974 9 0,001 0,002 100,000 100.000
C. Reduksi Dimensi ICA Penentuan banyaknya komponen independen (IC) pada ICA juga melalui nilai eigen dan prosentase varians kumulatif. Nilai eigen dan prosentase varians kumulatif dari variabel maximum screen temperature (tmaxcr) dan temperatur level 2 (temp_2) di staklim Darmaga. Tabel 3. Nilai Eigen dan Varians Kumulatif Variabel tmaxcr dan temp_2 di Stamet Darmaga Menggunakan ICA Nilai Eigen Var. Kum (%) Jml Komponen tmaxcr temp_2 Tmaxcr temp_2 1 8.624 8.425 95.821 93.616 2 0.200 0.331 98.040 97.294 3 0.099 0.096 99.139 98.366 4 0.038 0.064 99.563 99.081 5 0.027 0.051 99.863 99.643 6 0.008 0.021 99.963 99.881 7 0.002 0.008 99.990 99.967 8 0.001 0.003 100.000 100.000 9 0.000 0.000 100.000 100.000
Berdasarkan Tabel 3, nilai eigen yang terbentuk dengan 1 komponen (IC) telah lebih dari 1,000. Kemudian, varians kumulatif dari tmaxcr dan temp_2 yang dijelaskan oleh 1 IC berturut-turut sebesar 95,821 % dan 93.616 %. D. Pemodelan MOS Pada model regresi untuk variabel suhu maksimum (Tmax) di stasiun pengamatan Darmaga dengan variabel independen yang terbentuk dari reduksi dimensi data NWP dengan ICA, diperoleh variabel terpilih di tahap 7 seperti pada Tabel 4. Tabel 4. Variabel Terpilih Prosedur Stepwise dalam Penyusunan Model untuk Tmax Darmaga Variabel Koefisien SE Koefisien P-value Konstanta 12,3653 0,9809 0,000 tmaxcr -0,2208 0,0111 0,000 u_lvl4 0,0199 0,0059 0,001 IC1 rnd 0,0078 0,0021 0,000 v_lvl4 -0,0324 0,0073 0,000 u_lvl1 0,1375 0,0372 0,000 IC2 qgscrn 115,8600 35,8200 0,001 u_lvl2 -0,0673 0,0283 0,018
Langkah ini berulang untuk mendapatkan MOS untuk variabel dependen Tmin dan RH. selanjutnya juga pada penyusunan MOS-PCA. MOS Stepwise ICA dan PCA di stasiun pengamatan Darmaga disajikan pada Tabel 5. Tabel 5. MOS Stepwise (a) ICA dan (b) PCA di Stamet Darmaga (a) MOS Stepwise ICA 12,4 - 0,221 tmaxcr + 0,0200 u_lvl4 + 0,00779 IC1 rnd Tmax = - 0,0324 v_lvl4 + 0,138 u_lvl1 + 116 IC2 qgscrn 0,0673 u_lvl2 10,3 - 0,0992 t_lvl4 - 0,0667 tmincr + 0,0296 tmaxcr Tmin = 102 mixr_lvl2 - 0,0157 IC2 rh_lvl1 - 0,957 IC2 ustar 47,9 + 0,825 tmaxcr + 0,0640 IC2 zg_lvl4 - 340 IC2 RH = qgscrn - 0,318 tpan + 0,00212 pblh - 363 mixr_lvl2 (b) MOS Stepwise PCA 12,5 - 0,221 tmaxcr + 0,0195 u_lvl4 + 0,00793 rnd Tmax = 0,0317 v_lvl4 + 0,140 u_lvl1 - 89,0 IC2 qgscrn - 0,0686 u_lvl2 9,91 - 0,124 t_lvl4 - 0,0694 tmincr + 0,0323 tmaxcr Tmin = 79,5 mixr_lvl2 4,7 + 0,831 tmaxcr + 0,0651 IC2 zg_lvl4 - 0,281 tpan + RH = 0,00144 pblh - 0,0247 rnd - 318 mixr_lvl2 - 0,210 t_lvl4
Penyusunan MOS Stepwise untuk stasiun pengamatan Tanjung Priok, Cengkareng dan Curug mempunyai langkah-langkah yang sama seperti pada penyusunan MOS Stepwise pada stasiun iklim Darmaga. Tabel 6 menyajikan hasil penyusunan MOS Stepwise ICA dan PCA di tiga stasiun pengamatan tersebut. Tabel 6. MOS Stepwise ICA dan PCA di Stamet (a) Tanjung Priok, (b) Cengkareng dan (c) Curug a) MOS Stepwise ICA 15,8 - 0,182 tmaxcr - 0,0183 u_lvl4 - 0,0333 v_lvl4 Tmax = - 42,0 - 0,0661 tmaxcr - 0,0215 zg_lvl4 - 0,0176 u_lvl4 - 46,2 mixr_lvl2 + 0,593 ustar - 0,0315 v_lvl1 0,0161 u_lvl2 106 + 0,674 tmaxcr - 394 mixr_lvl2 + 0,160 u_lvl4 RH = 0,571 t_lvl4 + 0,135 u_lvl2 + 0,296 tscrn MOS Stepwise PCA - 6,17 - 0,173 tmaxcr + 0,0292 u_lvl4 - 0,0420 v_lvl4 Tmax = 0,236 IC1 zg_lvl1 - 0,0152 u_lvl2 - 26,1 mixr_lvl4 0,411 IC3 zg_lvl1 + 0,00977 IC2 rh_lvl1 + 0,111 omega_lvl4 - 50,4 - 0,0729 tmaxcr - 0,0244 zg_lvl4 + 0,0138 IC2 Tmin = rh_lvl1 + 0,0158 u_lvl4 - 44,1 mixr_lvl2 - 0,0346 v_lvl1 + 0,585 ustar - 0,0146 u_lvl2 660 + 0,679 tmaxcr - 204 mixr_lvl2 - 0,133 u_lvl4 + RH = 1,31 t_lvl4 + 0,101 u_lvl2 - 0,0458 rh_lvl4 - 0,130 IC2 rh_lvl1 - 0,00438 IC2 pblh + 0,225 zg_lvl4 b) MOS Stepwise ICA 6,49 - 0,198 tmaxcr + 0,0155 u_lvl4 - 0,104 t_lvl2 Tmax = 0,0246 v_lvl4 - 1,8 - 39,8 mixr_lvl1 + 0,180 IC1 zg_lvl1 - 0,349 Tmin = t_lvl4 - 0,00749 rh_lvl2 - 0,0131 v_lvl4 - 0,0538 rh_lvl4 + 0,141 IC2 zg_lvl1 - 268 mixr_lvl4 122 + 0,586 tmaxcr - 264 mixr_lvl2 - 0,0993 u_lvl4 + RH = 0,00239 IC1 pblh + 0,0906 v_lvl4 - 0,706 omega_lvl4 + 0,0838 u_lvl2 MOS Stepwise PCA 21,2 - 0,184 tmaxcr + 0,0306 u_lvl4 - 0,106 t_lvl2 Tmax = 0,0164 v_lvl4 - 0,312 IC1 zg_lvl1 - 0,000257 dpsdt 0,0258 u_lvl2 + 0,0129 ps - 0,0238 v_lvl2 - 23,0 + 36,1 mixr_lvl1 - 216 mixr_lvl4 - 0,287 t_lvl4 Tmin = - 0,00656 rh_lvl2 + 0,190 IC2 zg_lvl1 - 0,0156 v_lvl4 - 0,0445 rh_lvl4 - 0,00396 u_lvl4 - 0,0665 IC1 zg_lvl2 + 0,120 IC2 zg_lvl2 59,4 + 0,582 tmaxcr - 392 mixr_lvl2 - 0,111 u_lvl4 + RH = 0,00303 pblh + 0,0824 v_lvl4 - 0,750 omega_lvl4 + 0,0886 u_lvl2 + 255 qgscrn - 0,860 IC2 zg_lvl1 Tmin
=
6 Lanjutan Tabel 6 c) MOS Stepwise ICA 9,73 - 0,212 tmaxcr + 0,0353 u_lvl4 - 0,0355 v_lvl4 + Tmax = 0,271 omega_lvl2 + 0,0374 u_lvl2 - 0,0477 t_lvl1 - 26,8 - 102 mixr_lvl1 - 0,0648 IC2 zg_lvl2 - 0,0117 Tmin = u_lvl4 - 62,4 mixr_lvl4 - 0,0765 t_lvl4 103 + 0,837 tmaxcr - 231 mixr_lvl1 - 393 mixr_lvl4 RH = 0,434 t_lvl4 MOS Stepwise PCA 9,74 – 0,212 tmaxcr + 0,0353 u_lvl4 + 0,0355 v_lvl4 Tmax = + 0,271 omega_lvl2 – 0,0374 u_lvl2 – 0,0476 t_lvl1 - 50,3 – 96,9 mixr_lvl1 – 0,104 IC2 zg_lvl2 – 0,0108 Tmin = u_lvl4 – 66,7 mixr_lvl4 – 0,128 t_lvl4 + 0,0727 t_lvl2 + 0,137 omega_lvl1 1303 + 0.724 tmaxcr - 343 mixr_lvl4 - 1.16 t_lvl4 + RH = 0.448 IC1 zg_lvl4 - 0.0723 v_lvl4 + 0.00182 pblh 406 mixr_lvl2 - 0.608 t_lvl2
E. Validasi Model Validasi model terdiri dari kriteria kebaikan untuk data training dan data testing karena data pada penelitian ini dibagi menjadi data in-sample dan out-sample. Validasi model untuk data out-sample menggunakan RMSEP. Tabel 7. RMSEP MOS ICA dan PCA, RMSEP NWP dan %IM %IM Unsur RMSEP MOS RMSEP Stamet Cuaca NWP ICA PCA ICA PCA Tmax 2.600 66.192 63.346 0.879 0.953 Tanjung Tmin 0.904 0.805 1.775 49.070 54.648 Priok RH 6.174 22.109 8.325 4.809 5.660 Tmax 2.459 57.747 57.950 1.039 1.034 Cengkareng Tmin 2.589 0.705 1.278 44.836 102.582 RH 6.882 -1.700 -4.170 6.999 7.169 Tmax 1.249 1.097 2.688 53.534 59.189 Curug Tmin 3.049 0.626 0.857 26.954 255.776 RH 6.092 5.962 6.515 6.493 8.488 Tmax 2.070 55.362 55.266 0.924 0.926 Darmaga Tmin 1.260 90.159 47.381 0.124 0.663 RH 11.515 55.997 54.850 5.067 5.199
Hal ini membuktikan bahwa MOS berhasil mengurangi bias yang dihasilkan data NWP. Dari total model unsur cuaca sebanyak 12 model, 8 diantaranya menunjukkan RMSEP dari ICA lebih kecil dibandingkan PCA. Hasil ini menunjukkan bahwa metode ICA lebih baik dalam mengurangi bias dari data NWP dalam penyusunan MOS. Selain itu, model MOS ICA mampu mengkoreksi bias hingga 90.159% (RH staklim Darmaga) yang ditandai dengan %IM (pengkoreksi bias). Sedangkan kemampuan MOS PCA mengkoreksi bias adalah 63.346% (Tmax Tanjung Priok). V. KESIMPULAN Hasil reduksi dimensi menggunakan metode PCA, menghasilkan total komponen utama yang digunakan sebagai variabel prediktor pada pemodelan MOS di stasiun Tanjung Priok sebanyak 38 variabel, Cengkareng sebayak 37 variabel, Curug sebanyak 34 variabel, dan Darmaga sebanyak 36 variabel. Sedangkan hasil reduksi dimensi ICA menghasilkan total komponen utama yang digunakan dalam penyusunan MOS berturut-turut 36, 38, 34 dan 43 variabel.
Sebagian besar RMSE MOS dengan reduksi ICA maupun PCA lebih kecil dibandingkan RMSE NWP. Sehingga MOS terbukti mampu mengurangi bias yang dihasilkan data NWP. Perbandingan kinerja reduksi dimensi PCA lebih baik dibanding PCA jika dilihat dari nilai RMSE tiap variabel dependen (suhu maksimum, suhu minimum dan kelembapan). Kemampuan MOS ICA dan PCA dalam mengoreksi bias NWP berturut-turut sebesar 90,159% (Suhu Minimum Darmaga) dan 63,346% (Suhu Minimum Tanjung Priok). Secara keseluruhan, MOS ICA menghasilkan presisi rendah dan akurasi tinggi, sedangkan MOS PCA memiliki presisi tinggi dan akurasi rendah. VI. UCAPAN TERIMA KASIH Penulis A.A. mengucapkan terimakasih kepada BMKG yang telah memberikan dukungan perihal penyediaan data dan PT. Angkasa Pura II, sebagai pemberi dana penelitian. DAFTAR PUSTAKA Aldrian, E. (2008). Dominant Factors of Jakarta’s Three Largest Floods. J. Hidrosfir Indonesia 3: 105-112. [2] Badan Meteorologi Klimatologi dan Geofisika. (2005). Laporan Kegiatan Pengembangan Model Output Statistik (MOS) untuk Pemodelan Prakiraan Cuaca Jangka Pendek. BMKG-Jakarta. [3] Ariyat, A. (2008). Perbandingan Metode Regresi Unsur Utama, Regresi Kuadrat Terkecil Parsial, dan regresi Bertatar dalam Pendugaan Suhu dan Kelembapan. Skripsi. Bogor: Institut Pertanian Bogor. [4] Langlois, D et al. (2010). An Introduction to Independent Component Analysis: InfoMax and FastICA algorithms. Tutorials in Quantitative Methods for Psychology 6: 31-38. [5] Royston, J. P. (1981). An Extension of Shapiro and Wilk’s W Test for Normality to Normality to Large Samples. Jurnal Appl. Statist. 2: 115-124 [6] Hyvärinen, A & Oja, E. (2000). Independent Component Analysis: Algorithm and Applications. Neural Networks 13: 411-430. [7] Hyvärinen et al. (2001). Independent Component Analysis. New York: John Wiley and Sons, Inc. [8] Johnson, R.A & Wichern, D.W. (2002). Applied Multivariate Statistical Analysis. 5th Ed. New Jersey: Prentice Hall. [9] Draper, N & Smith, H. (1998). Analisis Regresi Terapan. Jakarta: PT Gramedia Pustaka Utama. [10] Korea Meteorological Administration (KMA). (2002). Training Course on Weather Forecasting for Operational Meteorologists. Korea Meteorological Administratio. [11] Thorarinsdottir, T.L. & Gneiting, L. (2008). Probabilistic Forecasts of Wind Speed: Ensemble Model Output Statistics using Heteroskedastic Censored Regression. Technical Report 546, Department of Statistics, University of Washington. [12] Nichols, M. (2008). Model Output Statistics. Independent Research Program. 2008-2009. [13] Wilks, D. S. (2006). Statistical Methods in the Atmospheric Sciences (2nd). Boston: Elvesier. [1]