PEMODELAN STATISTICAL DOWNSCALING LUARAN GCM DENGAN METODE PRINCIPAL COMPONENT REGRESSION (PCR) DAN PROJECTION PURSUIT REGRESSION (PPR) 1
Meika Anitawati, 2 Sutikno
1
2
Mahasiswa Jurusan Statistika FMIPA-ITS Dosen Pembimbing, Staff Pengajar Jurusan Statistika FMIPA-ITS 1 mei_k@ statistika.its.ac.id,
[email protected] Abstrak
Pemodelan Statistical Downscaling (SD) disusun berdasarkan adanya hubungan fungsional antara skala lokal (respon) dengan skala global GCM (General Circulation Model) sebagai variabel prediktor seperti pada model regresi. Namun, terdapat beberapa permasalahan dalam pemodelan SD, salah satu diantaranya adalah reduksi dimensi. Pada penelitian ini, metode reduksi dimensi yang digunakan adalah Principal Component Analysis (PCA). Kemudian hasil reduksi dimensi PCA yang disebut dengan komponen-komponen utama akan digunakan dalam pemodelan SD menggunakan metode Principal Component Regression (PCR) dan Projection Pursuit Regression (PPR). Kedua metode tersebut kemudian dibandingkan dengan kriteria RMSEP dan R2prediction untuk mendapatkan model terbaik. Hasil penelitian menunjukkan bahwa validasi pemodelan SD dengan metode PPR memberikan hasil dugaan yang lebih baik dibandingkan metode PCR terutama untuk domain 3x3 dan 8x8 dengan nilai rata-rata RMSEP = 82,1 dan R2prediction =68,3% untuk domain 3x3 dan rata-rata RMSEP = 81,5 dan R2prediction =68,5% untuk domain 8x8. Kata Kunci : GCM, Statistical Downscaling, PCA, PCR, dan PPR.
1. Pendahuluan Proyeksi iklim menggunakan General Circulation Model (GCM) berguna untuk mengetahui dan memahami sistem iklim. GCM merupakan alat prediksi utama iklim dan cuaca secara numerik dan sebagai sumber informasi primer untuk menilai pengaruh perubahan iklim (Wigena, 2006). Kemampuan GCM adalah mensimulasikan iklim pada masa lampau, sekarang, dan memprediksi perubahan-perubahan iklim di masa mendatang. Namun informasi GCM masih berskala global dan beresolusi terlalu rendah untuk memprediksi iklim lokal, sehingga untuk memperoleh informasi skala lokal atau regional digunakan teknik statistical downscaling. Statistical downscaling (SD) adalah proses downscaling yang bersifat statik dimana data pada grid-grid berskala besar dalam periode dan jangka waktu tertentu digunakan sebagai dasar untuk menentukan data pada grid yang berskala kecil (Wigena, 2006). Teknik SD digunakan untuk pemanfaatan kajian iklim, salah satu kegunaannya yaitu untuk memprediksi curah hujan pada skala lokal berdasarkan data GCM berskala global. Salah satu keuntungan utama dari teknik ini adalah komputasinya lebih murah dan dapat dengan mudah diaplikasikan pada luaran berbagai simulasi dan eksperimen berbasis GCM (Sutikno, 2008). Terdapat beberapa permasalahan dalam pemodelan SD, salah satu diantaranya adalah reduksi dimensi. Pada penelitian ini, metode reduksi dimensi yang digunakan adalah Principal Component Analysis (PCA). Selanjutnya hasil reduksi dimensi PCA yang disebut dengan komponen-komponen utama digunakan dalam pemodelan SD menggunakan metode Principal Component Regression (PCR) dan Projection Pursuit Regression (PPR). Penggunaan metode PPR ini sesuai dengan pola data GCM dan curah hujan yang bersifat nonlinear, tidak berdistribusi normal, atau tidak mempunyai sebaran yang baku. Tujuan dari penelitian ini adalah menyusun model SD data curah hujan bulanan dengan data luaran GCM dengan metode PCR dan PPR, kemudian membandingkan hasil kinerja kedua metode tersebut dengan kriteria RMSEP dan R2prediction untuk mendapatkan model terbaik.
1
2. Tinjauan Pustaka Pada bagian ini akan dijelaskan tentang teori dan konsep yang digunakan dalam penelitian ini, antara lain Principal Component Analysis (PCA), Projection Pursuit Regression (PPR), dan Statistical Downscaling. Principal Component Analysis (PCA) Principal Component Analysis (PCA) adalah suatu prosedur untuk mereduksi dimensi data melalui transformasi variabel-variabel asal yang berkorelasi menjadi sekumpulan variabel baru yang tidak berkorelasi. Variabel-variabel baru itu disebut dengan komponen utama atau principal component (PC). Misalkan vektor random = [X1,X2,…, Xp] yang terdiri atas sejumlah observasi sebanyak p variabel, maka PC adalah kombinasi linear dari p variabel tersebut yang merupakan sistem koordinat baru yang didapat dari hasil rotasi sistem asal X1, X2, …, Xp sebagai sumbu koordinat. Sumbu baru (Z1, Z2, …, Zp) merupakan arah dengan variabilitas maksimum yang memberikan struktur kovariansi yang lebih sederhana dan Z1, Z2, …, Zp adalah PC yang tidak berkorelasi (Johnson dan Winchern, 2002). PC dapat diperoleh dari pasangan eigenvalue-eigenvektor matriks kovarian maupun matriks korelasi. Selanjutnya bila Σ adalah matriks varian-kovarian dari vektor random = [X1,X2,…, Xp], Σ didapatkan berdasarkan rumus, = ∑ − µ − µ (1) dengan µ = ∑
= observasi ke-i n = jumlah observasi dan Σ memiliki pasangan eigen value-eigen vektor , , … , dengan ≥ ≥ ⋯ ≥ ≥ 0. Maka model PC dapat ditulis sebagai berikut : = = + + ⋯ + = = + + ⋯ + . . . = = + + ⋯ + (2) dengan: Z1 = PC pertama, yang mempunyai varians terbesar Z2 = PC kedua, yang mempunyai varians terbesar kedua Zp = PC ke-p, yang mempunyai varians terbesar ke-p X1 = variabel asal pertama X2 = variabel asal kedua Xp = variabel asal ke-p dan diperoleh: !"# = ∑ $ = 1,2, … . ' (3) ()* , + = ∑ + $≠(4) PC tidak berkorelasi dan mempunyai varians yang sama dengan eigenvalue dari Σ , sehingga: . + . +⋯ + . = ∑ !"# = /# ∑ = + +⋯ + (5) Apabila total variansi populasi adalah . + . + ⋯ + . = + + ⋯ + , maka: Proporsi varian ke-i = 0
01
2 304 3⋯305
(6)
Apabila PC yang diambil sebanyak k dengan (k
Proporsi varian k PC = 023043⋯306 2
4
5
(7)
Apabila yang digunkan di awal adalah matriks kovariansi dari data yang distandarkan, karena diagonal utama matriks berisi nilai satu, maka total variansi populasi untuk variabel distandarkan adalah p, yang merupakan jumlah elemen diagonal matriks ρ . Sehingga:
2
Proporsi varian ke-i = λ i
(8)
p
Projection Pursuit Regression (PPR) Model Projection Pursuit Regression (PPR) termasuk kategori model berbasis regresi nonlinear, nonparametrik, berbasis proyeksi, dan tidak mempunyai bentuk model yang baku serta tidak memerlukan asumsi yang ketat seperti pada model regresi parametrik. Penggunaan model PPR dapat mengatasi masalah-masalah pada rataan lokal, fungsi polinomial, dan recursive partitioning, yaitu dengan cara menggunakan sejumlah fungsi pemulus dari hasil proyeksi atau reduksi dimensi (Friedman dan Stuetzle, 1989). Pemodelan PPR diawali dengan memaksimumkan indeks proyeksi, menentukan fungsi-fungsi variabel tunggal secara empirik berdasarkan proyeksi-proyeksi optimum, serta menjumlahkan fungsifungsi tersebut. Metode PPR dapat melakukan pendugaan dengan fungsi-fungsi ridge yang kontinu dan f dengan penjumlahan sebanyak M fungsi ridge, dengan M
4
∑?1@2:1 ;< 9•>1 ∑?1@2 :14
(9)
Kemudian, tentukan vektor koefisien αM+1 yang memaksimumkan I(α) atau αM+1 = argmaxα(I(α)) dan fungsi pemulusnya, Sα ( z ) . M +1
3. Akhir algoritma. Jika I(α) lebih kecil dari nilai threshold, maka stop; jika tidak, ubah nilai residual dan nilai M sebagai berikut, kemudian lanjutkan ke langkah 2. ri ← ri - Sα(Z), i=1,2, ... ,n M ← M+1. Hubungan antara variabel respon dan Z dengan fumgsi pemulus dapat ditulis dalam bentuk umum sebagai berikut: A = ;9 B + # (10) Nilai ;9 • ditentukan berdasrkan rataan lokal, yaitu: (11) C A = D!E+FGF3+ AG dengan bandwith (lebar jendela) k tertentu dan AVE merupakan median atau rata-rata. Pemilihan nilai k sangat menentukan keragaman penduga dan besarnya bias, nilai k yang terlalu besar akan memperbesar bias, sedangkan nilai k yang terlalu kecil akan memperbesar ragam penduga. Hall (1989) diacu dalam Wigena (2006) menguraikan model PPR secara matematik berdasarkan fungsi kernel (kernel-based PPR) dan sifat penduga PP. Berikut adalah pendugaan PP untuk mendapatkan proyeksi pertama Apabila S(•) merupakan fungsi pemetaan ℜp ℜ, f(•) adalah fungsi kepekatan dalam ℜp, dan X adalah variabel acak berdimensi p, maka untuk suatu skalar z adalah, C9 B = E{I
| 9 • K = B} (12) Proyeksi pertama terhadap f(x) adalah fungsi I x = CN z dengan meminimumkan L(α), yaitu P 9 = E[{I
− C9 B } ] (13) maka penduga α1 akan meminimumkan penduga L(α), yaitu: PS T = ∑UA+ − CVN T • W (14) sehingga penduga proyeksi pertamanya adalah : (15) IV
= CVN TX • K
3
[ \ juga konvergen terhadap α. Penduga S Z z konvergen terhadap SZ z dan konsisten, dengan 9 Bentuk model SD adalah: ]^ = IK^>_ + `^ (16) dengan t=1,2, ... ,n; g=1,2, ... ,p sedangkan untuk model PPR adalah: A^ = Aa + ∑e (17) c bc CNd Tc • K^>_ + `^ dengan: ;Nd Tc • K = suatu fungsi yang tidak diketahui; αm = (αm1, αm2, ... , αmp) = vektor satuan (arah projection pursuit); Xtg = (xt1, xt2, ... , xtp) = variabel prediktor; Aa = rata-rata variabel respon; yt = variabel respon; εt = faktor acak dengan E(εt) = 0 dan Var(εt) = σ2; Xtg dan εt bebas. Validasi Model Kriteria kebaikan model untuk validasi dapat menggunakan nilai Root Mean Square Error Prediction (RMSEP). RMSEP adalah nilai varians dari residual yang dapat menunjukkan keakuratan suatu model. RMSEP mempunyai nilai minimal 0, semakin kecil nilai RMSEP menunjukkan bahwa perbedaan antara nilai dugaan hasil pemodelan dengan data aktualnya semakin kecil pula. Sehingga model yang terbaik adalah model dengan nilai RMSEP terkecil. Nilai RMSEP diperoleh dengan menggunakan rumus: fgCEh = i
k
4 j j 4 ∑1@2 1 S 1
4
(18)
Selain itu, kriteria kebaikan model lainnya yang juga dapat digunakan adalah nilai R2prediction atau disebut dengan koefisien determinasi. Koefisien determinasi menunjukkan proporsi keragaman total nilai-nilai variabel respon yang dapat diterangkan oleh variabel prediktor dalam model yang digunakan. Nilai R2prediction berkisar antara 0 sampai 1, atau 0% sampai 100%. Semakin besar R2prediction, maka semakin baik model yang didapatkan. Nilai R2prediction diperoleh dengan menggunakan rumus: k ∑ 4 jS1 ja 4 j1 ja 4
f:lmn^o = ∑1@2 k4 1@2
dengan : p = nilai variabel respon pada data validasi ke- i pS = nilai dugaan pada data validasi ke- i pa = nilai rata-rata variabel respon n2 = banyaknya pengamatan out sample
(19)
Statistical Downscaling (SD) Statistical downscaling (SD) adalah proses downscaling yang bersifat statik dimana data pada grid-grid berskala besar dalam periode dan jangka waktu tertentu digunakan sebagai dasar untuk menentukan data pada grid yang berskala kecil (Wigena, 2006). Pendekatan SD disusun berdasarkan adanya hubungan fungsional antara skala lokal (respon) dengan skala global GCM (General Circulation Model) sebagai variabel prediktor seperti pada model regresi. Model SD merupakan suatu fungsi yang menggambarkan hubungan antara sirkulasi atmosfer global dengan unsur-unsur iklim lokal. Secara umum bentuk model matematisnya adalah sebagai berikut: q = r + ε (20) dengan: y: variabel respon (variabel-variabel regional dan lokal) X: variabel prediktor (variabel iklim skala-besar ) ε: sisaan
4
Pemilihan variabel prediktor pada data GCM sebaiknya berdasarkan adanya korelasi yang kuat antara variabel tersebut dengan curah hujan. Model SD akan memberikan hasil yang baik apabila ketiga syarat berikut terpenuhi, yaitu (Busuioc et al., 2001 dalam Wigena, 2006): 1. Hubungan erat antara respon dengan prediktor yang menjelaskan keragaman iklim lokal dengan baik. 2. Variabel prediktor disimulasikan dengan baik oleh GCM 3. Hubungan antara respon dengan prediktor tidak berubah dengan perubahan waktu dan tetap sama meskipun ada perubahan iklim. Selain hal tersebut di atas, model SD sangat kompleks. Kompleksitas model ini terjadi karena berbagai kemungkinan, yaitu banyaknya variabel X, adanya kasus multikolinearitas dan autokorelasi, serta adanya pola nonlinear. Semakin banyak variabel y, variabel x, dan lapisan atmosfer dalam model, maka semakin kompleks model. Permasalahan lain dalam pemodelan SD yaitu pemilihan domain GCM yang seharusnya berhubungan kuat dengan variabel responnya. Domain GCM merupakan daerah asal yang akan digunakan sebagai objek penelitian. Penetuan domain mencakup grid-grid dengan lokasi dan luasan tertentu yang akan digunakan sebagai variabel prediktor dalam pemodelan SD. Grid atau petak wilayah dengan resolusi rendah (2,5° atau ± 300km) yang merepresentasikan keadaan iklim global. Data GCM dalam bentuk grid-grid menujukkan bahwa GCM merupakan salah satu contoh bentuk data spasial, yaitu data yang berkaitan dengan keruangan. Pada umumnya penentuan domain ditetapkan dengan grid-grid persegi atau bujur sangkar dengan ukuran lebih dari satu grid dengan posisi ditengah-tengah lokasi variabel respon. Namun, penentuan domain masih bersifat subyektif meskipun berdasarkan nilai korelasi antara grid-grid dan lokasi pendugaan, sehingga diperlukan suatu metode penentuan domain yang lebih objektif. General Circulation Model (GCM) General Circulation Model (GCM) adalah suatu model berbasis komputer yang terdiri dari berbagai persamaan numerik dan deterministik yang terpadu dan mengikuti kaidah-kaidah fisika. GCM merupakan alat prediksi utama iklim dan cuaca secara numerik dan sebagai sumber informasi primer untuk menilai pengaruh perubahan iklim (Wigena, 2006). GCM dianggap sebagai model penting dalam upaya memahami iklim di masa lampau, sekarang, dan yang akan datang. Kemampuan GCM adalah mensimulasikan iklim pada masa lampau, sekarang, dan memprediksi perubahanperubahan iklim di masa mendatang. Berdasarkan Wigena (2006), model GCM yang ada antara lain GISS (Goddard Institute for Space Studies) dari NASA, GFDL (Geophysical Fluid Dynamic Laboratory) dari NOAA, UKMO (United Kingdom Meteorological Office), CSIRO (Commonwealth Scientific and Industrial Research Organization) dari Australia, dan NCEP (National Centers for Environmental Prediction). Perbedaan dalam setiap model GCM yaitu dalam bentuk resolusi spasial dan persamaan untuk membangkitkan parameter-parameter atmosfir. Di Indonesia GCM telah dikembangkan untuk simulasi, prediksi, dan pembuatan skenario iklim. GCM juga telah dimanfaatkan untuk mempelajari variabilitas iklim dan mengkaji dampak perubahan iklim. Penelitian Sebelumnya Beberapa penelitian pemodelan SD yang telah yang telah dikembangkan antara lain menggunakan regresi PC (PCR) dan regresi ROBPCA (Khotimah, 2009), regresi kontinum (Purnomoadi et.al., 2009), regresi Bayes PCA (Lembang et al., 2009), dan Hybrid Multivariate Adaptive Regression Splines dan Time Series (HTS-MARS) (Effendi, 2009). Penelitian pemodelan SD tersebut menggunakan data luaran GCM meliputi variabel precipitable water (prw), tekanan permukaan laut (slp), komponen angin meridional (va), komponen zonal (ua), ketinggian geopotensial (zg), dan kelembaban spesifik (hus). Penelitian Khotimah (2009) pada data curah hujan di Kabupaten Indramayu diperoleh kesimpulan bahwa tidak ada perbedaan yang signifikan antara hasil validasi model SD menggunakan metode regresi PCA dan regresi ROBPCA, namun secara umum metode regresi PCA cenderung menghasilkan dugaan yang lebih baik dibanding dengan regresi ROBPCA. Hasil penelitian Purnomoadi et al. (2009) diperoleh kesimpulan bahwa tidak ada kekonsistenan pada regresi kontinum, karena tidak ada perbedaan yang signifikan berdasarkan nilai RMSEP dan R2-nya diantara kedua stasiun yang diteliti yaitu stasiun hujan di Pontianak dan Ambon. Pemodelan SD
5
dengan metode regresi Bayes PCA pada data curah hujan di Stasiun Idramayu (Lembang et al., 2009) diperoleh kesimpulan bahwa pendekatan regresi Bayes PCA lebih baik dari pada metode PCR apabila dilihat dari nilai RMSEP, sedangkan untuk R2prediction kisarannya hampir sama. Penelitian Effendi (2009) dengan menggunakan metode Hybrid Multivariate Adaptive Regression Splines dan Time Series (HTS-MARS) pada data curah hujan di Stasiun Losarang diperoleh kesimpulan bahwa metode HTS-MARS mempunyai nilai R2 yang lebih besar daripada PCR. Hasil ini memberikan gambaran bahwa metode HTS MARS berpotensi meningkatkan akurasi ramalan dalam pemodelan SD. Wigena (2006) menggunakan metode PPR untuk peramalan curah hujan di Kabupaten Indramayu dengan satu variabel GCM yaitu presipitasi. Penelitian tersebut menyimpulkan bahwa pendugaan curah hujan bulanan dengan model PPR lebih akurat dan pola nilai dugaannya lebih mendekati pola data aktualnya daripada model PCR. 3. Metodologi Penelitian Data yang digunakan dalam penelitian ini adalah data sekunder yang diperoleh dari data luaran GCM model CSIRO-Mk3 dari Australia dengan periode tahun 1981-2000. Domain yang digunakan berlokasi tepat ditengah-tengah Kabupaten Indramayu dengan ukuran yaitu, domain 3x3, 8x8, dan 12x12. Penelitian ini juga menggunakan data curah hujan di lima stasiun di Kabupaten Indramayu meliputi Sumurwatu, Kroya, Losarang, Juntinyuat, dan Indramayu selama periode tahun 1981-2000. Variabel yang digunakan pada penelitian ini adalah data luaran GCM CSIRO- Mk3 yang merupakan variabel prediktor meliputi: precipitable water (prw), tekanan permukaan laut (slp), komponen angin meridional (va), komponen zonal (ua), ketinggian geopotensial (zg), dan kelembaban spesifik (hus) dengan ketinggian (level) yang berbeda-beda yaitu 850 hPa, 500 hPa, dan 200 hPa. Maka, keseluruhan total variabel GCM yang digunakan adalah 17 variabel. Variabel respon yang digunakan untuk memodelkan data luaran GCM CSIRO-Mk3 adalah data curah hujan bulanan meliputi stasiun: Sumurwatu, Kroya , Losarang, Juntinyuat, dan Indramayu. Tahapan analisis data yang digunakan pada penelitian ini adalah sebagai berikut: 1. Mereduksi tiap variabel GCM dengan metode Principal Component Analysis (PCA). 2. Melakukan reduksi dimensi keseluruhan variabel GCM yang telah tereduksi pada tahap 1, kemudian menyusun model SD dengan metode Principal Component Regression (PCR). 3. Menyusun model SD dengan metode PPR dengan langkah awal menentukan nilai m (banyak fungsi) 4. Melakukan validasi model. Data yang digunakan validasi adalah data tahun 2000. 5. Membandingkan model yang telah didapat dengan metode PCR dan PPR dengan kriteria RMSEP dan R2prediction untuk mendapatkan model terbaik. 4. Analisis dan Pembahasan Pada bagian ini akan dijelaskan analisis yang dilakukan, yaitu dengan metode PCR dan PPR untuk pemodelan Statistical Downscaling. Namun, sebelum dilakukan pemodelan, dilakukan terlebih dahulu reduksi dimensi data luaran GCM dengan metode PCA. Reduksi Dimensi dengan Principal Component Analysis (PCA) Reduksi dimensi merupakan langkah awal dalam pemodelan SD yang dilakukan untuk mengatasi masalah dimensi tinggi dan multikolinearitas pada data luaran GCM. PCA merupakan salah satu metode reduksi dimensi data yang dapat mengatasi masalah multikolinearitas. Metode PCA menghasilkan variabel baru independent yang disebut komponen utama (PC). Jumlah komponen utama yang terbentuk memiliki keragaman ≥ 85% (Khotimah, 2009 dan Suprapti, 2009). Reduksi dimensi dengan metode PCA dilakukan pada tiap level dan domain (grid) yang berbeda untuk semua variabel GCM. Dalam variabel luaran GCM setiap grid merupakan variabel prediktor, sehingga untuk domain 3x3, terdapat 9 variabel prediktor, untuk domain 8x8 terdapat 64 variabel prediktor, dan untuk domain 12x12 terdapat 144 variabel prediktor untuk setiap variabel luaran GCM. Tabel 4.1 menyajikan jumlah komponen utama (PC) dan keragaman yang dapat dijelaskan oleh PC yang terbentuk untuk setiap variabel GCM pada domain 3x3, 8x8, dan 12x12.
6
No.
Tabel 1 Jumlah PC Optimal dan Keragaman Kumulatif Variabel GCM Domain 3x3 Domain 8x8 Domain 12x12 Kerg. Kerg. Kerg. Variabel Jml PC Kum. Jml PC Kum. Jml PC Kum. (*)
1 HUSS 3 2 HUS200 1 3 HUS500 1 4 HUS850 1 5 PRW 1 6 SLP 1 7 UAS 1 8 UA200 1 9 UA500 1 10 UA850 1 11 VAS 1 12 VA200 1 13 VA500 1 14 VA850 2 15 ZG200 1 16 ZG500 1 17 ZG850 1 *) Keragaman Kumulatif PC
(*)
0,924 0,975 0,967 0,935 0,923 0,974 0,954 0,986 0,916 0,984 0,885 0,972 0,923 0,961 0,995 0,996 0,991
6 1 2 2 2 1 2 1 2 1 3 2 3 3 1 1 1
0,865 0,854 0,925 0,901 0,879 0,87 0,917 0,919 0,888 0,861 0,883 0,934 0,897 0,913 0,939 0,957 0,934
(*)
8 2 2 3 3 2 3 2 3 2 4 2 5 4 1 1 1
0,852 0,909 0,855 0,88 0,896 0,957 0,876 0,974 0,905 0,862 0,857 0,872 0,876 0,854 0,871 0,887 0,898
Berdasarkan Tabel 1 diketahui bahwa sebagian besar jumlah komponen utama optimal yang terbentuk pada domain 3x3 adalah satu komponen utama, kecuali variabel HUSS dan VA850. Pada domain 8x8, komponen utama optimal yang terbentuk berkisar antara satu sampai dengan tiga komponen utama, kecuali variabel HUSS yang terbentuk dengan enam komponen utama. Pada domain 12x12, komponen utama optimal yang terbentuk berkisar antara satu sampai dengan lima komponen utama, kecuali variabel HUSS. Dapat diketahui pula bahwa jumlah komponen utama yang terbentuk untuk variabel HUSS terbanyak dibanding dengan variabel GCM lainnya. Secara umum, semakin besar luasan domain maka semakin banyak komponen utama yang terbentuk. Hal ini menunjukkan bahwa kedekatan antar grid semakin berkorelasi. Namun untuk variabel ZG200, ZG500, dan ZG850 semakin luas domain ternyata tidak mempengaruhi banyaknya komponen utama yang terbentuk. Pada Tabel 1 dapat diketahui pula bahwa variabel HUSS membutuhkan komponen utama terbanyak dibanding dengan variabel lainnya. Pemodelan SD dengan Principal Component Regression (PCR) Tahap awal dalam pemodelan SD dengan metode PCR adalah melakukan reduksi dimensi keseluruhan variabel GCM yang telah direduksi secara spasial. Reduksi dimensi keseluruhan variabel GCM dilakukan untuk mengatasi masalah multikolinearitas yang terjadi antar variabel GCM. Hasil keseluruhan reduksi spasial variabel GCM pada domain 3x3 adalah 20 variabel, pada domain 8x8 adalah 34 variabel, dan pada domain 12x12 adalah 48 variabel. Hasil reduksi dimensi keseluruhan variabel GCM pada domain 3x3, 8x8, dan 12x12 dengan jumlah komponen utama masing-masing secara berurut adalah 7, 12, dan 15 komponen. Maka variabel prediktor yang digunakan dalam pemodelan SD dengan metode PCR pada domain 3x3 adalah 7 variabel, pada domain 8x8 adalah 12 variabel, dan pada domain 12x12 adalah 15 variabel. Variabel respon yang digunakan yaitu data curah hujan meliputi stasiun Sumurwatu, Kroya, Losarang, Juntinyuat, dan Indramayu. Tabel 2 menyajikan model PCR pada domain 8x8.
7
Stasiun Sumurwatu Kroya Losarang Juntinyuat Indramayu
Tabel 2 Model SD dengan Metode PCR pada Domain 8x8 Model AX = 134,46 - 21,12 PC1 + 17,38 PC2 - 6,93 PC3 - 3,41 PC4 - 5,55 PC5 + 8,63 PC6 - 2,66 PC7 + 5,03 PC8 + 7,75 PC9 + 8,12 PC10 - 7,78 PC11 + 0,42 PC12 AX = 123,92 - 18,03 PC1 + 20,67 PC2 - 12,09 PC3 - 2,52 PC4 - 7,66 PC5 + 10,67 PC6 - 7,60 PC7 + 2,83 PC8 + 4,57 PC9 + 1,73 PC10 - 1,19 PC11 + 1,73 PC12 AX = 121,67 - 20,85 PC1 + 14,05 PC2 - 8,63 PC3 - 4,36 PC4 - 11,45 PC5 + 14,54 PC6 - 0,21 PC7 + 4,48 PC8 + 7,96 PC9 + 11,25 PC10 - 8,14 PC11 + 0,59 PC12 AX = 125,92 - 20,32 PC1 + 10,36 PC2 - 10,09 PC3 - 9,86 PC4 + 0,07 PC5 + 2,09 PC6 - 0,47 PC7 + 11,78 PC8 + 10,03 PC9 + 7,99 PC10 - 10,24 PC11 - 8,76 PC12 AX = 145,21 - 26,79 PC1 + 9,05 PC2 - 9,13 PC3 - 10,59 PC4 - 14,10 PC5 + 15,44 PC6 + 1,93 PC7 + 7,45 PC8 + 16,48 PC9 + 15,37 PC10 - 9,18 PC11 + 5,81 PC12
Untuk validasi pemodelan SD digunakan data outsample pada tahun 2000 yang dilakukan dengan perbandingan nilai RMSEP dan R2prediction. Model terbaik merupakan model dengan nilai RMSEP terkecil dan R2prediction terbesar. Tabel 3 menyajikan nilai RMSEP dan R2prediction pada tiap domain dan stasiun.
Stasiun Sumurwatu Kroya Losarang Juntinyuat Indramayu
Tabel 3 Nilai RMSEP dan R2prediction dengan Metode PCR Domain 3x3 Domain 8x8 Domain 12x12 2 2 RMSEP R pred RMSEP R pred RMSEP R2pred 115,90 46,0% 102,96 62,4% 102,61 62,7% 96,37 55,3% 90,38 59,5% 89,60 54,4% 93,41 25,8% 83,09 41,2% 85,32 41,0% 117,42 11,5% 109,89 18,7% 115,72 14,4% 151,45 24,8% 143,04 33,2% 142,31 32,3%
Berdasarkan Tabel 3 diketahui bahwa tidak terdapat kekonsistenan antara nilai RMSEP dan R2prediction terhadap luasan domain. Semakin luas domain tidak diikuti dengan meningkatnya nilai RMSEP dan menurunnya R2prediction. Bahkan untuk stasiun Sumurwatu, nilai RMSEP semakin menurun dan R2prediction semakin tinggi dengan bertambahnya luas domain. Nilai RMSEP untuk stasiun Sumurwatu pada domain 3x3, 8x8, dan 12x12 masing-masing bernilai 115,90; 102,96; dan 102,61. Stasiun Kroya dan Indramayu memiliki nilai RMSEP terendah terdapat pada domain 12x12. Sedangkan untuk stasiun Losarang dan Juntinyuat nilai RMSEP terendah terdapat pada domain 8x8 yaitu masing-masing sebesar 83,09 dan 109,89. Secara keseluruhan, nilai RMSEP tertinggi terdapat pada stasiun Indramayu dengan domain 3x3 sebesar 151,45 dan nilai RMSEP terendah terdapat pada stasiun Losarang dengan domain 8x8 sebesar 83,09. Untuk perbandingan nilai R2prediction, terdapat beberapa stasiun dengan nilai R2prediction tertinggi pada domain 8x8 meliputi stasiun Kroya, Losarang, Juntiyuat, dan Indramayu dengan nilai masingmasing 59,5%; 41,2%; 18,7%; dan 33,2%. Sedangkan untuk stasiun Sumurwatu, nilai R2prediction tertinggi terdapat pada domain 12x12. Secara keseluruhan, nilai R2prediction tertinggi terdapat pada stasiun Sumurwatu dengan domain 12x12 sebesar 62,7 dan nilai R2prediction terendah terdapat pada stasiun Juntinyuat dengan domain 3x3 sebesar 11,5%. Pemodelan SD dengan Projection Pursuit Regression (PPR) Pemodelan SD dengan metode PPR dilakukan dengan meregresikan data GCM baru hasil reduksi PCA sebagai variabel prediktor dan data curah hujan sebagai variabel respon. Tahap awal dalam proses pembentukan model PPR adalah menentukan proyeksi atau banyak fungsi yang akan disertakan dalam model. Dalam menentukan proyeksi dilakukan optimalisasi melalui simulasi banyak fungsi yang akan digunakan dalam model (m). Jumlah seluruh variabel prediktor pada domain 3x3 yang digunakan dalam model adalah 20 variabel dan digunakan simulasi dengan m= 3, 4, dan 5. Variabel prediktor pada domain 8x8 adalah 34 variabel dan digunakan simulasi dengan m= 4, 5, dan 6. Variabel prediktor pada domain 12x12 adalah 48 variabel dan digunakan simulasi dengan m= 5, 6, dan
8
7. Setiap stasiun menghasilkan nilai RMSEP dan R2prediction optimal dengan nilai m yang berbeda-beda dengan stasiun lainnya. Tabel 4 menyajikan model PPR pada domain 8x8 dengan nilai RMSEP dan R2prediction optimal. Tabel 4 Model SD dengan Metode PPR pada Domain 8x8 Stasiun Model Sumurwatu AX = 134,07 + 145,67I ∑+ T+ + + 107,06I ∑+ T+ + +93,34Iz ∑+ Tz+ + + 101,37I{ ∑+ T{+ + Kroya AX = 123,11 + 123,49I ∑+ T+ + + 49,30I ∑+ T+ + +46,90Iz ∑+ Tz+ + + 55,85I{ ∑+ T{+ + Losarang AX = 121,94 + 183,83I ∑+ T+ + + 144,14I ∑+ T+ + +108,44Iz ∑+ Tz+ + + 108,84I{ ∑+ T{+ + Juntinyuat AX = 126,08 + 140,61I ∑+ T+ + + 94,46 ∑+ T+ + +100,86Iz ∑+ Tz+ + + 103,28 ∑+ T{+ + +93,97I} ∑+ T}+ + Indramayu AX = 146,12 + 221,36I ∑+ T+ + + 170,98I ∑+ T+ + +147,18Iz ∑+ Tz+ + + 144,20I{ ∑+ T{+ +
Nilai RMSEP dan R2prediction optimal dengan metode PPR pada tiap stasiun untuk domain 3x3,8x8, dan 12x12 disajikan dalam Tabel 5.
Stasiun Sumurwatu Kroya Losarang Juntinyuat Indramayu
Tabel 5 Nilai RMSEP dan R2prediction dengan Metode PPR Domain 3x3 Domain 8x8 Domain 12x12 RMSEP 85,44 81,13 62,15 85,71 96,06
R2pred 70,4% 63,4% 73,6% 63,3% 70,8%
RMSEP 90,65 38,51 80,20 60,52 137,85
R2pred 74,1% 93,0% 60,2% 77,4% 37,8%
RMSEP 120,22 132,94 107,47 125,74 203,79
R2pred 41,6% 20,9% 36,2% 21,9% 27,6%
Berdasarkan Tabel 5 menunjukkan bahwa tidak terdapat kekonsistenan antara nilai RMSEP dan R2prediction terhadap luasan domain. Namun, nilai RMSEP untuk stasiun Losarang dan Indramyu semakin meningkat dengan semakin luasnya domain yang diikuti dengan menurunnya nilai R2prediction. Pada stasiun Sumurwatu, Kroya, dan Juntinyuat nilai RMSEP tertinggi dan R2prediction terendah terdapat pada domain 12x12. Hasil validasi model terbaik dengan nilai RMSEP terendah dan R2prediction tertinggi untuk stasiun Sumurwatu, Kroya, dan Juntinyuat terdapat pada domain 8x8. Sedangkan untuk stasiun Losarang dan Indramayu, hasil validasi model terbaik terdapat pada domain 3x3. Hasil validasi model terbaik dengan metode PPR secara keseluruhan terdapat pada stasiun Kroya untuk domain 8x8 dengan nilai RMSEP = 38,51 dan R2prediction= 93%. Secara umum, validasi model dengan metode PPR untuk domain 3x3 dan 8x8 menunjukkan hasil yang cukup baik dengan R2prediction > 60%, namun validasi model PPR pada domain 12x12 menunjukkan hasil yang kurang memuaskan dengan nilai R2prediction < 45%.
9
Perbandingan Metode Pemodelan SD Hasil validasi pemodelan SD menggunakan metode PCR dan PPR pada tiap stasiun dan domain berdasarkan nilai RMSEP dan R2prediction disajikan pada Tabel 6. Tabel 6 Perbandingan Nilai RMSEP dan R2prediction dengan Metode PCR dan PPR PCR PPR Stasiun 2 RMSEP R pred RMSEP R2pred Domain 3x3 Sumurwatu 115,90 46,0% 85,44 70,4% Kroya 96,37 55,3% 81,13 63,4% Losarang 93,41 25,8% 62,15 73,6% 117,42 11,5% 85,71 63,3% Juntinyuat Indramayu 151,45 24,8% 96,06 70,8% Rata-rata 114,91 32,7% 82,10 68,3% St. Deviasi 20,73 15,8% 11,12 4,2% Domain 8x8 Sumurwatu 102,96 62,4% 90,65 74,1% Kroya 90,38 59,5% 38,51 93,0% Losarang 83,09 41,2% 80,2 60,2% Juntinyuat 109,89 18,7% 60,52 77,4% Indramayu 143,04 33,2% 137,85 37,8% Rata-rata 105,87 43,0% 81,55 68,5% St. Deviasi 23,27 18,3% 33,31 18,6% Domain 12x12 Sumurwatu 102,61 62,7% 120,22 41,6% Kroya 89,60 54,4% 132,94 20,9% Losarang 85,32 41,0% 107,47 36,2% Juntinyuat 115,72 14,4% 125,74 21,9% Indramayu 142,31 32,3% 203,79 27,6% Rata-rata 107,11 41,0% 138,03 29,6% St. Deviasi 22,99 18,9% 37,92 9,0%
Berdasarkan Tabel 6 menunjukkan bahwa pemodelan SD dengan metode PPR lebih baik daripada metode PCR, kecuali untuk domain 12x12. Pada domain 12x12, hasil validasi model PCR lebih baik daripada PPR. Namun, untuk stasiun Juntiyuat, hasil validasi model PPR pada domain 12x12 masih lebih baik dibandingkan dengan model PCR. Domain 8x8 cenderung berpotensi menghasilkan dugaan yang baik dibanding domain 3x3 dan 12x12 baik untuk metode PPR atau PCR, kecuali metode PPR untuk stasiun Indramayu pada domain 8x8 yang hasilnya kurang baik apabila dibandingkan dengan stasiun lain pada domain yang sama. Secara keseluruhan, hasil validasi model terbaik terdapat pada Stasiun Kroya pada domain8x8 dengan metode PPR yang menghasilkan nilai RMSEP = 38,51 dan R2prediction = 93%. 6. Kesimpulan dan Saran Hasil validasi pemodelan SD dengan metode PCR dan PPR diketahui bahwa tidak terdapat kekonsistenan antara nilai RMSEP dan R2prediction terhadap luasan domain. Model terbaik pada keseluruhan domain bergantung pada lokasi stasiun. Domain 8x8 cenderung berpotensi menghasilkan dugaan yang lebih baik dibanding domain 3x3 dan 12x12 baik untuk metode PPR maupun PCR. Untuk perbandingan hasil validasi pemodelan SD, metode PPR lebih baik daripada metode PCR, kecuali pada domain 12x12. Validasi model SD dengan metode PPR pada domain 3x3 dan 8x8 menghasilkan nilai RMSEP yang rendah dan diikuti dengan tingginya nilai R2prediction dengan nilai rata-rata RMSEP = 82,1 dan R2prediction =68,3% untuk domain 3x3 dan rata-rata RMSEP = 81,5 dan R2prediction =68,5% untuk domain 8x8. Sedangkan pada domain 12x12, hasil validasi metode PCR lebih
10
baik daripada PPR. Secara umum metode PPR berpotensi menghasilkan dugaan yang lebih baik dibanding metode PCR terutama pada domain 3x3 dan 8x8. Metode PPR dapat mengatasi salah satu permasalahan dalam pemodelan SD yaitu data GCM yang bersifat nonlinear. Namun diperlukan kajian lebih lanjut untuk menentukan banyaknya proyeksi atau fungsi yang disertakan dalam model (m), sehingga menghasilkan nilai R2 yang tinggi dan stabil untuk semua lokasi penelitian. 7. Daftar Pustaka Effendi, B., Sutikno, Otok, W.B. 2009. Hybrid Mars – Time Series Pada Pemodelan Statistical Downscalling, Studi Kasus Stasiun Losarang. Prosiding Seminar Nasional Statistika ke-9,7 November 2009 Jurusan Statistika FMIPA ITS Surabaya. Friedman, J.H., dan Stuetzle, W. 1981. Projection Pursuit Regression. Journal of American Statististical Association, 376:817-823. Hardle, W. 1990. Applied Nonparametric Regression. New York: Cambridge University Press. Johnson, R.A., dan Wichern, D. W. 2002. Applied Multivariate Statistical Analysis 5th Ed. New Jersey: Prentice Hall. Khotimah, K. 2009. Reduksi Dimensi Robust dengan Estimator MCD Untuk Pra-Pemrosesan Data Pemodelan Statistical Downscaling [Tugas Akhir]. Surabaya: Jurusan Statistika Institut Teknologi Sepuluh Nopember. Lembang F.K., Setiawan, Sutikno. 2009. Pengembangan Model Ramalan Curah Hujan Untuk Pemodelan Statistical Downscalling dengan Pendekatan Regresi Bayes PCA, Studi Kasus di Stasiun Indramayu. Prosiding Seminar Nasional Statistika ke-9,7 November 2009 Jurusan Statistika FMIPA ITS Surabaya. Purnomoadi, H., Setiawan, Sutikno. 2009. Pemodelan Statistical Downscaling dengan Pendekatan Regresi Kontinum-PCA, Studi Kasus Stasiun Pontianak dan Ambon. Prosiding Seminar Nasional Statistika ke-9, 7 November 2009 Jurusan Statistika FMIPA ITS Surabaya. Suprapti, A. 2009. Pra-pemrosesan Data Luaran GCM CSIRO-MK3 dengan Metode Transformasi Wavelet Diskrit [Tugas Akhir]. Surabaya: Jurusan Statistika Institut Teknologi Sepuluh Nopember. Sutikno. 2008. Statistical Downscaling Luaran GCM dan Pemanfaatannya untuk Peramalan Produksi Padi [Disertasi]. Bogor: Program Pascasarjana, Institut Pertanian Bogor. Wigena, A.H. 2006. Pemodelan Statistical Downscaling dengan Regresi Projection Persuit untuk Peramalan Curah Hujan [Disertasi]. Bogor: Program Pascasarjana, Institut Pertanian Bogor.
11