PEMODELAN STATISTICAL DOWNSCALING LUARAN GCM DENGAN PENDEKATAN REGRESI KONTINUM DAN PRA-PEMROSESAN PCA (Studi Kasus: Pemodelan Statistical Downscaling di Stasiun Losarang, Indramayu, Yuntinyuat, Ambon, dan Pontianak)
1
Hendy Purnomoadi1, Setiawan2, Sutikno2
Mahasiswa S2 Jurusan Statistika Institut Teknologi Sepuluh Nopember Surabaya Staf Pengajar Jurusan Statistika Institut Teknologi Sepuluh Nopember Surabaya email:
[email protected],
[email protected],
[email protected] 2
Abstrak Salah satu model iklim yang digunakan untuk meramalkan keadaan iklim adalah Global Circulation Models (GCM). GCM adalah suatu model berbasis komputer yang terdiri dari berbagai persamaan numerik dan deterministik yang terpadu dan mengikuti kaidahkaidah fisika. GCM merupakan alat prediksi utama iklim dan cuaca secara numerik dan sebagai sumber informasi primer untuk menilai pengaruh perubahan iklim. Teknik Statistical Downscaling (SD) digunakan untuk menjembatani skala GCM yang besar dengan skala yang lebih kecil (kawasan yang menjadi studi). Data GCM merupakan data spasial dan temporal di mana kemungkinan besar terjadi korelasi spasial antara data pada grid yang berbeda dalam satu domain. Adanya masalah multikolinearitas mengharuskan perlunya pra-pemrosesan data variabel X. Regresi Kontinum dengan pra-pemrosesan Principal Component Analysis (PCA) merupakan salah satu alternatif untuk pemodelan SD. Regresi Kontinum adalah salah satu metode yang dikembangkan oleh Stone dan Brooks (1990), Metode ini merupakan generalisasi dari metode Ordinary Least Square (OLS), Principal Component Regression (PCR) dan metode Partial Least Square (PLS) yang digunakan untuk mengatasi masalah multikolinearitas. Dari hasil pengolahan data untuk stasiun Ambon, Pontianak, Losarang, Indramayu dan Yuntinyuat menunjukkan bahwa rata-rata RMSEP dan R2predict pada domain 8x8 dan 12x12 dengan metode regresi Kontinum menghasilkan hasil yang lebih baik jika dibandingkan dengan PCR dan PLS. Kata kunci : Regresi Kontinum, PCA, PCR, PLS, Statistical downscaling, GCM
Pendahuluan Perubahan iklim yang terjadi sering digunakan untuk meramalkan keadaan iklim yang akan datang. Untuk pendugaan iklim yang akan datang hanya mungkin dilakukan dengan menggunakan model iklim. Salah satu model iklim yang digunakan untuk meramalkan keadaan iklim adalah Global Circulation Models (GCM). GCM adalah suatu model berbasis komputer yang terdiri dari berbagai persamaan numerik dan deterministik yang terpadu dan mengikuti kaidah-kaidah fisika. GCM merupakan alat prediksi utama iklim dan cuaca secara numerik dan sebagai sumber informasi primer untuk menilai pengaruh perubahan iklim (Wigena, 2006). Teknik downscaling yang digunakan adalah teknik Statistical Downscaling (SD), di mana merupakan model statistik yang menggambarkan hubungan antara data pada grid-grid berskala besar (GCM) dengan data pada grid berskala lebih kecil. Data GCM yang berskala besar memungkinkan adanya multikolinearitas dan adanya outlier. Permasalahan yang muncul pada Teknik SD yaitu menentukan domain (grid) dan pereduksian dimensi, mendapatkan variabel independen yang mampu menjelaskan keragaman variabel dependen, dan mendapatkan metode statistik yang sesuai karakteristik data, sehingga bisa menggambarkan hubungan antara variabel independen dan variabel dependen, serta dapat mengakomodasi kejadian ekstrim. Metode yang sering digunakan untuk pra-pemrosesan adalah Principal Component Analysis (PCA), Tranformasi Wavelet Diskrit (TWD), ROBPCA, dan Kernel PCA. Selanjutnya untuk memodelkan antara variabel dependen dengan variabel hasil pra-pemrosesan 1
digunakan Regresi Kontinum (RK). Hal ini karena RK merupakan salah satu metode yang potensial untuk mengatasi adanya multikolinearitas. Tujuan dari penelitian ini adalah untuk membandingkan kinerja regresi Kontinum, PCR dan PLS dengan pra-pemrosesan PCA dengan kriteria RMSEP dan R2predict. Principal Components Analysis (PCA) PCA adalah suatu prosedur untuk mereduksi dimensi data dengan cara mentransformasi variabel-variabel asal yang berkorelasi menjadi sekumpulan variabel baru yang tidak berkorelasi. Variabel-variabel baru itu dikatakan sebagai Principal Component (PC) (Johnson dan Wichern, 2002). PC dapat diperoleh dari pasangan nilai eigen–vektor eigen matriks kovarian atau matriks korelasi. Standardisasi data dilakukan terlebih dahulu jika satuan data antar variabel tidak sama. Standardisasi data perlu dilakukan supaya dominansi satu atau dua variabel dalam PC dapat dihindari. Bila + adalah matriks varian-kovarian dari vektor random X T =[ X1,X2,…, Xp]. Dalam hal ini +, diperoleh dari metode Maximum Likelihood Estimation (MLE) dengan rumus, 1 n (1) (xi µ )(xi µ )T += n 1 i =1 µ=
1 n
n i =1
(2)
xi
dengan :
xi = observasi ke-i n = jumlah observasi dan + memiliki pasangan nilai eigen-vektor eigen ( 1 ,e1 ), ( 2 ,e2 ), … , ( p , e p ) dimana 1 .. . 0 . Maka kombinasi linier PC dapat ditulis sebagai 2 p berikut: Z1 = e1 T X = e11X1 + e21X2 + . . . + ep1Xp Z2 = e 2 T X = e12X1 + e22X2 + . . . + ep2Xp . . . T
Zp = e p X = e1pX1 + e2pX2 + . . . + eppXp (3) dengan: Z1 = PC pertama, yang mempunyai varians terbesar Z2 = PC kedua, yang mempunyai varians terbesar kedua Zp = PC ke-p, yang mempunyai varians terbesar ke-p X1 = variabel asal pertama X2 = variabel asal kedua Xp = variabel asal ke-p T Model PC ke-i dapat juga ditulis dengan notasi Zi = e i X dimana : i = 1,K, p dan : (4) Var ( Z i ) = eiT ei i = 1, 2, ..., p Cov ( Z i , Z k ) = eiT ek
(5)
i k
2
PC tidak berkorelasi dan mempunyai varians yang sama dengan nilai eigen dari sehingga: 11 + 22 + ... + pp =
( )
p
Var X = tr( i i =1
)=
1 + 2 + ... + p
,
(6)
bila total variansi populasi adalah 11+ 22+...+ pp = 1+ 2+...+ p , maka: total varians yang dapat dijelaskan oleh PC ke-i = 1
+
i + ... +
2
(7) p
apabila PC yang diambil sebanyak k dimana (k
total varians yang dapat dijelaskan oleh PC ke-k =
1
+ +
2 2
+ ... + + ... +
k
(8)
p
Selanjutnya, bila yang dipakai di awal adalah matriks kovariansi dari data yang terstandarisasi, karena diagonal utama matriks berisi nilai satu, maka total variansi populasi untuk variabel terstandarisasi adalah p, yang merupakan jumlah elemen diagonal matriks . Sehingga: total varians yang dapat dijelaskan oleh PC ke-i =
i
p
(9)
Partial Least Square (PLS) Metode PLS merupakan metode statistik yang menggeneralisasi dan mengkombinasikan antara metode analisis faktor, principal component analysis (PCA) dan multiple regression (Abdi,2007). Tujuan PLS adalah membentuk komponen yang dapat menangkap informasi dari variabel independen untuk memprediksi variabel dependen. PCA terfokus pada keragaman di dalam variabel independen, sedangkan PLS fokus pada kovarians antara variabel independen dan variabel dependen. Tujuan dari metode PLS adalah membentuk komponen yang dapat menangkap informasi dari variabel independen yang digunakan untuk memprediksi variabel dependen. Model dari metode Partial Least Square (PLS) terdiri dari hubungan eksternal dan hubungan internal. Hubungan eksternal merupakan hubungan kelompok X dan Y secara individual. Regresi Kontinum Regresi Kontinum adalah metode estimasi regresi regularized (yang diatur), dan digunakan untuk menangani masalah kolineritas (collinearity atau multicollinearity), yang berarti ada pendekatan hubungan linear antar variabel independen. Regresi Kontinum dikembangkan dari OLS, PCR, dan regresi PLS. Berdasarkan model regresi linear sebagai berikut : (10) y = X0 + / dengan variabel X (matriks data) yang sudah dipusatkan (centered) dan y adalah vektor variabel dependen yang sudah dipusatkan. Pada kasus kolinearitas menunjukkan bahwa matriks X tidak full rank. Akibatnya, X T X (hampir) singular. Pada model regresi linear terboboti formula matematis dapat ditulis sebagai berikut, dengan memaksimumkan n
r w2 =
i =1 n i =1
y i2
2
yiw Tx i n i =1
(w s ) T
=
y
(w T x i ) 2
3
2
2
w T Sw
(11)
dengan x i adalah vektor pengamatan peubah bebas ke-i (i=1,2, ..., n) berukuran (px1), s = X T y dan S = X T X . Pada PCR pada prinsipnya adalah memaksimumkan :
Sw =
(w x )
n
2
T
= w T Sw
i
i =1
(12)
Dari rumus (3) dapat dijelaskan bahwa prinsip dasar dalam PCR adalah memaksimumkan keragaman dari variabel independen X sehingga dibentuk variabel baru berupa beberapa komponen utama yang merupakan kombinasi linear dari variabel-variabel asal (X). Selanjutnya data variabel dependen Y diregresikan dengan beberapa komponen utama tersebut dengan menggunakan teknik regresi linear berganda. Pada regresi PLS prinsipnya adalah memaksimumkan : 2
n
Sw =
i =1
(
= w Ts
T
yi w x i
)
2
(13)
Kemudian dari rumus (4) dapat diketahui bahwa prinsip regresi PLS adalah memaksimumkan kovarian antara variabel independen dengan variabel dependen. Pada Regresi Kontinum variabel baru dituliskan dalam model sebagai berikut y = Th 2 + / dengan Th = XWh (14) dan Wh = (w 1 , w 2 ,..., w h ) matriks berisi h kolom peubah dengan h
{
}
dengan kendala w i = 1 dan Cov (Xw i , Xw j ) = 0 untuk i < j sedangkan parameter
1. penyesuaian merupakan bilangan real 0 Alternatif lain adalah formula yang dikembangkan oleh Malpass (1996) sebagai berikut : ( 2+ 2 4 2 ) ( 1+ 2 ) (16) w i = arg max Cov (Xw , y ) Var (Xw )
{
w
}
Dari rumus (15) dibuat suatu rumus umum sebagai berikut :
(
)(
)[
2
)) 1 ]
( /( 1
(17) G = w T X T y w T X T Xw selanjutnya disebut metode Stone. Dari rumus (16) dapat dibuat menjadi :
(
)
( 2+ 2
4
2
)
(
)
( 1+ 2 )
(18) G = w T XTy w T X T Xw selanjutnya disebut metode Portsmouth (Malpass, 1996). Rumus tersebut merupakan generalisasi dari OLS, PCR serta PLS dengan bentuk keterkaitan sebagai berikut :
( )(
)
2
1
1. Untuk = 0 , maka G = w T s w T Sw rumus ini ekivalen dengan persamaan (11), artinya pada = 0 RK merupakan OLS.
( )
2
2. Untuk = 0.5 , maka G = w T s rumus ini ekivalen dengan persamaan (12), sehingga pada = 0.5 RK merupakan PLS 3. Untuk = 1, maka G = w T Sw rumus ini ekivalen dengan persamaan (13), sehingga pada = 1 RK merupakan PCR. Dengan kata lain OLS, PCR serta PLS merupakan bentuk khusus dari Regresi Kontinum.
(
)
4
Pendugaan parameter regresi 2 pada persamaan (14) dilakukan dengan menggunakan metode kuadrat terkecil yang diformulasikan sebagai berikut : 1 2ˆ = TT T T T y (19) ,h
dengan
(
h
h
)
h
yˆ
,h
= XWh 2ˆ
0ˆ
,h
= Wh ThT Th
(
,h
)
1
ThT y
(20)
merupakan parameter penyesuaian dan h banyaknya komponen.
Ukuran kebaikan Model Ukuran kebaikan model yang digunakan adalah nilai koefisien determinansi R2 yang menggambarkan kebaikan prediksi (Walpole, 1995): n 2 R predict
SS Error =1 = SS Total
i =1 n i =1
(Yˆi
Y )2
(Yi
Y )2 (21)
2 R predict = koefisien determinasi
Y Yi
= nilai rata-rata = nilai aktual
Yˆ
= nilai prediksi
Selain nilai di atas terdapat ukuran kebaikan hasil prediksi data validasi (out of sample): n
RMSEP =
i =1
(Y
Yˆi
i
)
2
n
RMSEP n Yi
= Root Mean Square Error Prediction = jumlah sampel = nilai aktual
Yˆ
= nilai prediksi
(22)
GCM General Circulation Model atau sering disingkat menjadi GCM adalah model iklim yang berbasis komputer dengan menggunakan persamaan numerik dan deterministik yang sesuai dengan kaidah-kaidah fisika. GCM merupakan model iklim yang digunakan untuk peramalan cuaca, pengertian iklim dan kajian perubahan iklim. Menurut (Zorita dan Storch, 1999) GCM merupakan suatu alat utama dalam kajian keragaman dan perubahan iklim. Model iklim GCM mempunyai bentuk luaran gridgrid yang berukuran 100-500 km, menurut garis lintang dan bujurnya. Model ini dapat digunakan untuk menduga perubahan unsur-unsur cuaca (von Stroch et al. 1993 dalam Sutikno, 2008). Namun informasi GCM masih berskala global, sehingga sulit untuk memperoleh langsung informasi berskala lokal dari GCM. Tetapi GCM masih mungkin digunakan untuk memperoleh informasi skala lokal atau regional bila teknik downscaling digunakan (Fernandez, 2005 dalam Wigena, 2006). 5
Downscaling didefinisikan sebagai upaya menghubungkan antara sirkulasi variabel skala global (variabel penjelas) dan variabel skala lokal (variabel dependen) (Sutikno, 2008). Untuk menjembatani skala GCM yang besar dengan skala yang lebih kecil ( kawasan yang menjadi studi) digunakan teknik Statistical Downscaling (SD). SD adalah suatu proses downscaling yang bersifat statik dimana data pada grid-grid berskala besar dalam periode dan jangka waktu tertentu digunakan sebagai dasar untuk menentukan data pada grid berskala lebih kecil (Wigena, 2006). Pendekatan SD menggunakan data regional atau global untuk memperoleh hubungan fungsional antara skala lokal dengan skala global GCM. Secara umum bentuk hubungan tersebut dinyatakan dengan: Y = f(Z) + / dengan: Y : variabel dependen (curah hujan) Z : variabel independen (gabungan dari hasil reduksi spasial (lintang bujur) variabel GCM) / : sisaan Metodologi Data yang digunakan adalah data sekunder yang diperoleh dari data luaran GCM model CSIRO-Mk3 dari Australia, dengan domain GCM yang digunakan adalah domain 3x3, 8x8 dan 12x12 dari 5 Stasiun. Stasiun Pontianak menggunakan periode data yaitu tahun 1947-1990, Stasiun Ambon menggunakan periode data yaitu tahun 1900-1940. Losarang pada tahun 1967-2000, Indramayu pada tahun 1974-2000, dan Yuntinyuat pada tahun 1974-2000. Variabel yang digunakan adalah variabel luaran CSIRO Mk3 sebagai variabel independen yang meliputi: precipitable water (PRW), tekanan permukaan laut (PSL), komponen angin meridional (VA), komponen zonal (UA), ketinggian geopotensial (ZG), dan kelembaban spesifik (HUSS). Ketinggian (level) yang digunakan adalah 850 hPa, 500 hPa, dan 200 hPa. Sedangkan variabel dependen yaitu data curah hujan bulanan dari 5 stasiun. Untuk mengkaji kinerja regresi Kontinum, PCR dan PLS dengan reduksi dimensi PCA ada dua kriteria yang digunakan, yaitu : RMSEP dan R2predict. Model dikatakan lebih baik jika RMSEP minimum dan R2predict lebih tinggi. Hasil dan Pembahasan Pra-pemrosesan Pemodelan SD Langkah awal dalam pemodelan SD adalah reduksi dimensi, yang disebut sebagai pra-pemrosesan data. Pereduksian dilakukan pada dimensi spasialnya yaitu lintang dan bujur atau disebut grid dan pada semua variabel di setiap level serta pada setiap domain. Dalam hal ini setiap grid adalah variabel independen, sehingga pada domain 3x3, 8x8 dan 12x12 secara berurutan ada 9, 64, dan 144 variabel yang akan direduksi. Metode PCA Prosedur untuk menyusun komponen utama dengan PCA dilakukan melalui tiga tahap. Pertama, mendapatkan matriks varian-kovarian klasik. Kedua, menurunkan nilai eigen dan vektor eigen berdasarkan matriks varian-kovarian pada tahap pertama. Terakhir adalah melakukan kombinasi linear antara vektor eigen dengan data asal, sehingga diperoleh komponen utama. Melalui langkah-langkah menggunakan metode PCA, didapatkan jumlah komponen utama dan keragaman kumulatif untuk variabel-variabel GCM, yang tercantum dalam Tabel 1. 6
Tabel 1. Jumlah PC Optimal dan Keragaman Kumulatif Variabel Luaran GCM dengan Menggunakan Metode PCA di stasiun Losarang, Indramayu, Yuntinyuat No.
Variabel
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17
HUSS HUS200 HUS500 HUS850 PRW SLP UAS UA200 UA500 UA850 VAS VA200 VA500 VA850 ZG200 ZG500 ZG850
Domain 3x3 Jml PC Ker. Kum. (*) 3 0.898 1 0.977 1 0.967 1 0.937 1 0.923 1 0.975 1 0.949 1 0.985 1 0.918 1 0.983 1 0.881 1 0.976 1 0.918 1 0.851 1 0.996 1 0.997 1 0.991
Domain 8x8 Jml PC Ker. Kum. (*) 6 0.853 1 0.864 2 0.926 2 0.903 2 0.876 1 0.880 2 0.916 1 0.911 2 0.887 1 0.859 3 0.881 2 0.941 3 0.897 3 0.915 1 0.949 1 0.964 1 0.936
Domain 12x12 Jml PC Ker. Kum. (*) 10 0.854 2 0.917 2 0.856 3 0.884 3 0.899 2 0.959 3 0.875 2 0.973 3 0.903 2 0.858 4 0.855 2 0.881 5 0.878 4 0.854 1 0.889 1 0.899 1 0.900
Tabel 1 menunjukkan bahwa komponen yang dihasilkan variabel-variabel GCM dengan menggunakan metode PCA berdasarkan ketentuan bahwa keragaman yang dijelaskan M 85%, pada Pada domain 3x3 adalah satu komponen utama, kecuali variabel HUSS. Pada variabel HUSS menggunakan 3 komponen utama, yang selanjutnya ditulis HUSS1, HUSS2, dan HUSS3. Pada domain 8x8, komponen utama optimal yang terbentuk berkisar antara satu sampai dengan tiga komponen utama, kecuali variabel HUSS yang menggunakan enam komponen utama, yaitu HUSS1, HUSS2, HUSS3, HUSS4, HUSS5, dan HUSS6. Pada domain 12x12 komponen utama optimal yang terbentuk tidak lebih dari empat komponen utama, kecuali variabel HUSS dan VA500. Hal ini menunjukkan bahwa secara umum variabel pada level permukaan mempunyai komponen utama yang semakin banyak sebanding dengan semakin luasnya domain, kecuali variabel SLP. Berbeda dengan variabel ZG semakin luas domain ternyata tidak mempengaruhi banyaknya komponen utama yang dipakai. Tabel 2. Jumlah PC Optimal dan Keragaman Kumulatif Variabel Luaran GCM dengan Menggunakan Metode PCA di stasiun Ambon No.
Variabel
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
HUSS HUS200 HUS500 HUS850 PRW SLP UA200 UA500 UA850 VAS VA200 VA500 VA850 ZG200 ZG500 ZG850
Domain 3x3 Jml PC Ker. Kum. (*) 1 0.965 1 0.964 1 0.952 1 0.914 1 0.951 1 0.982 1 0.983 1 0.939 1 0.950 1 0.956 1 0.985 1 0.913 1 0.897 1 0.996 1 0.994 1 0.979
Domain 8x8 Jml PC Ker. Kum. (*) 3 0.866 1 0.874 2 0.920 2 0.935 2 0.930 1 0.921 1 0.897 2 0.877 2 0.952 2 0.877 1 0.891 3 0.878 3 0.875 1 0.970 1 0.963 1 0.926
7
Domain 12x12 Jml PC Ker. Kum. (*) 4 0.857 2 0.926 3 0.928 2 0.864 2 0.857 1 0.866 2 0.941 3 0.910 2 0.871 3 0.860 2 0.914 5 0.877 5 0.891 1 0.933 1 0.915 1 0.884
Tabel 3. Jumlah PC Optimal dan Keragaman Kumulatif Variabel Luaran GCM dengan Menggunakan Metode PCA di stasiun Pontianak No.
Variabel
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
HUSS HUS200 HUS500 HUS850 PRW SLP UA200 UA500 UA850 VAS VA200 VA500 VA850 ZG200 ZG500 ZG850
Domain 3x3 Jml PC Ker. Kum. (*) 2 0.872 1 0.968 1 0.898 1 0.886 2 0.947 1 0.980 1 0.976 1 0.934 2 0.994 1 0.948 1 0.990 2 0.939 1 0.955 1 0.999 1 0.999 1 0.997
Domain 8x8 Jml PC Ker. Kum. (*) 14 0.863 2 0.932 2 0.921 2 0.858 2 0.875 1 0.862 1 0.859 2 0.920 2 0.956 2 0.853 1 0.935 3 0.870 3 0.930 1 0.985 1 0.990 1 0.943
Domain 12x12 Jml PC Ker. Kum. (*) 16 0.860 2 0.875 3 0.924 3 0.882 3 0.904 1 0.933 2 0.961 3 0.879 2 0.917 3 0.873 1 0.864 5 0.866 4 0.875 1 0.951 1 0.970 2 0.954
Metode Regresi Kontinum, PCR, dan PLS Pemodelan SD dengan metode regresi Kontinum, PCR dan PLS menggunakan variabel independen hasil reduksi dimensi dengan metode PCA pada stasiun Ambon (tipe hujan lokal) dengan total variabel independen yang digunakan pada domain 3x3 adalah 16 variabel, pada domain 8x8 adalah 28 variabel, dan pada domain 12x12 adalah 39 variabel, Pontianak (tipe hujan ekuatorial) dengan total variabel independen yang digunakan pada domain 3x3 adalah 20 variabel, pada domain 8x8 adalah 40 variabel, dan pada domain 12x12 adalah 53 variabel, dan Losarang, Indramayu, Yuntinyuat (tipe hujan monsun). Total variabel independen yang digunakan pada domain 3x3 adalah 19 variabel, pada domain 8x8 adalah 34 variabel, dan pada domain 12x12 adalah 50 variabel. Hasil validasi tiap stasiun dan tiap grid ditunjukkan pada Tabel 4 - Tabel 8. Tabel 4. Perbandingan nilai aktual dengan nilai prediksi masing-masing grid di stasiun Ambon pada tahun 1940 dengan metode RK, PCR dan PLS Bulan Januari Februari Maret April Mei Juni Juli Agustus September Oktober November Desember
Nilai aktual Ambon 140 91 168 172 1068 404 125 152 47 72 11 30
Nilai prediksi RK 190 96 106 167 523 523 613 466 176 127 149 215
3x3 Nilai prediksi PCR 240 88 153 174 470 463 579 456 176 99 147 233
Nilai prediksi PLS 203 61 76 197 524 510 585 486 184 130 150 203
8
Nilai prediksi RK 104 169 271 394 622 657 585 501 227 121 115 187
8x8 Nilai prediksi PCR 60 118 232 258 608 685 555 471 186 35 94 227
Nilai prediksi PLS 149 127 228 362 594 691 549 507 207 62 131 185
Nilai prediksi RK 132 179 94 342 595 680 523 526 275 115 210 103
12x12 Nilai prediksi PCR 37 143 197 338 612 677 523 499 274 96 137 117
Nilai prediksi PLS 91 144 117 352 588 672 541 518 326 134 213 103
!
!
!
"#
"#
"#
Gambar 1. Plot antara nilai aktual Ambon dan nilai prediksi pada grid 3x3, 8x8, 12x12 Tabel 5. Perbandingan nilai aktual dengan nilai prediksi masing-masing grid di stasiun Pontianak pada tahun 1990 dengan metode RK, PCR dan PLS Bulan Januari Februari Maret April Mei Juni Juli Agustus September Oktober November Desember
Nilai aktual Pontianak 114 330 170 290 250 174 248 73 361 372 451 457
3x3 Nilai prediksi PCR 255 263 273 261 272 232 199 271 309 317 285 364
Nilai prediksi RK 260 262 279 286 303 229 208 261 279 305 301 366
$
Nilai prediksi PLS 244 229 266 280 286 217 193 239 259 307 304 349
Nilai prediksi RK 277 204 260 295 302 206 180 225 220 301 384 410
8x8 Nilai prediksi PCR 313 235 264 294 285 209 184 227 257 294 343 438
$
Nilai prediksi PLS 295 241 257 296 297 208 189 258 272 309 383 409
Nilai prediksi RK 269 227 166 304 318 214 181 264 265 325 421 371
12x12 Nilai prediksi PCR 271 241 262 276 331 231 223 271 282 330 358 358
Nilai prediksi PLS 282 221 150 296 287 210 200 255 268 322 397 387
$
! !
!
"#
"#
"#
Gambar 2. Plot antara nilai aktual Pontianak dan nilai prediksi pada grid 3x3, 8x8, 12x12 Tabel 6. Perbandingan nilai aktual dengan nilai prediksi masing-masing grid di stasiun Losarang pada tahun 2000 dengan metode RK, PCR dan PLS Bulan Januari Februari Maret April Mei Juni Juli Agustus September Oktober November Desember
Nilai aktual Losarang 397 59 81 115 93 139 12 0 10 29 220 140
Nilai prediksi RK 228 269 163 147 77 54 50 45 55 62 154 187
3x3 Nilai prediksi PCR 245 274 182 131 83 56 52 40 65 68 133 189
Nilai prediksi PLS 240 279 173 147 76 57 53 48 57 64 148 184
9
Nilai prediksi RK 407 426 104 254 171 0 0 0 24 56 293 348
8x8 Nilai prediksi PCR 234 262 135 185 121 0 33 32 31 48 174 206
Nilai prediksi PLS 255 282 126 193 104 0 0 31 16 50 177 214
Nilai prediksi RK 213 268 141 140 33 16 0 35 1 94 173 203
12x12 Nilai prediksi PCR 200 267 92 157 47 4 0 13 0 71 154 179
Nilai prediksi PLS 208 291 125 208 60 0 0 24 0 49 154 194
$
$
$
$
$
"
$
$
"
$
$
$
$
$
$
$
"
$
!
!
!
"#
"#
"#
Gambar 3. Plot antara nilai aktual Losarang dan nilai prediksi pada grid 3x3, 8x8, 12x12 Tabel 7. Perbandingan nilai aktual dengan nilai prediksi masing-masing grid di stasiun Yuntinyuat pada tahun 2000 dengan metode RK, PCR dan PLS Bulan Januari Februari Maret April Mei Juni Juli Agustus September Oktober November Desember
Nilai aktual Yuntinyuat
Nilai prediksi RK 224 297 173 150 126 95 64 42 69 58 116 166
411 64 44 140 42 261 25 3 28 8 73 60
3x3 Nilai prediksi PCR 222 297 162 155 128 101 65 41 74 61 120 167
$
$
$
$ %
Nilai prediksi PLS 225 296 175 148 125 94 63 42 68 57 114 165
8x8 Nilai prediksi PCR 223 236 167 200 144 4 36 34 43 52 138 181
Nilai prediksi RK 260 273 193 144 103 36 38 44 84 53 126 179
Nilai prediksi PLS 258 263 197 160 121 8 36 31 84 45 127 184
Nilai prediksi RK 263 329 134 158 112 9 7 27 66 47 120 110
12x12 Nilai prediksi PCR 197 323 82 168 104 18 60 28 32 74 134 132
Nilai prediksi PLS 217 302 107 169 140 0 0 21 58 35 156 121
$ %
&
$
&
%
&
$
$
$
$
$
$
$
$
$
!
!
"#
"#
!
"#
Gambar 4. Plot antara nilai aktual Yuntinyuat dan nilai prediksi pada grid 3x3, 8x8, 12x12 Tabel 8. Perbandingan nilai aktual dengan nilai prediksi masing-masing grid di stasiun Indramayu pada tahun 2000 dengan metode RK, PCR dan PLS Bulan Januari Februari Maret April Mei Juni Juli Agustus September Oktober November Desember
Nilai aktual Indramayu 611 98 82 131 67 39 9 3 29 16 150 289
Nilai prediksi RK 272 319 181 141 83 74 62 43 57 55 141 205
3x3 Nilai prediksi PCR 302 358 184 96 83 65 49 40 69 61 84 183
Nilai prediksi PLS 285 327 192 138 83 74 64 47 59 61 137 205
10
Nilai prediksi RK 410 315 135 108 11 0 0 0 0 0 122 277
8x8 Nilai prediksi PCR 301 330 64 197 139 0 54 39 9 59 187 277
Nilai prediksi PLS 309 312 92 180 111 0 0 37 0 29 157 290
Nilai prediksi RK 308 298 102 176 88 0 33 63 52 40 159 300
12x12 Nilai prediksi PCR 282 349 13 179 92 0 3 19 10 90 153 223
Nilai prediksi PLS 291 361 54 181 91 0 0 34 0 27 162 287
'
'
$
$
(
&
' (
$
&
(
!
!
!
"#
"#
"#
Gambar 5. Plot antara nilai aktual Indramayu dan nilai prediksi pada grid 3x3, 8x8, 12x12 Nilai RMSEP dan R2predict hasil pemodelan SD dengan menggunakan metode Regresi Kontinum, PCR, dan PLS pada stasiun Ambon, Pontianak, Losarang, Indramayu dan Yuntinyuat dengan domain 3x3, 8x8 dan 12x12 dapat dilihat pada Tabel 9. Tabel 9. RMSEP dan R2predict Pemodelan SD dengan Metode RK, PCR, PLS RK Stasiun Ambon Pontianak Losarang Indramayu Yuntinyuat Rataan Simpangan baku Stasiun Ambon Pontianak Losarang Indramayu Yuntinyuat Rataan Simpangan baku Stasiun Ambon Pontianak Losarang Indramayu Yuntinyuat Rataan Simpangan baku
&
Domain 3x3 RMSEP R2 246,083 29,60% 101,076 38,20% 91,89 30,80% 125,373 44,30% 115,563 15,70% 136,0 31,72% 62,9 10,75%
Domain 8x8 RMSEP R2 247,169 41,00% 97,345 34,50% 138,381 41,00% 90,164 70,70% 118,051 14,20% 138,2 40,28% 63,8 20,25% PCR Domain 3x3 Domain 8x8 RMSEP R2 RMSEP R2 249,448 25,60% 235,012 40,40% 101,264 36,20% 98,527 33,10% 93,325 30,00% 93,302 32,10% 128,234 39,70% 118,498 48,90% 115,200 16,20% 123,262 8,20% 137,50 29,54% 133,70 32,54% 64,00 9,24% 58,00 15,19% PLS Domain 3x3 Domain 8x8 RMSEP R2 RMSEP R2 244,174 30,10% 244,712 39,10% 99,262 41,20% 94,911 39,90% 93,188 30,40% 94,271 34,60% 124,930 44,70% 109,974 55,70% 115,440 15,60% 122,721 10,90% 135,4 32,40% 133,3 36,04% 62,1 11,40% 63,4 16,16%
Domain 12x12 RMSEP R2 248,086 36,80% 92,192 41,40% 96,671 27,90% 108,494 58,20% 121,688 13,40% 133,4 35,54% 65,1 16,57% Domain 12x12 RMSEP R2 237,806 40,50% 98,931 39,90% 96,783 27,60% 126,032 42,10% 126,97 5,80% 137,30 31,18% 58,00 15,32% Domain 12x12 RMSEP R2 254,588 33,90% 90,119 44,50% 103,714 23,60% 122,043 45,80% 125,784 8,00% 139,2 31,16% 66,1 15,76%
Penutup Regresi Kontinum dengan pra-pemrosesan PCA dapat digunakan untuk mengatasi masalah multikolinearitas pada pemodelan SD untuk peramalan curah hujan bulanan di stasiun Ambon, Pontianak, Losarang, Indramayu dan Yuntinyuat pada grid 3x3, 8x8, dan 12x12.
11
Metode regresi Kontinum menunjukkan hasil yang lebih baik jika dibandingkan dengan metode PCR dan regresi PLS. Hal ini dapat dilihat dari rata-rata nilai RMSEP dan R2predict pada tiap metode dan masing-masing grid. DAFTAR PUSTAKA Breiman, L., Friedman, J.H., Olshen, R.A., dan Stone, C.J (1993), Classification and Regression Trees, Wasdswoth, Belmont, C.A. Cox, D.R. dan Snell, E.j (1989), Analysis of binary Data. Second Edition, Chapman & Hall London. Draper, N.R. dan Smith, H. (1992). Analisis Regresi Terapan, Edisi kedua. Jakarta: PT. Gramedia Pustaka Utama. Jolliffe, I.T. (1986). Principal Component Analysis, Second Ed. New York: SpringerVerlag. Mallpass J. (1996). Improved Mathematical Methods for Drugs Design : Continuum Regression SAS Macro. University of Portsmouth. Ortiz, M.C, Arcos, J, and Sarabia, L.Using continuum regression for quantitative analysis with overlapping signals obtained by differential pulse polarography.Chemometrics and Intelligent laboratory Systems 34 (1996) 245262. Setiawan, Notodiputro K.A.(2003).Regresi Kontinum dengan Prapemrosesan Transformasi Wavelet Diskret, Makalah Seminar Nasional Matematika dan Statistika VI, Surabaya :Institut Teknologi Sepuluh Nopember Sundberg, R.(1993).Continuum Regression and Ridge Regression.Journal of the Royal Statistical Society. Series B (Methodological),Volume 55, Issue 3,653659 Sundberg, R.(2002).Continuum Regression.Article for 2nd ed. of Encyclopedia of Statistical Sciences. Stone M, Brooks RJ. 1990. Continuum Regression : cross-validated sequentially constructed prediction embracing ordinary least squares, partial least squares, and principal component regression (with discussion). Journal of the Royal Statistical Society Series B 52 : 237-269. Sutikno. (2008). “Statistical Downscaling Luaran GCM dan Pemanfaatannya untuk Peramalan Produksi Padi” Disertasi. Bogor: Program Pascasarjana, Institut Pertanian Bogor. Wigena, A.H.,(2006). “Pemodelan Statistical Downscaling dengan Regresi Projection Pursuit untuk Peramalan Curah Hujan Bulanan” Disertasi. Bogor: Program Pascasarjana, Institut Pertanian Bogor. Zorita, E. and von Storch, H., (1999): “The Analog Method As A Simple Statistical Downscaling Technique: Comparison With More Complicated Method”, Journal of Climate, 12, 2474-2489.
12