J. Sains Tek., Desember 2005, Vol. 11, No. 3
PENDEKATAN REGRESI KOMPONEN UTAMA DAN ARIMA UNTUK STATISTICAL DOWNSCALING Khairil Anwar Notodiputro1, Aji Hamim Wigena1, dan Fitriadi2 1
2
Departemen Statistika, FMIPA IPB, Bogor Alumnus Departemen Statistika, FMIPA IPB, Bogor
Diterima 2 Oktober 2005, disetujui untuk diterbitkan 30 November 2005
ABSTRACT General Circulation Models (GCM) is a sophisticated computer simulation model concerning climate and its components, such as weather temperature, water precipitation, as well as how these components change according to time. GCM produces data in term of grid of an area with low resolution (2.50 or ± 300 km2) reflecting global climate condition. Hence, these data are not measured in local or regional scale. Statistical downscaling is a method useful to study climate change based on the GCM data. This statistical method relates global and local climate variables as a projection of GCM output in local scale. However, since the GCM output is basically a high dimensional time series data then standard statistical procedures would not be appropriate. This paper demonstrates that the accuracy and precision of the statistical downscaling could be improved through the use of principal component regression techniques in which the ARIMA models were applied to the regression error. Keywords: statistical downscaling, principal component analysis, ARIMA, regression analysis, general circulation models
1. PENDAHULUAN Curah hujan merupakan peubah yang paling sering digunakan dalam penelitian mengenai dampak perubahan iklim. Berkaitan dengan iklim di Indonesia, proses pembentukan hujan di kawasan tropis merupakan proses yang paling sukar disimulasikan. Hingga saat ini belum ada satu model iklim yang mampu mensimulasi curah hujan di Indonesia dengan baik. Topografi dan interaksi laut, darat, atmosfir yang sangat kompleks menambah kerumitan simulasi dan prediksi curah hujan di wilayah Indonesia. Untuk itu, modelmodel iklim resolusi tinggi perlu dikembangkan dalam skala-skala lokal atau setara dengan skala provinsi dan kabupaten1. General Circulation Models (GCM) adalah alat terpenting dalam upaya memahami sistem iklim. GCM menghasilkan data dalam bentuk grid atau petak wilayah dengan resolusi rendah (2,5° atau ± 300 km2) yang merepresentasikan keadaan iklim global tapi tidak dalam skala regional atau lokal. Untuk menggunakan data GCM sebagai penduga bagi penelitian perubahan iklm lokal, diperlukan pendekatan yang mampu mengatasi perbedaan skala tersebut2. Pendekatan yang telah banyak dilakukan untuk menjembatani perbedaan skala itu adalah dengan
2005 FMIPA Universitas Lampung
statistical downscaling. Ide dasarnya adalah menghubungkan peubah iklim global dan lokal sebagai proyeksi output GCM dalam skala lokal menggunakan metode statistika. Kendala yang dihadapi dalam penggunaan metode statistika untuk downscaling adalah data GCM yang digunakan berupa data deret waktu dengan jumlah yang banyak dan tidak saling bebas sehingga tidak dapat langsung digunakan dalam model statistik. Berbeda dengan dynamical downscaling yang merupakan pendekatan downscaling melalui simulasi secara kontinu untuk mendapatkan pendugaan data pada skala yang lebih kecil atau resolusi tinggi (10-50 km), pusat perhatian statistical downscaling adalah pada hubungan statistik antara peubah iklim global dan peubah iklim lokal yang diasumsikan tidak berubah walaupun terjadi perubahan iklim. Dalam beberapa tahun terakhir, beberapa teknik statistical downscaling telah dikembangkan diantaranya regresi linear berganda, regresi komponen utama, dan korelasi kanonik (untuk multiple respon)3. Dari metode-metode tersebut yang paling banyak dipergunakan adalah regresi komponen utama, namun metode ini sendiri masih memiliki tingkat pendugaan yang kurang baik dan belum mampu mengatasi masalah autokorelasi yang biasa muncul pada data deret waktu. Salah
137
Khairil Anwar Notodiputro, dkk…Pendekatan Regresi Komponen Utama
komponen utama (KU) terhadap peubah respon Y (Persamaan 2).
satu teknik yang dapat memperbaiki tingkat pendugaan dari model regresi adalah dengan melakukan pemilihan data GCM yang berkorelasi tinggi dengan respon dan dengan mengkombinasi model regresi dan model ARIMA.
Y = w0 + w1 KU 1 + w 2 KU 2 + ..+ w p KU p
Setelah diperoleh p komponen utama dari analisis komponen utama, kita harus memilih k < p komponen utama untuk diregresikan dengan peubah tak bebas Y, pemilihan k komponen utama yang akan diregresikan dapat dilakukan dengan mengambil k komponen utama yang mewakili sebagian besar keragaman dari data asal. Pemodelan regresi komponen utama ini dilakukan melalui beberapa tahap : a. Analisis komponen utama terhadap data temperatur udara. b. Pemilihan komponen utama yang memiliki akar ciri terbesar. c. Regresikan skor komponen utama terpilih dengan data curah hujan DAS Saguling.
Penelitian ini bertujuan untuk mengkaji penggunaan kombinasi regresi komponen utama dan ARIMA untuk menduga curah hujan dan mengkaji pengaruh penggunaan data GCM yang berkorelasi tinggi dengan respon terhadap keakuratan pendugaan.
2. METODE PENELITIAN 2.1. Bahan Data yang digunakan dalam penelitian ini adalah data keluaran GCM yang diperoleh dari situs www.irdl.columbia.edu, berupa data temperatur udara tahun 1986-2002 berukuran 41x24 grid dengan cakupan area membentang dari 82,50BT sampai dengan 157,50BT dan 21,90 LU sampai dengan 21,90 LS. Data GCM (domain) yang digunakan dipilih berdasarkan kriteria dalam Von Storch dalam Bergant2 yang menyatakan bahwa jumlah domain minimal 8 x 8 grid di sekitar wilayah respon. Domain yang dipilih adalah yang berkorelasi (r) tinggi dengan respon. Respon yang digunakan dalam penelitian ini adalah curah hujan rata-rata dari tahun 1986-2002 di DAS Saguling yang diperoleh dari BPP Teknologi. Data periode Januari 2002-Desember 2002 digunakan untuk membandingkan keakuratan hasil peramalan (validasi). 2.2. Prosedur Penelitian Tahap-tahap yang dilakukan dalam penelitian ini adalah: 1. Regresi komponen utama data GCM terhadap data curah hujan. Koefisien-koefisien β pada regresi linear berganda seperti pada Persamaan 1: Y = β 0 + β1 X1 + β 2 X 2 + ... + β k X k
(1)
memiliki nilai dugaan ragam yang overestimate apabila terdapat korelasi antar peubah bebas, sehingga nilai dugaan bagi β seringkali menjadi “aneh” dan pada pengujian pengaruh, beberapa peubah penjelas akan dinyatakan tidak ada pengaruhnya walaupun dari data yang didapatkan mengindikasikan hal yang sebaliknya. Adanya korelasi antar peubah bebas dapat menyebabkan pendugaan dari model regresi kuadrat terkecil menjadi tidak akurat5. Regresi komponen utama dimodelkan dengan cara meregresikan skor
138
(2)
2.
Menyusun model deret waktu ARIMA dari sisaan analisis regresi. Deret waktu Yt dikatakan mengikuti model ARIMA (p,d,q) (auto regressive integrated moving average) jika model tersebut merupakan gabungan antara model regresi diri berordo p dan rataan bergerak berordo q yang telah dilakukan pembedaan (diferencing) derajat-d terhadap data yang asli. Persamaan umum dari model ARIMA (p,d,q) ini adalah seperti pada Persamaan 3 :
φ (B )(1 − B )d y t = θ (B )ε t
(3)
dengan B adalah operator langkah mundur, serta φ dan θ masing-masing merupakan komponen AR dan MA. Pemasukan faktor musiman (S) ke dalam model akan dapat mereduksi besarnya sisaan sistematis yang disebabkan oleh faktor musim, akan tetapi sekaligus menambah kerumitan penjelasan teoritis bagaimana proses ini berlangsung4. Bentuk umum dari model campuran dengan faktor musiman ini adalah ARIMA (p,d,q)(P,D,Q)S (Persamaan 4):
φBΦ (B s )(1 − B )d (1 − B )D yt = θ (B )Θ(B S )ε t (4) pada persamaan tersebut Φ merupakan komponen AR musiman dan Θ merupakan komponen MA musiman, serta D dan S masing-masing adalah ordo pembedaan musiman dan panjang periode musiman4. Pemodelan ARIMA dilakukan melalui beberapa tahap : a. Pemeriksaan kestasioneran data. Hal ini dilakukan dengan melihat plot data terhadap
2005 FMIPA Universitas Lampung
J. Sains Tek., Desember 2005, Vol. 11, No. 3
waktu, plot korelasi diri, dan plot korelasi diri parsialnya. b. Jika data tidak stasioner, maka dilakukan pembedaan dan transformasi terhadap data asli. Pembedaan dilakukan dimulai dengan pembedaan ordo 1 dan seterusnya sampai data tersebut bersifat stasioner baik dalam rataan maupun dalam ragam. c. Jika sudah stasioner, lakukan identifikasi model, dengan melihat plot korelasi diri dan plot korelasi diri parsialnya, kemudian diambil beberapa rumusan model sementara. d. Pendugaan semua parameter dari modelmodel tersebut dan menguji kebaikan model tersebut dengan melihat ACF dan ACF parsial sisaan atau dengan melihat nilai statistik Q Box-Pierce. e. Dengan nilai awal tertentu dilakukan proses iteratif untuk memperoleh penduga yang optimum. Jika belum menghasilkan penduga yang stabil (tidak mempunyai kesalahan baku yang kecil), maka dilakukan overfitting dengan memperkecil p atau q yang mempunyai t-hitung kecil atau menambah ordo p dan q yang mempunyai t-hitung besar4. f. Pilih model yang mempunyai KTG terkecil yang akan digunakan untuk peramalan. 3.
Menggabungkan model ARIMA sisaan dengan model regresi dan menggunakannya untuk melakukan peramalan terhadap curah hujan Januari-Desember 2002. Hasil ramalan ini kemudian dibandingkan dengan hasil ramalan menggunakan model regresi KU. Penggunaan model regresi pada data deret waktu umumnya memiliki kendala tidak dipenuhinya asumsi kebebasan pada sisaan. Hal ini akan menyebabkan nilai dugaan parameter tidak lagi menjadi penduga terbaik5. Salah satu metode alternatif untuk mengatasi sisaan yang tidak saling bebas adalah dengan kombinasi regresi dan model deret waktu ARIMA. Regresi-ARIMA dimodelkan dengan cara membentuk model ARIMA dari deret sisaan regresi sehingga dihasilkan model ) θ ( B ) ε t = θ ( B )ηt . Model ini kemudian
yt = b0 + b1 x1t + b2 x2t + ... + bk xkt + θ −1 ( B ) φ 1 ( B )ηT (6)
dengan η menyebar normal dengan ragam yang mungkin berbeda dari6.
3. HASIL DAN PEMBAHASAN 3.1. RKU menggunakan domain 8x8 Analisis komponen utama menunjukkan bahwa tiga komponen utama pertama mampu menjelaskan keragaman data sebesar 95% sedangkan KU 11 dan seterusnya memiliki nilai akar ciri yang sangat kecil (<0,2%) yang menunjukkan adanya masalah multikolinearitas pada data asal. Tahap selanjutnya adalah meregresikan skor KU yang diperoleh dengan data curah hujan. Skor KU yang digunakan dalam model regresi adalah skor KU 1,2, dan 3. Hasil analisis RKU menunjukkan masalah multikolinearitas pada data temperatur udara telah teratasi yang diindikasikan dengan nilai VIF sebesar 1. Nilai R2 sebesar 47,9% menunjukkan bahwa model RKU ini masih kurang baik. Nilai RMSE yang dihasilkan oleh model ini sebesar 63.7. Meskipun model ini telah mengatasi masalah multikolinearitas, masalah autokorelasi yang biasa muncul dalam data deret waktu belum teratasi. Hal ini dapat dilihat dari nilai uji Durbin Watson sebesar 1,44 yang berada pada daerah keputusan masih terdapatnya autokorelasi positif pada sisaan. Model RKU tersebut kemudian digunakan untuk menduga curah hujan di DAS Saguling pada periode Januari-Desember 2002 dan dihasilkan nilai R2 sebesar 52% dan RMSE sebesar 81,7. 3.2. Model ARIMA Deret sisaan regresi untuk periode 1986–2001 tampak sudah stasioner, hal ini dapat dilihat dari fluktuasi data yang berada disekitar nilai yang konstan (Gambar 1).
disubtitusi kedalam persamaan regresi sebagai pengganti galat ε pada persamaan regresi.sehingga pendugaan pada waktu ke-t menjadi Persamaan 5: ) ) ) y *t = yt + ε t (5) ) y = nilai dugaan y dari persamaan regresi ) ε = nilai dugaan galat ε dari model ARIMA Bentuk umum model regresi-ARIMA adalah terdapat pada Persamaan 6:
2005 FMIPA Universitas Lampung
Gambar 1. Plot deret sisaan
139
Khairil Anwar Notodiputro, dkk…Pendekatan Regresi Komponen Utama
Hal ini diperkuat oleh plot korelasi diri yang menurun dengan cepat setelah beda-waktu (time lag) 1 (Gambar 2).
sebagai pengganti ε dan menggunakannya untuk menduga curah hujan DAS Saguling. Tabel 1 memperlihatkan perbandingan hasil pendugaan curah hujan DAS Saguling pada periode Januari 1986-Desember 2001 menggunakan model RKU dan model regresiARIMA. Pada tabel tersebut terlihat bahwa pendugaan dengan model regresi-ARIMA menghasilkan nilai R2 sebesar 56% dan nilai RMSE 57.6, lebih baik dibandingkan R2 dan RMSE RKU.
Identifikasi model ARIMA dilakukan dengan memperhatikan beberapa nilai awal dari korelasi diri dan korelasi diri parsialnya yang berbeda nyata dari nol. Plot ACF menunjukkan bentuk cuts off setelah beda waktuke-1. Plot PACF (Gambar 3) juga menunjukkan bentuk cuts off setelah beda waktuke-1 dengan pola yang lebih tajam dibandingkan plot ACF.
Gambar 3. Plot PACF deret sisaan Dari hasil identifikasi tersebut diperoleh model awal AR(1). Model tersebut tampaknya sudah optimal, hal ini dapat dilihat dari hasil uji dugaan parameter yang nyata pada taraf 5% dan hasil uji Q Box-Pierce yang lebih besar dari taraf nyata 0.05 serta tidak ada nilai yang nyata pada plot korelasi diri sisaannya (RACF) dan plot korelasi diri parsial sisaannya (RPACF). Untuk memperoleh model yang terbaik, dilakukan overfitting dan diperoleh model ARIMA (1,0,0)(2,0,2) yang menghasilkan KTG lebih kecil dibandingkan dengan model awal, serta memenuhi asumsi pendugaan parameter dan uji kebaikan model. Model ini dapat dituliskan :
(1−φ1B)(1−ΦB12 −ΦB24 ) Xt = (1−Θ1B12 −Θ2 B12 )εt dengan φ = 0.2897, Φ1 = 0.8420, Φ2 =-0.9647, Θ1 = 0.7600, Θ2= 0.8383 3.3. Regresi-ARIMA Tahap selanjutnya adalah mensubtitusi model ARIMA(1,0,0)(2,0,2) kedalam model RKU
140
RKU 47.9% 63.7
2
R RMS error
RKU-ARIMA 56% 57.6
Peramalan curah hujan Januari 2002-Desember 2002 ditunjukkan pada Gambar 4, dari Gambar tersebut tampak bahwa model RKU gagal memprediksi perubahan curah hujan pada bulan Januari-Maret, Juni, Juli dan September Sedangkan model RKU-ARIMA, meskipun gagal memprediksi perubahan curah hujan pada bulan Juni, September dan November, model ini mampu memberikan pendugaan curah hujan lebih baik dibandingkan model RKU. Hal ini terutama dapat dilihat dari kemampuan model RKU-ARIMA menduga perubahan tajam yang terjadi pada bulan Januari-April. 350
Curah Hujan
Gambar 2. Plot ACF deret sisaan
Tabel 1. Perbandingan R2 dan RMSE RKU dan RKU-ARIMA periode Januari 1986 – Desember 2001
250 150 50 -50 1
2
3
4
5
6
7
8
9
10
11 12
Bulan Aktual
Reg KU
Reg ARIMA
Gambar 4. Peramalan curah hujan Januari Desember 2002 Perbandingan nilai R2 dan RMSE pada periode ini disajikan pada Tabel 2. Dari tabel tersebut terlihat bahwa model RKU menghasilkan nilai R2 sebesar 52% dan RMSE sebesar 81.7 sedangkan RKUARIMA menghasilkan pendugaan yang lebih baik dengan nilai R2 sebesar 62% dan RMSE sebesar 73.1
2005 FMIPA Universitas Lampung
J. Sains Tek., Desember 2005, Vol. 11, No. 3
Tabel 2. Perbandingan R2 dan RMSE RKU dengan RKU-ARIMA periode Januari 2002 – Desember 2002 R2 RMS error
RKU 52% 81.7
RKU-ARIMA 62% 73.1
3.4. Perbandingan Keakuratan Model dengan Domain yang Berbeda Hasil korelasi antara data GCM dengan data curah hujan DAS Saguling menghasilkan nilai korelasi terbesar sebesar 0,71 dan nilai korelasi terkecil sebesar 0,001. Domain yang dipilih dalam penelitian ini adalah yang memiliki korelasi ≥0,7 dan korelasi ≥0,6. Domain yang memiliki korelasi ≥ 0,7 berjumlah 15 grid sedangkan yang memiliki korelasi ≥ 0,6 berjumlah 187 grid. Domain tersebut kemudian digunakan untuk menduga curah hujan menggunakan metode RKU dan RKU-ARIMA. Jumlah KU yang digunakan dalam model regresi adalah tiga, dengan besar keragaman yang mampu dijelaskan lebih dari 95%. Nilai R2 dan RMSE yang dihasilkan menggunakan kedua domain ini dan domain sebelumnya dapat dilihat pada Tabel 3 dan Tabel 4. Penggunaan domain yang berkorelasi tinggi dengan respon dalam RKU tampak memberikan pendugaan yang lebih baik dibandingkan dengan penggunaan domain 8x8, dengan peningkatan R2 sekitar 5% dan penurunan RMSE (±3). Pemodelan menggunakan RKU-ARIMA menghasilkan pendugaan yang lebih baik dari RKU. Hal ini dapat dilihat dari peningkatan nilai R2 dan nilai RMSE yang semakin kecil untuk ketiga model. Hasil terbaik diperoleh untuk penggunaan domain dengan korelasi ≥0,6, sedangkan peningkatan R2 dan RMSE terbesar diperoleh untuk penggunaan domain 8x8. Pendugaan untuk periode Januari 2002-Desember 2002 disajikan pada Tabel 5 dan Tabel 6. Hasil terbaik menggunakan RKU untuk periode Januari 2002-Desember 2002 diperoleh menggunakan domain dengan korelasi ≥0,7, sedangkan domain 8x8 ternyata memberikan hasil yang hampir sama dengan domain dengan korelasi ≥0,6. Ketiga model RKU-ARIMA pada periode ini juga memberikan hasil yang lebih baik dibandingkan dengan RKU dengan peningkatan R2 berkisar antara 1-10%. Hasil terbaik justru diperoleh dengan penggunaan domain 8x8. Hal ini terjadi karena model ARIMA sisaan RKU menggunakan domain ini lebih rumit dibandingkan dua model ARIMA lainnya dengan adanya unsur musiman.
2005 FMIPA Universitas Lampung
4. KESIMPULAN Hasil peramalan curah hujan menggunakan model RKU menghasilkan nilai R2 sebesar 52-56%, sementara peramalan menggunakan model RKUARIMA menunjukkan adanya peningkatan R2 sebesar 3-10% dan penurunan RMSE sebesar 1-7 dibandingkan model RKU. Hal ini menunjukkan bahwa RKU-ARIMA dapat digunakan untuk memperbaiki tingkat pendugaan dari model RKU. Penggunaan tiga domain yang berbeda menunjukkan bahwa peningkatan R2 akan lebih tinggi lagi jika digunakan domain berukuran 8x8. Tabel 3. Perbandingan R2 RKU dan RKUARIMA dengan tiga domain yang berbeda periode Januari 1986 – Desember 2001 Domain r Jml grid 15 ≥ 0,6 187 ≥ 0,7 0,1-0.55 64 (8X8)
2
RKU 52.90% 52.70% 47.90%
R RKU-ARIMA 57.70% 52.80% 56.08%
Tabel 4. Perbandingan RMSE RKU dan RKUARIMA dengan tiga domain yang berbeda periode Januari 1986 – Desember 2001 Domain r Jml grid 15 ≥ 0,6 187 ≥ 0,7 0,1-0.55 64 (8X8)
RKU 60.04 60.15 63.70
RMSE RKU-ARIMA 56.09 59.47 57.60
Tabel 5. Perbandingan R2 RKU dan RKUARIMA dengan tiga domain yang berbeda periode Januari –Desember 2002 Domain r Jml grid RKU 15 52.90% ≥ 0,6 187 56.65% ≥ 0,7 0,1-0.55 64 (8X8) 52.87%
2
R RKU-ARIMA 55.80% 57.73% 62.25%
Tabel 6. Perbandingan RMSE RKU dan RKUARIMA dengan tiga domain yang berbeda periode Januari–Desember 2002 Domain r Jml grid 15 ≥ 0,6 187 ≥ 0,7 0,1-0.55 64 (8X8)
RKU 81.57 79.25 81.70
RMSE RKU-ARIMA 79.88 78.57 73.10
141
Khairil Anwar Notodiputro, dkk…Pendekatan Regresi Komponen Utama
Output: A Review of Methods and Limitation. Progress in Physical Geography, 21: 530-548
DAFTAR PUSTAKA 1.
Ratag, M. A. 2002. Riset Matahari-Bumi untuk Prediksi Iklim. Suara Pembaruan, 11 November 2002.
2.
Bergant, K. and Lucka, K 2002. Evaluation of Different Statistical Model and Potential Predictors for Statistical Downscaling of Large-Scale Predictor Fields to Near Ground Air Temperature In Slovenia. http://mrvar.fdv.uni-lj.si/pub/mz/mz17/ bergant.pdf
3.
142
Wilby, R. L. and Wigley, T. M. L. 1997. Downscaling General Circulation Model
4.
Makridakis, S. Wheelwright, S. C. and MCGee, V. E. 1978. Forecasting Methods and Aplication Ed ke-2 Jhon Wiley and Sons, Inc, New York.
5.
Rawling, J. O. 1988. Applied Regression Analysis :A Research Tool.. Wardworths and Brook/Cole Advance Book and Software. Pasific Groove. California.
6.
Pindyck, R. S. & Rubinfeld, D. L. 1981. Econometric Models and Economic Forecast. McGraw-Hill Inc, Boston.
2005 FMIPA Universitas Lampung