Seminar Nasional Statistika IX Institut Teknologi Sepuluh Nopember, 7 November 2009
PEMODELAN STATISTICAL DOWNSCALING DENGAN PENDEKATAN REGRESI KONTINUM-PCA (STUDI KASUS : STASIUN PONTIANAK DAN AMBON) Hendy Purnomoadi1, Setiawan2, Sutikno2 1
Mahasiswa S2 Jurusan Statistika Institut Teknologi Sepuluh Nopember Surabaya
2
Staf Pengajar Jurusan Statistika Institut Teknologi Sepuluh Nopember Surabaya
email:
[email protected],
[email protected],
[email protected]
Abstrak
Pendekatan SD menggunakan data regional atau global untuk memperoleh hubungan fungsional antara skala lokal dengan skala global GCM dapat dimodelkan dengan regresi. Pendekatan SD disusun berdasarkan adanya hubungan antara grid skala besar (prediktor) dan grid skala lokal (respon) yang dinyatakan dengan model statistik yang dapat digunakan untuk menterjemahkan anomali-anomali skala global menjadi anomali dari beberapa variabel iklim lokal. Pada umumnya model SD melibatkan data deret waktu dan data spasial GCM. Data GCM merupakan data spasial dan temporal dimana kemungkinan besar terjadi korelasi spasial antara data pada grid yang berbeda dalam satu domain. Adanya masalah mulikolinearitas mengharuskan perlunya pra-pemrosesan data variabel X. Regresi Kontinum dengan prapemrossan Analisis Komponen Utama merupakan salah satu alternatif untuk pemodelan SD. Dari hasil pengolahan data untuk staiusin Indramayu, Losarang dan Juntinyuat masing-masing diperoleh koefisien determinasi sebesar 42,63%, 44,08% dan 38,78%. Kata kunci : Analiis komponen utama, regresi kontinum
Pendahuluan Perubahan iklim yang terjadi sering digunakan untuk meramalkan keadaan iklim yang akan datang. Untuk pendugaan iklim yang akan datang hanya mungkin dilakukan dengan menggunakan model iklim. Salah satu model iklim yang digunakan untuk meramalkan keadaan iklim adalah Global Circulation Models (GCM). GCM adalah suatu model berbasis komputer yang terdiri dari berbagai persamaan numerik dan deterministik yang terpadu dan mengikuti kaidah-kaidah fisika. GCM merupakan alat prediksi utama iklim dan cuaca secara numerik dan sebagai sumber informasi primer untuk menilai pengaruh perubahan iklim (Wigena, 2006). Teknik downscaling yang digunakan adalah teknik Statistical Downscaling (SD), di mana merupakan model statistik yang menggambarkan hubungan antara data pada grid-grid berskala besar (GCM) dengan data pada grid berskala lebih kecil. Data GCM yang berskala besar memungkinkan adanya multikolinearitas dan adanya outlier. Permasalahan yang muncul pada Teknik SD yaitu menentukan domain (grid) dan pereduksian dimensi, mendapatkan variabel penjelas yang mampu menjelaskan keragaman variabel lokal, dan mendapatkan metode statistik yang sesuai karakteristik data, sehingga bisa menggambarkan hubungan antara variabel independen dan variabel dependen, serta dapat mengakomodasi kejadian ekstrim. Metode yang sering 1
digunakan untuk pra-pemrosesan adalah Principal Component Analysis (PCA), Tranformasi Wavelet Diskrit (TWD), ROBPCA, dan Kernel PCA. Selanjutnya untuk memodelkan antara variabel respon dengan variabel hasil pra-pemrosesan digunkan Regresi Kontinum (RK). Hal ini karena RK merupakan salah satu metode yang potensial untuk mengatasi adanya multikolinearitas. Tujuan dari penelitian ini adalah untuk mengkaji regresi Kontinum dengan pra-pemrosesan PCA dengan kriteria RMSEP dan R2. Regresi Kontinum Regresi Kontinum adalah metode estimasi regresi regularized (yang diatur), dan digunakan untuk menangani masalah kolineritas (collinearity atau multicollinearity), yang berarti ada pendekatan hubungan linear antar variabel prediktor. Regresi Kontinum dikembangkan dari regresi kuadrat terkecil, regresi komponen utama, dan regresi kuadrat terkecil parsial. Berdasarkan model regresi linear klasik sebagai berikut : (1) y Xβ ε dengan variabel X (matriks data) yang sudah dipusatkan (centered) dan y adalah vektor peubah respon yang sudah dipusatkan. Pada kasus kolinearitas menunjukkan bahwa matriks X tidak full rank. Akibatnya, XTX (hampir) singular. Pada model regresi linear terboboti formula matematis dapat ditulis sebagai berikut, dengan memaksimumkan n
rw2
2
yi wTxi
2
wT s y 2 wT Sw
i 1 n
yi2
i 1
n
(wT xi )2
(2)
i 1
xi adalah vektor pengamatan peubah bebas ke-i (i=1,2, ..., n) berukuran (px1), s XT y dan S XT X. dengan
Pada regresi komponen utama pada prinsipnya adalah memaksimumkan : n
wT xi
Sw
2
wT Sw
(3)
i1
Dari rumus (3) dapat dijelaskan bahwa prinsip dasar dalam Regresi Komponen Utama adalah memaksimumkan keragaman dari peubah bebas X sehingga dibentuk peubah baru berupa beberapa komponen utama yang merupakan kombinasi linear dari peubah-peubah asal (X). Selanjutnya data peubah respon Y diregresikan dengan beberapa komponen utama tersebut dengan menggunakan teknik regresi ganda. Pada regresi kuadrat terkecil parsial prinsipnya adalah memaksimumkan : n
Sw
2
yi wT xi
wTs
2
(4)
i 1
Kemudian dari rumus (4) dapat diketahui bahwa prinsip Regresi Kuadrat Terkecil Parsial adalah memaksimumkan kovarian antara peubah bebas dengan peubah respon. Pada Regresi Kontinum peubah baru dituliskan dalam model sebagai berikut Th XWh y Thξ ε dengan (5) dan Wh w1 , w2 ,...,wh matriks berisi h kolom peubah dengan h
2
wi argmaxCovXw, y 2VarXw [
/(1 )] 1
(6)
w
dengan kendala
wi
1 dan CovXwi , Xwj merupakan bilangan real 0
0 untuk i j sedangkan parameter 1.
penyesuaian Alternatif lain adalah formula yang dikembangkan oleh Malpass (1996) sebagai berikut : 2 (7) wi argmaxCovXw, y (2 2 4 )VarXw ( 1 2 ) w
Dari rumus (6) dibuat suatu rumus umum sebagai berikut :
G
2
wTXTy wTXTXw
( /(1
)) 1
(8)
selanjutnya disebut metode Stone. Dari rumus (7) dapat dibuat menjadi :
G wTXTy
(2 2 4 2 )
wTXTXw
( 12 )
selanjutnya disebut metode Portsmouth (Malpass, 1996). Pendugaan parameter regresi ξ pada persamaan (5) dilakukan menggunakan metode kuadrat terkecil yang diformulasikan sebagai berikut : 1 ξˆ ,h ThT Th ThT y yˆ ,h XWhξˆ ,h 1 βˆ ,h Wh ThT Th ThT y
dengan
(9) dengan (10)
(11)
merupakan parameter penyesuaian dan h banyaknya komponen.
Principal Components Analysis (PCA) Salah satu metode statistik yang sering dipakai pada permasalahan yang melibatkan variabel lebih dari satu dan antar variabel tersebut saling berkorelasi (dependent). PCA adalah suatu prosedur untuk mereduksi dimensi data dengan cara mentransformasi variabel-variabel asal yang berkorelasi menjadi sekumpulan variabel baru yang tidak berkorelasi. Variabel-variabel baru itu dikatakan sebagai principal component (PC) (Johnson, 2002). PC dapat diperoleh dari pasangan eigenvalue-eigenvektor matriks kovarian maupun matriks korelasi. Jika satuan data antarvariabel tidak sama, maka disarankan untuk menstandarisasikan data terlebih dahulu. Hal ini diperlukan agar dominansi satu atau dua variabel dalam PC dapat dihindari. Selanjutnya bila Σ adalah matriks variankovarian dari vektor random X’=[ X1,X2,…, Xp]. Dalam hal ini Σ, didapatkan dari metode Maximum Likelihood Estimation (MLE) dengan rumus,
dengan :
xi n
Σ
1 h xi μ xi μ t n 1i 1
(12)
μ
1h x ni 1 i
(13)
= vektor observasi ke-i = jumlah seluruh observasi
3
dan Σ memiliki pasangan eigen value-eigen vektor ( 1
2
...
p
e
1 1 ),
(
2 2 ),
e
…,(
e dimana
p p)
0. Maka kombinasi linier PC dapat ditulis sebagai berikut :
Z1 = e1’X = e11X1 + e21X2 + . . . + ep1Xp Z2 = e2’X = e12X1 + e22X2 + . . . + ep2Xp . . .
Zp = ep’X = e1pX1 + e2pX2 + . . . + eppXp
(14) dengan: Z1 = PC pertama, yang mempunyai varians terbesar Z2 = PC kedua, yang mempunyai varians terbesar kedua Zp = PC ke-p, yang mempunyai varians terbesar ke-p X1 = variabel asal pertama X2 = variabel asal kedua Xp = variabel asal ke-p Model PC ke-i dapat juga ditulis dengan notasi Zi = ei’X dimana : i = 1,2,...,p dan oleh karenanya : (15) Var(Zi ) ei' ei i 1, 2,...,p
Cov(Zi , Zk ) ei' ek
i k
(16) PC tidak berkorelasi dan mempunyai varians yang sama dengan eigenvalue dari , sehingga: p (17) VarX tr 11 22 ... pp 1 2 ... p i i1 Bila total variansi populasi adalah 11 22 ... pp 1 2 ... p , maka:
i
Proporsi varians ke-i =
(18) ... 1 2 p Apabila PC yang diambil sebanyak k dimana (k
(20)
i
p
Ukuran kebaikan Model Ukuran kebaikan model yang digunakan adalah nilai koefisien determinansi R 2 yang menggambarkan kebaikan prediksi (Walpole, 1995):
R2
2 n ˆ Yi Y i1 n 2 Yi Y i1
(21)
4
Selain nilai di atas terdapat ukuran kebaikan hasil prediksi data validasi (out of sample):
Npred RMSEP
yˆ ipred yi 2 i1 Npred
(22)
GCM GCM adalah suatu model berbasis komputer yang terdiri dari berbagai persamaan numerik dan deterministik yang terpadu dan mengikuti kaidah-kaidah fisika. Model ini menduga perubahan unsur-unsur cuaca dalam bentuk luaran gridgrid yang berukuran 100-500 km menurut lintang dan bujur (von Stroch et al. 1993 dalam Sutikno, 2008). GCM merupakan suatu alat penting dalam studi keragaman iklim dan perubahan iklim (Zorita dan Storch, 1999). Namun informasi GCM masih berskala global, sehingga sulit untuk memperoleh langsung informasi berskala lokal dari GCM. Tetapi GCM masih mungkin digunakan untuk memperoleh informasi skala lokal atau regional bila teknik downscaling digunakan (Fernandez, 2005 dalam Wigena, 2006). Downscaling didefinisikan sebagai upaya menghubungkan antara sirkulasi variabel skala global (variabel penjelas) dan variabel skala lokal (variabel respon) (Sutikno, 2008). Untuk menjembatani skala GCM yang besar dengan skala yang lebih kecil ( kawasan yang menjadi studi) digunakan teknik Statistical Downscaling (SD). SD adalah suatu proses downscaling yang bersifat statik dimana data pada grid-grid berskala besar dalam periode dan jangka waktu tertentu digunakan sebagai dasar untuk menentukan data pada grid berskala lebih kecil (Wigena, 2006). Pendekatan SD menggunakan data regional atau global untuk memperoleh hubungan fungsional antara skala lokal dengan skala global GCM. Secara umum bentuk hubungan tersebut dinyatakan dengan: Y = f(Z) + ε dengan: Y : variabel respon (curah hujan) Z : variabel penjelas (gabungan dari hasil reduksi spasial (lintang-bujur) variabel GCM) ε : sisaan Metodologi Data yang digunakan adalah data sekunder yang diperoleh dari data luaran GCM model CSIRO-Mk3 dari Australia, dengan domain GCM yang digunakan adalah domain 3x3, dan 8x8 dari 2 Stasiun. Stasiun Pontianak menggunakan periode data yaitu tahun 1947-1990, sedangkan Stasiun Ambon menggunakan periode data yaitu tahun 1900-1940. Variabel yang digunakan adalah variabel luaran CSIRO Mk3 sebagai variabel independen yang meliputi: precipitable water (PRW), tekanan permukaan laut (PSL), komponen angin meridional (VA), komponen zonal (UA), ketinggian geopotensial (ZG), dan kelembaban spesifik (HUSS). Ketinggian (level) yang digunakan adalah 850 hPa, 500 hPa, dan 200 hPa. Sedangkan variabel dependen yaitu data curah hujan bulanan dari stasiun Pontianak dan Ambon. Untuk mengkaji kinerja regresi Kontinum dengan reduksi dimensi PCA ada dua kriteria yang digunakan, yaitu : R2 dan RMSEP. Model dikatakan lebih baik jika R2 lebih tinggi dan RMSEP minimum. 5
Hasil dan Pembahasan Pra-pemrosesan Pemodelan SD Langkah awal dalam pemodelan SD adalah reduksi dimensi, yang disebut sebagai pra-pemrosesan data. Pereduksian dilakukan pada dimensi spasialnya yaitu lintang dan bujur atau disebut grid dan pada semua variabel di setiap level serta pada setiap domain. Dalam hal ini setiap grid adalah variabel prediktor, sehingga pada domain 3x3, 8x8 secara berurutan ada 9, 64 variabel yang akan direduksi. Metode PCA Prosedur untuk menyusun komponen utama dengan PCA dilakukan melalui tiga tahap. Pertama, mendapatkan matriks varian-kovarian klasik. Kedua, menurunkan eigenvalue dan eigenvector berdasarkan matriks varian-kovarian pada tahap pertama. Terakhir adalah melakukan kombinasi linear antara eigenvector dengan data asal, sehingga diperoleh komponen utama. Melalui langkah-langkah menggunakan metode PCA, didapatkan jumlah komponen utama dan keragaman kumulatif untuk variabel-variabel GCM, yang tercantum dalam Tabel 1. Tabel 1 Jumlah PC Optimal dan Keragaman Kumulatif Variabel Luaran GCM dengan Menggunakan Metode PCA No.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
Variabel
HUSS HUS200 HUS500 HUS850 PRW PSL UA200 UA500 UA850 VAS VA200 VA500 VA850 ZG200 ZG500 ZG850
Domain 3x3 Pontianak Jml Ker. PC Kum. (*) 0.872 2 0.968 1 0.898 1 1 0.886 2 0.947 0.980 1 1 0.976 1 0.934 2 0.994 0.948 1 0.990 1 0.939 2 0.955 1 0.999 1 0.999 1 0.997 1
Domain 8x8 Pontianak Jml Ker. PC Kum. (*) 0.850 14 0.932 2 0.921 2 2 0.858 2 0.875 0.862 1 1 0.859 2 0.920 2 0.956 0.853 2 0.935 1 0.870 3 0.930 3 0.985 1 0.990 1 0.943 1
Domain 3x3 Ambon Jml Ker. PC Kum. (*) 1 0.965 1 0.964 1 0.952 1 0.914 1 0.951 1 0.982 1 0.983 1 0.939 1 0.950 1 0.956 1 0.985 1 0.913 1 0.897 1 0.996 1 0.994 1 0.979
Domain 8x8 Ambon Jml Ker. PC Kum. (*) 3 0.866 1 0.874 2 0.920 2 0.935 2 0.930 1 0.921 1 0.897 2 0.877 2 0.952 2 0.877 1 0.891 3 0.878 3 0.875 1 0.970 1 0.963 1 0.926
Tabel 1 menunjukkan bahwa komponen yang dihasilkan variabel-variabel GCM dengan menggunakan metode PCA berdasarkan ketentuan bahwa keragaman yang dijelaskan ≥ 85%, pada domain 3x3 dan 8x8 rata-rata adalah 1 komponen utama, kecuali variabel HUSS yang mempunyai jumlah komponen utama optimal 14 komponen utama. Hal ini menunjukkan bahwa secara umum variabel pada level permukaan mempunyai komponen utama yang semakin banyak sebanding dengan semakin luasnya domain, kecuali variabel PSL. Berbeda dengan variabel ZG semakin luas domain ternyata tidak mempengaruhi banyaknya komponen utama yang dipakai. 6
Metode Regresi Kontinum Pemodelan SD dengan metode regresi Kontinum menggunakan variabel independen hasil reduksi dimensi dengan metode PCA pada stasiun Pontianak dengan domain 3x3 menggunakan 20 variabel independen, untuk domain 8x8 menggunakan 40 variabel independen, sedangkan
pada stasiun Ambon dengan domain 3x3
menggunakan 16 variabel independen, untuk domain 8x8 menggunakan 28 variabel independen (lihat Tabel 4.1). Nilai RMSE dan R2 hasil pemodelan SD dengan menggunakan metode regresi Kontinum pada stasiun Pontianak dan Ambon dengan domain 3x3 dan 8x8 pada Tabel 2. Tabel 2 RMSEP dan R2 Pemodelan SD dengan Metode Regresi Kontinum GRID 3x3
GRID 8x8
Stasiun Curah Hujan
RMSE
R2
RMSE
R2
Pontianak
104.093
33.6%
107.799
22.2%
Ambon
249.017
27,7%
247.751
32,8%
Penutup Hasil pendugaan dengan pendekatan Regresi Kontinum PCA masih belum mendapatkan hasil yang memuaskan. Hal ini dapat dilihat dari koefisien determinasi yang masih rendah.
DAFTAR PUSTAKA Breiman, L., Friedman, J.H., Olshen, R.A., dan Stone, C.J (1993), Classification and Regression Trees, Wasdswoth, Belmont, C.A. Cox, D.R. dan Snell, E.j (1989), Analysis of binary Data. Second Edition, Chapman & Hall London. Draper, N.R. dan Smith, H. (1992). Analisis Regresi Terapan, Edisi kedua. Jakarta: PT. Gramedia Pustaka Utama. Jolliffe, I.T. (1986). Principal Component Analysis, Second Ed. New York: SpringerVerlag. Mallpass J. (1996). Improved Mathematical Methods for Drugs Design : Continuum Regression SAS Macro. University of Portsmouth. Ortiz, M.C, Arcos, J, and Sarabia, L.Using continuum regression for quantitative analysis with overlapping signals obtained by differential pulse polarography.Chemometrics and Intelligent laboratory Systems 34 (1996) 245262. Sundberg, R.(1993).Continuum Regression and Ridge Regression.Journal of the Royal Statistical Society. Series B (Methodological),Volume 55, Issue 3,653659 Sundberg, R.(2002).Continuum Regression.Article for 2nd ed. of Encyclopedia of Statistical Sciences.
7
Sutikno. (2008). “Statistical Downscaling Luaran GCM dan Pemanfaatannya untuk Peramalan Produksi Padi” Disertasi. Bogor: Program Pascasarjana, Institut Pertanian Bogor. Walpole, R. E. (1995). “ Pengantar Statistika, Edisi ketiga. Jakarta: PT. Gramedia Pustaka Utama. Wigena, A.H.,(2006). “Pemodelan Statistical Downscaling dengan Regresi Projection Pursuit untuk Peramalan Curah Hujan Bulanan” Disertasi. Bogor: Program Pascasarjana, Institut Pertanian Bogor. Zorita, E. and von Storch, H., (1999): “The Analog Method As A Simple Statistical Downscaling Technique: Comparison With More Complicated Method”, Journal of Climate, 12, 2474-2489.
8