Seminar Nasional Statistika IX Institut Teknologi Sepuluh Nopember, 7 November 2009
PENDEKATAN REGRESI KONTINUM DENGAN PRA-PEMROSESAN ANALISIS KOMPONEN UTAMA UNTUK PEMODELAN STATISTICAL DOWNSCALING (STUDI KASUS : STASIUN INDRAMAYU, LOSARANG, DAN JUNTINYUAT) Setiawan dan Sutikno Staf Pengajar Jurusan Statistika Institut Teknologi Sepuluh Nopember Surabaya Email:
[email protected] ;
[email protected] Abstrak
Pendekatan SD menggunakan data regional atau global untuk memperoleh hubungan fungsional antara skala lokal dengan skala global GCM dapat dimodelkan dengan regresi. Pendekatan SD disusun berdasarkan adanya hubungan antara grid skala besar (prediktor) dan grid skala lokal (respon) yang dinyatakan dengan model statistik yang dapat digunakan untuk menterjemahkan anomali-anomali skala global menjadi anomali dari beberapa variabel iklim lokal. Pada umumnya model SD melibatkan data deret waktu dan data spasial GCM. Data GCM merupakan data spasial dan temporal dimana kemungkinan besar terjadi korelasi spasial antara data pada grid yang berbeda dalam satu domain. Adanya masalah mulikolinearitas mengharuskan perlunya prapemrosesan data variabel X. Regresi Kontinum dengan prapemrossan Analisis Komponen Utama merupakan salah satu alternatif untuk pemodelan SD. Dari hasil pengolahan data untuk stasiun Indramayu, Losarang dan Juntinyuat masing-masing diperoleh koefisien determinasi sebesar 42,63%, 44,08% dan 38,78%. Kata kunci : Analisis komponen utama, regresi kontinum PENDAHULUAN Ketersediaan informasi ramalan tentang curah hujan sangat berguna bagi petani dalam mengantisipasi kemungkinan kejadian-kejadian ekstrim (kekeringan akibat El-Nino dan kebanjiran akibat La-Nina), yang sering menimbulkan kegagalan produksi pertanian. Curah hujan merupakan salah satu faktor penting bagi pertanian akan berpengaruh secara langsung terhadap ketersediaan air. Dampak kerugian akibat kekeringan maupun banjir pada sektor pertanian ini sering terjadi karena (1) kekurangan informasi tentang curah hujan yang akurat, cepat, dan bersifat spesifik lokasi; (2) tingkat kemampuan peramalan yang masih belum baik; dan (3) tingkat adopsi pengguna akhir, dalam hal ini petani, terhadap hasil ramalan masih sangat rendah. Pemodelan Statistical Downscaling (SD) pada dasarnya merupakan model yang menunjukkan hubungan fungsional antara luaran GCM (Generalized Circulation Model) dengan curah hujan lokal. Model SD memerlukan suatu domain (luasan dan lokasi) GCM sebagai variabel penjelas dan curah hujan lokal sebagai variabel respon. Penentuan domain GCM merupakan langkah pertama dalam penyusunan model SD. Data tentang curah hujan pada umumnya bersifat nonlinear dan tidak berdistribusi normal. Sedangkan data GCM merupakan data spasial dan temporal 1
dimana kemungkinan besar terjadi korelasi spasial antara data pada grid yang berbeda dalam satu domain. Adanya masalah mulikolinearitas mengharuskan perlunya prapemrosesan data variabel X. Regresi Kontinum dengan prapemrossan Analisis Komponen Utama merupakan salah satu alternatif untuk pemodelan SD. Pada kajian ini digunakan regresi kontinum dengan pra-pemrosesan analsisi komponen utama untuk pemodelan SD di stasiun Indramayu, Losarang dan Juntinyuat.
REGRESI KONTINUM
Regresi kontinum merupakan salah satu metode yang digunakan untuk mengatasi kolinearitas ganda dan singularitas yang terjadi pada model regresi ganda. Misalkan X adalah matriks data hasil pengamatan yang sudah dipusatkan (centred) berukuran (nxp)dan disebut variabel bebas, sedangkan y adalah vektor variabel respon berukuran (nx1) pengamatan yang sudah dipusatkan. Regresi kontinum dikembangkan berdasarkan model regresi linear klasik dengan koefisien regresi sebagai berikut : (1) y Χ
adalah vektor galat berukuran (nx1). Regresi kuadrat terkecil pada prinsipnya memodelkan hubungan antara variabel bebas X dengan peubah respon Y dengan memaksimumkan korelasi antara variabel bebas dengan variabel respon. Pada model regresi linear terboboti formula matematis dapat ditulis sebagai berikut, maksimumkan dengan
n yi wT xi 2 wT s i1 2 rw n 2 T n T 2 2 y w Sw yi (w xi ) i1 i1 2
(2)
dengan xi adalah vektor pengamatan variabel bebas ke-i (i =1,2, ..., n) berukuran (px1), s XT y dan S XT X. Regresi komponen utama pada prinsipnya adalah memaksimumkan :
Sw ( wT xi ) wT Sw. n
2
(3)
i1
Dari formula (3) tersebut dapat dijelaskan bahwa prinsip dasar dalam RKU adalah memaksimumkan keragaman dari variabel bebas X sehingga dibentuk variabel baru berupa beberapa komponen utama yang merupakan kombinasi linear dari variabelvariabel asal (X). Selanjutnya data variabel respon y diregresikan dengan beberapa komponen utama tersebut dengan menggunakan teknik regresi ganda. Prinsip RKTP adalah memaksimumkan :
2 n Sw yi wT xi wT s . i1 2
(4)
Dari formula (4) tersebut dapat dilihat bahwa prinsip RKTP adalah memaksimumkan koragam antara variabel bebas dengan variabel respon. Teknik RKTP mempunyai kemiripan dengan RKU. Perbedaan penting kedua metode adalah pada RKU 2
mengkonstruksi faktor yang dapat menerangkan sebanyak-banyaknya keragaman dari data variabel bebas X tanpa mempertimbangkan apakah faktor tersebut berhubungan dengan data variabel respon y atau tidak. Di sisi lain, pada RKTP mengkonstruksi faktor yang mampu menerangkan keragaman data variabel bebas X dan pada saat yang sama faktor tersebut mempunyai hubungan dengan data variabel respon Y. Pada RK, variabel baru (latent) diformulasikan dalam model sebagai berikut (5) y Th dengan : Th XWh (6) dan Wh w1, w2 ,...,wh matriks berisi h kolom variabel dengan h p dan disebut matriks pembobot. Stone dan Brooks (1990) memformulasikan matriks pembobot tersebut sebagai berikut : (7) wi argmaxCovXw, y 2VarXw[ /(1 )]1
w
wi 1 dan CovXwi , Xwj 0 untuk i j 1,2,...,h sedangkan parameter penyesuaian merupakan bilangan real 0 1. dengan kendala
Alternatif lain adalah formula yang dikembangkan oleh Malpass (1996) sebagai berikut : 2 (8) wi argmaxCovXw, y (22 4 )VarXw(12 ) .
w
Dari formula 7 dibuat suatu formula yang umum sebagai berikut :
G wT XT y wT XT Xw 2
( /(1 ))1
(9)
dan disebut metode Stone. Sedangkan dari formula 8 dapat dibuat menjadi :
G wT XT y
(22 4 2 )
w X Xw T
T
(12 )
(10) dan disebut metode Portsmouth (Malpass 1996). Selanjutnya dalam penelitian ini digunakan metode Stone. Formula tersebut merupakan generalisasi dari RKT, RKU serta RKTP dengan bentuk keterkaitan sebagai berikut :
Untuk 0.5, maka G w s . Formula ini ekivalen dengan persamaan (4), sehingga pada 0.5 RK merupakan RKTP. Untuk 1, maka G w Sw. Formula ini ekivalen dengan persamaan (3), 1
1. Untuk 0, maka G w s w Sw . Formula ini ekivalen dengan persamaan (2), artinya pada 0 RK merupakan RKT. 2
T
2. 3.
T
T
2
T
sehingga pada 1 RK merupakan RKU. Dengan kata lain RKT, RKU serta RKTP merupakan bentuk khusus dari RK. Karena RK, RKU dan RKTP dikembangkan berdasarkan RKT, maka asumsi yang melekat pada RKT juga masih diperlukan. Asumsi-asumsi tersebut adalah Y merupakan variabel acak yang menyebar normal dengan ragam konstan, serta di antara yi dengan yj saling bebas (i j 1,2,...,n). Pendugaan parameter regresi pada persamaan (5) dilakukan dengan menggunakan metode kuadrat terkecil yang diformulasikan sebagai berikut :
ˆ ,h ThT Th 1ThT y yˆ Tˆ XWhˆ ,h
(11) (12)
,h
3
1 ˆ ,h Wˆ Wh ThT Th ThT y
dengan
(13)
merupakan parameter penyesuaian dan h banyaknya komponen.
Analisis Komponen Utama Salah satu metode statistik yang sering digunakan untuk menyusutkan dimensi (pra-pemrosesan data) adalah analisis komponen utama (AKU). AKU adalah suatu prosedur untuk mereduksi dimensi data dengan cara mentransformasi variabelvariabel asal yang berkorelasi menjadi sekumpulan variabel baru yang tidak berkorelasi. Komponen utama dapat diperoleh dari pasangan eigenvalue-eigenvektor matriks kovarian maupun matriks korelasi. Jika satuan data antarvariabel tidak sama, maka disarankan untuk menstandarisasikan data terlebih dahulu. Hal ini diperlukan agar dominansi satu atau dua variabel dalam komponen utama dapat dihindari. Selanjutnya bila Σ adalah matriks varian-kovarian dari vektor random X’=[ X1,X2,…, Xp]. Dalam hal ini Σ, didapatkan dari metode Maximum Likelihood Estimation (MLE) dengan rumus,
Σ μ
1 h xi μxi μt n 1 i1
1h xi n i1
xi
dengan :
= vektor observasi ke-i n = jumlah seluruh observasi dan Σ memiliki pasangan eigen value-eigen vektor ( 1e1 ), ( 2e2 ), … , ( pep ) dimana
1 2 ... p 0. Maka kombinasi linier PC dapat ditulis sebagai berikut : Z1 = e1’X = e11X1 + e21X2 + . . . + ep1Xp Z2 = e2’X = e12X1 + e22X2 + . . . + ep2Xp . . .
Zp = ep’X = e1pX1 + e2pX2 + . . . + eppXp dengan: Z1 = komponen utama pertama, yang mempunyai varians terbesar Z2 = komponen utama kedua, yang mempunyai varians terbesar kedua dan seterusnya Zp = komponen utama ke-p, yang mempunyai varians terbesar ke-p X1 = variabel asal pertama X2 = variabel asal kedua Xp = variabel asal ke-p
HASIL Pendekatan Regresi Kontinum dengan metode prapemrosesan AKU digunkan untuk meramalkan curah hujan di stasiun Indramayu, Losarang dan Juntinyuat. Dari hasil pendugaan diperoleh koefisien determinasi masing-masing sebesar 42,63%, 44,08% dan 38,78%. Hasil ini belum memuaskan sehingga perlu adanya kajian lebih lanjut. 4
PENUTUP Rendahnya koefisien determinasi hasil pendugaan dengan pendekatan Regresi Kontinum dengan metode prapemrosesan AKU menunjukkan bahwa metode ini masih belum memberikan hasil yang memuaskan untuk memodelkan curah hujan. Selanjutnya disarankan untuk mengkaji lebih lanjut terutama untuk menangkap model ketidaklinearan data curah hujan seta adanya pengaruh spasial. DAFTAR PUSTAKA Malpass JA. 1994. Continuum Regression : Optimized Prediction of Biological Activity. Di dalam Mallpass J. 1996. Continuum Regression SAS Macro. University of Portsmouth. Mallpass JA, Salt DW, Ford MG, Wynn EW and Livingstone DJ, 1994. Continuum Regression : A New Algorithm for the Prediction of Biological Activity. Advanced Computer-Assisted Techniques in Drug Discovery, 163-189. Serneel et. al, 2005. Robust Continuum Regression. Chemometrics and Intelligant Laboratory System, 76 (2), 197-204. Setiawan dan Notodiputro KA. 2005a. Regresi Kontinum sebagai Bentuk Umum dari RKT, RKU, serta RKTP. Prosiding Seminar Nasional Statistika VII. Jurusan Statistika FMIPA ITS, Surabaya tanggal 26 Nopember 2005. Setiawan dan Notodiputro KA. 2005b. Regresi Kontinum dengan Prapemrosesan Transformasi Wavelet dalam Model Kalibrasi. Prosiding Seminar Nasional MIPA. FMIPA UNESA, Surabaya tanggal 17 Desember 2005. Stone, M. and Brooks R. J. (1990). Continuum Regression : cross-validated sequentially constructed prediction embracing ordinary least squares, partial least squares, and principal component regression (with discussion). Journal of the Royal Statistical Society, Series B, 52, hlm 237-269. A.H.,(2006). “Pemodelan Statistical Downscaling dengan Regresi Projection Pursuit untuk Peramalan Curah Hujan Bulanan” Disertasi. Bogor: Program Pascasarjana, Institut Pertanian Bogor. Zorita, E. and von Storch, H., (1999): “The Analog Method As A Simple Statistical Downscaling Technique: Comparison With More Complicated Method”, Journal of Climate, 12, 2474-2489. Wigena,
5