Seminar Nasional Statistika IX Institut Teknologi Sepuluh Nopember, 7 November 2009
PENGGUNAAN REGRESI KONTINUM DENGAN PRA- PEMROSESAN ROBPCA UNTUK PEMODELAN STATISTICAL DOWNSCALING 1, 2
Sutikno1 dan Setiawan2 Jurusan Statistika FMIPA – ITS
[email protected],
[email protected], Abstrak Makalah ini membahas regresi kontinum untuk pemodelan statistical downscaling (SD) dengan pra-pemrosesan Robust Principal Component Analysis (ROBPCA) dengan estimator robust Minimum Covariance Determinant (MCD). Penggunaan regresi kontinum untuk mengatasi adanya multikolinieritas antar peubah prediktor. Sementara ROBPCA digunakan untuk mengatasi adanya data outlier pada proses reduksi spasial domain GCM yang dipilih. Sebagai studi kasus digunakan lokasi Stasiun Indramyu, Losarang, dan Yuntinyuat. Hasil penelitian menunjukkan bahwa pereduksian data dengan ROBPCA menghasilkan jumlah komponen utama lebih kecil dari PCA dan mempunyai keragaman yang bisa menjelaskan data asal lebih besar dari metode PCA. Kesimpulan lain diperoleh jumlah komponen dan keragaman yang dapat dijelaskan oleh komponen utama metode ROBPCA akan sama dengan PCA, jika nilai amatan yang outlier mendekati nilai cut off-nya. Nilai R2 model regresi kontinum berkisar 37%-44%, dengan nilai simpangan baku sisaan model (s ) berkisar 0,755-0,799. Kata kunci : PCA, ROBPCA, outlier, MCD, GCM, Statistical Downscaling 1. Pendahuluan Pemodelan Statistical Downscaling (SD) luaran model Global Circulation Model (GCM) telah dikembang di Indonesia. Pemanfaatan dari model ini digunakan untuk berbagai kajian iklim, seperti rekontruksi iklim historis, kajian perubahan iklim, dan pemanfaat iklim lainnya. Scara umum model SD dinyatakan y = f(X) + , dengan y adalah peubah respon (observasi), X peubah prediktor GCM, dan adalah sisaan. Salah satu permasalahan utama dalam pemodelan SD adalah pra-pemrosesan data GCM model hubungan antara peubah respon (y) dan peubah prediktor. Prapemrosesan GCM meliputi reduksi spasial domain GCM dan reduksi peubah prediktor GCM. Data GCM yang berskala besar memungkinkan adanya multikolinearitas dan adanya outlier. Oleh karena itu perlu dilakukan reduksi dimensi pada data luaran GCM sebagai pra-pemrosesan pemodelan SD. Reduksi dimensi seringkali menggunakan Principal Component Analysis (PCA). Namun PCA tidak mengatasi adanya outlier, sehingga diperlukan reduksi dimensi yang robust. Wigena (2006) menggunakan Projection Pursuit (PP) untuk mereduksi dimensi data GCM dan Sujatmiko (2005) melakukan reduksi dimensi robust dengan Minimum Covariance
1
Determinant (MCD) pada data SUSENAS. Hasil penelitian ini menyimpulkan bahwa
metode reduksi dimensi robust dengan estimator MCD memberikan hasil yang lebih baik. Khotimah (2009) melakukan pereduksian spasial grid GCM dengan metode reduksi dimensi robust menggunakan robust principal component analysis (ROBPCA) dengan estimator robust MCD. Hasil penelitian ini menyimpulkan bahwa tidak ada perbedaan jumlah komponen utama yang terbentuk antara metode PCA dan ROBPCA, jika peubah tersebut tidak terdapat amatan yang outlier. Disamping itu, ROPPCA mempunyai keragaman yang bisa dijelakan pada komponen utama pertama yang lebih besar daripada komponen utama pertama hasil PCA. Namun demikian pada penelitian ini masih belum mengatasi hubungan multikolinieritas antar peubah prediktor pada penyusunan hubungan antara peubah respon (y) dan peubah prediktor (x). Metode pendugaan parameter yang digunakan adalah metode kuadrat terkecil. Penelitian ini membahas metode regresi kontinum dengan pra-pemrosesan ROPPCA. Penggunan metode ini untuk mengatasi adanya multikolinieritas antar peubah prediktor, selanjut diharapkan dapat meningkatan akurasi dari hasil prediksi. 2. Tinjauan Pustaka Pendeteksian Outlier Outlier merupakan suatu pengamatan yang menyimpang cukup jauh dari pengamatan lainnya, sehingga menimbulkan kecurigaan bahwa pengamatan tersebut berasal dari distribusi data yang berbeda (Sujatmiko, 2005). Pada data univariate, pengamatan outlier dapat dengan mudah terlihat dengan menggunakan beberapa plot sederhana, seperti scatter plot, steam and leaf, boxplot, dan sebagainya, sedangkan pada data multivariate identifikasi outlier umumnya didasarkan pada jarak mahalanobis (Mahalanobis Distance:MD),
d MD xi μ T Σ 1 xi μ (1) Pengamatan diidentifikasi sebagai outlier jika suatu pengamatan mempunyai nilai d MD lebih besar dari
2 p, 1
. Namun identifikasi outlier pada data multivariate
dengan jarak mahalanobis tidak maksimal karena adanya efek masking (adanya pengamatan outlier lain yang berdekatan) dan swamping (adanya pengamatan yang bukan outlier yang teridentifikasi sebagai outlier) (Rousseeuw dan Van Zomeren, 1990). Oleh karena itu, digunakan Robust Distance (RD) dengan estimator MCD (Rocke dan Woodruff, 1996), sehingga RD dapat dituliskan, d
RD
T C(X) 1 x T(X) x T(X) i MCD MCD i MCD
(2)
Pengamatan x i diidentifikasi sebagai outlier jika mempunyai nilai d RD lebih besar dari
2 p, 1
.
2
Estimator MCD Metode MCD merupakan upaya untuk menemukan h observasi ( h n ) yang memiliki determinan matriks varian-kovarian terkecil dengan [(n p 1)/2] h n . n (3) MCD min det C X j , j = 1, 2, …., h di mana C(X) adalah matriks varian-kovarian berdasarkan pengamatan xi dengan i J . Estimator MCD diberikan oleh: 1 h 1 h dan (4) C X xi T X xi T X t TX xi h 1i 1 hi 1 MCD mencari subsampel h, sebanyak n C h , sehingga untuk n besar dibutuhkan komputasi yang panjang untuk menemukan estimator MCD. Oleh karena itu, untuk meminimalisasi waktu komputasi digunakan algoritma FAST-MCD oleh Rousseeuw dan Van Driessen (1999). Inti algoritma FAST-MCD adalah C-Step. t Teorema C-Steps. Diketahui X x1 ,...,x n merupakan himpunan data sejumlah n observasi yang terdiri dari p peubah. Misal H 1 T1 :
1 h
h
1 h
x i dan C1 :
i H1
h
xi
T1 x i
T1
t
1,..., n dimana H 1
h. Tetapkan
. Jika det (C1)≠0 definisikan jarak
i H1
relatif :
d1 i
t
xi
T1 C1
1
xi
T1 , i = 1, ... , n
(5)
Selanjutnya ambil himpunan H 2 sedemikian sehingga, d1 i ; i H 2 : d1 1:n ,..., d1 h:n di mana d1 1:n d1 2:n d1 n:n merupakan urutan jarak, kemudian T2 dan C2 dihitung berdasarkan himpunan H 2 . Sehingga det C 2 det C1 , akan sama jika dan hanya jika T1 =T2 dan C1=C2. Tetapkan T(X) dan C(X) sebagai estimator dari subsampel yang memberikan determinan matriks varia-kovarian minimum. Berdasakan subsampel yang memberikan determinan matriks varian-kovarian minimum diberikan pembobotan pada data,
wi
1 jika ( xi T(X) )t C(X) 1 ( xi T(X) ) 0 lainnya
{
2 p , 0.975
(6)
Selanjutnya estimator MCD adalah: n
n T(X)
MCD
w x i 1 i i n w i 1 i
dan C(X)
MCD
w ( x T(X) )( x T(X) )t i i MCD i MCD i 1 n w 1 i 1 i
(7)
Regresi Kontinum Misalkan X matriks data yang sudah dipusatkan (centered) berukuran nxp dan disebut peubah bebas, sedangkan y adalah vektor peubah respon berukuran nx1 yang sudah dipusatkan, β vektor parameter regresi berukuran px1, serta ε adalah
3
vektor galat berukuran nx1. Regresi Kontinum dikembangkan berdasarkan model regresi linear klasik sebagai berikut : (8) y Xβ ε Pada model regresi linear terboboti formula matematis dapat ditulis sebagai berikut, maksimumkan 2
n
yi w T x i
wT s
i 1
rw2
n
n
y i2 i 1
(w T x i ) 2
y
2
2
(9)
T
w Sw
i 1
dengan x i adalah vektor pengamatan peubah bebas ke-i (i=1,2, ..., n) berukuran (px1), s X T y dan S XT X . Regresi komponen utama pada prinsipnya adalah memaksimumkan : n
wT xi
Sw
2
w T Sw
(10)
i 1
Dari persamaan (10) tersebut dapat dijelaskan bahwa prinsip dasar dalam RKU adalah memaksimumkan keragaman dari peubah bebas X sehingga dibentuk peubah baru berupa beberapa komponen utama yang merupakan kombinasi linear dari peubah-peubah asal (X). Selanjutnya data peubah respon y diregresikan dengan beberapa komponen utama tersebut dengan menggunakan teknik regresi ganda. RKTP prinsipnya adalah memaksimumkan : 2
n T
Sw
yi w x i
w Ts
2
(11)
i 1
Dari persamaan (11) tersebut dapat dilihat bahwa prinsip RKTP adalah memaksimumkan koragam antara peubah bebas dengan peubah respon. Pada RK peubah baru diformulasikan dalam model sebagai berikut y Th ξ ε (12) dengan : Th XWh (13) w 1 , w 2 ,..., w h matriks berisi h kolom peubah dengan h
Cov Xw i , Xw j 0 untuk i j sedangkan w i 1 dan parameter penyesuaian merupakan bilangan real 0 1. Alternatif lain adalah formula yang dikembangkan oleh Malpass (1996) sebagai berikut : (2 2 4 2 ) ( 1 2 ) (15) w i arg max Cov Xw, y Var Xw
dengan kendala
w
Dari persamaan 14 dibuat suatu formula yang umum sebagai berikut : 2
( /(1
)) 1
G w T XT y w T XT Xw selanjutnya disebut metode Stone. Dari persamaan (15) dapat dibuat menjadi :
4
(16)
(2 2
4
2
)
( 1 2 )
(17) G w T XT y w T X T Xw selanjutnya disebut metode Portsmouth (Malpass, 1996). Formula tersebut merupakan generalisasi dari RKT, RKU serta RKTP dengan bentuk keterkaitan sebagai berikut : 2
1
1. Untuk 0 , maka G w T s w T Sw formula ini ekivalen dengan persamaan 9, artinya pada 0 RK merupakan RKT. 2
2. Untuk 0.5 , maka G w T s formula ini ekivalen dengan persamaan 11, sehingga pada 0.5 RK merupakan RKTP 2
3. Untuk 1 , maka G w T Sw formula ini ekivalen dengan persamaan 10, sehingga pada 1 RK merupakan RKU. Dengan kata lain RK, RKU serta RKTP merupakan bentuk khusus dari RK. Pendugaan parameter regresi ξ pada persamaan (5) dilakukan dengan menggunakan metode kuadrat terkecil yang diformulasikan sebagai berikut : 1 ξˆ TT T TT y (18) ,h
yˆ βˆ dengan
,h ,h
h
h
h
XWh ξˆ T h
,h
Wh T Th
1
ThT y
(19)
merupakan parameter penyesuaian dan h banyaknya komponen.
3. Metodologi Data yang digunakan adalah data luaran GCM model CSIRO-Mk3 didownload melalui website: http://www-pcmdi.llnl.gov/ipcc/, dengan eksperimen “20th century in coupled models” (20C3M). Domain GCM yang digunakan adalah 3x3, dengan posisi stasiun ada ditengah dan periode observasi tahun 1967-2000. Peubah yang digunakan adalah peubah luaran CSIRO-Mk3 sebagai peubah prediktor yang meliputi: precipitable water (PRW), tekanan permukaan laut (SLP), komponen angin meridional (VA), komponen zonal (UA), ketinggian geopotensial (ZG), dan kelembaban spesifik (HUS). Ketinggian (level) yang digunakan adalah 850 hPa, 500 hPa, dan 200 hPa. Sedangkan peubah respon yaitu data curah hujan bulanan meliputi stasiun: Losarang, Indramayu, dan Juntinyuat. Tahapan analisis data dalam penelitian ini, yaitu: (1) melakukan standarisasi data, (2) melakukan reduksi dimensi data dengan ROBPCA, dan (3) menyusun model regresi kontinum dengan peubah prediktor adalah komponen utama: Y = f(Z) + ε. 4. Hasil dan Pembahasan Identifikasi Outlier Identifikasi outlier menggunakan jarak robust (robust distance). Pengamatan dikatakan outlier jika jarak robust-nya lebih besar dari nilai cut off-nya. Nilai cut off 2 merupakan nilai dari . Nilai cut off-nya adalah 4.3615. Gambar 1 p;0.975 menunjukkan identifikasi outlier untuk peubah HUSS, HUS850, VA500, dan VA850. Garis yang terdapat dalam Gambar 1 menunjukkan nilai cut off. Pengamatan
5
yang berada di atas garis tersebut teridentifikasi sebagai pengamatan outlier. Berdasarkan Gambar 1 tersebut, terdapat 86 pengamatan outlier pada peubah HUSS, 113 pengamatan outlier pada peubah HUS850, 134 pengamatan outlier pada peubah VA500, dan pada peubah VA850 ada 94 pengamatan outlier. Ringkasan jumlah outlier untuk peubah lainnya disajikan pada Tabel 1. MCDCOV
MCDCOV
258
12
60
329
267 328 386
10
50 39
8
Robust distance
Robust distance
40
30
6
20
4
10
2
0
0
0
50
100
150
200
250
300
350
400
0
50
100
150
Index
200
250
300
350
400
Index
(a)
(b) MCDCOV
MCDCOV 6 122
42
12
341
201 282 5
400
10
8
Robust distance
Robust distance
4
3
6
2
4
1
2
0
0 0
50
100
150
200
250
300
350
400
0
50
100
150
200
250
300
350
400
Index
Index
(c)
(d)
Gambar 1. Identifikasi Outlier dengan Robust Distance Peubah: HUSS(a), HUS850 (b), VA500 (c), dan VA850 (d). Tabel 1. Jumlah Pengamatan Outlier pada Peubah Luaran GCM No
Peubah
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17
HUSS HUS200 HUS500 HUS850 PRW SLP UAS UA200 UA500 UA850 VAS VA200 VA500 VA850 ZG200 ZG500 ZG850
Jumlah pengamatan yang outlier 86 15 18 113 29 44 30 15 21 25 42 16 134 94 15 14 21
6
Tabel 1 memberikan informasi bahwa pengamatan outlier yang cukup banyak terdapat pada peubah HUSS, HUS850, VA500, dan VA850. Namun demikian, peubah HUS850, VA500, dan VA850 terdapat cukup banyak outlier, ternyata jarak pengamatan outlier terhadap nilai cut off tidak begitu lebar. Berbeda dengan peubah HUSS yang mempunyai jarak yang lebar dibandingkan peubah-peubah lainnya. Pra-pemrosesan dengan Metode ROBPCA Pereduksian dilakukan pada dimensi spasialnya yaitu lintang dan bujur atau disebut grid dan pada semua peubah. Tahapan pembentukan komponen utama pada metode ROBPCA sama seperti metode PCA, perbedaannya hanya pada estimator yang digunakan, pada PCA estimator yang digunakan adalah estimator klasik, sedang ROBPCA menggunakan estimator robust, yaitu MCD. Tabel 2. Jumlah PC Optimal dan Keragaman Kumulatif PC Peubah Luaran GCM dengan Menggunakan Metode ROBPCA dan PCA No.
Peubah
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17
HUSS HUS200 HUS500 HUS850 PRW SLP UAS UA200 UA500 UA850 VAS VA200 VA500 VA850 ZG200 ZG500 ZG850
Metode ROBPCA Jml PC Kerag. Kum. 2 0.940 1 0.975 1 0.973 1 0.930 1 0.927 1 0.974 1 0.957 1 0.985 1 0.913 1 0.983 1 0.905 1 0.976 1 0.864 1 0.943 1 0.996 1 0.997 1 0.992
Metode PCA Jml PC Kerag. Kum. 3 0.898 1 0.977 1 0.967 1 0.937 1 0.923 1 0.975 1 0.949 1 0.985 1 0.918 1 0.983 1 0.881 1 0.976 1 0.918 1 0.851 1 0.996 1 0.997 1 0.991
Tabel 2 menyajikan hasil komponen utama dan keragaman yang dapat dijelaskan dengan menggunakan metode ROBPCA dan PCA. Berdasarkan Tabel 2 menunjukkan bahwa keragaman yang dapat dijelaskan oleh peubah HUSS dengan 2 komponen utama pada ROBPCA adalah 0,940, sedangkan pada metode PCA dengan 3 komponen utama adalah 0,898. Sementara pada peubah VA500, keragaman yang bisa dijelaskan oleh 1 komponen utama metode ROBPCA adalah 0,894, sedangkan metode PCA dengan 1 komponen utama adalah 0,918. Berdasarkan hasil ini, untuk menyimpulkan metode mana yang mempunyai kinerja baik menurut keragaman yang bisa dijelaskan tidak hanya bisa ditentukan adanyanya (banyaknya) data outlier. Namun juga ditentukan oleh jarak antara nilai amatan outlier tersebut dengan nilai cut off-nya. Dengan kata lain bahwa bahwa metode ROBPCA mempunyai kinerja
7
yang baik dari metode PCA jika terdapat data oulier dan jarak amatan outliernya dengan cut off relatif jauh. Pemodelan SD dengan regresi kontinum Berdasarkan identifikasi hubungan antar peubah prediktor terdapat korelasi yang nyata, sehingga terjadi kasus kolinieritas. Model hasil regresi kontinum di tiga lokasi Indramayu, Losarang, dan Yuntinyuat diperoleh nilai R2 masing-masing secara berurutan 0,39; 0,44; dan 0,37, dengan R2adjusted 0,39; 0,43; dan 0,36 (Tabel 3). Tabel 3. nilai R2, R2adjusted, dan simpangan baku sisaan (s) model regresi kontinum Stasiun Indramayu Losarang Yuntinyuat
s 0.7855 0.7551 0.7999
R2 0.3907 0.4368 0.3681
R2adjusted 0.3850 0.4312 0.3622
5. Penutup Berdasarkan identifikasi outlier menunjukkan bahwa peubah GCM terdapat outlier. Hasil pra-pemrosesan data GCM menunjukkan bahwa metode ROBPCA mempunyai kinerja yang baik dari metode PCA jika terdapat data oulier dan jarak amatan outliernya dengan cut off relatif jauh. Regresi kontinum dapat digunakan untuk mengatasi kasus kolinieritas antar peubah prediktor GCM. 6. Ucapan Terima Kasih Penelitian ini termasuk bagian dari “Penelitian Stategis Nasional”. Oleh karena itu, ucapan terima kasih penulis sampaikan kepada DIKTI yang telah mendanai penelitian ini. Daftar Pustaka Khotimah K, Sutikno, Setiawan, Otok WB, (2009) Reduksi Dimensi Robust Dengan Estimator MCD Untuk Pra- Pemrosesan Data Pemodelan Statistical Downscaling.Prosiding Seminar Nasional Matematika dan Pendidikan Matematika 8 Agustus 2009 UNESA. Jolliffe, I.T. (1986). Principal Component Analysis, Second Ed. New York: SpringerVerlag. Mallpass J. 1996. Improved Mathematical Methods for Drugs Design : Continuum Regression SAS Macro. University of Portsmouth. Rousseeuw, P.J. and Van Zomeren, B.C. (1990). “Unmasking Multivariate Outliers and Leverage Points,” Journal of the American Statistical Association, 85, 633– 651. Rousseeuw, P.J., and Van Driessen, K. (1999). “A Fast Algorithm for the Minimum Covariance Determinant Estimator”, Technometrics, Vol. 41, No. 3, 212-223.
8
Sujatmiko, Irwan. (2005). “Analisis Komponen Utama dengan Menggunakan Matriks Varians-Kovarians yang Robust” Tesis. Jurusan Statistik-ITS. Surabaya. Wigena, A.H. (2006). “Pemodelan Statistical Downscaling dengan Regresi Projection Pursuit untuk Peramalan Curah Hujan Bulanan” Disertasi. Bogor: Program Pascasarjana, Institut Pertanian Bogor.
9