TUGAS AKHIR Metode Regresi Kuadrat Terkecil Parsial Untuk Pra-Pemrosesan Data Luaran GCM CSIRO Mk-3
Oleh: Alin Fitriani 1306 100 066 Pembimbing: Dr.Ir. Setiawan, M.S NIP 198701 1 001
JURUSAN STATISTIKA FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT TEKNOLOGI SEPULUH NOPEMBER SURABAYA 2010
Latar Belakang iklim
Gas rumah kaca
Pola curah hujan
Pemanasan global
Perubahan iklim
Resolusi rendah, skala tinggi
downscalling
multikolinieritas
Reduksi dimensi
GCM
Permasalahan
Bagaimana memodelkan data hujan lokal (variabel respon) dengan data luaran GCM (reduksi) dengan metode PCA dan metode PLS (Partial Least Squares). Bagaimana hasil kinerja reduksi dimensi dan pemodelan menggunakan metode PCA dan metode PLS (Partial Least Squares).
Tujuan penelitian
Memodelkan data hujan lokal (variabel respon) dengan data luaran GCM (reduksi)dengan metode PCA dan metode PLS (Partial Least Squares). Membandingkan hasil kinerja reduksi dimensi dan pemodelan menggunakan metode PCA dan metode PLS (Partial Least Squares).
Manfaat Penelitian Memberikan alternatif bagi BMKG, LAPAN, dan instansi lainnya untuk kajian-kajian dampak iklim dengan basis luaran GCM dalam tahap pra-pemrosesan data luaran GCM yang kemudian akan digunakan untuk memodelkan Statistical Downscaling (SD).
Batasan Masalah
Studi
kasus
pra-pemrosesan
pada
data
pemodelan
statistical downscaling adalah data luaran GCM CSIRO-Mk3 dengan 5 statiun yang digunakan sebagai daerah penelitian yaitu
Losarang,
Indramayu,
Juntinyuat,
Kroya,
dan
Sumurwatu .
Data luaran GCM diasumsikan bersifat linear
Reduksi dimensi dengan metode PLS (Partial Least Squares)
untuk mengatasi adanya multikolinieritas.
Penelitian Terdahulu
Metode regresi robust PCA dilakukan Chusnul Khotimah tahun 2009
Transformasi wavelet diskrit dengan mother wavelet Harr
dilakukan Anggreini Suprapti tahun 2009
Tinjauan Pustaka Regresi Linear Regresi linier adalah metode statistika yang digunakan untuk membentuk model hubungan antara variabel terikat (dependen; respon; Y) dengan satu atau lebih variabel bebas (independen, prediktor, X) (Deni, 2008). Apabila banyaknya variabel bebas hanya ada satu, disebut sebagai regresi linier sederhana, sedangkan apabila terdapat lebih dari satu variabel bebas, disebut sebagai regresi linier berganda. Secara umum model yang menggambarkan hubungan antara variabel penjelas (X) dengan variabel respon (Y) adalah:
Multikolinieritas Multikolinearitas (kolinearitas ganda) adalah hubungan linear yang sempurna atau pasti diantara beberapa atau semua variabel eksplanatori (bebas) dari model regresi ganda. Multikolinieritas yang tinggi akan menyebabkan koefisien regresi yang diperoleh tidak unik. Salah satu ukuran untuk mendeteksi adanya multikolinieritas adalah VIF (Variation Inflation Factor). VIF merupakan faktor yang mengukur seberapa besar kenaikan varian dari koefisien regresi dibandingkan dengan variabel bebas lain yang saling orthogonal.
dengan adalah koefisien determinasi dari variabel bebas Xi jika diregresikan dengan semua variabel bebas X lainnya di dalam model
Principal Component Analysis (PCA) Metode PCA merupakan prosedur untuk mereduksi dimensi data dengan cara mentransformasi variabel-variabel asal yang berkorelasi menjadi sekumpulan variabel baru yang tidak berkorelasi. Variabel-variabel baru itu dikatakan sebagai principal component (PC) (Johnson and Winchren, 2002).
Partial Least Squares (PLS) Metode PLS merupakan metode statistik yang menggeneralisasi dan mengkombinasikan antara metode analisis faktor, principal component analysis dan multiple regression (Abdi, 2007). Tujuan PLS adalah membentuk komponen yang dapat menangkap informasi dari variabel bebas untuk memprediksi variabel respon PCA terfokus pada keragaman di dalam variabel bebas, sedangkan PLS fokus pada kovarians diantara variabel bebas dan variabel tak bebas.
Validasi Model Buliding set (membangun model) data Validation (prediction set)
Ukuran kebaikan model yang digunakan untuk validasi data RMSE dan RMSEP
R2 dan R2prediction
General Circulation Model (GCM) GCM (General Circulation Model) adalah suatu model berbasis komputer yang terdiri dari berbagai persamaan numerik dan deterministik yang terpadu dan mengikuti kaidah-kaidah fisika (Wigena, 2006).
Donwscaling Downscaling didefinisikan sebagai upaya menghubungkan antara sirkulasi variabel skala global (variabel penjelas) dan variabel skala lokal (variabel respon) (Sutikno, 2008).
Statistical Donwscaling Statistical Downscaling (SD) adalah suatu proses downscaling yang bersifat statik dimana data pada grid-grid berskala besar dalam periode dan jangka waktu tertentu digunakan sebagai dasar untuk menentukan data pada grid berskala lebih kecil (Wigena, 2006). Metode Statistical Downscaling (SD) didasarkan pada asumsi bahwa iklim regional dikendalikan oleh dua faktor yaitu: kondisi iklim skala besar (resolusi rendah) dan kondisi/karakteristik fisiografik regional/lokal (misal: topografi distribusi daratan-lautan dan tataguna lahan) (von Stroch et al. 1999 dalam Sutikno, 2008). Kegunaaan penggunaan metode SD menggunakan data regional atau global adalah untuk memperoleh hubungan fungsional antara skala lokal dengan skala global GCM.
Metodologi Penelitian Sumber Data Data yang digunakan dalam penelitian ini adalah data sekunder yang diperoleh dari data luaran GCM model CSIRO-Mk3 dari Australia dengan eksperimen “20th century in coupled models” (20 C3M). Data diambil pada tahun 1967-2000 dengan lokasi grid berada ditengah tengah Kabupaten Indramayu. Grid yang digunakan adalah 3x3, 8x8, dan 12x12 dengan domain GCM yang digunakan domain 3x3 (9 grid), yaitu 4.660 LS- 8.390 LS;106.870 BT– 110.640 BT, domain 8x8 (64 grid), yaitu 0.930-13.990 LS; 101.120 BT - 114.380 BT, dan domain 12x12 (144 grid), yaitu 2.790 LU-17.720 LS; 97.500 BT – 118.1250 BT
gambar
Variabel Penelitian Data luaran GCM CSIRO- Mk3 yang merupakan variabel prediktor meliputi: precipitable water (prw), tekanan permukaan laut (slp), komponen angin meridional (va), komponen zonal (ua), ketinggian geopotensial (zg), dan kelembaban spesifik (hus). Ketinggian (level) yang digunakan dalam penelitian adalah 850 hPa, 500 hPa, dan 200 hPa. Variabel respon adalah data curah hujan bulanan meliputi stasiun: Losarang (6.410 LS, 108.150 BT) pada tahun 1967-1999, Indramayu (6.350 LS, 108.320 BT) pada tahun 1974-1999, Tulangkacang (6.360 LS, 107.010 BT ) pada tahun 19911999, Sumurwatu (6.520 LS, 108.100 BT) pada tahun 1978-1999, dan Juntinyuat (6.430 LS, 108.440 BT) pada tahun 1974-1999.
gambar
Analisa dan Pembahasan
Identifikasi multikolinieritas Tabel 4.1 Matrik korelasi antar variabel HUSS pada grid 3x3 huss1 huss2 huss3 huss4 huss5 huss6 huss7 huss8 huss9 huss1 1.00
0.38
0.62
0.97
0.76
0.53
0.80
0.73
0.40
huss2 0.38
1.00
0.22
0.40
0.39
0.17
0.36
0.26
0.12
huss3 0.62
0.22
1.00
0.61
0.53
0.94
0.36
0.88
0.88
huss4 0.97
0.40
0.61
1.00
0.80
0.55
0.86
0.76
0.44
huss5 0.76
0.39
0.53
0.80
1.00
0.50
0.74
0.66
0.41
huss6 0.53
0.17
0.94
0.55
0.50
1.00
0.32
0.91
0.95
huss7 0.80
0.36
0.36
0.86
0.74
0.32
1.00
0.56
0.26
huss8 0.73
0.26
0.88
0.76
0.66
0.91
0.56
1.00
0.85
huss9 0.40
0.12
0.88
0.44
0.41
0.95
0.26
0.85
1.00
Pra-pemrosesan data dengan PCA Kumulatif Proporsi dan Nilai Eigen Variabel HUSS PC
1 2 3 4 5 6 7 8 9 10
grid 3x3 grid 8x8 grid 12x12 nilai prop nilai prop nilai prop eigen kum eigen kum eigen kum 5.8186 0.647 36.913 0.577 78.281 0.544 1.7276 0.838 10.089 0.734 22.655 0.701 0.7702 0.924 4.078 0.798 10.26 0.772 0.2878 0.956 2.026 0.83 4.416 0.803 0.2201 0.98 1.174 0.848 2.73 0.822 0.0929 0.991 1.078 0.865 1.665 0.833 0.0483 0.996 0.987 0.88 1.461 0.844 0.021 0.998 0.965 0.895 1.291 0.852 0.0136 1 0.88 0.909 1.146 0.86 0.794 0.922 1.099 0.868
Jumlah PC Optimal dan Keragaman Kumulatif PC Variabel Luaran GCM dengan Menggunakan Metode PC
No
variabel
grid 3x3 jumlah prop PC kom
grid 8x8 jumlah prop PC kom
grid 12x12 jumlah prop PC kom
1
HUSS 200
1
97.50%
2
94.90%
1
99.40%
2
HUSS 500
1
96.70%
2
92.50%
2
85.50%
3 4 5 6 7 8 9 10 11 12 13 14 15 16 17
HUSS 850 HUSS PRW PSL UA 200 UA 500 UA 850 UAS VA 200 VA 500 VA 850 VAS ZG 200 ZG 500 ZG 850
1 3 1 1 1 1 1 1 1 1 2 2 1 1 1
93.50% 92.40% 92.30% 97.35% 98.60% 91.60% 98.40% 95.35 97.20% 92.30% 96.10% 97.30% 99.50% 99.60% 99.10%
2 6 2 1 1 2 1 2 2 3 3 3 1 1 1
90.10% 86.50% 87.90% 87% 91.90% 88.80% 86.10% 91.70% 93.40% 89,7% 91.30% 88.30% 93.90% 95.70% 93.40%
3 9 3 2 2 3 2 3 2 5 5 5 1 1 1
88% 86% 89.60% 95.70% 97.40% 90.50% 86.20% 87.60% 87.20% 87.60% 90% 88% 87.10% 88.70% 89.80%
Pemodelan SD 1. Metode Regresi dengan Pre-pemrosesan PCA Nilai RMSEP, dan R2 dengan menggunakan metode regresi PCA stasiun Sumurwatu losarang kroya Juntinyuat Indramayu
grid 3x3 grid 8x8 grid 12x12 2 2 RMSEP R pred RMSEP R pred RMSEP R2pred 110.9176 31.20% 114.3645 31.30% 121.9155 27.40% 108.3221 32.50% 109.5804 33.30% 115.8183 27.70% 98.05002 40.50% 130.4405 28.50% 153.1108 20.70% 84.86531 25.80% 109.6141 25.20% 118.838 22.30% 125.0302 31.10% 131.0903 31.7% 144.622 23%
2. Metode Regresi PLS Nilai RMSEP, dan R2 pada regresi PLS Stasiun sumurwatu losarang Kroya juntinyuat indrmayu
grid 3x3 grid 8x8 grid 12x12 2 2 RMSEP R pred RMSEP R pred RMSEP R2pred 102.4966 40.80% 100.5751 42.70% 102.1293 40.80% 104.2476 37.20% 102.6259 39% 102.4574 39.40% 99.08801 38.50% 96.84099 40.20% 97.61049 36.60% 76.73118 30.20% 101.4372 30.70% 100.477 31.90% 113.3752 40.90% 111.5253 42.70% 110.091 44.10%
Plot Residual dan y (topi) PCA
PLS Scatterplot of PLS vs RESI1 350
500
300
400
250
300
200
PLS
OLS
Scatterplot of OLS vs RESI2 600
200
150
100
100
0
50 0
-100 -300
-200
-100
0
100 200 RESI2
300
400
500
600
-300
-200
-100
0
100 RESI1
200
300
400
Perbandingan Metode Pemodelan SD
RMSEP dan R2 Pemodelan SD Menggunakan Metode Regresi PCA dan Regresi PLS
kriteria RMSEP grid 3x3 R2pred RMSEP grid 8x8 R2pred RMSEP grid 12x12 R2pred kriteria RMSEP grid 3x3 R2pred RMSEP grid 8x8 R2pred RMSEP grid 12x12 R2pred
Losarang Indramayu Juntinyuat PCA PLS PCA PLS PCA 107.87 106.526 125.03 113.375 84.865 32.60% 34.50% 31.10% 40.90% 25.80% 109.58 102.626 131.09 111.525 109.61 33.30% 39.00% 31.70% 42.70% 25.20% 115.82 102.45 144.62 110.09 118.84 27.70% 39% 23% 44.10% 22.30% juntinyuat Kroya Sumurwatu PLS PCA PLS PCA PLS 76.7312 98.05 99.08 110.92 102.5 30.20% 40.50% 38.50% 31.20% 40.80% 101.437 130.44 96.841 114.36 100.58 30.70% 28.50% 40.20% 31.30% 42.70% 100.477 153.11 97.61 121.92 102.13 31.90% 20.70% 36.60% 27.40% 40.80%
RMSEP dan R2 Pemodelan SD Menggunakan Metode Regresi PCA dan Regresi PLS (reduksi dimensi lengkap dan per variabel)
reduksi demansi semua variabel stasiun sumurwatu indramayu juntinyuat kroya losarang
PCA RMSEP R2 106.21 36.40% 116.49 38% 103.46 27,8% 100.77 34.30% 107.87 32.6
per variabel
PLS PCA PLS RMSEP R2 RMSEP R2 RMSEP R2 105.41 37.30% 110.92 31.20% 102.5 40.80% 115.46 38.95% 107.87 32.60% 106.52 34.50% 103.94 27,4% 99.088 38.50% 98.05 40.50% 99.09 35.70% 84.86 25.80% 76.73 30.20% 106.53 34.5 125.03 31.10% 113.38 40.90%
Kesimpulan dan Saran KESIMPULAN Jumlah Principal Component data luaran GCM yang dihasilkan setiap grid tidak lebih dari 5 komponen kecuali untuk variabel HUSS. Pemodelan dengan menggunakan metode PLS model terbaik berdasarkan RMSEP, grid 3x3 pada stasiun Juntinyuat, grid 9x9 dan grid 12x12 pada stasiun Kroya. Berdasarkan nilai R2 model terbaik pada grid 3x3, grid 9x9, dan grid 12x12 terdapat stasiun yang sama yaitu stasiun Indramayu. Pemodelan terbaik berdasarkan nilai RMSEP dengan metode PCA, grid 3x3 pada stasiun Juntinyuat, grid 9x9 pada stasiun Losarang, dan grid 12x12 pada stasiun Indramayu. Sedangkan dengan nilai R2 metode terbaik grid 3x3 pada stasiun Kroya, grid 9x9 dan grid 12x12 pada stasiun Losarang. Pemodelan dengan menggunakan metode regresi PLS lebih baik dibandingkan dengan pemodelan regresi dengan pra-pemrosesan PC. Walaupun tidak terlalu besar perbedaanya, pada regresi PLS menghasilkan RMSEP yang lebih kecil dan R2 yang lebih besar dibandingkan dengan RMSEP dan R2 yang dihasilkan dengan menggunakan metode regresi dengan prapemrosesan PC kecuali pada Stasiun Kroya dengan grid 3x3.
SARAN
Metode PLS dan PCA hanya cocok untuk data yang bersifat linear, sedangkan data luaran GCM bersifat nonlinier. Hal ini menyebabkan pemodelan menghasilkan R2 yang Kecil. Oleh karena itu, perlu dilakukan penelitian lebih lanjut untuk mengatasi masalah non linier pada data luaran GCM tersebut.
Daftar Pustaka Anonim (a), (2009), Verifikasi dan Validasi Model. http://didi.staff.gunadarma.ac.id [12 Oktober2009] Anonim (b), (2009). Analisis Komponen Utama.http://www.wikipwedia.org [ 10 September 2009]. Draper, N.R & Smith, H. (1992). Analisis Regresi Terapan. Edisi Kedua. Jakarta: PT. GramediaPustaka Utama Herwindiawati, D.E. (1997). Pengkajian Regresi Komponen Utama, Regresi Ridge dan Regresi Kuadrat Terkecil Parsial untuk Mengatasi Kolinieritas. Thesis-S2, IPB, Bogor. Johnson, R.A & Wichern, D.W. (2002). Applied Multivariate Statistical Analysis. 5th Ed. New Jersey: Prentice Hall. Neter, J. Wassermen W., dan Kutner, M.H. (1990). Applied Linear Statistical Models, 3rd editon, Illinois. Irwin. Ohyver, M (2008), Transformasi Wavelet Kontinu pada Model Kalibrasi Peubah Ganda. Thesis, ITS, Surabaya. Sujatmiko, Irwan. (2003). Analisis Komponen Utama dengan Menggunakan Matriks Varian-Kovarian yang Robust. Thesis Magister ITS. Surabaya Sutikno. (2008). “Statistical Downscaling Luaran GCM dan Pemanfaatannya untuk Peramalan Produksi Padi” Disertasi. Bogor: Program Pascasarjana, Institut Pertanian Bogor. Wigena, A.H. (2006). Pemodelan Statistical Downscaling dengan Regresi Projection Persuit untuk Peramalan Curah Hujan [disertasi]. Bogor: Program Pascasarjana, Institut Pertanian Bogor. Wold, S. (2001). Personal memories of the early PLS development.Chemometrics and Intelligent Laboratory Systems, 58,83–84. Wulandari, S.P., (2000). Analisis Hubungan Antara Variabel Ekonomi dengan Kesejahteraan Menggunakan Metode PLS (Partial Least Squares). Tidak dipublikasikan.Thesis-S2, IPB, Bogor.
Terima Kasih PLS is my way
Lokasi Domain 3x3 (A), 8x8 (B), dan 12x12 (C) (Sumber : Sutikno, 2008)
(A)
Lokasi penelitian
(B)
(C)
back
Variabel penjelas yang di ambil dari model luaran CSIRO-Mk3 dan Pengkodingan Ketinggian/level 850 hPa 500 hPa No.
Variabel 1 Precipitable water 2 Tekanan permukaan laut 3 Komponen angin meridional 4 Komponen angin zonal 5 Ketinggian geopotensial 6 Kelembaban spesifik
Satuan
200 hPa
Ketinggian/level Prw
-
-
-
Kg m-2 Pa
Slp
-
-
-
m s-1
Vas
va850
va500
va200
m s-1 m ltr
Uas Huss
ua850 zg850 hus850
ua500 zg500 hus500
ua200 zg200 hus200
Stasiun Peubah Lokal dan Periode di Kabupaten Indramayu Stasiun Losarang Sudikampiran Sumurwatu Indramayu Juntinyuat
Periode 1981-2000 1981-2000 1981-2000 1981-2000 1981-2000
back
Wavelet Diskrit grid 3x3 grid 8x8 Stasiun RMSE R^2pred Losarang 100.68 26.1 Sudikampiran 77.59 32.7 Sumurwatu 114.27 46.5 Indramayu 153.7 22.2 Juntinyuat 117.1 13.8
R^2pred
113.44 87.83 120.29 168.42 125.9
ROBPCA Domain 3x3 Domain 8x8
grid 12x12 14.3 23.5 51.3 13.6 9.8
R^2pred
106.94 103.34 125.88 182.88 131.1
18.7 17.4 31.2 31.2 3.3
Stasiun Losarang Sumurwatu Indramayu Tulangkacang Juntinyuat
RMSEP 102.55 114.82 150.77 102.66 121.01
R2 24.60% 48.50% 24.90% 18.80% 12.50%
PCA grid 3x3 stasiun Sumurwatu losarang kroya Juntinyuat Indramayu
RMSEP 95.69 111.31 151.03 95.39 108.52
R2 33.20% 46.30% 29.10% 25.70% 53%
Domain 12x12 RMSEP 100.24 134.22 157.89 103.35 121.67
R2 24.40% 26.20% 24.80% 23.80% 11.70%
PLS grid 8x8
grid 12x12
RMSEP R2pred RMSEP R2pred RMSEP R2pred 110.92 31.20% 114.3645 31.30% 121.92 27.40% 108.32 32.50% 109.5804 33.30% 115.82 27.70% 98.05 40.50% 130.4405 28.50% 153.11 20.70% 84.865 25.80% 109.6141 25.20% 118.84 22.30% 125.03 31.10% 131.0903 31.70% 144.62 23%
grid 3x3 Stasiun sumurwatu losarang Kroya juntinyuat indrmayu
grid 8x8
grid 12x12
RMSEP R2pred RMSEP R2pred RMSEP R2pred 102.5 40.80% 100.58 42.70% 102.13 40.80% 104.25 37.20% 102.63 39% 102.46 39.40% 99.088 38.50% 96.841 40.20% 97.61 36.60% 76.731 30.20% 101.44 30.70% 100.48 31.90% 113.38 40.90% 111.53 42.70% 110.09 44.10%