TUGAS AKHIR - ST 1325 REDUKSI DIMENSI ROBUST DENGAN ESTIMATOR MCD UNTUK PRA-PEMROSESAN DATA PEMODELAN STATISTICAL DOWNSCALING
Khusnul Khotimah NRP 1305 100 069 Dosen Pembimbing Dr. Sutikno, S.Si, M.Si
JURUSAN STATISTIKA Fakultas Matematika Dan Ilmu Pengetahuan Alam Institut Teknologi Sepuluh Nopember Surabaya 2009
i
TUGAS AKHIR - ST 1325 REDUKSI DIMENSI ROBUST DENGAN ESTIMATOR MCD UNTUK PRA-PEMROSESAN DATA PEMODELAN STATISTICAL DOWNSCALING
Khusnul Khotimah NRP 1305 100 069 Dosen Pembimbing Dr. Sutikno, S.Si, M.Si
JURUSAN STATISTIKA Fakultas Matematika Dan Ilmu Pengetahuan Alam Institut Teknologi Sepuluh Nopember Surabaya 2009
FINAL PROJECT - ST 1325 ROBUST DIMENSION REDUCTION USING MCD ESTIMATOR FOR DATA PRE PROCESSING IN STATISTICAL DOWNSCALING MODELING
Khusnul Khotimah NRP 1305 100 069 Advisor Dr. Sutikno, S.Si, M.Si
DEPARTMENT of STATISTICS Faculty of Mathematics and Natural Science Sepuluh Nopember Institute Of Technology Surabaya 2009
LEMBAR PENGESAHAN REDUKSI DIMENSI ROBUST DENGAN ESTIMATOR MCD UNTUK PRA-PEMROSESAN DATA PEMODELAN STATISTICAL DOWNSCALING TUGAS AKHIR Diajukan Untuk Memenuhi Salah Satu Syarat Memperoleh Gelar Sarjana Sains pada Program Studi S-1 Jurusan Statistika Fakultas Matematika dan Ilmu Pengetahuan Alam Institut Teknologi Sepuluh Nopember Surabaya
Oleh : KHUSNUL KHOTIMAH NRP. 1305 100 069 Disetujui Oleh Pembimbing Tugas Akhir,
Dr. Sutikno, S.Si, M.Si NIP. 132 161 200 Mengetahui, Ketua Jurusan Statistika FMIPA-ITS
Dr. Sony Sunaryo, M.Si NIP. 131 843 380 SURABAYA, AGUSTUS 2009
iii
REDUKSI DIMENSI ROBUST DENGAN ESTIMATOR MCD UNTUK PRA- PEMROSESAN DATA PEMODELAN STATISTICAL DOWNSCALING Nama Mahasiswa: Khusnul Khotimah NRP: 1305 100 069 Jurusan: Statistika FMIPA-ITS Dosen Pembimbing : Dr. Sutikno, S.Si, M.Si
Abstrak Pemodelan Statistical Downscaling (SD) menghubungkan skala global GCM dengan skala yang lebih kecil. Data GCM merupakan data spasial dan temporal di mana kemungkinan besar terjadi korelasi spasial antara data pada grid yang berbeda dalam satu domain. Di samping itu data GCM memungkinkan adanya pengamatan outlier. Oleh karena itu, dalam pemodelan SD perlu dilakukan suatu prapemrosesan yaitu reduksi dimensi untuk mengatasi masalah multikolinearitas data luaran GCM. Metode reduksi dimensi yang serikali digunakan adalah Principal Component Analysis (PCA). Namun PCA tidak dapat diandalkan jika ada pengamatan outlier dalam data, sehingga diperlukan reduksi dimensi yang robust. Reduksi dimensi robust menggunakan Robust Principal Component Analysis (ROBPCA) dengan estimator robust MCD. Metode MCD merupakan upaya untuk menemukan h observasi yang memiliki determinan matriks varian-kovarian minimum. Identifikasi outlier menggunakan robust distance yang juga menggunakan estimator MCD. Hasil penelitian menunjukkan bahwa ROBPCA menghasilkan komponen utama yang jauh lebih sedikit dibanding dengan PCA pada variabel HUSS. Hal ini dipengaruhi oleh adanya pengamatan outlier yang cukup banyak dan mempunyai jarak yang lebar terhadap nilai cut off dibanding dengan variabel-variabel lain. Variabel hasil reduksi dimensi kemudian digunakan untuk pemodelan SD, setelah itu dilakukan validasi. Pada pemodelan SD, tidak ada perbedaan signifikan antara metode regresi PCA dan regresi ROBPCA. Namun, secara umum metode regresi PCA cenderung lebih baik daripada regresi ROBPCA dilihat dari nilai RMSEP dan R2. Kata kunci : GCM, SD, outlier PCA, ROBPCA, cut off, MCD, RMSEP, R2
v
ROBUST DIMENSION REDUCTION USING MCD ESTIMATOR FOR DATA PRE PROCESSING IN STATISTICAL DOWNSCALING MODELING Name: Khusnul Khotimah NRP: 1305 100 069 Majors : Statistika FMIPA-ITS Advisor : Dr. Sutikno, S.Si, M.Si
Abstrak Statistical Downscaling (SD) modeling connects GCM global scale to smaller rainfall scale. Nevertheless, GCM data is spatial and temporal data where there is possibility of spatial correlation among the data in different grids in the same domain and enable the presence of outliers. Therefore, in SD modeling preprocessing is necessary, such as dimension reduction to solve GCM outline data multicolinearity problem. Dimension reduction method which is often used is Principal Component Analysis (PCA). PCA can’t be relied on if there are outliers in the data, so robust dimension reduction is required. One of robust dimension reduction methods is Robust Principal Component Analysis (ROBPCA) with MCD robust estimator. MCD method is objective is to find h observations whose covariance matrix has the lowest determinant. Outlier identification uses robust distance which also uses MCD estimator. This research shows that ROBPCA yields less principal components than common PCA for variable HUSS. This is affected by the presence of many outliers and having longer distance to cut off value than other variables. Variables from dimension reduction are used in SD modeling, after validation is done. In SD modeling, there is no significant difference between PCA and ROBPCA regression method. But, generally PCA regression method tends to be better than ROBPCA regression based on RMSEP and R2. Keywords : GCM, SD, outlier PCA, ROBPCA, cut off, RMSEP, R2
vii
MCD,
KATA PENGANTAR Puji syukur kepada Allah SWT atas segala rahmat, hidayah, dan petunjuk sehingga penulis dapat menyelesaikan Tugas Akhir yang berjudul “REDUKSI DIMENSI ROBUST DENGAN ESTIMATOR MINIMUM COVARIANCE DETERMINANT (MCD) UNTUK PRA-PEMROSESAN DATA PEMODELAN STATISTICAL DOWNSCALING (SD)”. Sholawat serta salam kepada Nabi Muhammad SAW juga tak lupa penulis panjatkan, semoga penulis memperoleh syafa’at dari beliau. Tidak lupa penulis mengucapkan terima kasih sebesar-besarnya kepada berbagai pihak yang turut membantu dalam penyusunan Tugas Akhir ini, diantaranya : 1. Bapak dan Ibu tercinta atas kasih sayang, bimbingan, dukungan dan do’a yang selalu mengalir untuk ananda. 2. Bapak Dr. Sony Sunaryo, M.Si selaku Ketua Jurusan Statistika yang telah memberi dukungan. 3. Bapak Dr. Sutikno, S.Si, M.Si selaku dosen pembimbing atas segala bimbingan, saran, semangat dan waktu yang diberikan kepada penulis hingga laporan tugas akhir ini terselesaikan. 4. Bapak Ir. Arie Kismanto, M.Si., M. Syahid Akbar, S.Si, M.Si., dan Dr. Ir. Setiawan, M.S atas petunjuk yang diberikan. 5. Ibu Ir. Mutiah Salamah, M.Kes., selaku koordinator Tugas Akhir. 6. R. Moh. Atok, S.Si, M.Si dan Dr. Brodjol Sutijo, S.Si, M.Si selaku dosen wali dan seluruh Dosen Statistika ITS atas semua ilmu dan pengalaman yang dibagikan kepada penulis. 7. Kakak-kakakku Mbak Nikmah, Mas Anton dan Mas Fuad. 8. Widira, tanpamu aku tak bisa seperti ini teman, doaku selalu untukmu. 9. Anggota trio PC (Jj dan Reni), nona missing (Anita), dan anak “ bapak kandung “ semuanya.
ix
10. Rokhana, Shofi, Ning Ais, Mas Josh, Nuri, serta kawankawan sigma_sixteen semuanya. 11. Pak Suryana, terima kasih atas waktu dan pencerahannya. 12. Semua pihak yang telah membantu penulis dalam penyelesaian tugas akhir ini yang tidak mungkin disebutkan satu persatu. Penulis menyadari bahwa Tugas Akhir ini masih jauh dari kesempurnaan. Oleh karena itu, penulis sangat mengharapkan saran dan kritik demi kesempurnaan Tugas Akhir ini. Semoga Tugas Akhir ini, dapat menambah khasanah ilmu pengetahuan dan bermanfaat untuk pembaca.
Surabaya, Juli 2009
Penulis
x
DAFTAR ISI
HALAMAN JUDUL ............................................................... i LEMBAR PENGESAHAN ..................................................... iii ABSTRAK .............................................................................. v ABSTRACT ............................................................................ vii KATA PENGANTAR............................................................. ix DAFTAR ISI ........................................................................... xi DAFTAR GAMBAR .............................................................. xiii DAFTAR TABEL ................................................................... .xv BAB I PENDAHULUAN 1.1 Latar Belakang .................................................... 1 1.2 Rumusan Masalah............................................... 3 1.3 Batasan Masalah ................................................. 3 1.4 Tujuan ................................................................. 4 1.5 Manfaat ............................................................... 4 BAB II TINJAUAN PUSTAKA 2.1 Principal Component Analysis (PCA)................5 2.2 Pendeteksian Outlier........................................... 8 2.3 Estimator MCD................................................... 9 2.4 Regresi Linier ..................................................... 13 2.5 General Circulation Model (GCM) .................... 15 2.6 Downscalling ...................................................... 15 2.7 Statistical Downscaling (SD)..............................16 BAB III METODOLOGI PENELITIAN 3.1 Sumber Data ....................................................... 19 3.2 Variabel Penelitian ............................................. 20 3.3 Metode Analisis Data ......................................... 21 BAB IV ANALISA DAN PEMBAHASAN 4.1 Identifikasi Outlier..............................................27 4.2 Pra-pemrosesan Pemodelan SD .......................... 29 4.2.1 Metode CPCA............................................ 29
xi
4.2.2 Metode ROBPCA ...................................... 32 4.3 Pemodelan SD..................................................... 35 4.3.1 Metode Regresi CPCA............................... 35 4.3.2 Metode Regresi ROBPCA ......................... 37 4.4 Pembandingan Metode ....................................... 38 4.4.1 Pra-pemrosesan Pemodelan SD ................. 38 4.4.2 Pemodelan SD............................................ 43 4.5 Pembahasan........................................................ 46 BAB V KESIMPULAN DAN SARAN ................................. 49 5.1 Kesimpulan ......................................................... 49 5.2 Saran ................................................................... 51 DAFTAR PUSTAKA.............................................................. 53 LAMPIRAN ............................................................................ 55 BIODATA PENULIS.............................................................123
xii
DAFTAR GAMBAR Judul Gambar
Halaman
3.1 Lokasi Domain 3x3 (A), 8x8 (B) dan 12x12 (C) ............ 19 3.2 Diagram Alir Tahapan Metode Analisis Data ................. 23 3.3 Diagram Alir untuk Memperoleh Matriks Variankovarian C ( X )MCD ......................................................... 24 4.1 Identifikasi Outlier dengan Robust Distance Variabel HUSS MenurutDomain 3x3 (A), 8x8 (B), dan 12x12 (C).........................................................................27 4.2 Plot Keragaman Kumulatif PC Variabel HUSS dengan Menggunakan Metode CPCA dan ROBPCA ..... 43 4.3 Perbandingan Jumlah PC Optimal Menggunakan Metode CPCA dan ROBPCA pada Variabel Luaran GCM ................................................................................ 44
xiii
DAFTAR TABEL Judul Tabel
Halaman
3.1 Variabel penjelas yang di ambil dari model luaran CSIRO-Mk3 dan Pengkodingan ...................................... ..20 4.1 Jumlah Pengamatan Outlier pada Variabel Luaran GCM Menurut Domain: 3x3, 8x8, dan 12x12...................28 4.2 Nilai Eigen dan Keragaman Kumulatif PC Variabel HUSS dengan Menggunakan Metode PCA.......................30 4.3 Jumlah PC Optimal dan Keragaman Kumulatif Variabel Luaran GCM dengan Metode PCA...................31 4.4 Nilai Eigen dan Keragaman Kumulatif PC Variabel HUSS dengan Menggunakan Metode ROBPCA...............33 4.5 Jumlah PC Optimal dan Keragaman Kumulatif Variabel Luaran GCM dengan Metode ROBPCA............34 4.6 RMSEP dan R2 Validasi Model SD Menggunakan Metode Regresi PCA.......................................................................36 4.7 Nilai Minimum, Maksimum, Standard deviasi, dan rataan RMSEP dan R2 Validasi Model Regresi PCA...................37 4.8 RMSEP dan R2 Validasi Model SD Berdasarkan Jumlah PC Berbeda dengan PCA Menggunakan Metode Regresi ROBPCA...........................................................................38 4.9 Nilai Minimum, Maksimum, Standard deviasi, dan rataan RMSEP dan R2 Validasi Model Regresi ROBPCA Berdasarkan Jumlah PC Berbeda..................................... 39 4.10 RMSEP dan R2 Validasi Model SD Berdasarkan Jumlah PC Sama dengan PCA Menggunakan Metode Regresi ROBPCA...........................................................................39 4.11 Nilai Minimum, Maksimum, Standard deviasi, dan rataan RMSEP dan R2 Validasi Model Regresi ROBPCA Berdasarkan Jumlah PC Sama...........................................40 4.12 Keragaman Kumulatif PC Variabel HUSS Menggunakan Metode CPCA dan ROBPCA............................................41 4.13 RMSEP dan R2 Pemodelan SD Menggunakan Metode
xv
Regresi PCA dan Regresi ROBPCA dengan Jumlah
PC Beda………………………………………….45 4.14 RMSEP dan R2 Pemodelan SD Menggunakan Metode Regresi PCA dan Regresi ROBPCA dengan Jumlah
PC Sama…………………………………………46
xvi