ESTIMASI MATRIKS KOVARIANSI BERUKURAN BESAR DAN JARANG (SPARSE)
TESIS
Oleh HENDRA CIPTA 117021040/MT
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM UNIVERSITAS SUMATERA UTARA MEDAN 2013
ESTIMASI MATRIKS KOVARIANSI BERUKURAN BESAR DAN JARANG (SPARSE)
TESIS
Diajukan Sebagai Salah Satu Syarat Untuk Memperoleh Gelar Magister Sains dalam Program Studi Magister Matematika pada Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Sumatera Utara
Oleh HENDRA CIPTA 117021040/MT
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM UNIVERSITAS SUMATERA UTARA MEDAN 2013
Judul Tesis
: ESTIMASI MATRIKS KOVARIANSI BERUKURAN BESAR DAN JARANG (SPARSE) Nama Mahasiswa : Hendra Cipta Nomor Pokok : 117021040 Program Studi : Magister Matematika
Menyetujui, Komisi Pembimbing
(Dr. Sutarman, M.Sc) Ketua
(Prof. Dr. Saib Suwilo, M.Sc) Anggota
Ketua Program Studi
Dekan
(Prof. Dr. Herman Mawengkang)
(Dr. Sutarman, M.Sc)
Tanggal lulus: 17 Desember 2013
Telah diuji pada Tanggal: 17 Desember 2013
PANITIA PENGUJI TESIS Ketua
: Dr. Sutarman, M.Sc
Anggota : 1. Prof. Dr. Saib Suwilo, M.Sc 2. Prof. Dr. Herman Mawengkang 3. Dr. Erna Budhiarti, M.IT
PERNYATAAN
ESTIMASI MATRIKS KOVARIANSI BERUKURAN BESAR DAN JARANG (SPARSE)
TESIS
Saya mengakui bahwa tesis ini adalah hasil karya sendiri, kecuali beberapa kutipan dan ringkasan yang masing-masing dituliskan sumbernya.
Medan, 20 Januari 2014 Penulis,
Hendra Cipta
i
ABSTRAK Estimasi matriks kovariansi berukuran besar dan jarang (sparse) didasarkan pada kemungkinan penalti ketika variabel-variabel mempunyai sebuah aturan awal. Dengan menggunakan dekomposisi cholesky pada inversnya, sebuah bentuk faktor cholesky dengan memilih penambahan sisi untuk setiap baris pada faktor cholesky menggunakan berbagai metode antara lain Lasso penalty method, banding dan adaptive banding. Sebuah iterasi Dynamic Weighted Lasso (DWL) algorithm digunakan untuk memecahkan masalah pada estimasi matriks berukuran besar dan jarang ini dimana estimatornya membandingkan hasil estimasi untuk mendapatkan hasil yang lebih baik. Kata kunci
: Matriks kovariansi, Estimasi matriks kovariansi jarang, Faktor cholesky.
ii
ABSTRACT Estimating sparse covariance based on penalized likelihood with penalty when the variables have a natural ordering. Using cholesky decomposition on the inverse, a banded structure on the cholesky factor, and select the bandwidth adaptively for each row of the cholesky factor such as Lasso penalty method, banding and adaptive banding. An iterative Dynamic Weighted Lasso (DWL) algorithm use for solving estimation of large and sparse which the estimators compare the estimation result for obtain the best result. Keyword
: Covariance matrix, Estimation of sparse covariance matrix, Cholesky factor.
iii
KATA PENGANTAR Puji syukur kepada Allah SWT yang selalu memberikan rahmat dan hidayat yang luar biasa sehingga penulis dapat menyelesaikan tesis dengan judul: ESTIMASI MATRIKS KOVARIANSI BERUKURAN BESAR DAN JARANG (SPARSE). Penulis menyampaikan terima kasih yang sebesar-besarnya kepada : Bapak Prof. Dr. dr. Syahril Pasaribu, DTM&H, M.Sc(CTM), Sp.A(K) selaku Rektor Universitas Sumatera Utara. Bapak Dr. Sutarman, M.Sc, Dekan Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Sumatera Utara, yang telah memberikan kesempatan kepada penulis untuk mengikuti Program Magister Matematika di FMIPA Universitas Sumatera Utara, yang juga sebagai pembimbing I, dan banyak memberikan bimbingan dan arahan dalam menyelesaikan tesis ini. Bapak Prof. Dr. Herman Mawengkang, Ketua Program Studi Magister Matematika FMIPA Universitas Sumatera Utara sekaligus pembanding I yang telah memberikan bimbingan, arahan dan ilmu pengetahuan dalam menyelesaikan tesis ini. Bapak Prof. Dr. Saib Suwilo, M.Sc, selaku pembimbing II atas saran dan bantuannya untuk kesempurnaan penulisan tesis ini. Ibu Dr. Erna Budhiarti, M.IT, selaku pembanding II yang memberikan saran dan kritik dalam penyempurnaan tesis ini. Bapak / Ibu Dosen Program Studi Magister Matematika FMIPA Universitas Sumatera Utara yang telah memberikan ilmunya selama masa perkuliahan. Ibu Misiani, S.Si, staf administrasi Program Studi Magister Matematika FMIPA Universitas Sumatera Utara yang banyak membantu proses administrasi. Ucapan terimakasih juga penulis sampaikan kepada : Ayah dan Ibunda tercinta, Abdullah dan Rohani dan Abangdaku Efal Khairil, S.Kep yang telah memberikan motivasi dan dukungan baik moril maupun materil selama penulis dalam pendidikan dan penyelesaian tesis ini.
iv
Rekan-rekan mahasiswa Program Studi Magister Matematika FMIPA Universitas Sumatera Utara khususnya angkatan genap reguler tahun 2011, dan semua pihak yang tidak dapat penulis sebutkan satu persatu pada tesis ini. Semoga Allah SWT membalas segala kebaikan dan bantuan yang telah diberikan.
Medan, 20 Januari 2014 Penulis,
Hendra Cipta
v
RIWAYAT HIDUP Hendra Cipta lahir di Tanjung Pura, Kabupaten Langkat pada tanggal 2 Juli 1989, merupakan anak kedua dari dua bersaudara dengan ayah Abdullah dan ibunda Rohani. Penulis menyelesaikan pendidikan Sekolah Dasar di SD Negeri 050730 Tanjung Pura tahun 2001, MIS Jamaiyah Mahmudiyah Tanjung Pura tahun 2002, MTsN Tanjung Pura tahun 2004, dan MAN-2 Tanjung Pura pada tahun 2007. Pada tahun 2007 penulis melanjutkan pendidikan sarjana Strata-1 pada Fakultas Tarbiyah jurusan pendidikan matematika di IAIN Sumatera Utara Medan dan memperoleh gelar Sarjana Pendidikan pada tahun 2011. Pada bulan Februari 2012 penulis melanjutkan studi pada Program Studi Magister Matematika di FMIPA Universitas Sumatera Utara. Pada bulan Juni 2012 penulis menjadi staf pengajar di SMK Namira Tech Nusantara Medan dan bimbingan belajar Primagama Amal Medan sampai sekarang.
vi
DAFTAR ISI Halaman PERNYATAAN
i
ABSTRAK
ii
ABSTRACT
iii
KATA PENGANTAR
iv
RIWAYAT HIDUP
vi
DAFTAR ISI
vii
DAFTAR TABEL
ix
DAFTAR GAMBAR
x
BAB 1 PENDAHULUAN
1
1.1 Latar Belakang
1
1.2 Rumusan Masalah
3
1.3 Tujuan Penelitian
3
1.4 Manfaat Penelitian
3
BAB 2 TINJAUAN PUSTAKA
4
BAB 3 ESTIMASI MATRIKS KOVARIANSI
6
3.1 Analisis Multivariat
6
3.1.1 Matriks data multivariat
6
3.1.2 Vektor rata-rata
7
3.1.3 Varians kovariansi
7
3.2 Matriks Kovariansi
8
3.3 Matriks Jarang (Sparse Matrix)
10
3.4 Estimasi Matriks Kovariansi
10
3.5 Estimasi Matriks Presisi Jarang
12
vii
3.5.1 Algoritma dasar iterasi pembobotan L1 -likelihood
12
3.5.2 Aturan kondisi matriks berukuran besar dan jarang
13
3.5.3 Sifat-sifat estimasi matriks presisi jarang
14
3.5.4 Sifat-sifat estimasi invers matriks korelasi jarang
16
3.6 Estimasi Matriks Kovariansi Berukuran Jarang
18
3.6.1 Sifat-sifat estimasi matriks kovariansi jarang
18
3.6.2 Sifat-sifat estimasi matriks korelasi jarang
19
BAB 4 METODE ESTIMASI MATRIKS KOVARIANSI 4.1 Metode-metode Estimasi
22 22
4.1.1 Banding cholesky factor
22
4.1.2 Banding dan adaptive banding
23
4.2 Estimasi Faktor Cholesky
24
4.2.1 Faktor cholesky
24
4.2.2 Estimasi faktor cholesky berukuran jarang
25
4.2.3 Estimasi faktor cholesky berukuran normal jarang
27
4.3 Analisis Hasil
27
4.4 Aplikasi
32
BAB 5 KESIMPULAN
34
DAFTAR PUSTAKA
35
viii
DAFTAR TABEL
Nomor
Judul
4.1
Simulasi data multivariat
4.2
Simulasi multivariat t3 untuk model
Halaman
29 P
1,
P
2,
P
3
dengan men-
deskripsikan bahwa nilai masuk seperti pada tabel 4.1
30
4.3
Nilai nol pada faktor cholesky (%)
31
4.4
Nilai nol pada
P −1
(%)
31
ix
DAFTAR GAMBAR
Nomor
4.1
Judul
Halaman
Heatmap plots dari persentase nol pada setiap lokasi dalam inversnya P (lebih dari 50 replika) untuk s , p = 30. Warna hitam mempersen-
tasikan 100% dan warna putih 0% persen 4.2
32
Intensitas pasien yang mengalami kanker kantung kemih dengan tidak mengalami
33
x