METODE REGRESI KOMPONEN UTAMA, REGRESI KUADRAT TERKECIL PARSIAL, DAN LASSO PADA DATA KEMISKINAN HASIL OLAHAN SUSENAS 2012
NURHAYATI
DEPARTEMEN STATISTIKA FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR BOGOR 2014
PERNYATAAN MENGENAI SKRIPSI DAN SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA* Dengan ini saya menyatakan bahwa skripsi berjudul Metode Regresi Komponen Utama, Regresi Kuadrat Terkecil Parsial, dan LASSO pada Data Kemiskinan Hasil Olahan Susenas 2012 adalah benar karya saya dengan arahan dari komisi pembimbing dan belum diajukan dalam bentuk apa pun kepada perguruan tinggi mana pun. Sumber informasi yang berasal atau dikutip dari karya yang diterbitkan maupun tidak diterbitkan dari penulis lain telah disebutkan dalam teks dan dicantumkan dalam Daftar Pustaka di bagian akhir skripsi ini. Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut Pertanian Bogor. Bogor, Agustus 2014 Nurhayati NIM G14100014
ABSTRAK NURHAYATI. Metode Regresi Komponen Utama, Regresi Kuadrat Terkecil Parsial, dan LASSO pada Data Kemiskinan Hasil Olahan Susenas 2012. Dibimbing oleh MUHAMMAD NUR AIDI dan AGUS M SOLEH. Multikolinieritas merupakan salah satu masalah yang timbul pada regresi linier berganda. Multikolinieritas menyebabkan pengujian model dan pendugaan koefisien regresi menjadi tidak valid karena menghasilkan ragam yang besar. Metode yang dapat digunakan untuk mengatasi multikolinieritas pada suatu data di antaranya adalah RKU, RKTP, dan LASSO. RKU dan RKTP membentuk komponen-komponen baru yang saling bebas dalam mengatasi multikolinieritas. Kedua metode sebelumnya tidak dapat melakukan penyeleksian peubah. LASSO melakukan penyeleksian peubah bebas dengan menyusutkan nilai koefisien tepat nol. Hasilnya menunjukkan model terbaik dari ketiga metode berdasarkan nilai RMSE dihasilkan oleh metode LASSO, dan berdasarkan nilai RMSEP dihasilkan oleh metode RKU. Selisih nilai kesalahan untuk ketiga metode tidak jauh berbeda. Kata kunci: LASSO, Multikolinieritas, RKTP, RKU ABSTRACT NURHAYATI. Principal Componen Regression, Partial Least Square, and LASSO Methods on Poverty Data Result of Susenas 2012. Supervised by MUHAMMAD NUR AIDI and AGUS M SOLEH. Multicollinearity is a problem that is arise in multiple linear regression. Multicollinearity lead testing and estimating coefficient regression models become invalid because it produces a large variety. Methods that can be used to overcome multicollinearity in the data in among these are PCR, PLS, and LASSO. PCR and PLS forming independent new components to overcome multicollinearity. Both method previously unable to do the screening variables. LASSO does the screening variables by shrinking appropriate coefficient value of zero. The result showed the best model of the three based on RMSE value produced by LASSO method, and based on RMSEP value produced by RKU method. Difference in value of error for the three method are not much different. Keywords: LASSO, Multicollinearity, PCR, PLS
METODE REGRESI KOMPONEN UTAMA, REGRESI KUADRAT TERKECIL PARSIAL, DAN LASSO PADA DATA KEMISKINAN HASIL OLAHAN SUSENAS 2012
NURHAYATI
Skripsi sebagai salah satu syarat untuk memperoleh gelar Sarjana Statistika pada Departemen Statistika
DEPARTEMEN STATISTIKA FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR BOGOR 2014
PRAKATA
Puji dan syukur penulis panjatkan kepada Allah SWT atas segala karuniaNya sehingga penulis dapat menyelesaikan karya ilmiah yang berjudul “Metode Regresi Komponen Utama, Regresi Kuadrat Terkecil Parsial, dan LASSO pada Data Kemiskinan Hasil Olahan Susenas 2012”. Karya ilmiah ini merupakan salah satu syarat kelulusan di Departemen Statistika, Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor. Terima kasih penulis ucapkan kepada Bapak Dr Ir Muhammad Nur Aidi, MS dan Bapak Agus M Soleh, SSi MT selaku pembimbing yang telah banyak memberi masukan dan saran. Terima kasih penulis ucapkan kepada Bapak Ir M. Masjkur, MS selaku dosen penguji yang telah memberikan banyak masukan dan saran pada penulis. Ungkapan terima kasih juga disampaikan kepada kedua orang tua serta seluruh keluarga, atas segala doa dan kasih sayangnya. Semoga karya ilmiah ini bermanfaat.
Bogor, Agustus 2014 Nurhayati
DAFTAR ISI DAFTAR TABEL
vi
DAFTAR GAMBAR
vi
DAFTAR LAMPIRAN
vi
PENDAHULUAN
1
Latar Belakang
1
Tujuan Penelitian
1
METODE
2
Data
2
Prosedur Analisis Data
2
HASIL DAN PEMBAHASAN
6
Hasil Pendugaan Metode Kuadrat Terkecil (MKT)
6
Pendeteksian Multikolinieritas
6
Pendugaan Menggunakan Regresi Komponen Utama (RKU)
7
Pendugaan Menggunakan Regresi Kuadrat Terkecil Parsial (RKTP)
9
Pendugaan Menggunakan Least Absolute Shrinkage and Selection Operator (LASSO) 11 Perbandingan Metode
14
SIMPULAN
14
DAFTAR PUSTAKA
15
LAMPIRAN
16
RIWAYAT HIDUP
20
DAFTAR TABEL 1 Analisis ragam hasil MKT
6
2 Nilai dugaan koefisien regresi dan nilai-p pada MKT
6
3 Nilai VIF setiap peubah bebas
7
4 Vektor ciri untuk setiap komponen
7
5 Nilai RMSECV dan akar ciri metode RKU
8
6 Nilai dugaan koefisien regresi dan nilai-p pada RKU
8
7 Bentukan matriks bobot W
9
8 Bentukan matriks loading P
9
9 Nilai penduga koefisien regresi c
10
10 Nilai RMSECV dan variansi total metode RKTP
10
11 Nilai dugaan koefisien regresi dan nilai-p pada RKTP
11
12 Tahapan peubah bebas yang masuk ke dalam model
12
13 Nilai dugaan koefisien regresi metode LASSO
13
14 Nilai RMSE dan RMSEP
14
DAFTAR GAMBAR 1 Plot objek LARS yang dihasilkan oleh fungsi LAR
11
2 Validasi silang menggunakan mode step
12
3 Validasi silang menggunakan mode fraction
13
DAFTAR LAMPIRAN 1 Hasil bentukan skor komponen-komponen utama
16
2 Hasil bentukan kolom-kolom t untuk matriks T
17
3 Nilai koefisien regresi metode LASSO pada setiap tahapan 4 Nilai ∑|β̂|⁄max ∑|β̂| pada setiap tahapan LASSO
18 19
PENDAHULUAN Latar Belakang Regresi merupakan alat statistika yang digunakan untuk memodelkan hubungan dari peubah respon dengan sebuah atau beberapa peubah bebas. Salah satu masalah yang timbul apabila peubah bebas lebih dari 1 dalam regresi linier berganda adalah multikolinieritas. Masalah multikolinieritas yang terjadi pada penelitian ini merupakan near multikolinieritas, karena pada data contoh multikolinieritas sempurna tidak pernah terjadi. Multikolinieritas biasanya, tetapi tidak selalu, ditandai dengan adanya korelasi antara peubah bebas di dalam model. Adanya multikolinieritas menyebabkan pendugaan koefisien regresi menggunakan Metode Kuadrat Terkecil (MKT) masih dapat dilakukan, namun interpretasinya menjadi sulit (Juanda 2009). Akibatnya pendugaan model regresi yang diperoleh pun menjadi tidak layak. Masalah multikolinieritas dapat diatasi dengan harapan diperoleh model terbaik dengan ragam minimum. Untuk mengatasi masalah ini, salah satunya dengan mengunakan penduga regresi berbias, yaitu regresi gulud (ridge regression), Regresi Kuadrat Terkecil Parsial (RKTP), Least Absolute Shrinkage and Selection Operator (LASSO), dan juga pendekatan berdasarkan komponen utama (Jolliffe 2002). Metode yang digunakan untuk mengatasi multikolinieritas pada penelitian ini yaitu Regresi Kompone Utama (RKU), Regresi Kuadrat Terkecil Parsial (RKTP), dan Least Absolute Shrinkage and Selection Operator (LASSO). Metode RKU meregresikan peubah respon dengan komponen-komponen utama yang bersifat ortogonal sebagai peubah bebas baru melalui MKT. Komponen-komponen inilah yang membuat tidak ada lagi masalah multikolinieritas dalam model. Metode regresi lain yang digunakan adalah RKTP. Metode ini diperkenalkan oleh statistisi asal Swedia, Herman Wold, pada tahun 1960. Regresi RKTP menggeneralisasi dan menggabungkan sifat-sifat dari analisis komponen utama (AKU) dan regresi linier berganda (Abdi 2010). Meskipun awalnya diterapkan di bidang ilmu sosial, saat ini RKTP lebih banyak diterapkan di bidang kemometrik dan bidang-bidang lain (Ismah dkk. 2009, Farmani dkk. 2012). Tahun 1996, Tibshirani memperkenalkan teknik regresi penyusutan lain yang baik bila berurusan dengan peubah bebas yang banyak, yaitu Least Absolute Shrinkage and Selection Operator (LASSO). LASSO melakukan penyeleksian peubah bebas selain mengatasi multikolinieritas, sehingga memungkinkan kita untuk menggunakan hanya sebagian peubah bebas dalam model. Tujuan Penelitian Mengetahui perbedaan hasil dari metode Regresi Komponen Utama (RKU), Regresi Kuadrat Terkecil Parsial (RKTP), dan Least Absolute Shrinkage and Selection Operator (LASSO) dalam mengatasi multikolinieritas, dan menentukan metode dengan model terbaik menggunakan kriteia RMSE dan RMSEP.
2
METODE Data Penerapan metode pada penelitian ini menggunakan data riil yang diperoleh dari hasil olahan Susenas 2012, Badan Pusat Statistik Indonesia. Respon yang digunakan adalah persentase penduduk miskin setiap provinsi di Indonesia pada tahun 2012 (www.bps.go.id/menutab.php?tabel=1&kat=1&id_subyek=23). Peubah bebas yang diduga berpengaruh terhadap respon yaitu (www.bps.go.id/menutab.php?tabel=1&kat=1&id_subyek=29) [diunduh 6 juni 2014]: X1: Persentase rumah tangga menurut provinsi dengan atap terluas bukan ijuk/lainnya. X2: Persentase rumah tangga menurut provinsi dengan dinding terluas bukan bambu/lainnya. X3: Persentase rumah tangga menurut provinsi dengan KRT yang bekerja. X4: Persentase rumah tangga menurut provinsi dengan lantai terluas bukan tanah. X5: Persentase rumah tangga menurut provinsi dengan sanitasi layak, 2012. X6: Persentase rumah tangga menurut provinsi dengan sumber air minum layak. X7: Persentase rumah tangga menurut provinsi dengan status kepemilikan rumah milik sendiri. X8: Persentase rumah tangga menurut provinsi dengan status kepemilikan rumah kontrak/sewa. X9: Persentase rumah tangga menurut provinsi dengan luas hunian per kapita<= 7.2 m2. X10: Persentase penduduk buta huruf menurut kelompok umur 15-44 tahun. X11: Persentase penduduk 10 tahun ke atas yang tidak/belum pernah sekolah menurut provinsi. X12: Persentase rumah tangga menurut provinsi yang tidak memiliki kendaraan bermotor. Prosedur Analisis Data 1. Melakukan perhitungan regresi linier berganda menggunakan Metode Kuadrat Terkecil (MKT). 2. Mendeteksi multikolinieritas menggunakan nilai Variance Inflation Factor (VIF). Nilai VIF yang lebih dari 1 sudah menunjukkan adanya multikolinieritas. Nilai VIF yang lebih besar dari 10 menunjukkan adanya masalah multikolinieritas serius (Montgomery & Peck 1991). Nilai VIF diperoleh dengan rumus berikut: (1 − R2i )−1 , dimana R2i adalah koefisien determinasi bila Xi diregresikan terhadap peubah bebas lainnya. 3. Melakukan pendugaan koefisien regresi menggunakan metode Regresi Komponen Utama (RKU). Melakukan pendugaan koefisien menggunakan metode RKU. Metode RKU merupakan penduga regresi berbias yang mempertahankan seluruh peubah bebas dalam model, tetapi mengubah
3 penduganya melalui MKT sebagai upaya untuk mengurangi efek multikolinieritas (Jolliffe 2002). Tahapan untuk metode RKU sebagai berikut: ̅ p , dimana n 3.1.Membentuk matriks mean centered dari 𝐗 = 𝐗 np − 𝐗 adalah banyaknya data, dan p adalah banyaknya peubah. 3.2.Membentuk komponen-komponen utama yang akan dijadikan peubah bebas baru. 3.3.Melakukan perhitungan skor komponen utama untuk setiap unit pengamatan dengan rumus: 𝐊𝐔ij = 𝐚′i 𝐱 j Keterangan: 𝐊𝐔ij : skor komponen utama ke-i pengamatan ke-j ′ 𝐚i : vektor ciri komponen utama ke-i 𝐱j : vektor dari peubah yang diamati pada pengamatan ke-j 3.4.Menentukan banyaknya komponen yang masuk dalam model melalui proses validasi silang, yaitu dengan menggunakan nilai root mean square error of cross validation (RMSECV) minimum yang diperoleh dengan rumus berikut, 1
RMSEcv. K = √k ∑Kk=1 ∑(xi ,yi )∈T(fk (𝐱 i ) − yi )2 dengan k adalah banyaknya fold. Proses validasi menggunakan K-fold akan mengurangi keragaman, meski biasnya tinggi, dan K ≈ 10 telah ditujukan sebagai kesepakatan yang baik antara ragam dan bias (Mevik & Cederkvist 2004). Pada penelitian ini, banyaknya fold sudah ditentukan pada paket program R yang digunakan yaitu 10 fold. Selanjutnya, fk (𝐱 i ) adalah dugaan y untuk xi pada saat fold ke-k tidak digunakan dalam menduga model, dan yi adalah peubah respon ke-i. Selain itu, pemilihan banyaknya komponen utama yang digunakan dapat menggunakan nilai akar ciri. Pada penyeleksian komponen utama, sebagian ahli mengambil akar ciri yang lebih besar dari 1 (Draper & Smith 1992). 3.5.Meregresikan peubah respon dengan skor komponen utama. Bentuk umum model RKU adalah: Y = αo + α1 KU1 + α2 KU2 + ⋯ + αk KUk + εk ; k = 1,2, ⋯ , p Keterangan: Y : peubah respon KUk : skor komponen ke-k αo : intersep αk : koefisien regresi ke-k εk : faktor sisaan
4 4. Melakukan pendugaan koefisien menggunakan metode Refresi Kuadrat Terkecil Parsial (RKTP). Perbedaan RKTP dibanding dengan RKU yaitu komponen-komponen tidak hanya dibentuk berdasarkan peubah bebas. Akan tetapi, dibentuk sebagai kombinasi linier peubah bebas yang memiliki peragam maksimum dengan kombinasi linier peubah respon (Ismah dkk. 2009). RKTP mencari suatu dekomposisi linier X dengan: 𝐗 = 𝐓𝐏 ′ + 𝐄 ; 𝐓 = 𝐗𝐖; 𝐏 = 𝐗 ′ 𝐓; 𝐓 ′ 𝐓 = 𝐈 Keterangan: T : matriks komponen berukuran nxm P : matriks loading berukuran kxm I : matriks identitas berukuran mxm E : matriks sisaan berukuran nxk Matriks sisaan E menyatakan seberapa besar X yang tidak terdekomposisi menjadi matriks komponen T dan loading P. Model regresi untuk RKTP yaitu 𝐘 = 𝐓𝐜 + 𝐅 = T(𝐓 ′ 𝐓)−1 𝐓 ′ 𝐲 + 𝐅 , karena 𝐓 = 𝐗𝐖, sehingga model akhirnya diperoleh dengan: 𝐘 = 𝐗𝐖(𝐖 ′ 𝐗 ′ 𝐗𝐖)−1 𝐖 ′ 𝐗 ′ 𝐲 + 𝐅 = 𝐗𝐖(𝐏 ′ 𝐖)−1 𝐜 + 𝐅 ; 𝐖 ′ 𝐖 = 𝐈 Keterangan: c : vektor koefisien regresi berukuran mx1 W : matriks bobot berukuran kxm F : vektor sisaan berukuran nx1 Vektor sisaan F menyatakan seberapa besar Y yang tidak dijelaskan oleh matriks komponen T. Agar dapat menerangkan keragaman dari X dan menduga Y dengan baik, dibentuk komponen-komponen matriks menggunakan algoritma NIPALS yang bersifat iteratif. Tahapan untuk metode RKTP menggunakan algoritma NIPALS sebagai berikut: ̅ p dan 𝐘 = 𝐘np − 4.1.Membentuk matriks mean centered dari 𝐗 = 𝐗 np − 𝐗 ̅p , dimana n adalah banyaknya data, dan p adalah banyaknya peubah. 𝐘 4.2.Inisialisasi i=1,…,m. Dimana m adalah banyaknya komponen yang terbentuk. 𝐗′𝐘
4.3.Menghitung bobot w, 𝐰i = ‖𝐗i′𝐘i ‖. i i
4.4.Menghitung vektor komponen t, 𝐭 i = 𝐗 i 𝐰i . 4.5.Menghitung loading p dengan meregresikan X dengan t, 𝐩i = 4.6.Menghitung c dengan meregresikan Y dengan t, ĉi =
𝐭 ′i 𝐘
𝐭 ′i 𝐭 i
𝐗 ′i 𝐭 i 𝐭 ′i 𝐭 i
.
.
4.7.Menghitung matriks sisaan X dan Y, yaitu 𝐄i+1 = 𝐗 i − 𝐭 i 𝐩′i dan 𝐅i+1 = 𝐘i − 𝐭 i 𝐜̂ i′ . 4.8.Memilih banyaknya komponen yang digunakan dalam model. Banyaknya komponen yang digunakan dalam model dapat ditentukan sendiri oleh peneliti (Zeng XQ et al. 2007). Kriteria pemilihan
5 banyaknya komponen pada RKTP sama dengan RKU, yaitu dengan menggunakan nilai RMSECV minimum. 4.9.Mengubah bentuk matriks W, T, dan P menjadi kolom-kolom vektor 𝐰i , 𝐭 i , dan 𝐩i . ̂ RKTP = 𝐖(𝐏 ′ 𝐖)−𝟏 𝐜̂ . 4.10. Menduga peubah β RKTP, 𝛃 5. Melakukan pendugaan koefisien menggunakan metode Least Absolute Shrinkage and Selection Operator (LASSO). Penduga koefisien LASSO diperoleh dengan meminimumkan jumlah kuadrat sisaan ∑ni=1 (yi − β0 − 2
∑pj=i xij βj ) , dengan kendala ∑pj=1|β̂j | ≤ t. Nilai t adalah parameter tuning yang ukuran numeriknya ditentukan melalui proses validasi silang. Pendugaan koefisien LASSO diperoleh dengan menentukan batas yang p p dibakukan, yaitu s = t⁄∑j=1|β̂0j | dengan t = ∑j=1|β̂j | , dimana β̂0j merupakan |β̂|⁄max|β̂| (Dewi 2010). Jika β̂0j adalah penduga kuadrat p terkecil untuk model penuh dan t 0 = ∑ |β̂0j |, nilai t < t 0 menyebabkan j=1
sejumlah koefisien menjadi 0 (Tibshirani 1996). Untuk mendapatkan solusi LASSO digunakan modifikasi algoritma LAR sebagai berikut (Hastie et al. 2008): 5.1.Membakukan peubah bebas sehingga memiliki nilai tengah 0 dan ragam 1. 5.2.Menetapkan penduga koefisien regresi β1 , β2 , ⋯ , βp = 0. 5.3.Memasukkan peubah bebas yang berkorelasi tinggi dengan sisaan ke dalam model. Jika koefisien bukan nol mencapai nol, keluarkan peubah dari kumpulan peubah-peubah aktif dan hitung kembali arah kuadrat terkecil bersama. 5.4.Lanjutkan langkah ini sampai p peubah bebas dimasukkan. Solusi model penuh untuk kuadrat terkecil diperoleh setelah min(N-1,p) langkah. 5.5.Memilih model terbaik LASSO menggunakan kriteria validasi silang, mode step dan mode fraction. 6. Menentukan metode dengan model terbaik berdasarkan kriteria RMSE dan RMSEP. Rumus RMSE dan RMSEP sebagai berikut, ∑n ̂i −yi )2 i=1(y
RMSE = √
n
1
; RMSEP = √k ∑Kk=1 ∑(xi ,yi )∈T(fk (𝐱 i ) − yi )2
dimana pada RMSE, ŷi adalah peubah respon dugaan ke-i, yi adalah peubah respon amatan ke-i, dan n adalah banyaknya data. Pada RMSEP, k adalah banyaknya fold, fk (𝐱 i ) adalah dugaan y untuk xi pada saat fold ke-k tidak digunakan dalam menduga model, dan yi adalah peubah respon dugaan kei. Semakin kecil nilai keduanya, semakin baik model yang dihasilkan. Pengolahan data menggunakan program R 2.15.2, dengan paket tambahan program R yaitu LARS dan PLS. Paket LARS digunakan untuk melakukan pendugaan model menggunakan metode LASSO, dan paket PLS digunakan untuk melakukan pendugaan model menggunakan metode RKU dan RKTP.
6 HASIL DAN PEMBAHASAN Hasil Pendugaan Metode Kuadrat Terkecil (MKT) Analisis regresi linier berganda menggunakan MKT menunjukkan model berpengaruh secara statistik pada pada taraf nyata 10% (Tabel 1). Keragaman peubah respon yang mampu dijelaskan oleh peubah bebas sebesar 77.9%, sisanya dijelaskan oleh peubah-peubah lain di luar model. Pada pendugaan koefisien regresi secara parsial (Tabel 2), dari semua peubah bebas yang masuk ke dalam model, persentase rumah tangga menurut provinsi dengan KRT yang bekerja (X3), persentase rumah tangga menurut provinsi dengan lantai terluas bukan tanah (X4), dan persentase penduduk buta huruf menurut kelompok umur 15-44 tahun (X10) yang berpengaruh terhadap persentase penduduk miskin (Y). Tabel 1 Analisis ragam hasil MKT Sumber Keragaman Regresi Sisaan Total
DB 12 20 32
Jumlah Kuadrat 1070.78 303.05 1373.83
Kuadrat Tengah 89.23 15.15
Fhitung 5.89
Nilai-p 0.000
Tabel 2 Nilai dugaan koefisien regresi dan nilai-p pada MKT Koefisien Nilai-p Penduga Intersep 113.4900 0.0320 X1 -0.0625 0.6860 X2 0.1597 0.1120 X3 -0.6608 0.0690* X4 -0.4455 0.0240* X5 -0.0999 0.3200 X6 -0.0975 0.2870 X7 -0.0200 0.9430 X8 -0.2810 0.3950 X9 0.1806 0.4450 X10 0.5150 0.0080* X11 0.2836 0.2120 X12 -0.0426 0.7010 Keterangan: * berpengaruh pada taraf nyata 10% Peubah
Pendeteksian Multikolinieritas Nilai Variance Inflation Factor (VIF) digunakan untuk mendeteksi masalah multikolinieritas. Semua peubah bebas memiliki nilai VIF lebih dari 1, yang artinya
7 terdapat peubah bebas yang merupakan fungsi dari peubah bebas lain. Nilai VIF dari data rata-rata jam kerja selama setahun untuk setiap peubah bebas dapat dilihat pada Tabel 3. Tabel 3 Nilai VIF setiap peubah bebas Peubah Bebas VIF X1 3.901 X2 2.119 X3 2.427 X4 3.485 X5 3.902 X6 1.860 X7 10.266 X8 10.247 X9 9.188 X10 2.084 X11 2.872 X12 7.291 Pendugaan Menggunakan Regresi Komponen Utama (RKU) Tahap awal pada RKU yaitu dengan melakukan pemusatan data sehingga memiliki satuan yang sama. Tahap berikutnya membentuk komponen utama dan melakukan skor komponen utama. Hasil skor komponen-komponen utama dapat dilihat pada Lampiran 1, dan vektor-vektor ciri yang digunakan untuk melakukan skor komponen utama dapat dilihat pada Tabel 4. Tabel 4 Vektor ciri untuk setiap komponen a1
a2
X1
0.28
-0.21
X2
0.27
0.18
X3
a3
a4
a5
a6
a7
a8
a9
a10
-0.35
0.32
0.47
-0.27
-0.20
0.51
0.22
-0.11
0.82
0.21
-0.11
0.12 0.15
0.23
0.58
X4
0.22
0.10
-0.18
X5
0.40
0.24
0.82
-0.58
0.35
0.23
0.52
-0.39
0.18
0.11
0.21
-0.48
0.17
-0.22
-0.20
0.27
-0.29
X6 X7
-0.17
-0.37
X8
0.17
0.32
X9
-0.25
0.48
X10 -0.11
-0.28
X12
-0.70
0.16 0.20
0.26
0.32
0.12
-0.20
X11
0.20
0.39 0.16
-0.22
0.29
0.50
0.76
0.23
0.17
-0.13
-0.61
0.47
0.14
0.12 -0.55
-0.28 0.17
0.12
0.31
-0.59
0.15 -0.20
-0.64
-0.17
a12
-0.31
-0.15 0.12
a11
0.42
-0.14
-0.49
-0.60 -0.17
0.49
0.44
0.38
-0.36
0.16
0.23
0.49
-0.50
-0.21 -0.22
0.14
8 Pemilihan banyaknya komponen dilakukan dengan menggunakan nilai root mean square error of cross validation (RMSECV) minimum dan nilai akar ciri. Nilai RMSECV dan akar ciri untuk setiap komponen pada metode RKU dapat dilihat pada Tabel 5. Tabel 5 Nilai RMSECV dan akar ciri metode RKU Komponen ke-i RMSECV Akar Ciri Proporsi Akar Ciri 1 4.949 4.353 0.363 2 5.098 2.415 0.564 3 5.650 1.453 0.685 4 5.863 1.246 0.789 5 6.246 0.812 0.857 6 6.499 0.520 0.900 7 5.989 0.453 0.938 8 6.250 0.270 0.960 9 6.714 0.195 0.976 10 7.160 0.176 0.991 11 6.523 0.057 0.996 12 7.800 0.050 1.000 Nilai RMSECV minimum diperoleh pada komponen pertama. Berdasarkan nilai akar ciri lebih dari 1, banyaknya komponen terpilih adalah 4. Setelah diregresikan skor komponen utamanya, hanya skor komponen pertama yang berpengaruh terhadap model. Jadi, model optimal pada data persentase penduduk miskin diperoleh dengan melibatkan 1 komponen. Setelah didapatkan banyaknya komponen yang masuk ke dalam model, langkah selanjutnya adalah menduga koefisien regresi metode RKU. Nilai pendugaan koefisien dengan 1 komponen dapat dilihat pada Tabel 6. Dari semua peubah bebas yang masuk ke dalam model, X4, X5, X7, X8, dan X12 yang berpengaruh terhadap persentase penduduk miskin (Y). Keragaman peubah respon yang mampu dijelaskan oleh peubah bebas sebesar 53.46%. Tabel 6 Nilai dugaan koefisien regresi dan nilai-p pada RKU Koefisien t-hitung Nilai-p Penduga X1 -0.0590 -1.7823 0.1084 X2 -0.0561 -1.7166 0.1202 X3 0.0083 1.3925 0.1972 X4 -0.0459 -4.7071 0.0011* X5 -0.0845 -3.2579 0.0099* X6 0.0193 0.7033 0.4996 X7 0.0353 2.6702 0.0256* X8 -0.0351 -2.1652 0.0586* X9 0.0519 1.6400 0.1354 X10 0.0175 1.6314 0.1372 X11 0.0241 1.1353 0.2856 X12 0.1481 2.5589 0.0307* Keterangan: * berpengaruh pada taraf nyata 10% Peubah
9
Pendugaan Menggunakan Regresi Kuadrat Terkecil Parsial (RKTP) Tahap awal pendugaan koefisien pada metode PLS yaitu dengan melakukan perhitungan nilai-nilai dari vektor pembobot 𝐰, vektor loading p, dan vektor komponen t. PLS memilih komponen-komponen yang menjelaskan sebesar mungkin keragaman peubah bebas dan peubah respon, sehingga koefisien model yang terbentuk tidak banyak berubah ketika sampel baru diambil dari populasi. Hasil bentukan kolom-kolom w dan p menjadi matriks bobot W dan loading P dapat dilihat pada Tabel 7 dan Tabel 8, sedangkan hasil bentukan kolom-kolom t untuk matriks T dapat dilihat pada Lampiran 2. Tabel 7 Bentukan matriks bobot W w1 X1
-0.28
X2
-0.17
w2
w3
w4
w5
0.23 0.60
X3
-0.27
-0.46
-0.25
-0.28
-0.39
w6
w7
w8
w9
-0.36
0.20
-0.43
0.52
0.38
-0.17
-0.24
0.25
-0.61
-0.33
0.14
0.10
-0.13
-0.74
X4
-0.23
-0.14
-0.46
-0.24
X5
-0.43
-0.13
0.28
0.25
-0.62
-0.18
0.41
-0.68
-0.24
0.45
0.24
-0.11
0.30
-0.22
0.11
-0.58
0.12
X6
0.37
-0.18
X7
0.15
X8
-0.15
-0.16
0.15
-0.43
-0.32
0.22
X9
0.27
-0.33
0.21
-0.21
0.20
0.18
X10
0.17
0.59
0.23
X11
0.17
0.40
0.28
0.12
-0.20
X12
0.68
-0.19
-0.22 -0.34
w11
w12
-0.44
0.16
-0.13 -0.43 0.27
0.12
0.17
0.18
-0.20
0.35
0.31
0.49
0.18
0.63
-0.24
0.17
-0.31 0.54
w10
0.25
0.53
0.29
0.22
-0.13
0.56
-0.22
-0.29
-0.35
-0.53
-0.41
0.12
p10
p11
p12
-0.48
0.16
0.14
-0.59
Tabel 8 Bentukan matriks loading P p1
p2
p3
X1
-0.29
-0.18
0.19
X2
-0.25
0.84
X3
p4 -0.41
p5
p6
p7
p8
p9
0.29
-0.63
0.35
-0.63
0.56
-0.35
0.60
0.19
-0.19
-0.37
X4
-0.21
0.27
-0.30
-0.23
X5
-0.42
-0.39
0.11
0.58
-0.87
0.59
-0.16
-0.55
0.87
-0.55
-0.30
-0.50
0.37
X6
-0.27
0.29
0.11
0.13
-0.14 0.27
0.16
-0.37
0.45
-0.28
0.16
0.67
-0.62
X8
-0.16
0.25
-0.27
0.38
-0.21
-0.59
0.22
X9
0.26
0.37
-0.47
0.32
-0.34
0.39
0.18
0.13
-0.59
0.29
0.20
0.23
-0.17
0.34
-0.33
0.22
0.19
-0.44
0.23
-0.61
X11
0.12
0.15
X12
0.71
-0.13
-0.82
0.19
X7
X10
0.38
-0.15 -0.43 0.24
0.12
0.23
-0.20
-0.10 0.35
0.11
-0.43
0.34
0.55
0.19 0.20
0.49 0.63
-0.28
0.17
0.28
-0.30
0.62
-0.22
-0.12
-0.41
-0.44
0.12
10 Penduga koefisien regresi c diperoleh setelah nilai-nilai dari 𝐰, p, dan t didapatkan. Nilai penduga koefisien regresi c yaitu 𝐜̂ dapat dilihat pada Tabel 9. Tabel 9 Nilai penduga koefisien regresi c ĉ1 ĉ2 ĉ3 ĉ4 ĉ5 ĉ6 ĉ7 ĉ8 ĉ9 ĉ10 ĉ11 ĉ12 Y 0.218 0.242 0.206 0.126 0.210 0.151 Setelah melakukan perhitungan nilai-nilai w, p, t, dan 𝐜̂ , dilakukan pemilihan banyaknya komponen yang digunakan dalam model. Pemilihan dilakukan dengan menggunakan nilai root mean square error of cross validation (RMSECV) minimum. Nilai RMSECV dan variansi total untuk setiap komponen dapat dilihat pada Tabel 10. Tabel 10 Nilai RMSECV dan variansi total metode RKTP Komponen ke-i RMSECV Variansi Total X 1 47.43% 5.171 2 6.108 57.80% 3 6.045 66.68% 4 5.873 75.35% 5 6.124 86.51% 6 6.503 90.52% 7 6.543 93.53% 8 6.689 96.54% 9 6.769 97.30% 10 7.397 98.65% 11 7.970 99.74% 12 7.981 100.00%
R2i 55.99% 64.46% 70.99% 73.72% 74.42% 76.10% 77.65% 77.83% 77.93% 77.94% 77.94% 77.94%
Pada Tabel 10, besarnya nilai RMSEP minimum berada pada komponen 1 yaitu 5.171. Model optimal dengan mempertimbangkan hasil proses validasi silang diperoleh dengan melibatkan 1 komponen. Selanjutnya adalah menduga koefisien ̂ RKTP = 𝐖(𝐏 ′ 𝐖)−𝟏 𝐜̂ . regresi metode RKTP dengan menggunakan rumus 𝛃 Sebelumnya telah dinyatakan bahwa banyaknya komponen yang terpilih adalah 1, maka matriks W dan P merupakan matriks yang terdiri dari satu vektor yaitu 𝐰1 dan 𝐩1 , dan 𝐜̂ yang digunakan adalah ĉ1 . Nilai dugaan koefisien dengan 1 komponen dapat dilihat pada Tabel 11. Sama halnya seperti RKU, peubah-peubah bebas yang berpengaruh terhadap persentase penduduk miskin (Y) adalah X4, X5, X7, X8, dan X12. Keragaman peubah respon yang mampu dijelaskan oleh peubah bebas sebesar 55.99%.
11 Tabel 11 Nilai dugaan koefisien regresi dan nilai-p pada RKTP Koefisien t-hitung Nilai-p Penduga X1 -0.0619 -1.5422 0.1574 X2 -0.0373 -1.2660 0.2373 X3 0.0085 0.6061 0.5594 X4 -0.0508 -4.5403 0.0014* X5 -0.0943 -2.5848 0.0295* X6 0.0118 0.7612 0.4660 X7 0.0318 3.1167 0.0124* X8 -0.0325 -3.9457 0.0034* X9 0.0585 1.8130 0.1032 X10 0.0377 1.1819 0.2675 X11 0.0376 1.1480 0.2806 X12 0.1490 3.3362 0.0087* Keterangan: * berpengaruh pada taraf nyata 10% Peubah
Pendugaan Menggunakan Least Absolute Shrinkage and Selection Operator (LASSO)
Standarisasi Koefisien
LASSO merupakan regresi penyusutan seperti regresi gulud, dimana perbedaan antara keduanya terletak pada kendala pendugaan nilai koefisien regresi LASSO yang berperan sebagai parameter tuning. Solusi dari penduga koefisien LASSO diperoleh dengan menggunakan metode regresi yang disebut Least Angle Regression (LAR). Hasil dari tahapan pendugaan koefisien LASSO menggunakan algoritma LAR dapat dilihat pada Gambar 1.
Gambar 1 Plot objek untuk menduga koefisien LASSO
12 Peubah pertama yang masuk ke dalam model adalah X12, artinya X12 merupakan peubah yang paling berkorelasi dengan sisaan. Peubah selanjutnya yang paling berkorelasi dengan sisaan setelah X12 adalah X10, sehingga X10 adalah peubah kedua yang masuk dalam model. Peubah yang terakhir masuk ke dalam model adalah X7. Peubah-peubah yang masuk ke dalam model pada setiap tahapan dapat dilihat pada Tabel 12. Nilai peubah yang masuk ke dalam model dapat dilihat pada Lampiran 3. Tabel 12 Tahapan peubah bebas yang masuk ke dalam model Tahap Peubah ke-i Nama Peubah 1 12 X12 2 10 X10 3 11 X11 4 5 X5 5 4 X4 6 1 X1 7 8 X8 8 3 X3 9 2 X2 10 9 X9 11 6 X6 12 7 X7
50 40 30 20
Cross-Validated MSE MSE Validasi Silang
60
Langkah selanjutnya yaitu melakukan pemilihan model terbaik LASSO. Model terbaik dipilih dengan menggunakan kriteria validasi silang, yaitu mode step dan mode fraction. Perhitungan nilai validasi silang pada mode step dilakukan saat penambahan sebuah peubah bebas disetiap tahapan. Berdasarkan hasil perhitungan nilai tersebut, model terbaik diperoleh pada tahap 6 (Gambar 2). Hal ini didasarkan plot dari validasi silang yang merupakan nilai minimum.
2
4
6
8
10
12
Jumlah Langkah
Number of steps
Gambar 2 Validasi silang menggunakan mode step
13
45 40 35 25
30
MSE Validasi Silang Cross-Validated MSE
50
55
Perhitungan nilai validasi silang selanjutnya menggunakan mode fraction. Nilai validasi silang pada mode fraction diperoleh dengan, ∑|β̂|⁄max ∑|β̂| . Pemilihan model terbaik pada mode fraction dilakukan dengan mengamati plot yang dihasilkan oleh mode ini. Titik minimum plot berada disekitar nilai 0.3 (Gambar 3). Nilai ini berada pada tahap 5 hingga tahap 9. Nilai ∑|β̂|⁄max ∑|β̂| untuk setiap tahapan dapat dilihat pada Lampiran 4. Namun dengan mempertimbangkan mode step sebelumnya, maka nilai validasi silang untuk mode fraction dipilih pada tahap ke-6 yaitu 0.3279.
0.0
0.2
0.4
0.6
0.8
1.0
Fraction final L1 L1akhir norm Fraksi of normal
Gambar 3 Validasi silang menggunakan mode fraction Berdasarkan perhitungan kedua mode untuk kriteria validasi silang yang telah dilakukan, model terbaik LASSO pada data persentase penduduk miskin diperoleh pada tahap 6. Peubah-peubah yang masuk ke dalam model yaitu X12, X10, X11, X5, X4, dan X1. Nilai koefisien untuk model terpilih dapat dilihat pada Tabel 13. Peubah-peubah bebas yang tidak masuk ke dalam model memiliki nilai koefisien 0, sehingga peubah-peubah tersebut terseleksi dari model. Keragaman peubah respon yang mampu dijelaskan oleh peubah bebas sebesar 50.47%. Tabel 13 Nilai dugaan koefisien regresi metode LASSO Peubah Bebas Koefisien X1 -0.0084 X4 -0.1546 X5 -0.0774 X10 0.3018 X11 0.3131 X12 0.0785
14 Perbandingan Metode Dari hasil pembahasan akan dikaji nilai RMSE dan RMSEP untuk memperoleh model terbaik yang dihasilkan ketiga metode. RMSE dan RMSEP digunakan untuk untuk mengetahui ketepatan dalam menduga peubah respon, dimana RMSE didasarkan pada data amatan dan data hasil pendugaaan, dan RMSEP hanya didasarkan pada data hasil pendugaan. Nilai RMSE dan RMSEP setiap metode dapat dilihat pada Tabel 14. Tabel 14 Nilai RMSE dan RMSEP Metode RKU RKTP LASSO
Kriteria Pemilihan Model RMSE RMSEP 4.4017 8.8094 4.2804 8.9312 3.6039 8.9960
Berdasarkan Tabel 14, LASSO menghasilkan model terbaik dari ketiga metode berdasarkan nilai RMSE, akan tetapi LASSO menghasilkan nilai RMSEP terbesar. Sebaliknya, RKU menghasilkan model terbaik berdasarkan nilai RMSEP, namun menghasilkan nilai RMSEP terbesar. Nilai RMSE dan RMSEP untuk RKTP besarnya di antara LASSO dan RKU. Pada dasarnya, ketiga metode sudah menghasilkan model yang cukup baik dengan melihat nilai RMSE dan RMSEP ketiganya yang tidak jauh berbeda.
SIMPULAN Pemilihan banyaknya komponen yang optimal pada metode RKU dan RKTP dilakukan dengan menggunakan nilai root mean square error of cross validation (RMSECV) minimum dari proses validasi silang. Cara lain pemilihan banyaknya komponen pada RKU yaitu dengan menggunakan akar ciri. Umumnya komponen utama dipilih berdasarkan nilai akar ciri lebih dari 1. Nilai keragaman peubah respon yang mampu dijelaskan oleh peubah bebas pada RKU, yaitu sebesar 53.46%, lebih kecil dari RKTP yang sebesar 55.99%. Hal ini dikarenakan pada RKTP pemilihan komponen tidak hanya berdasarkan peubah bebas, tetapi dengan kombinasi linier peubah bebas yang memiliki peragam maksimum dengan kombinasi linier peubah respon. Keragaman peubah respon yang mampu dijelaskan oleh peubah bebas terkecil adalah pada LASSO, yaitu sebesar 50.47%. Komponenkomponen yang dihasilkan RKU dan RKTP sudah saling bebas, sehingga tidak ada lagi masalah multikolinieritas. LASSO selain mengatasi multikolinierias juga melakukan penyeleksian peubah. LASSO menyusutkan nilai koefisien hingga tepat nol sehingga peubah-peubah bebas dengan nilai koefisien tersebut akan terseleksi dari model. Berdasarkan data Susenas yang digunakan, LASSO menghasilkan model terbaik dibanding RKU dan RKTP berdasarkan nilai RMSE, dan RKU menghasilkan model terbaik berdasarkan nilai RMSEP terkecil. Meskipun begitu, kesalahan yang dihasilkan ketiga metode tidak jauh berbeda dengan
15 mempertimbangkan kedua nilai tersebut. Selain itu, kelebihan LASSO karena metode ini dapat melakukan penyeleksian peubah, sehingga interpretasi akan menjadi lebih mudah. Namun pada kasus yang menuntut semua peubah bebas untuk dipertahankan, RKTP lebih layak digunakan dibandingkan RKU karena pada RKU beberapa komponen-komponen yang terpilih tidak relevan untuk pendugaan, tetapi hanya relevan untuk menggambarkan keragaman dalam peubah bebas.
DAFTAR PUSTAKA Abdi H. 2010. Partial least square regression and projection on latent structure regression (RKTP Regression). Wiley Interdisiplinary Reviews: Computational Statistics 2: 97-106. Dewi YS. 2010. MKT, LASSO dan RKTP pada data mengandung multikolinearitas. Jurnal Ilmu Dasar 11(1): 83-91. Draper N , Smith H . 1992. Analisis Regresi Terapan (Terjemahan). Edisi Ke-2. Sumantri B, penerjemah. Jakarta (ID): Gramedia Pustaka Utama. Hastie T, Tibshirani R, Friedman J. 2008. The Elements of Statistical Learning: Data Mining, Inference, and Prediction. Edisi ke-2. New York (US): Springer. Ismah, Wigena AH, Djuraidah A. 2009. Pendekatan regresi kuadrat terkecil parsial robust multirespons dalam model kalibrasi. Prosiding Seminar Nasional Penelitian. Jolliffe IT. 2002. Principal Component Analysis. Edisi Ke-2. New York (US): Springer-Verlag. Juanda B. 2009. Ekonometrika: Pemodelan dan Pendugaan. Bogor (ID): IPB Press. Mevik BH, Cederkvist HR. 2004. Mean squared error of prediction (msep) estimates for principal component regression (PCR) and partial least squares regression (PLSR). Journal of Chemometrics 18(9): 422–429. Montgomery DC & Peck EA. 1991. Introduction to Linear Regression Analysis. New York (US): John Wiley & Sons. Tibshirani R. 1996. Regression shrinkage and selection via the lasso. Journal of the Royal Statistical Society Series B 58(1): 267-288. Zeng XQ, Li GZ, Wu GF. 2007. On the number of partial least squares components in dimension reduction for tumor classification. PAKDD 2007 Workshop, LNAI 4819, pp. 206-217, 2007.@c: Springer-Verlag Berlin Heidelberg 2007. Farmani KD, Kencana IP, Sukarsa KG. 2012. Perbandingan analisis least absolute shrinkage and selection operator dan partial least squares (Studi Kasus: Data Microarray). e-Jurnal Matematika 1(1): 75-80.
16 Lampiran 1 Hasil bentukan skor komponen-komponen utama KU1
KU2
KU3
KU4
KU5
KU6
KU7
KU8
KU9
KU10
KU11
KU12
1
5.17
5.05
-8.77
2.14
-8.75
2.85
0.58
-2.09
-1.88
-1.80
5.28
-0.23
2
6.80
4.81
1.88
-2.19
6.88
0.09
4.81
-0.79
-0.07
-1.45
-0.15
4.03
3
5.81
1.96
-13.81
-0.79
5.13
2.95
4.51
-2.94
3.32
-4.69
1.03
0.13
4
21.72
4.54
-5.31
-0.25
2.05
-4.66
2.44
-2.21
-0.63
-1.48
-0.49
3.24
5
14.63
-9.72
-6.81
4.51
0.77
-3.99
1.32
-1.15
3.85
0.81
0.34
1.28
6
4.09
-5.75
-6.25
6.94
1.69
-1.37
2.21
-2.28
4.22
4.05
1.54
-0.57
7
6.23
-2.60
-20.21
-7.31
-9.18
1.14
-0.66
-1.16
3.46
0.08
-2.12
-0.37
8
5.60
-12.11
-10.97
2.70
-6.85
3.67
-4.96
-7.52
-0.46
0.78
0.52
-0.91
9
28.26
-1.72
4.22
-2.50
-15.15
4.72
-5.34
6.31
-2.08
2.18
2.08
1.01
10
31.99
23.47
-2.66
-7.43
-3.58
-1.81
-1.51
-2.50
-4.26
0.11
-3.91
-0.57
11
29.11
35.30
7.47
-10.92
9.45
-3.31
3.58
-3.75
2.76
1.63
2.69
-4.23
12
-3.87
0.92
-1.76
-12.24
-1.89
9.66
1.18
2.03
1.73
-2.11
-1.74
-0.16
13
1.26
-23.12
13.61
1.77
0.01
1.66
-7.03
-9.10
-2.01
0.03
1.57
0.83
14
23.64
-12.97
26.47
-1.36
9.49
-3.10
-1.91
2.14
-2.07
-5.36
0.90
-1.27
15
3.34
-21.50
6.91
0.75
-1.78
-0.68
-5.69
-5.86
1.50
-1.30
0.19
-1.02
16
11.16
10.12
0.83
-12.88
-8.75
6.36
-3.59
1.39
-3.31
0.27
-1.19
-0.74
17
29.25
-1.68
21.21
1.77
5.37
-9.50
-3.59
3.44
3.27
4.82
-1.41
1.33
18
-23.13
-3.78
6.19
-3.85
3.78
8.66
-3.92
4.78
7.79
-1.22
-0.90
-0.76
19
-65.68
-12.62
2.79
-31.90
-3.14
-14.32
2.76
-3.35
-1.19
1.23
0.07
0.10
20
2.00
-14.87
-5.84
10.78
-1.03
-4.13
0.04
4.64
5.68
1.87
-1.25
-1.90
21
3.38
-2.12
-20.66
4.81
-1.88
0.89
3.38
-2.37
2.58
-0.70
-1.93
0.33
22
11.81
-6.77
-6.81
8.02
1.47
-9.33
6.08
1.25
-2.17
-4.17
-0.56
-0.10
23
29.99
9.07
0.76
-2.20
-1.31
-2.80
-0.50
-0.62
-0.90
1.68
-1.22
0.93
24
-4.90
5.04
11.03
-1.56
6.08
11.01
4.09
-0.82
-0.66
1.65
1.83
2.73
25
-6.89
-2.74
-2.71
11.37
-5.51
-4.85
3.83
2.26
-4.47
1.87
1.94
-1.61
26
-0.20
-7.35
12.05
-7.13
-1.82
2.51
0.07
9.36
0.93
-3.16
-0.13
-0.67
27
-8.52
-6.94
4.64
12.30
1.24
-4.18
2.85
4.03
-4.38
-0.45
-1.54
-0.59
28
-20.60
1.15
-3.51
-3.66
-1.05
2.31
4.25
6.73
0.00
3.30
2.35
2.05
29
-17.05
0.44
-6.29
6.29
-11.79
-0.43
2.43
5.02
-3.88
-0.42
-0.28
-1.44
30
-29.70
2.94
9.67
7.86
10.11
8.08
7.21
-2.33
-1.28
1.68
-0.39
-1.90
31
-19.45
-4.43
9.07
8.04
5.27
9.21
1.89
-4.94
-4.61
2.52
-3.84
-0.34
32
-20.21
7.00
-31.33
-0.30
25.39
-1.56
-13.36
4.93
-4.36
0.44
0.89
0.04
33
-55.00
40.98
14.90
18.42
-10.74
-5.75
-7.43
-2.53
3.60
-2.67
-0.18
1.36
17 Lampiran 2 Hasil bentukan kolom-kolom t untuk matriks T t1
t2
t3
t4
t5
t6
t7
t8
t9
t10
t11
t12
1
-4.33
4.13
-3.32
2.69
10.91
10.20
6.92
2.85
1.39
3.11
0.95
-0.43
2
-6.92
-1.78
-5.73
-2.39
-5.64
-1.64
4.87
-1.04
-2.19
-0.94
-2.39
-3.96
3
-5.02
3.41
-6.59
-5.21
6.50
2.10
9.46
-1.66
-2.18
-1.51
-5.39
0.42
4
-20.93
2.92
-4.07
-1.59
-0.15
-1.65
1.48
2.89
-3.09
0.24
-2.14
-3.13
5
-14.34
1.37
2.17
-8.37
2.71
-1.47
-0.53
3.96
1.30
0.03
-3.92
-1.09
6
-3.67
2.33
-0.11
-9.76
-0.27
-1.09
-0.64
2.82
4.93
3.62
-2.79
0.43
7
-5.91
0.63
-6.76
-0.63
16.56
-2.25
-6.76
-1.25
-0.29
-1.20
-3.40
0.94
8
-5.11
3.58
7.49
-0.98
13.56
2.57
-3.84
-3.36
0.07
5.89
-1.56
0.88
9
-28.56
-2.92
2.67
8.52
7.71
5.85
-6.17
-0.49
3.88
-2.14
4.75
-1.76
10
-30.56
5.07
-10.28
11.56
-1.99
-4.12
-7.35
-2.23
-4.45
1.83
2.52
0.79
11
-27.77
4.04
-14.30
15.27
-12.31
-1.66
9.65
4.12
3.56
4.97
-1.34
4.12
12
2.74
-7.34
-7.01
4.27
6.05
-0.27
0.17
-8.75
-1.00
-4.23
-1.51
0.66
13
-2.51
-4.44
21.21
3.63
2.50
2.85
0.50
-2.79
-0.89
7.02
-1.57
-1.07
14
-25.16
-7.84
15.92
5.35
-10.79
2.18
9.83
1.81
-3.58
-3.62
1.48
1.40
15
-4.34
-3.67
16.80
1.49
5.23
1.46
-0.98
-0.39
-1.03
2.65
-3.25
1.33
16
-11.47
-3.26
-5.36
14.02
6.68
0.76
-4.87
-5.96
-0.66
-0.35
3.66
0.60
17
-29.63
-2.45
9.55
3.64
-16.94
-7.15
-6.71
6.11
3.56
-1.33
-0.62
-1.36
18
22.25
-3.33
4.68
3.85
-0.84
-0.73
0.25
-7.62
3.08
-7.59
-4.89
1.51
19
61.58
-20.78
-2.35
12.41
12.18
-7.91
1.94
11.66
-1.44
4.14
0.01
-0.24
20
-1.84
1.69
5.09
-13.45
0.33
-2.42
-5.71
4.33
3.25
-4.05
-1.94
2.32
21
-2.29
5.26
-7.23
-11.57
8.17
-1.55
-2.98
-1.38
-1.55
-0.34
-3.71
0.22
22
-11.42
1.64
-1.65
-12.46
-0.31
0.66
3.98
8.32
-5.09
-2.31
0.76
0.32
23
-29.28
2.01
-3.69
4.02
-2.92
-2.71
-4.18
1.13
-0.36
1.18
0.57
-0.98
24
3.99
-5.66
-4.92
-0.51
-8.92
2.08
5.40
-8.56
2.43
2.00
-0.14
-3.19
25
7.14
1.72
-1.64
-9.76
-1.34
3.86
-0.63
7.26
1.21
2.72
5.92
0.86
26
-1.64
-10.34
2.29
3.90
-0.52
1.96
2.47
-0.59
-0.10
-8.87
1.90
0.87
27
8.37
0.10
2.97
-11.29
-8.43
-0.02
-2.13
2.93
-2.52
-1.74
4.99
0.43
28
19.80
-4.65
-8.20
-3.54
1.57
0.24
1.99
1.32
4.92
-1.85
2.87
-2.78
29
17.02
0.03
-5.58
-5.63
4.32
4.40
-4.78
2.85
-0.92
-2.02
5.44
1.15
30
28.96
-3.35
-5.16
-10.68
-15.51
0.02
3.91
-7.51
0.83
3.67
1.30
1.80
31
18.72
-2.91
1.37
-8.87
-11.81
-2.75
-6.07
-12.27
-2.38
5.11
2.56
0.38
32
24.48
27.06
11.80
5.57
11.51
-9.40
9.94
-4.07
1.10
-2.17
6.06
-0.63
33
57.66
17.75
-0.03
16.49
-17.80
7.58
-8.43
5.54
-1.79
-1.92
-5.18
-0.84
18 Lampiran 3 Nilai koefisien regresi metode LASSO pada setiap tahapan
Tahap 0 1 2 3 4 5 6 7 8 9 10 11 12
X1 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 -0.0084 -0.0198 -0.0251 -0.0272 -0.0288 -0.0589 -0.0624
X2 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0034 0.0218 0.1565 0.1597
X3 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 -0.0211 -0.0331 -0.1053 -0.6481 -0.6608
X4 0.0000 0.0000 0.0000 0.0000 0.0000 -0.1379 -0.1546 -0.1714 -0.1731 -0.1764 -0.2036 -0.4341 -0.4454
Tahap 0 1 2 3 4 5 6 7 8 9 10 11 12
X9 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0310 0.1813 0.1806
X10 0.0000 0.0000 0.0186 0.0604 0.0792 0.2774 0.3018 0.3382 0.3430 0.3449 0.3612 0.5105 0.5149
X11 0.0000 0.0000 0.0000 0.0401 0.0709 0.2951 0.3131 0.3277 0.3317 0.3329 0.3271 0.2799 0.2837
X12 0.0000 0.0907 0.0969 0.1037 0.1047 0.0830 0.0785 0.0716 0.0689 0.0681 0.0527 -0.0394 -0.0426
X5 X6 X7 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 -0.0087 0.0000 0.0000 -0.0718 0.0000 0.0000 -0.0774 0.0000 0.0000 -0.0764 0.0000 0.0000 -0.0789 0.0000 0.0000 -0.0807 0.0000 0.0000 -0.0853 0.0000 0.0000 -0.1012 -0.0940 0.0000 -0.0999 -0.0974 -0.0198
X8 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 -0.0219 -0.0230 -0.0232 -0.0477 -0.2561 -0.2808
19 Lampiran 4 Nilai ∑|β̂|⁄max ∑|β̂| pada setiap tahapan LASSO
Tahap 0 1 2 3 4 5 6 7 8 9 10 11 12
|X1| 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0084 0.0198 0.0251 0.0272 0.0288 0.0589 0.0624
|X2| 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0034 0.0218 0.1565 0.1597
|X3| 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0211 0.0331 0.1053 0.6481 0.6608
|X4| 0.0000 0.0000 0.0000 0.0000 0.0000 0.1379 0.1546 0.1714 0.1731 0.1764 0.2036 0.4341 0.4454
|X5| 0.0000 0.0000 0.0000 0.0000 0.0087 0.0718 0.0774 0.0764 0.0789 0.0807 0.0853 0.1012 0.0999
|X6| 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0940 0.0974
|X7| 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0198
Tahap
|X9|
|X10|
|X11|
|X12|
∑|β̂|
∑|β̂|⁄max ∑|β̂|
0 1 2 3 4 5 6 7 8 9 10 11 12
0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0310 0.1813 0.1806
0.0000 0.0000 0.0186 0.0604 0.0792 0.2774 0.3018 0.3382 0.3430 0.3449 0.3612 0.5105 0.5149
0.0000 0.0000 0.0000 0.0401 0.0709 0.2951 0.3131 0.3277 0.3317 0.3329 0.3271 0.2799 0.2837
0.0000 0.0907 0.0969 0.1037 0.1047 0.0830 0.0785 0.0716 0.0689 0.0681 0.0527 0.0394 0.0426
0.0000 0.0907 0.1154 0.2042 0.2635 0.8652 0.9338 1.0269 1.0648 1.0899 1.2646 2.7600 2.8480
0.0000 0.0318 0.0405 0.0717 0.0925 0.3038 0.3279 0.3606 0.3739 0.3827 0.4440 0.9691 1.0000
|X8| 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0219 0.0230 0.0232 0.0477 0.2561 0.2808
20
RIWAYAT HIDUP
Penulis dilahirkan di Lampung pada tanggal 6 Juli 1992 sebagai anak bungsu dari pasangan Bapak Hendrik dan Ibu Kemala Dewi. Jenjang perguruan tinggi penulis dimulai pada tahun 2008 dengan diterimanya penulis di Intitut Pertanian Bogor melalui jalur Ujian Seleksi Masuk IPB (USMI) sebagai mahasiswa Departemen Statistika, Fakultas Matematika dan Ilmu Pengetahuan Alam (FMIPA). Sebelum masuk perguruan tinggi, penulis menyelesaikan pendidikan di SMA Negeri 1 Way Jepara pada tahun 2010, SMP Negeri 1 Labuhan Ratu pada tahun 2007, dan SD Negeri 1 Rajabasa Lama pada tahun 2004. Selama mengikuti perkuliahan, penulis mengikuti kegiatan organisasi Himpunan Keprofesian Gamma Sigma Beta sebagai staf Department of Human Resource and Development (HRD) pada tahun 2012, dan Bina Desa FMIPA sebagai staf Hubungan Masyarakat (Humas) pada tahun 2012. Selain itu, penulis juga aktif dalam kegiatan kepanitiaan seperti Porstat 2011, Statistika Ria 2012, Komstat Jr 2012, serta Welcome Ceremony of Statistics (WCS) 2013. Pada tahun 2013 penulis mengikuti kegiatan praktik lapang di PT Myriad, Jakarta Barat.